前言
辛普森悖论(Simpson's Paradox)是英国统计学家E.H.Simpson于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可一旦合并考虑,却可能导致相反的结论。
例子
一个大学有商学院和法学院两个学院,这两个学院都抱怨:男生的录取率比女生录取率高!
现在学校做统计:
学院 | 女生申请 | 女生录取 | 女生录取率 | 男生申请 | 男生录取 | 男生录取率 | 合计申请 | 合计录取 | 合计录取率 |
---|---|---|---|---|---|---|---|---|---|
商学院 | 100 | 49 | 49% | 20 | 15 | 75% | 120 | 64 | 53.3% |
法学院 | 20 | 1 | 5% | 100 | 10 | 10% | 120 | 11 | 9.2% |
总计 | 120 | 50 | 42% | 120 | 25 | 21% | 240 | 75 | 31.3% |
单独到每个学院来看,每个学院的男生的录取率都比女生高。但是从总的学校来看女生的录取率比男生要高!
这是为什么呢?
结论
我想:这可能对应了涌现性
,各个部分组成的整体拥有了部分不具有的性质。也即学校这个单位的男女录取率和学院的男女录取率的性质意义是完全不一样的。虽然它们的计算方法一样。但是反应的意义却不一样。
从录取公平角度来说,实际有效的参考指标应当是具体到学院的男女录取率(因为实际录取是按照学院自己来决定录取的)。
从这点来看,该学校具体专业确实对男生偏爱一些。
那么学校的男女录取率究竟反应了什么呢,我想它反应的是这个学校整体对女生的偏爱。因为商学院的存在本身就很吸引女生。再加上商学院的总录取率远高于法学院。所以这个学校总体对女生很友好。换言之,其他学校可能没有商学院的存在,或者没有这么高录取率的商学院。