幸存者偏差

什么是幸存者偏差?

幸存者偏差又叫“幸存者谬误”,反驳的是一种常见逻辑谬误,即只看到经过某种筛选之后的结果,忽略关键信息。

他们只看到了一部分幸存者,却没意识到这些幸存者只是极个别的数据。

“幸存者偏差”的历史:

“幸存者偏差”来源于二战中一个著名的故事:

1941年,第二次世界大战中,空军是最重要的兵种之一,盟军的战机在多次空战中损失严重,无数次被纳粹炮火击落,盟军总部秘密邀请了一些物理学家、数学家以及统计学家组成了一个小组,专门研究“如何减少空军被击落概率”的问题。

当时军方的高层统计了所有返回的飞机的中弹情况——发现飞机的机翼部分中弹较为密集,而机身和机尾部分则中弹较为稀疏,于是当时的盟军高层的建议是:加强机翼部分的防护
但这一建议被小组中的一位来自哥伦比亚大学的统计学教授——沃德(Abraham Wald)驳回了,沃德教授提出了完全相反的观点——加强机身和机尾部分的防护。
那么这位统计学家是如何得出这一看似不够符合常识的结论的呢?
沃德教授的基本出发点基于三个事实是:(1)统计的样本只是平安返回的战机;(2)被多次击中机翼的飞机,似乎还是能够安全返航;(3)而在机身机尾的位置,很少发现弹孔的原因并非真的不会中弹,而是一旦中弹,其安全返航的机率极小,即返回的飞机是幸存者,仅仅依靠幸存者做出判断是不科学的,那些被忽视了的非幸存者才是关键,他们根本没有回来!
军方采用了教授的建议,加强了机尾和机身的防护,并且后来证实该决策是无比正确的,盟军战机的击落率大大降低,这就是“幸存者偏差”故事的来源。

 

“幸存者偏差”的本质

广义的幸存者偏差用统计学的专业术语来解释是——“选择偏倚”,即我们在进行统计的时候忽略了样本的随机性和全面性,用局部样本代替了总体随机样本,从而对总体的描述出现偏倚。

 

“幸存者偏差”的具体案例

  1. 亚裔学生案例:美国学生会发现亚裔同学在数学方面要超出其同龄孩子很多——“幸存者偏差”:能到美国上学的孩子在中国的教育水平和成长环境通常都会相对优越,要是中国的母语是英文,想必语文成绩也会优于美国同龄学生。

  2. 住院研究案例:假如北京长庚医院对心脏病人住院病人的饮食习惯进行研究,从而发表一篇《心脏病与饮食习惯之间的关系》的论文,该论文是否有可信度?答案是没有!因为长庚医院为北京高端私立医院,该院病人和普通病人的饮食习惯会存在差异,同时住院的病人也并非能代表所有病例(不住院就已经去世的、住不起院的等等),事实上,排除这些干扰因素是现代医学研究的基本准则。

  3. 健身房案例:我每周一三五中午都会去公司的健身房,这个习惯坚持了很长一段时间,然而有一段时间我一度沮丧——因为我发现公司健身房的同事基本上身材都比我好,这其实就是典型的“幸存者偏差”——那些健身房的人身材好当然是大概率事件,身材不好也不锻炼的人通常很少去健身房。

  4. 章鱼保罗案例:2010年世界杯最大的明星不是来自某个球员,而是来自德国奥博豪森海洋馆的章鱼”保罗“,它神奇地连续7次百发百中地预测了世界杯德国队的比赛结果,章鱼保罗成为那个夏天世界媒体热情追逐的对象,然而事实上它就是一次典型的”幸存者偏差“,那年夏天其实有很多动物都参与了世界杯的预测:菲律宾的猴子、墨西哥的羊驼、非洲的大象、保加利亚的奶牛甚至还有中国的熊猫,只是因为这些动物预测失败了于是并没有媒体报道,而章鱼保罗成为那个幸运儿。

 

互联网人如何避免“幸存者偏差”?

“幸存者偏差”是数据分析的常见逻辑错误,而数据又是驱动互联网的动力之一,那么互联网人应该在分析数据、决策判断时如何避免“幸存者偏差”的存在呢?

一、判断样本的随机性,即必须知道样本是否是随机的。

二、判断样本和剩余样本中会不会存在显著差异。

三、分析剩余样本数据,验证结论。

 

本文观点节选自

https://36kr.com/p/1722248888321

https://www.zhihu.com/topic/20007953/intro

 

 

Related Articles