统计数据的陷阱

by 原文

和统计数据打的交道多了,什么见鬼的事情都能遇上。统计数据显示,在铀矿工作的工人居然与其他人的寿命相当,有时甚至更长!难道统计结果表明在铀矿工作对身体无害么?

当然不是!其实,统计数据本身并没有说谎,铀矿工人的寿命真的不比普通人低,难就难在我们如何拨开数据的外表,从中挖掘出正确的信息。事实上,只有那些身强体壮的人才会去铀矿工作,他们的寿命本来就长一些,正是因为去了铀矿工作,才把他们的寿命拉低到了平均水平,造成了数据的“伪独立性”。这种现象常常被称为“健康工人效应”。

类似地,有数据表明打太极拳的人和不打太极拳的人平均寿命相同。事实上呢,太极拳确实可以强身健体、延长寿命,但打太极拳的人往往是体弱多病的人,这一事实也给统计数据带来了虚假的独立性。

有虚假的独立性数据,就有虚假的相关性数据。统计数据显示,去救火的消防员越多,火灾损失越大。初次听到这样的结论,想必大家的反应都一样:这怎么可能呢?仔细想想你就明白了:正因为火灾损失大,才会有很多人去救火。因果关系弄颠倒了。数据只能显示两件事情有相关性,但并不能告诉你它们内部的逻辑关系。

事实上,两个在统计数据上呈现相关性的事件,有可能根本就没有因果关系。统计数据表明,冰淇淋销量增加,鲨鱼食人事件也会同时增加。但这并不意味着,把冰淇淋销售点全部取缔了,就能减小人被鲨鱼吃掉的概率。真实的情况则是,这两个变量同时增加只不过是因为夏天来了。统计数据显示,足球队的获胜率,竟然与队员的球袜长度成正比。难道把队员的球袜都换长一些,就能增加进球数了吗?显然不是。数据背后真正的因果关系是,球队的获胜率和队员的球袜长度都与队员的身高呈正相关,这导致了获胜率与球袜长度之间表现出虚假的相关性。

类似的例子还有很多。统计数据表明,手指越黄的人,得肺癌的概率越大。但事实上,手指的颜色和得肺癌的概率之间显然没有直接的因果联系。那么为什么统计数据会显示出相关性呢?这是因为手指黄和肺癌都是由吸烟造成的,于是又营造出一种虚假的相关性。

读到这里,大家脑子里或许会产生这么一个颠覆性的念头:根据同样的道理,我们又凭什么说吸烟会致癌呢?万一吸烟和肺癌也都是由另外一个东西同时导致的怎么办?

其实,要想知道吸烟与癌症之间究竟是否有因果联系,方法本来很简单:找一群人随机分成两组,规定一组抽烟一组不抽烟,十几年后再把这一拨人找回来,数一数看是不是抽烟的那一组人患肺癌的更多一些。这个实验方法本身是无可挑剔的,但它太不道德了,因此我们只能考虑用自然观察法,选择一些本来都不吸烟的健康人进行跟踪观察,然后呢,过一段时间这拨人里总会出现一些失意了、堕落了犯上烟瘾的人,于是随着时间的流逝这帮人自然而然地分成了可供统计观察的两组人。注意,这里“是否吸烟”这一变量并不是通过随机化得来的,它并没有经过人为的干预,而是自然区分出来的。这是一个致命的缺陷!统计结果表明,犯上烟瘾的那些人得肺癌的几率远远高于其他人。这真的能够说明吸烟致癌吗?仔细想想你会发现这当然不能!原因恰似之前提过的例子:完全有可能是因果关系颠倒了,或者某个第三方变量同时对“爱吸烟”和“患肺癌”产生影响。1957年,费希尔(Fisher)提出了两个备选理论:癌症引起吸烟(烟瘾是癌症早期的一个症状),或者存在某种基因能够同时引起癌症和烟瘾。

现实中的统计数据往往会表现出一些更加诡异复杂的反常现象,带来更多意想不到的麻烦。辛普森(Simpson)悖论是统计学中最有名的悖论:各个局部表现都很好,合起来一看反而更差。 统计学在药物实验中的应用相当广泛,每次推出一种新药,我们都需要非常谨慎地进行临床测试。但有时候,药物实验的结果会匪夷所思。假设现在我们有一种可以代替安慰剂的新药。统计数据表明,这种新药的效果并不比安慰剂好:

有  效 无  效 总 人 数
新药 80 120 200
安慰剂 100 100 200

简单算算就能看出,新药只对40%的人有效,而安慰剂则对50%的人有效。新药按理说应该更好啊,那问题出在哪里呢?是否因为这种新药对某一类人有副作用?于是研究人员把性别因素考虑进来,将男女分开来统计:

男性有效 男性无效 女性有效 女性无效
新药 35 15 45 105
安慰剂 90 60 10 40

大家不妨实际计算一下:对于男性来说,新药对高达70%的人都有效,而安慰剂则只对60%的人有效;对于女性来说,新药对30%的人都有效,而安慰剂则只对20%的人有效。滑稽的一幕出现了:我们惊奇地发现,新药对男性更加有效,对女性也更加有效,但对整个人类则无效!

这种怪异的事屡见不鲜。曾有一个高中的师弟给我发短信,给了我两所大学的名字,问该填报哪个好。我考虑了各方面的因素,甚至非常认真地帮他查了一下两所大学的男女生比例,并且很细致地将表格精确到了各个院系。然后呢,怪事出现了:A学校的每个院系的女生比例都比B学校的同院系要高,但合起来一看就比B学校的低。当然,进错了大学找不到女朋友是小事,但医药研究需要的是极其精细的统计实验,稍微出点差错的话害死的可就不是一两个人了。

上面的例子再次告诉我们,统计实验的“随机干预”有多么重要。从上面的数据里我们直接看到,这个实验的操作本身就有问题:新药几乎全是女性在用,男性则大都在用安慰剂。被试者的分组根本没有实现完全的随机化,这才导致了如此混乱的统计结果。不难设想,如果每种药物的使用者都是男女各占一半,上述的悖论也就不会产生了。当然,研究人员也并不笨,这么重大的失误一般还是不会发生的。问题很可能出在一些没人注意到的小细节上。比如说,实验的时候用粉色的瓶子装新药,用蓝色的瓶子装安慰剂,然后让被试人从中随机选一个来用。结果呢,女孩子们喜欢粉色,选的都是新药;男的呢则大多选择了蓝瓶子,用的都是安慰剂。最后,200份新药和200份安慰剂正好都发完,因此不到结果出来时,就没有人会注意到这个微小的性别差异所带来的统计失误。

当然,上面这个药物实验的例子并不是真实的,一看就知道那个数据是凑出来方便大家计算的。不过,永远不要以为这种戏剧性的事件不会发生。《致命的药物》一书详细披露了20世纪美国的一次重大药害事件,其原因可以归结到药物实验上去。人们推测,事故发生的原因就与一些类似的统计学现象相关。

这些离奇的统计学现象有时会让人感到恐慌:连统计数字也不可靠了,还有什么能真实地反映这个世界运转的规律呢?

© Licensed under CC BY-NC-SA 4.0

一个伟大的程序员, 其价值相当于普通程序员的1万倍!——比尔盖茨

发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!