速读悖论,兼谈因果推断的重要性

在《为什么》(点击阅读该书介绍)这本书中,第六章的内容既有趣,又实用。这一章讲的是悖论,例如较为人熟知的三门问题。,这篇小文先从辛普森悖论说起,之后再谈三门问题。搞清楚悖论及其背后的分析,对于保持清晰的思考,会有相当大的助益。

/pic/1_cHCwvXxlhWmOEa3bHgGY6xaib9vb9w.png

先说辛普森悖论是什么,先用图来描述,下图展示的是某数据集俩个特征的散点图

/pic/2_mFnRIocjwswVIIDz5niaAGCXT0cnXQ.png

看到这幅图,你多半会觉得这里俩个特征之间存在着正相关关系。但如果将图中的点涂上不同的颜色,那结果就不一样了

/pic/3_NU0YSRn2mufE1Qg3C8uu9K5PzcacIw.png

这时你会觉得所有的三个组内的数据都是负相关的,为什么加上了类别,相关性的方向就发生了改变了?这就是辛普森悖论。

再用一个故事来说明:

/pic/4_J7PgL7hUKuFY6YazU4bIMP4iaEgqog.jpg

一种药物,对于男生或者女生,吃药后治愈的概率都好过如不吃药,(70%>60%,男生;30%>20%,女生;40<50%,整体)但如果将男女混合起来,这药就是不如不吃药有效了,这药到底能不能停啊!这个问题的解决,需要引入因果关系图。下图表示性别即会影响是否服药的几率,也会影响是否康复,同时接受治疗也会影响是否康复,这样即影响因,也影响果的因素,可以称为混杂因素。在考虑治疗是否有效时,不应介入混杂因素。在上面的例子中,由于抽样有偏,不能将服药男女的治愈频率分别推广到全部男性和女性患者中,而应用全人群的概率来计算。

/pic/6_ZVb4d8pNibw91BGxlMwiczhh7SFzqw.jpg

因果图还可以帮我们决定哪些情况下,可以分开考虑,假设检测某糖尿病药物是否有效,一组研究者只用了高血压患者做,一组只选取血压正常的患者来做,俩组都发现该药有效,但俩组都没有公开具体的数据,此时是否需要考虑辛普森悖论了?画出因果图,就可以看到这里血压不是混杂因素,因此不必考虑辛普森悖论。

/pic/7_6c8yZ1q4EhNHYD5OXKjErX6Q04OHhA.jpg

从辛普森悖论引申出来的是确凿性原理(sure thing principle),说的是假设你决定要不要在某市买房子,但你不确定自己未来会不会在该市工作。这时你应该这样思考,不管你在不在这里买房子,该市的房价变化的趋势,都不会由此而改变。那你买房子时,就不应该考虑你是否在这里工作,或者说,你是否在此工作是思考该问题的混杂因素。所谓确凿性原理,说的是不管怎么样,你都会做这件事。

如果将混杂因素引入到决策,按混杂因素,分情况考虑,那就有可能被辛普森悖论干扰,俗称患得患失,从而做出错误的决策。在当下这个越发复杂的世界,有诸多因素会成为影响我们思考的混杂因素,有了因果图,将你对事件因果关系的假设显性展示出来,从而避免辛普森悖论。

在当下的社交化的新闻中,也会面临辛普森悖论,你观察到的朋友都在晒旅游的图,你就据此推断自己是朋友圈里混的最差的那个。这被称为友情悖论,是社会学家斯考特·费得(Scott L.Feld)最先发现的,常见的表达是一群人朋友的平均朋友数不小于这群人的朋友平均数。破解这个悖论,要认识到如果一个人经常发旅游的图,那这个人多半年少多金,那这样的人也会同时出现在很多人的朋友圈里,从而让许多人都觉得羡慕嫉妒恨。但实际上,你的朋友圈更多的是平凡的“沉默的大多数”。

如果将旅游的照片换成观点激烈的文章,那某些激进的“意见领袖”也更容易出现在众多人的关注列表中,从而观点的极端程度,也是一个需要考虑的混杂因素,不要以为你的朋友圈里都喊着“贸易战必胜”,就认为民族主义情绪过热,冷静的人不会高声喧哗。列清楚因果关系,才能避免混杂因素干扰分析。

回到治疗是否有效的例子,假设你正准备接受癌症治疗的时候,中彩票赢了五百万,这时你多半会觉得你治愈的概率高了。但这是一种错觉,是否治疗影响你的财富水平,是否康复也会影响你的你的财富水平,这就是因果推理中的对撞偏倚。如果对对撞因素进行改变,会让你以为会改变因果,就像在三门悖论中,综艺节目中,你面前有三扇关闭着的门,其中一扇的后面是一辆汽车,选中后面有车的那扇门就可以赢得该汽车,而另外两扇门后面则各藏有一只山羊。当参赛者选定了一扇门,但未去开启它的时候,主持人会开启剩下两扇门中的一扇,露出其中一只山羊。主持人其后会问参赛者要不要更换选择,选另一扇仍然关着的门。

/pic/8_MAeLibJhzcMIpUa04ZLxIrz4W9FibQ.jpg

这时主持人打开的门,即受到你选择的门的影响,也受到车的位置的影响,于是你会产生知道主持人打开那个门,会影响自己得奖概率的错觉。类似的悖论是伯克森悖论,医生观察到在住院病人中,疾病A和疾病B总是共同出现,但这种相关性,却是似是而非的,原因是无论是基本A还是疾病B,当他们单独出现的时候,都不会导致病人住院,只有当患者同时患有俩种疾病的时候,才会住院。这类的例子,说明在数据挖掘中,仅仅关注相关性,是有本质不足的,需要考虑因果关系,相关的技术文参考因果推理入门指南-必须的7个步骤

/pic/9_lV4maicT1t0KIPVYTeg01AfuZD1fjg.jpg

总结来看:

1)很多事情,如果你选择了一个视角(分情况分析,但选择了混杂因素),发现的规律和你换一个视角时(分情况时考虑的不是混杂因素)截然相反。

2)社交网络里声音最大的,并不代表你朋友圈的全貌,知与行相互联系,不可分开考虑。

3)相关性不等于因果性,对撞偏倚会导致类似三门问题的错误认知。

更多内容,还请阅读《为什么》这本书,该书已经上市,点击阅读原文,可以直接购买。

更多阅读

从相关性到因果性-读《The book of why》

让神经网络变得透明-因果推理对机器学习的八项助力

阅读原文

Powerstation2019-07-17 19:39:47

还有“主持人打开的门,即受到你选择的门的影响,也受到车的位置的影响,于是你会产生知道主持人打开那个门,会影响自己得奖概率的错觉。” 这个“错觉”是在几十年前就被数学证明过的,并不是错觉。

绿叶海蜗牛2019-09-07 07:23:54

三门问题明显要换门呀,这已有证明,已成定论了呀。

Powerstation2019-07-17 19:34:26

因果图本身可能会带有假设,并不能一概而论。 比如男女药效问题,recovery本身也可能是treatment的因,而非单向因果关系,帖子里的因果图本身就带有假设性。 考虑一个极端情况,如果40个男性病人完全没有接受治疗而病都好了;女性病人没有接受治疗的10人都没好,而接受治疗的30人中好了20人。 这种情况下,总体人群结果是没有接受治疗的病人中好了40人,没好10人;接受治疗的病人中好了20人,没好10人。 这并不能得出治疗无效的结论。因为对于男性病人而言,因为自愈率高,因而不需要接受治疗,所以这个人群并不应该被加入到分析中去。总体人群分析会是误导的,因为不同患者族群有根本上的不同。 这其实是为什么实际的临床试验前都必须要定义自己的需求群体。如果改一下初始objective,这个治疗针对的是目前很难自愈的女性患者,数据结论就是正面的了。

例外2019-07-13 11:28:38

三门问题,数据生成(主持人怎么选)也传递了信息,而这个被数据约简了,忽略了数据生成过程,没有被表征,因而形成了悖论。

吸引子2019-07-13 14:12:16

大数据时代那本书很容易让人变得无脑,坚持多问个为什么还是能拉回来的

MediaX2019-07-13 10:53:43

归一化