因果推断让大数据更有温度

说起大数据,一个耳熟能详的例子是:

超市通过分析销售数据,发现啤酒和尿布的销售量之间存在着相关性,之后发现原来是年轻的爸爸会在买尿布的时候,会去顺便去买啤酒,于是通过将啤酒放在尿布附近,提高了销售量。

然而,这个例子更应被看成是一个都市传说。

一方面,超市的运营者大多希望顾客在店里多待一会,从而有更多的机会购买其它商品,另一方面,数据分析会发现很多出乎意料的产品,在销量间存在相关性,但我们记住的,只有啤酒和尿布的例子。

如果某家超市真的通过大数据分析,每隔一段时间,将销售量相关的商品都放在一起,那老顾客多半会发现自己时不时会找不到自己想要的东西,感到困惑,不愿意再来这家超市。

如此说来,啤酒和尿布的案例,并没有说明了大数据分析的神奇,反而指出了相关性不足以指导干预,只有发现了特定的因果机制,才能够用大数据分析指导实践。

/pic/1_T15HHkf0WNbVib8ePdQmta0ic4EHJg.png近年来,因果推断逐渐为人所知。由Peral提出的结构化模型,能够定量的衡量变量间是否存在因果关系,何为因,何为果,还能回答如果不做出这样的选择,会发生什么这样的“反事实”问题,具体可以参考《为什么,关于因果关系的新科学》一书。

/pic/2_Vnsv2JeUR8BLwXHrsoI8qBWoFBN6JQ.jpg

通过在数据分析中,不回避回答因果问题,能够让算法更有温度。

拿最近广受争议的外卖员被算法控制来说:

假设平台A每单外卖,如果外卖员不由于闯红灯被警察抓住,平均花10分钟送到,如果被警察抓住,则花费30分钟;平台B不被警察抓住花费11分钟,被警察抓住花费40分钟。

看起来,平台A的消费者,其平均等待时间肯定小于平台B,但若是平台A的骑手有10%的比例被警察抓住,而平台B只有1%的比例被警察抓住。

那么,

平台A平均等待时间为:0.9×10+0.1×30=12分钟

平台B平均等待时间为:0.99x11+0.11x40=11.29分钟

与之前的结论相反。这就是著名的“辛普森悖论”。

之所以会出现这一悖论,是因为警察是否抓住某骑手违规,是会影响骑手行为的,而警察抓住骑手违规,也会影响外卖送达的时间,而这样共同的原因,会导致两组数据的分布不一致,从而使局部的之和不等于整体。

在上述例子中,可以理解为平台A为了让骑手尽快送出外卖,算法制定的路线逼着骑手冒险闯红灯,而这使得很大一部分骑手被警察处罚。

/pic/3_T15HHkf0WNbVib8ePdQmta0ic4EHJg.png这个虚构的例子,说明了在大数据分析中,不应该回避因果问题。

具体来说,要想经由因果推断,让大数据变得更有温度,可以考虑下雨天的时候顾客下单时,默认多给小哥五分钟;在下雪天则默认多给十分钟。

具体给多少宽裕的时间,可以通过因果模型,计算环境改变对,各个城市送餐时间的平均因果效应(Average causal effect),从而让大数据分析具有“同情心”,即想象自己在和当前不一样的环境下要面对什么,从而是算法更有人性。

更多阅读

写给普通人的因果逻辑入门书-《别拿相关当因果!》

好书推荐-《结果与原因的经济学》极简因果推断教程

吸引子2020-10-06 08:41:27

要让大数据变得更有温度,应增加不同数据和种类,数据形成分析过程是进行了抽象化,丢失细节,看不到数据细微变化的动态过程,而具象化数据,比如雨天路滑、路上有坑、道路重新规划、交通事故、路人打架等等,企业如果有担当,不着急赚钱,不把成本外化给外卖小哥,让外卖小哥对可能送餐迟到搜集原因,形成视频、图像等数据作为有效反馈,结合政府支持,快速响应解决路况各种问题,而不是刁难外卖小哥造成巨大内耗,形成一个良性回声系统模型,企业、外卖小哥、政府治理、买家都将获益,这样的温度,才是大数据该有的样子赞 3