论文速读:复杂系统中通过预测非对称性进行因果推断
在对具体作用机制缺少理解的复杂系统中,从时间序列的数据中,推测出因果关系,一直是一个难点。这类问题无法画出明确的因果图。5月的Arxiv论文:A simple test for causality in complex systems,通过预测时的对称性破缺,提出了一种简单易行的因果推断方法。通过在模拟数据验证了方法的鲁棒性之后,以及在800年间地球大气中CO2含量和海平面的数据,证明了两者之间存在因果关系。
对于该问题,常见的解决方法包括格兰杰因果,传递熵,以及基于几何重构的CCM,然而,这些方法的检测时,假阳性和假阴性都偏高。且依赖额外得到假设,是将问题转化之后,解决了一个类似的问题,在用该问题的答案,作为是否有因果关系的回答。
而基于因果关系是有方向性这一点,该文提出的方法,简单而直接。利用预测时的不对称性,来判断因果关系,简单的说,如果从X能预测出Y,而从Y不能预测出X,则判定X到Y有因果关系。
该文的核心概念是directional coupling(有向耦合),即正向时间的预测与反向时间预测之间的非对称性。从原因变量到结果变量之间,存在正向的directional coupling,而在结果到原因的预测中,会出现负向的directional coupling。
上式中的TE代表传递熵,传递熵代表了错误地假设动力学系统的转移矩阵只由一个变量而不是两个变量决定时,预测系统状态额外需要的信息数量,其中η为时间延迟,ν是时间。如果从前往后和从后往前预测出现明显的差异,那么则可以断定两者之间存在有向耦合。
下式展示的是两个不同的系统,在TE和描述有向耦合的值之间的关系,上面的两幅图描述的是两个完全没有关系的变量,下图是两个有百分百因果关系的两个变量。可以从左下图中看出两者之间的预测非对称性是显而易见的,而从传递熵来看,则不那么明显。
该文的道理,其实看借现实生活中的例子理解,例如公鸡打鸣和太阳升起,四季不同,太阳升起的时间会有改变,假设公鸡适应季节的变化,存在时间延后,那么根据太阳升起的时间,预测公鸡打鸣的时间,就会比反过来更准,由此确定两者的因果关系的方向。
之后该文中,在已知答案的模拟数据中,对该方法的鲁棒性和检验的power进行了验证,该文值得我注意的一点,是其将该方法应用到了一个争议性的话题,即论证了全球二氧化碳排放的确造成了海平面的上升。
在《别想那头大象》这本书中,作者提出了“系统性因果”,来形容在当代社会中,针对复杂问题的对话中,需要采取的框架。这个概率描述的是在那些还没有认清楚机制成员的领域,该如何谈论因果性,从而使得公众的谈话更为有建设性。随着数据科学的进展,在该问题已经能逐步定量解决的今天,对科普来说,更关键的应该是让更多人了解到,即使还没有弄清楚成因,也可以判定两者之间是否存在因果关系,先建立起这个认知框架。
该方法的应用范围广泛,可应用于诸多领域,例如可以判定全球变暖造成的全方位影响,例如每年森林的过火面积,特定海域台风出现的次数,都可以看成是时间序列间的因果推断问题。
更多阅读
论文速递-新冠死亡率的辛普森悖论,因果推断的一个例子
从因果的视角看三门问题与华为断供
“找亮点:解决问题法,其实还是回归因果