强人工智能之路中的必选项“因果”-《为什么》第十章书摘Part1
本文摘自《为什么》这本书的最后一章,当前的AI系统取得了令人瞩目的进展,AI应用遍地开花,包括语音识别,人脸识别等等。Pearl 在这个章节第一部分简要梳理了 AI 的发展历程和现状,指出了这些系统的局限性,介绍了他如何转向研究因果推断,展示了我们对因果理论的迫切需求。Pearl 在本章的第二部分给出了一个关于构建强人工智能蓝图,这个在后面的文章再做介绍。编译龚鹤扬。
本文分为5部分,分别是
1)为什么 Pearl 会研究因果推断呢?
2)大数据 + Data mining 能回答所有问题吗?NO!
3)大数据结合因果推断有大作用
4)AI 研究者中的”讲究派“
5)深度学习的理论局限性
1)为什么 Pearl 会研究因果推断呢?
对因果理论的研究始于当前科学界的一个反常现象。传统的逻辑推理结论只能是严格正确或者错误, 如今借助贝叶斯网络,我们教会了机器在灰色地带进行思考,这是机器迈向强人工智能(Strong AI)的重要一步。但就目前而言,我们仍然无法教会机器理解事情的前因后果。我们无法向电脑解释为什么转动气压计的刻度盘不会导致下雨。当一名行刑队的士兵改变想法,决定不开枪时,我们也无法教会机器理解这一情境并猜测接下来会发生什么。
由于缺乏反思过去行为,作出不一样行为并且评估该行为的能力,机器也就无法通过 小图灵测试,也就是机器不能回答“为什么”这个最基本的问题,经常问“为什么”是我们人类区别于其他动物的一个标志。我把这个现状称之为反常现象是因为,对于人类推理来说问为什么是如此自然,但是当前学术界任何推理系统都没有回答“为什么”的能力。
直到后来我才意识到,受此种反常现象困扰的不只是人工智能领域。科学家本应是最关心“为什么”的人,但由于他们长期束缚于统计学的回避因果的文化,其提问“为什么”的正当权利被剥夺了。当然,无论如何,科学家还是会提出关于“为什么”的问题,每当他们想用数学解决这一因果问题时,就不得不将这一因果问题转化为一个相关性问题。
对这种反常现象的探索让我接触到了许多不同领域的研究者,包括哲学领域的 Clark Glymour 和他的团队,计算机科学领域的 Joseph Halpern,流行病学领域的Jamie Robins 和 Sander Greenland,社会学领域的Chris Winship,以及统计学领域的Don Rubin 和 Philip Dawid,这些人都在思考同样的问题,也正是包括我在内的所有这些人共同点燃了一场因果革命的星火,使它以星火燎原之势从一个学科迅速蔓延到另一个学科,逐渐覆盖包括流行病学、心理学、遗传学、生态学、地质学、气候科学等在内的多个专业领域。自此,每一年,我都能看到有越来越多的科学家开始愿意谈论和使用因果,他们不再带着抱歉或畏惧的神色,而是怀着自信和果断。一个新的范式正在逐步发展成形,根据这个范式,你可以在假设的基础上提出你自己的主张,只要你的足够明晰,大家就可以判断出你的假设的可信度和关于违背它们时候的敏感性分析。
因果革命也许没有带来能直接改变我们生活的特定工具,但它在整个科学界引起的态度转变,必然有利于科学的蓬勃发展。
2)大数据 + Data mining 能回答所有问题吗?NO!
对普通大众来说不那么明显但同样重要的一个新事实是庞大的科学数据库的兴起。例如,千人基因组项目就为其所谓的“最大的关于人类变异和基因型数据的公共记录”收集了200TB 的信息。美国国家航空航天局(NASA)的米库尔斯基太空望远镜档案馆则收集了来自多次外层空间探索的2.5PB 的数据。而大数据影响的范围远不止前沿高端科学,它几乎入侵了所有的科学领域。以前的海洋生物学家为了对其最为钟爱的某个物种进行调研可能需要花费数月的时间走访世界各地。而现在他们可以在互联网上即刻获得数以百万计的关于鱼、卵、胃容物或任何他们想获得的事物的数据。因此海洋生物学家可以把时间花在研究而不是费时费力的调研上。
而与我们关系最为密切的问题是——接下来会发生什么?如何从所有这些数字、比特和像素中提取意义?虽然数据体量越来越庞大,但我们问的问题始终很简单:“是否存在一种会导致肺癌的基因?什么样的恒星系可能存在像地球一样的行星?是什么因素导致了我们喜爱的某种鱼类的数量减少,而对此我们能做些什么?”
某些研究圈子里存在着一种对数据的近乎宗教性的信仰。这些研究者坚信,只要我们在数据挖掘方面拥有足够多的智慧和技巧,我们就可以通过数据本身找到这些问题的答案。然而,本书的读者已经明白,这种信仰是盲目的,很可能受到了对数据分析的大规模宣传炒作的误导。我刚刚问的问题都是有关因果的,而因果问题从来不能单靠数据来回答。回答这些问题需要我们对数据生成过程(或者其某些方面)进行建模。当你看到一篇论文或一项研究是以 model-free 的方式分析数据的时候,你就能确定其研究结果只是对数据的总结或变形,而不可能包含对数据的因果理解。
当然,这并不是说数据挖掘没有用。或许回答关注问题的第一个关键步骤就是通过数据挖掘获得数据中的相关性模式,从而提出更精确的因果问题。例如,相对于问“是否存在一种会导致肺癌的基因”这个因果问题,我们可以筛查与肺癌高度相关的基因组,然后精确的问:“某个基因会导致肺癌吗?(And how?)”如果没有数据挖掘,我们就不可能提出这样精确的问题。然而,要想更进一步分析,我们就需要建立一个因果模型,用以说明我们所认为的某个基因其可能影响的变量有哪些,可能存在的混杂因子是什么,以及其他的因果路径可能带来的种种结果。解释数据就意味着需要做出关于现实世界中相关变量因果关系的一些假设。
**大数据在因果推断问题中的另一个作用体现在因果推断引擎的最后步骤,**这个步骤就是把因果问题涉及的估计量用数据和特定统计方法估计出来。当变量维度很高时,统计估计这一步的难度不可小觑,只有借助大数据和现代机器学习技术,我们才有可能真正应对维度灾难。同样,大数据配合因果推断在个性化医疗这一新兴领域也发“挥了至关重要的作用。在该领域,我们需要根据一组个体过去的行为做出推断,且这组个体需要与我们所关注的个体在尽可能多的特征上相似。因果推断能让我们去掉不相关的特征,也能让我们从不同的研究中把这些在关键方面相似的个体聚集起来,而大数据则能让我们收集到关于这些人的充分的信息。
有些人将数据挖掘看作研究的终结而不是第一步,原因很容易理解。它允许我们使用现成的技术得出一个解决方案,让我们或者机器不必费力去考虑和阐明关于现实世界运作方式的主观假设。但在某些领域,我们的知识还处在非常初步的阶段,从而我们不知如何下手去建构一个关于该领域的模型。但是大数据无法帮助我们解决这个问题,因为此类问题答案的最重要部分必然来自我们自己构建出来的或者由机器构建并微调出来的。
3)大数据结合因果推断有大作用
为避免显得我对大数据过分挑剔,我认为大数据和因果推断有一个有前途的结合点,这个结合点就是“迁移学习”(transportability)。得益于大数据,我们不仅可以在任何特定的研究中获得大量个体的数据,还可以接触到大量在不同地点和不同条件下进行的研究。我们常常希望将这些研究结合起来,然后将其迁移至一个新的不同的总体,这一新的总体甚至可能在我们意想不到的方面与原始研究中的总体有所不同。
将研究结果从一个环境迁移到另一个环境的过程正是科学的根基。事实上,如果不能将实验室结果推广到现实世界,例如将人工胚胎技术从试管环境迁移至动物再迁移至人类,那么科学进步就将停滞不前。然而直到最近,各个学科仍在试图制定自己的标准,以便从无效的泛化中找出能够迁移泛化的方法,但是不存在任何系统性的办法来解决一般性“可迁移性”问题。
在过去的5年里,我和我以前的学生(现在的同事)Elias Bareinboim 成功地提出了一个判断研究结果是否可迁移的通用准则。当然,使用该准则的前提条件是已经使用因果图表示出了数据生成过程,并且标记出了潜在的差异点。将一个结果或者规律“迁移”到一个新的环境,并不是流于表面的理解成将结果直接应用到新的环境中。考虑到新旧环境之间的差异,研究者可能需要重新校准旧的研究结果。
Bareinboim 的工作让我们可以利用因果逻辑和大数据创造出以前无法想象的奇迹。通常,像“奇迹”和“无法想象”这样的词在科学论述中是非常罕见的,读者可能会怀疑我是不是有点儿过于激动了,但我自认为我使用这些词的理由是充分的。
4) AI 研究者中的“讲究派”
20世纪70年代到80年代初,人工智能的研究因过于强调基于规则的系统而阻碍了其发展。但事实证明,基于规则的系统是错误的路径,它们十分脆弱,对其运行假设的任何细微改变都会导致我们必须重写整个系统。这些系统不能很好地应对不确定性或矛盾的数据。此外,这些系统缺乏科学意义上的“透明性”:你无法在数学上证明它们会按照某种方式运行,而如果系统出错了,你也无法精准地知道需要修复什么地方。并非所有 AI 研究者都反对缺乏缺乏透明性。研究者在当时分成了两派——**“讲究派”(这些人寻求的是建立有运行保障的、足够透明的系统)**和“将就派”(这些人对系统的要求是只要可运行,满足工作目的即可)两类,而我一直属于“讲究派”。
我很幸运恰好能在该领域准备好接受新方法的时候参与进来。贝叶斯网络是概率的,它可以应对充满矛盾和不确定性的数据。不同于基于规则的系统,贝叶斯网络是模块化的,易于在分布式计算平台上实现,这让它们运行得很快。最后,对我(以及其他“讲究派”的学者)来说,重要的是,贝叶斯网络以数学的方式可靠地处理概率,这就保证了即便出了什么差错,该差错也只会出现在程序实现中,而不会出现在我们的方法理论。
即使贝叶斯网络具备了所有这些优势,它仍然无法理解因果。在贝叶斯网络中,其结构决定了信息可在两个方向传播,即 causal 和 diagnostic 具备对称性:烟雾增加了火灾的可能性,火灾增加了烟雾的可能性。事实上,贝叶斯网络甚至无法说明“因果方向”是什么。对于无法回答为什么这个反常现象的研究,让我从机器学习的领域中脱离出来,走向研究因果。我不接受“未来机器人无法用我们的因果语言与我们沟通”这个想法。一旦踏入因果的领地,我自然而然地就被吸引到了其他学科的广阔领域,在那些领域,因果方向性至关重要。
5)深度学习的理论局限性
近年来,人工智能最显著的进步发生在一个被称为“深度学习”的领域。它采用的基本方法,例如卷积神经网络,这些网路不遵循概率规则,它们不以严格或透明的方式处理不确定性,其处理过程也没有融入其环境的显式表征。相反,这些网络的体系结构可以自行发展。在完成了一个对于新的网络的训练后就不再管它,也无从知晓它正在执行什么计算,或者它们为何有效。如果网络失灵我们也不知道应该如何修复它。
AlphaGo 所取得的成绩是如此令人激动,其导向的结论似乎也毋庸置疑:对某些任务来说,深度学习具有独特的优势。但这类程序或算法与我们对透明性的追求背道而驰。即使是AlphaGo的研发者也不能告诉我们为什么这个程序能把下围棋这个任务执行得这么好。他们知道深度网络在计算机视觉和语音识别任务中取得了更多的成功。然而,我们对深度学习的理解完全是经验主义的,没有任何保证。AlphaGo团队无法预测这个程序会在1年,2年,还是5年的时间内击败人类最好的围棋棋手。他们只能试验一下,而AlphaGo出人意料地成功了。
有些人可能会说有了深度学习这样的黑箱模型就够用了,我们并不真正需要“透明性”。毕竟我们也不太明白人脑是如何工作的,但它的确运行良好,而我们也原谅了自己对于大脑运行机制的肤浅理解。因此,他们指出,为什么不直接使用黑箱的深度学习系统,创造一种新的智能?我不能说他们错了,此时此刻,“将就派”的确抢占了先机。但我至少可以说,我个人不喜欢模糊的系统,这就是我不作相关研究的原因。
暂且不谈我的个人品位,先讨论一下另一个关于人类大脑的类比。虽然我们可以原谅自身对大脑工作机制的肤浅理解,但是我们仍然可以与其他人交流,向其他人学习或指导其他人,以及以我们自己的因果语言来激励其他人。之所以我们可以这样做,是因为人类的大脑是以一种相同的方式工作的。而如果机器人都像AlphaGo一样缺乏“透明性”,我们就无法与它们进行有意义的对话和交流,
举个例子,你家有个扫地机器人。有一天晚上你正在睡觉的时候,这个机器人开始打扫房间,它拿这吸尘器开始吸尘,把你给吵醒了。你就跟它说:“下次不要吵醒我!” 而一个深度学习程序真的能理解这一命令的丰富内涵吗?(它需要知道吸尘会导致噪音,噪音会导致吵醒你,吵醒你会让你不高兴,它通过反事实分析可以知道白天可以吸尘,晚上你不在家也可以吸尘)我对此表示怀疑。这就是我对给出了出色表现的模糊系统感到不满意的原因——透明性才能确保有效的沟通。
我不作深度学习相关研究的原因是,深度学习系统的有一个理论局限性,这种局限性源自于该系统无法超越三级因果的第一层级,也就是说他智能回答第一个层级的因果问题,i.e. 相关性问题。当然,因为棋盘形式与游戏规则已经构成了关于围棋世界的一个充分的因果模型,这一局限性并不妨碍 AlphaGo 在狭隘的围棋世界中给出出色的表现。然而在许多环境中,我们并没有有关该环境充分的因果知识,此时这一局限性,阻碍了学习系统在该由诸多因果机制控制的环境中给出一个出色的表现。此类环境的典型实例有很多,包括医学、经济、教育、气候学和社会学等。如同柏拉图那个关于洞穴中的囚徒的著名隐喻,深度学习系统探索的是洞穴壁上的那些阴影,学习如何准确预测阴影的活动。深度学习系统不能理解它观察到的阴影仅仅是三维物体的空间运动在二维平面上的投影,而强人工智能必须具备理解阴影运动现象背后原因的能力。(三级因果问题:association, interfere and couterfactural)
深度学习的研究者和使用者并非没有意识到这个理论局限。例如,经济学家注意到机器学习的不能回答他们真正感兴趣的关键问题,比如估计尚未实施的策略和行动的影响。典型的例子包括预测推行新的价格结构、补贴政策或调整最低工资的影响。从技术的角度看,今天的机器学习的确是一种用有限的样本估计概率分布的有效方法,但我们在知晓分布基础上,进一步需要知晓数据背后的因果机制,才能突破这个理论局限性。
更多阅读