贝叶斯大脑
以下文章来源于Kane的世界线 ,作者Kane
[
Kane的世界线 .个人生活的种种模式,或青灯黄卷,或围炉夜话,或对影邀月,击壤而歌。
](#)
本文来自巡洋舰读者投稿,作者为复旦物理博士,现从事机器学习算法研究。 首发于作者的的个人公众号“Kane的世界线”,欢迎各位关注。这里发布的这篇文章,和原文有些不同,进行了进一步的修改,以便于读者理解。
如果要从1到100里面猜一个和16最像的数,你会猜什么?
可能你会觉得无从下手,因为相像有无数可能性,可以是15或者17,因为数值相近;可以是96或者4,因为是16的倍数或者都是偶数;还可以是2,4,16,32,因为都是2的幂次。那接着告诉你,除了16之外,还有8,2,64也在同一组,那么你觉得下一个可能的数是什么?我想很多人会由此推断出要找的数是2的幂次;而如果说23,19,20和16是同一组呢,那么可能会推断是想找数值相近的数。
咋一看,这很显然。但细想,却很玄妙。在很多情况下,只给一个或少数几个例子,而且仅仅是正面例子,我们便可以从中学习、推断和做分类,这是一项神奇的能力,至少目前的机器学习算法还没有人类做得好。我们的大脑是怎么做到这一点的呢,这还要从Bayes,哦,不,Sheldon说起。
从Sheldon到Bayes定理
很多人都喜欢看《生活大爆炸》,欣赏里面Sheldon的绝顶聪明,上面的图片就出自《生活大爆炸》第四季第二集。里面的Sheldon非常担心,害怕自己活不到技术“奇点”的出现,也就无法通过意识上传获得永生。他根据家族成员的寿命和疾病史等,预期自己还有六十年可以活。他是怎么做到的呢?用的就是黑板上的贝叶斯定理,也是今天要讲的主题。
贝叶斯是18世纪英国的一位统计学家,他的生平事迹这里就不赘述,只需要知道他发现了这一定理的一种特别情况,后人因此用他名字给这一定理命名。这一定理看起来是如此的显然和稀松平常,以致于初次遇见可能会忽视它。而细究之下,又会发现,它的内涵是如此丰富,不仅仅改变了我们对概率论的看法,并且很多情况下,我们的思维和决策本身也是基于其基础之上的,就像前面所讲的例子。
在概率论中,设两个事件发生的概率分别是P(A)和P(B),那么他们同时发生的概率P(A,B)可以用两种方式计算,既可以表述为事件A发生的概率P(A)乘以事件A发生时事件B也发生的概率(条件概率)P(B|A),也可以表述为事件B发生的概率P(B)乘以事件B发生时事件A也发生的概率P(A|B),公式表达如下:
这就是贝叶斯定理的全部。很简单而且显然,对不对。只不过为了更好的理解其中的含义,我们把上述公式变换到它的标准形式:
通常情况下,B表示某一论断,例如“太阳每天从东方升起”,P(B)表示最初我们对这一论断的信念,称为先验概率prior。A表示对这一论断我们收集的证据,例如,今天太阳从东方升起。P(A|B)表示假如论断成立,出现这一证据的可能性,称为似然概率likelihood。那么我们便可以根据上述公式对信念进行更新,从先验概率P(B)变到后验概率posterior P(B|A)。
这里很重要的一点是,和我们平常所使用的概率方式不同,这里,一开始我们并没有假定“太阳每天从东方升起”一定正确,而是万事看证据,根据证据来修正我们对一件事物的看法。这一范式的改变发展出了概率论的贝叶斯学派,和传统的频率学派对概率论的解释形成对立,争论至今。
由此说开去,我们发现,不管是科学理论的建立还是发明创造,很多时候都是一条漫长曲折的寻找证据,并从证据中逐步抽象,建立起理论的道路。但在理论建立完备后,常常讲解的方式却是另外一种,高屋建瓴式的、抽象的、预设的前提假设出发,一步步小心求证,最后得到结论,这一方式发挥到极致的学科便是数学。后一种方法我们称之为演绎推理deduction,而前一种更多的是归纳推理induction。对归纳推理炉火纯青的应用,正是人类学习的一个很大优势。
认知的贝叶斯模型
回到开头提到的猜数字的游戏,有了贝叶斯定理的武装,我们便能更好的理解在这一任务中,大脑究竟发生了什么。这一例子出自Tenenbaum的博士论文,并被Murphy在《机器学习》[1]一书中采用,为了便于解释,我们截取Murphy书中的两张图:
上图给出了知道数字16之后,我们所做的各种模型假设,以及相应的先验概率、似然概率和后验概率分布。纵坐标为各个模型假设,横坐标标记为"prior"的左侧图是每个模型对应的先验概率P(h_i),它表示我们对每种假设的信念大小,例如把数字分成奇数偶数比较常见,于是我们把相应模型的先验概率设得比较大,而对于“都是2的幂次但排除32”这样的规则,我们会觉得很不“自然”,相应的会给予很小的概率。对模型的偏好来自于我们的先验知识,在两个一样解释力的模型中,我们会偏好更简单的模型,这就是经典的Occam剃刀原则。
同样的,我们还需要知道对每种既定假设,出现数字16的概率大小P(O|h_i),这表示在上图横坐标为"lik"的中部。具体计算逻辑为,设假设h_i允许出现的结果有|h_i|种,那么每种结果出现的可能性便是:
所以我们可以看到,因为满足“都是4的幂次”假设的结果只有4,16,64三种,所以16对应的似然概率为1/3。
根据贝叶斯定理,最终对每种假设的信念便是两者的乘积,既要考虑到先验假设,也要考虑到似然概率,相乘的结果显示在图中横坐标为“post"的右侧。对于”都是偶数“这样的假设,尽管先验概率比较大,但因为1到100间的偶数太多,出现16的概率仅1/50,如果恰恰出现了,我们会觉得是“惊人的巧合”,而不太会相信它是真的。这对应着贝叶斯版的Occam剃刀,在机器学习中,它化身为正则化项以防止模型过拟合。
这样,我们就有了知道数字16后各模型的后验概率P(h_i|O),从中我们就可以选择概率最大的一个作为最大似然估计,图中,我们可以看到选出的模型是“都是4的幂次”。如果有更多的证据,模型便会快速收敛至真实情况。
那么我们又是如何猜测下一个数字x的呢?我们已经有了每个模型的后验概率,下一个数字是x的概率就可以表示为每个模型的后验概率和相应模型出现x的概率的乘积的求和,俗称贝叶斯模型平均。表示为:
这一计算过程漂亮的反映在上图中。中间那一大块图纵轴表示各种可能假设,而每条横线表示1到100的数值区间,那么每条线上的点便表示各模型假设允许出现的数值。可以看到假设“all"的横线布满了点,因为从1到100,它每个数都可以取到。我们再看图的右边那条曲线,它表示的便是给定数值16后各模型的后验概率分布,可以看到,假设”都是4的幂次“的后验概率最大。将两者结合并叠加起来,就会得到图中上部所示的x的概率分布。可以看到,数字16,64,4的概率最大,与我们料想的非常一致。
我们再看大脑推断中用到贝叶斯的两个例子。第一个例子同样来自Tenenbaum[2]的论文,说的不仅仅是我们如何学习单个概念,还说明了我们是如何将概念对应到事物的不同范畴的。所谓范畴,就是对事物的分类,并且这种分类通常是有不同层次的。例如你的写字桌,它既属于写字桌这一类,也属于桌子这一类,还属于家具这一类,在范畴论中,它分别可以对应着下位范畴、基本范畴和上位范畴。
在Tenenbaum论文的例子中,当指着一张标记为fep的斑点狗图片,来猜测fep的含义时,我们既可以认为fep表示上位范畴的动物,表示基本范畴的狗,也可以是表示下位范畴的斑点狗。而我们会倾向于推断fep的意思是狗。这是由基本范畴偏差(prior)造成的,因为我们日常处理事物大多都在基本范畴,这也是为什么基本范畴的中英文单词大多非常简单且长度很短。但当给了三张斑点狗的图片,而且每张都标记为fep的时候,我们却更可能推断fep意思是斑点狗而不是所有的狗。因为直观上来讲,如果fep表示的是所有的狗,但随机抽取的三个样本都是斑点狗,那将是“惊人的巧合”。
第二个例子来自刘未鹏的《暗时间》,里面提到了一个自然语言的二义性例子。
the girl saw the boy with a telescope.
对于上面这句话,我们既可以理解为那个女孩拿着望远镜看那个男孩,也可以理解为那个女孩看到那个拿着望远镜的男孩。那么为什么通常情况下,我们会想当然的理解为第一个意思而消除歧义?从语法结构上讲,两种结构都是成立的,在这里体现为先验概率P(h)大致一样,但是P(O|h)却很不一样。如果是第二种情况,那么为何偏偏那个男孩拿的是一个望远镜,而不是一本书或一只苹果呢?有很多不同的可能性,恰巧是望远镜的可能性是非常小的。但是如果用第一种语义理解就不一样了,女孩通过某种东西看男孩,那么,拿的是望远镜就很显然。
在很多情况下,贝叶斯原理很好用,我们大脑也用它做很多事。但另一方面,它也是认知偏差的孵化池。
认知偏差
在《机器人叛乱》一书中,斯坦诺维奇讲到了认知心理学文献中的琳达问题:
琳达今年31岁,单身、率真、非常聪明。她的专业是哲学。作为一个学生,她格外关心歧视和社会公正问题,也曾参加过反核示威游行。请根据可能性对下面的陈述进行评价,1代表可能性最高,8代表可能性最低。
a. 琳达是一名小学老师。
b. 琳达在书店工作,上瑜伽课。
c. 琳达积极参加女权运动。
d. 琳达是一名精神病学的社工。
e. 琳达是妇女选民联盟的一员。
f. 琳达是一名银行出纳。
g. 琳达是一名保险销售员。
h. 琳达是一名银行出纳,积极参加女权运动。
因为选项h是选项c和f的组合,所以从概率来看,肯定比两者来得小,但是研究表明,有85%的参与者出现了“组合偏差”,他们认为选项h比f的可能性更高。
这可以看成是混淆了似然概率与后验概率的区别。本来需要计算后验概率P(h|O),却计算了似然函数P(O|h),或者说本来需要用induction的地方却错误的使用了deduction。
因为按照似然函数的思路,相比于“琳达是一名银行出纳”的论断,“琳达是一名银行出纳,并且积极参加女权运动”的论断,更可能得到琳达关心歧视和社会公正问题等具体描述。而没有注意到,对于后验概率,还需要关注先验概率prior,而f选项的prior明显比h大得多。
类似的认知谬误比比皆是,我们可以再看赌徒谬误的例子,里面混淆了前提假设和后验概率。
赌徒谬误[3]说的是:
抛一枚公平的硬币,连续出现越多次正面朝上,下次抛出正面的机率就越小,抛出反面的机率就越大。
把这个谬误和热手谬误[4]及选择性记忆相结合,就不难理解为何赌徒永远赢不了。理性的分析容易看到,每次抛硬币都是相互独立事件,前面的结果不会对之后的结果产生影响。而我们又有了前提假设:硬币是无偏的。所以不管哪次抛掷硬币,出现正反的可能性都是1/2。
更精确的,我们可以用数学语言描述。假设硬币出现正面朝上的概率为h,已抛掷4次,每次都是正面朝上,这一事实表述为O. 硬币无偏,满足P(h=0.5)=1,则下一次出现正面朝上的概率为P(u,O|h=0.5)=0.5,出现反面朝上的概率也是P(d,O|h=0.5)=0.5.
但是,赌徒错误的使用了硬币无偏的结论,没有把它看成是前提假设,而看成是证据之后的推断,也就是后验概率。因为之前四次的正面朝上已经让硬币正面朝上的概率偏向于E(h)>0.5,为了维持硬币无偏的信念,那么我们期望的是下次的抛掷能使E(h)偏回来一点。
具体的,我们假设h的先验分布是均匀的(当然这里只是为了方便,用其他的分布不影响结论),那么抛掷四次正面朝上,使我们对h的概率预期变为:
可以得到期望E(h|O)=5/6。和设想的一样,经过四次正面朝上后,我们的证据偏向于硬币是h>0.5的。然后我们计算,下一次抛掷结果分别为正面朝上u和反面朝上d,h后验概率的期望。具体的:
由此,计算可得E(h|u,O)=6/7,而E(h|d,O)=5/7.可以看到,确实下一次抛掷如果反面朝上便可以增强我们对硬币无偏的信念。不仅如此,我们还可以发现E(h|O)介于两者之间。
总结
我歌月徘徊,我舞影零乱。我们的贝叶斯大脑根据已有知识对外界进行响应。这一方面让我们可以在稀疏的、少量的、只有正例的情境下快速学习、构建各种概念。但同时,也得警惕这种启发式的学习可能导致的各种认知谬误。
更多阅读
参考文献:
[1]: Murphy, K. P. (2012). Machine Learning: A Probabilistic Perspective (1 edition). Cambridge, MA: The MIT Press.
[2]: Xu, F., & Tenenbaum, J. B. (2007). Word learning as Bayesian inference. Psychological Review, 114(2), 245.
[3]: [维基百科:赌徒谬误](https://zh.wikipedia.org/wiki/%E8%B3%AD%E5%BE%92%E8%AC%AC%E8%AA%A4)
[4]: 热手谬误认为某事多次发生则未来发生的机率会较大,见维基百科。
陈小新2018-03-11 19:16:56
和16最像的不是16吗
作者
。。
Astrostar2018-02-16 13:45:53
看着看着就看不懂了
陈帅2018-02-10 23:02:43
请问赌徒谬论中的期望5/6,6/7和5/7是如何求出来的?我算了半天没算出来……
王攀2018-02-09 09:21:35
哲学上把贝叶斯大脑称为人类第二副眼镜吧
[有人@我] WLan2018-02-08 21:40:18
透彻[强]
乐清机动车报废中心,电影票团购2018-02-08 12:37:51
对于我们这种处于没开发或者说没带大脑细胞的人来说这简单就是天文[呲牙],宝诚不错,加油。是我们朱家人的骄傲
漫步2018-02-07 16:05:34
对这些了解的不多。。 请问,是否可以这样理解:机器学习和人类学习的不同在于对概念的“认知”上的本质不同——前者对概念,是“认识,识别”(基于似然函数),所以机器得出的结果,是完全基于概率,不管什么时候都以数据库为决策源,机器的所有判断都是概率的对比,粗略的说,机器自己并不会决策;后者对概念,是“理解,认为”(基于先验概率),所以,人类得出的结果,是基于主观意识,来自于个人经历和成长环境等塑造的潜意识——对于简单情景的事物,会自动略去分析和推导,怎么想的就怎么说,或许就是所谓的“定势思维”?
Stella2018-02-06 22:39:23
多分享点应用上的东西[呲牙][呲牙]