通过对齐映射的无监督方式学习新概念

正常的人可以正确地识别和命名成千上万的物体。到24个月的时候,孩子的平均词汇量已经达到了200-300。然而,目前还不清楚是什么机制使其成为可能。人类的学习能力的很重要体现是能够从嘈杂的噪音与纷繁的经验中,抽取出核心的概念。今年1月的Nature子刊Machine Intelligence中的论文Learning as the unsupervised alignment of conceptual systems,对比了俩种学习概念的方式,其一是监督式的,例如给孩子一个苹果,家长一直给他说这是苹果,然而,随着概念数量的增加,所需的训练示例数量也随之增加,并且有监督的学习要面对指令的歧义。

/pic/1_IKuT7d56f5Va5kjzoiawLfN8EoE0XQ.jpg

正如每个家长都切身体会到的,孩子们可以学会在没有明确教导的情况下给物体贴上标签。而这正是无监督学习的目标,也是这篇论文要用计算方法论证的主要观点。该文采取无监督的模式,使用图像,声音和自然语言中的一系列的计算实验,强调如何使用环境中的信息来构建和校准概念系统。与监督式学习不同的是,随着需要掌握的概念和系统越来越多,学习问题就变得越来越容易。通过上述的无监督学习,可以实现多模态学习,让每个学到的概念在一个概念群的映射空间(例如,图像)内都有一个唯一的签名,这个签名与其他签名的可以在其他系统(例如,文本或音频)中重现。由此,本文证明了理论上可以通过纯粹无监督的方法来学习物体的标签。

/pic/2_oAfxiaiaX5zoIVzEHgGOujYfWnOicQ.png

该文具体的做法是通过为每个系统(图像,声音。自然语言)创建相似矩阵来对齐两个(或更多)概念嵌入空间,用相似性矩阵捕获每个概念系统中的概念关系结构。通过将在基于图像和基于标签的概念嵌入之间最大化的对齐,可以在两个概念系统之间建议映射。一个良好的映射或对齐揭示了在两个系统之间的二阶同构。

/pic/3_3VSTTYuHodB1osq6Bvm8pVmOSwk47g.jpg

上图说明了如何通过使用无监督的概念对齐来识别两个系统之间的概念映射。

(a)两个不同系统的二维嵌入,两个系统之间的映射是随机的(虚线灰线)和

两个嵌入的相应相似矩阵看起来非常不同。并且具有较低的对齐相关性(即 Spearman 相关性)。(b)由交换概念 a 和 e 之间的映射,对齐相关性(c)在概念 c 和 e 之间进行了第二次交换之后,找到了两个概念空间之间的最佳结构对应关系,即俩个系统的概念映射之间的相关系数变的最高。

/pic/4_xBG1fVba9h45VDnTj1bT9wnwaqtj0g.jpg

通过上述的过程,上图分别展示了文字,图像,声音三种媒介,俩俩之间通过对其概念映射的方式,学到的概念。图中纵轴是概念之间是否一致,横轴是概念映射空间的斯皮尔曼相关系数。可以看到,随着相关系数的增加,上图中的概率一致率都提高到了接近100%的水平,图中的红色代表概率对于错误的情况。这意味着通过算法模拟,可以重现孩子将苹果的声音和苹果的图像对应上这一技能(即学到概念)。

随着待学习的概念数目增加,无监督式的学习的效率也会增加。这表明,包含额外的概念创造了一个更丰富,更独特的关系结构,这反过来有利于在涉及多个概念的情况下,结构关系是足够独特的。

此外,对齐相关性会优先减少最明显的错误匹配,例如组内的失调(例如将梨的图片和苹果的词汇联系起来)获得的得分高于跨组不匹配(如梨到小提琴),这意味着学习过程中,会优先修改后一类错误,从而使学习过程具有层次化。

/pic/5_lFpK5LskKPTXvG26ibDMMV9d289M0Q.jpg

有趣的是,当使用三个概念系统,进行概念映射的最大化对齐时,学到概念的效果还不如使用二个概念系统,图B所示,展示了在概念较少时,使用三个概念系统和两个之间的差距,随着学习的概念数目的增加,三个系统和俩个系统的差距缩小到0。这说明在待学习的概念较少,环境中的信息不充分时,需要先将苹果的图像和声音联系起来,再将苹果的图像和Apple的拼写联系起来,而不是一下就学会三个。图C指出在图像包含噪点的情况下,通过多个映射,能够提升学习到概念的一致性。

在上述过程中,第一步是产生概念的映射,之后是将映射对其。但是产生映射容易的概念,对齐的时候并不容易。牙刷这个概念很容易生成其对应的概念空间中的映射,但牙刷的概念却很难和其他概念系统进行对齐(即难以通过无监督的方式学到),这是因为早期习得牙刷这个词的语境,创造了一个系统,产生一个牙刷的独特签名。但在其他类型的概念系统中,牙刷对应的签名却和其它概念具有不同的相互关系,从而导致其难以被对齐。

/pic/6_Z5UfiaQdwyaxxEM5AZaMAGHjY4yS4Q.png

已经刻意不让自己去写疫情相关的内容,但今天看到的一则人间惨剧,让我忍不住说说。十堰市一个6岁的男孩和71岁的爷爷住在一起,爷爷因为猝死后,孙子一人在家,因为爷爷交待过的“外面有病毒“,不敢出门,只在家吃饼干,直到被社区排查疫情的人发现。

这件事让人觉得异常痛心,太多有基础性疾病的老人,没法活着见到正在到来春天,很多癌症患者,无法再进行化疗了,艾滋病患者,无法得到救命的药品,还有太多青少年,需要进行心理疏导。然而说句会触动众怒的话,这些事件的背后,反映出的是非黑即白的简单思维。

这个孩子之所以不出门,是因为作为权威的爷爷说外面有病毒。爷爷是国有大厂东风铸造厂的退休职工,多年来养成的习惯,多半已经让老人失去了独立思考的能力。他看到铺天盖地的宣传,只知道不能外出是当下一等一的政治任务,于是教出了这样的孩子。

不是苛责,只是觉得这件事是崇拜权威+非黑即白这样思维方式的极端体现。除夕看到河南省的硬核抗疫,虽然知道矫枉必须过正,但一刀切的封村,的确会引出很多问题。之后就看到了养殖户因为饲料无法运到,成车的杀掉小鸡,看到养蜂人因为封路,无法去授粉。了解乡镇因为条件有限,只能靠介绍信的方式,来控制人员流动,但若是更多人能够在理解为何这么做之后,独立地,因地制宜地做决定,那么会不会经济的损失不那么大,会不会防疫的难度会低一些。

读者会觉得非黑即白的思维,与之前谈的文献没有关系。但请细想下,面对新的病毒,我们也需要在短时间中学到很多概念,对于大多数人来说,学习新概念的方式是有监督的,权威告诉你是什么,就相信什么。然而这样学到的概念,尤其是在一个复杂的场景下,就会由于指令的歧义性和不完全,造成错配。真正值得推崇的,是无监督的概念学习方式。先去搞清楚各学科中和病毒传播有关的知识,再将不同学科的知识相互对齐,找到其中的相关性,最后形成“防控措施”这个概念的正确认知。

要想破除非黑即白的思维方式,就需要有一种能够完成相同功能的方法去补位。只强调批判性思维,并不能够解决问题。疫情的爆发缘于媒体的缺位,而在应对疫情中,官方媒体需要做的,除了曝光真相之外,还需要深度的解读与反思。理性,尤其的全民族的理性,在面对考验时,是一个难得的淬火重新打造的机会。

这些天看央视的新闻,大部分是煽情的宣传,剩下的简单易行的健康指导,这样一个很多人不得不在家。也愿意关注的机会,宣传机器却没有用来做科普,没有去讲一些平时人们因为没时间而不愿意看的干货。既然大家都对病毒细菌感兴趣了,为何不利用这个机会,讲清楚如何防范流感,为何流感之后不应该吃抗生素,以及何为超级细菌?真菌和细菌有何区别?甚至还可以去将那些埋藏在冰川里的远古细菌,以及其与全球变暖的关系。

《霍乱时期的爱情》中写道:”趁年轻,好好利用这个机会,尽力去尝遍所有痛苦,这种事可不是一辈子什么时候都会遇到的”。尝遍痛苦的唯一好处,就是让你知道自己在各个方面有多么无知。而如今的媒体,却在用感动代替反思,而这背后还是非黑即白思维的影响,反思科普就是影响抗击疫情的士气,传播正能量才是现在现在唯一要做的。

媒体对国外疫情的报道,也没有做到去分析干货,弄清楚其长处。举例来说,新加坡的防疫措施,看起来和国内有所区别,最典型的就是不建议健康人全民戴口罩,也不进行封路,全民测体温等措施,事实证明其对于疫情没有扩散的地区,效果是很好且成本更低的。这背后的理性和开放透明,都是值得我们学习的。为何不肯学习,也是这种根据情况思考的方式,与非黑即白的方式是曲直不相容的。

疫情还要持续一段时间,每人都要借着这个机会,想想在未来如何少给自己所在的社区添麻烦,先不谈什么大贡献,先做到保持自己身体和内心的健康,再想想如何能够清楚并得体地表达复杂的观点。做到了这俩点,再谈该如何培养独立思考,少犯逻辑谬误,多积累各学科的新知,试图理解为什么这样做决策而不是单纯的服从。

更多阅读

keep calm and carry on 共度国难应有的态度

《非对称风险》读书笔记-思考疫情结束之后获得的反脆弱

公子2020-02-26 18:38:07

楼上留言实力表现了作者笔下“不思考不学习”之典范

椰子壳2020-02-26 18:49:21

科普真的很重要,但是愿意接受科普的人一般不看电视,看电视的人可能看不下去科普…

Haoskism2020-02-26 18:48:05

武汉爆发原因之一,就是很多人不知是不是新冠,然后挤到医院被感染,而且全民戴口罩必然导致医用口罩短缺。对于新加坡而言,有效的部分隔离加上足够好的卫生习惯,做的防范就很好了。

作者

就是媒体缺位,去医院都不知道戴口罩的常识

枫2020-02-27 21:27:15

楼主,民智开了,卡里斯玛威权的合法性就不在了。逻辑就是只能继续PUA下去,这也是领导给他们的任务,没有自发性,谁愿意去科普呢?

风!2020-02-26 18:17:46

健康人不戴口罩 !不提倡!嫌弃你作者!这是传染病!请科学防范!

余佳音Avril2020-03-21 12:04:44

挺好的对齐 映射 讲着讲着跑题了

蜗牛2020-02-26 20:57:39

非常赞同作者。