人脑为何能够快速学习新知识?用AI的视角来分析
相比机器,人脑擅长快速的跨任务学习和泛化推理, 或者说叫做卓越的元学习能力。我们说人类站立在这个迅速变化的危险世界面前,快速适应新任务的元学习能力事关生死。这种能力是目前的深度学习人工智能所完全不具备的。元学习概念解析:机器学习围绕一个具体的任务展开, 然而生物体及其一生, 学习的永远不只是一个任务。与之相对应的叫做元学习, 元学习旨在掌握一种学习的能力, 使得智能体可以掌握很多任务。这种伟大的能力建立的基础是什么呢?深入大脑,我认为可以分为以下几方面:1, 可以灵活的切换认知模式, 选择如何选择, 决策如何决策。2, 大量先天可以使用的inductive bias(先验,归纳偏置) , 使用贝叶斯推理框架后可以结合最新证据迅速匹配最新任务或环境的模型。相比AI单纯做梯度下降,这个方法要快速有效很多。3, 强大的抽象/表征能力 。抽象之后,概念,以及概念与概念之间的结构关系能够支撑具体任务的学习4, 强大的层级组合能力,迅速将已有的技能组合成新技能。5, 因果6, 意识我们一个个来看看:1. 自由的切换认知模式Doing more with less: meta-reasoning and meta-learning in humans and machineswww.sciencedirect.comGriffiths, Thomas L., et al. “Doing more with less: meta-reasoning and meta-learning in humans and machines."Current Opinion in Behavioral Sciences29 (2019): 24-30.人的元认知能力,被被称为一种能够根据所具有的计算资源来灵活选择认知系统的能力。比如我们熟知的系统1和系统2,一个负责直觉有关的决策,一个负责更加理性更加逻辑的决策。这种选择的本质是根据现有的认知资源来计算进一步计算需要的成本是否可以cover收益来看是否切换认知模式。就好比当我们在危急时刻或者大脑已经十分疲惫,都倾向于用直觉思考,只有在认知有盈余的时候才会进入更深层的思考状态。这也可以让我们反思我们所经常犯的错误,也就是自己匆忙因为本能做的决定事后后悔。你会发现当你经常处于认知资源匮乏的状态,就会经常犯错误。人的这种切换决策,学习等相关的认知模式的能力,是快速适应不同环境的一个基础。我们可以如下的计算图表示这个计算过程,我们的大脑一边进行C0,C1,C2..一个序列的计算, 用以更新我们的认知B0, B1, B2, 另一方面,计算每个计算步骤的成本收益,当这个计算的成本大于收益,就停下来。这就是所谓的有限理性,不要冥思苦想,对一个问题适可而止交给上帝。这种浅度或深度认知模式的切换是适应复杂多变环境的基础,让我们虽然可以创造最伟大的文明,但是在被老虎追击的时候不至于陷入过度思考,最终鲁棒性而不是最优化才是长时间不被淘汰的关键。那么有没有无限理性呢?你也可以假定一个超级智商的Lucy可以做到的是建立一个无穷深度的计算图,站在一个制高点上,观测每个理性层次上的自己往下游戏会得到一个什么样的结局, 最终避开所有可能的坑,但是这样的人是不可能存在的,除非她真的获取了这个星球所有的计算资源,并且有无限的计算速度。常见的元学习方法Mamal, 从不同任务的混合数据中学习一个恰当的初始参数,可以看作是学习一个离每个具体任务都不远的先验当然, 以人类日常任务的多样性, 和环境的复杂多变,这些先验模板一定不是一成不变,甚至有可能互相矛盾。我们经常纠结,且时时处于矛盾之中,就是反应了这个事实。事实上,我们大脑处理不同的先验假设有两个基本的原则:A Epicurus’ principle:在认知资源允许的情况下, 我们保持尽可能多的假设。减少某些假设意味着对应未知世界的风险增加。B Occam’s principle: 当不同的假设均可解释一个事实, 那么我们尽可能给简单的假设赋予更多的权重。这一条被称为阴谋论绞杀者。在此基础上有了这些不同的假设,大脑执行的一个基本的工作是karl Fristion所说的预测编码,每时每刻,大脑都在尽可能的生成预测下一刻的输入变换(视觉,听觉,触觉),根据上面所说的,我们所做的预测不是凭空而来,而是根据大脑里的先验假设空间进行修正, 减少一些不符合事实的假设的概率, 而增加那些符合事实的假设,这个过程对于大脑就像水往低处流一样自然。在这种预测力的驱动下, 这个修正过程是快速的,准确的,我们会很快得到最贴合真实的模板或者其组合,远比重新学习新的世界模型要快的多。也就是说,我们看到的未来是过去所见的组合,阳光之下并无新事。这一点对于这个迅速变换且危险的世界比缓慢的梯度下降学习靠谱的多。这篇文章指出一个可靠的具有类似智能的系统需要 :1)能够在大量(来自不同任务或环境下的)序列数据的预测中习得一组先验假设。2)可以在不同任务间快速的调整后验。那么这样一个系统的神经基础是什么呢?先验是怎么表达的?更新又是怎么回事?目前这都是很前沿的内容。刚刚说的第三点部分回答了这个问题:3. 强大的抽象/表征能力 。抽象之后, 概念,以及概念与概念之间的结构关系能够支撑具体任务的学习 。
世界是复杂的,大脑的神经元再多, 表达能力都有限。那么,如何用有限的神经资源表达无限的假设?抽象,就是必经之路。经过一定量的抽象, 很多看似不同的事物就归结到一个东西上,所需要表达的假设就大大减少。抽象可以看做分成两层, 一层是如何从具体感知中获得符号。符号对应某种不变性,比如一个人A的脸可以有不同的侧面, 不同的光影效果, 但是最终可以抽象成为一个符号-就是A。或者一个地点在不同的时间角度看场景都不一样,但是你走的多了,就理解那是一个地点而已。这是当下的人工神经网络,尤其是CNN非常擅长做的事情。符号和概念息息相通, 某种程度能从感知信息里抽取符号,就是具有概念学习的能力。.
相关阅读:从时间序列表示到层级化的强化学习
海马体启发下的类脑人工智能
多巴胺引领下的分布式强化学习
感谢清华大学脑与智能实验室宋森老师的帮助和支持。
龙蝶2020-02-12 17:06:16
@学习观
吸引子2020-02-12 18:23:43
没有看论文,仅凭上铁哥的课,加上自己的独立思考,每期公众号文章坚持看,也感谢把我自己所想评论都在评论区显示,感谢郭老师的文章启迪,这篇文章算是铁哥思考过往强化学习前沿以科学规范的方式表达出来的集小成,彼此契合度很高,期待铁哥更优秀的文章以激励自己前进![抱拳]
作者
非常感谢
查理三2020-02-14 18:50:58
人类的学习是通过已知的事物/经验来了解未知,无法通过未知来了解未知,那么面对未知的领域如何理解呢,类比是一个很好的办法,通过以往的经验来迁移,知识面越广的人,理解新事物越快。
璵卿2020-02-15 01:15:31
A Epicurus’ principle:在认知资源允许的情况下, 我们保持尽可能多的假设。减少某些假设意味着对应未知世界的风险增加。 B Occam’s principle:当不同的假设均可解释一个事实, 那么我们尽可能给简单的假设赋予更多的权重。这一条被称为阴谋论绞杀者。 ——完全赞同这两个关键。赞 1