从神经网络和强化学习的角度来看人类的决策系统
智能的问题其实可以分为感知,认知推理和决策三个个步骤,而决策是所有智能最终的目标 可惜的是目前来看关于决策的理论还极为缺乏。如果有一个理论框架可以从神经科学的角度说清楚人类是怎么决策的,它该是什么样的?这一点就不得不提著名的系统一和系统二理论(名著think fast,think slow,Kahneman, Daniel), 认为我们的大脑有快与慢两种做决定的方式,常用的无意识的系统1依赖情感记忆和经验迅速作出判断, 类似于我们说的直觉,但系统1也很容易产生错觉。而有意识的系统2,通过调动注意力来分析和解决问题并作出决定,它比较慢,不容易出错,能够分析因果进行推理,但是调用这个系统需要极高成本, 那些理性的聪明人都是通过刻意训练达到了运用系统二的绝佳策略。虽然这个理论通俗易懂,但是它缺乏对决策过程更加机理性的描述(mechanics),因而也很难被人工智能所利用。有没有从神经科学角度阐述这个过程的作品?底下一篇论文算是一个绝佳的阐述:Neural Mechanisms of Human Decision-MakingSeth Herd 1 , Kai Krueger 1,2 , Ananta Nair 1 , Jessica Mollick 1,3 , and Randall O’Reilly 1,4文章的宗旨是把著名的系统一和系统二的思想放到神经网络和强化学习的角度来看。从这个角度看,系统一是能够快速响应的本能决策系统,对应强化学习的无模型学习, 而系统二是能够精细的计算,计划和想象的决策系统, 对应有模型的强化学习。而模型来源于预测, 预测世界的未来变化以及动作本身的回馈,这个系统具有更高的精度和泛化能力,然而速度更缓慢, 不难看出它对应我们日常生活的理性决策。而最终,还需要一个脑模块需要对最终无论是来自系统一还是系统二的行为结构进行评估, 查看它是否达到预期, 这部分模型可以称为Critor(批评者,领导)。文中把这个系统定义为proposer-predictor-actor-critic模型, 有背景的同学请自觉脑补强化学习的著名理论Actor-Critic。与以往理论不同的是,文章很好的指出了不同模块所对应的脑网络组件和它们之间的配合。比如指出了基底核的基本角色对应actor-critic的批判者, 能够保留或者拒绝由皮层提出的计划。这些模型体现了强化学习算法是如何指点人类认识自身决策系统的。我们来看这个模型具体说了什么:一些传统的理论任务无模型和有模型学习背后的脑回路是完全分开的(傻白甜和老成世故的智者是分开的), 然而proposer-predictor-actor-critic模型任务它们共用一系列相同的脑模块的统一过程, 两者都是由Proposer推荐Plan, 然后由Actor根据预测者Predictor提供的情报决定接受还是不接受, 如果不接受, Proposer还会提供下一个Plan, 直到被接受行为做出。最终被批评者Critic评估。这样看无模型的决策到有模型的决策是一个连续光谱,只不过根据中间过程的计算深度不同,以及是否涉及预测这个步骤, 来区分出系统一的简单决策和系统二的复杂决策,那些比较复杂的决策,通常涉及预测这个关键步骤。.
对于proposer-predictor-actor-critic模型具体如何和大脑对应的问题, 文章也给出了一个初步答案, 具体见下图, 代表人类系统智慧的关键Proposer-predictor由皮层提供, 而奖励回路的核心基底核(basal ganglia)则相当于Actor, 和多巴胺分泌相关的系统则充当Critic提供误差信号。具体内容见论文。
最后分享一个铁哥3月30号的 live 讲座 ICLR论文看脑科学如何助力人工智能:
铁哥知乎live讲座-从导航看AI的未来 (点击原文链接)
从中你可以了解如何用强化学习构建一个适应各种不同环境任务的导航系统,制造一个“聪明”的人工小鼠。
更多阅读
海马体启发下的类脑人工智能
4种不同的记忆及记忆的本质
阅读原文