ICLR认知科学@AIworkshop一览

今年ICLR2020顶会有一个特别有意思的专题, 叫认知科学与AI顶会专题。在当下深度学习愈发进入瓶颈期的时代,认知科学和AI的交叉成为大势所趋。一方面我们希望把认知科学或心理学的知识用起来直接指导AI,另一方面我们希望用AI来理解我们的大脑和认知规律,最终进一步改善AI, 那么ICLR的这个workshop在这两个方面各有哪些建树?1, 用AI来理解我们的大脑Bridging AI and Cognitive Science (BAICS)baicsworkshop.github.io
用深度学习模型来理解视皮层对信息的处理一直是两个领域交叉的热点, 因为视觉处理是2010深度学习革命的最大成者, 而视皮层是神经科学了解最多的区域, 两者都有充分的理由认为可以反哺对方。### From heuristic to optimal models in naturalistic visual search

根据一些研究,人眼的精度大约相当于一个5.76亿像素的数码相机, 这相比任何当下的数码相机都很可怕。但事实上这个数字对我们有所误导,因为事实上我们只有人眼的极小中心区域有很高精度, fovea是在积极工作的(这部分只相当于500到1500万像素), 而人之所以能够得到非常清晰的视觉图像,是因为人眼通过眼动把很多微小区域拼接起来理解一个整个的场景,为什么这样做是为了有效利用认知资源先抽取最核心的信息用低精度处理边缘信息。
这和当下很多一次并行处理信息的视觉模型区别很大,人的视觉感知说到底是一个权衡精度与成本的串行模型, 为了模仿这个原理, 本文介绍了使用过一个马克科夫决策框架来表达这个原理。在对一个场景的认知任务里,agent需要选择一系列的视觉目标gaze, 通过一定方法更新自己对整个场景的理解, 最终得到模型的预测。/pic/1_2Dgh1UvsaHoFsBx1nlKMduNWrMCreQ.jpg
Convolutional Neural Networks as a Model of Visual Activity in The Brain: Greater Contribution of Architecture Than Learned Weights这个文章试图分析当下的CNN网络是否在接近人类视皮层的结构,其结果是对于AlexNet这样的网络,事实上随机的网络比训练好的网络结构更加接近人脑。有趣的是其实验方法, 因为人脑利用的是MRI的磁共振数据, 当然不能直接和CNN的激活函数对比。我们把这个问题转化一下, 虽然人脑和神经网络无法直接比较,但是我们却可以比较它们对应同一对象的输出,来分析输出之间的关系。当一个网络需要看大量不同的视觉物体, 那么不同物体间引起网络反应的相似度就反应了其结构本质。这是一种度量学习的思维, 如果你的脑子里香蕉和苹果的反应比较接近, 而另一个人脑子里苹果和皮球比较接近,那么显然这两种人的脑网络可能有区别。我们让神经网络和大脑同时注意一组物体, 然后通过对这组物体在CNN和大脑引发的不同反应进行相似度运算,最后得到结果。这篇文章的第一个重要发现是, 深度学习网络和大脑视皮层IT区的相似度没有达到noise ceiling指示的区域(只有超过这个指示, 两者才具有显著的相似性), 说明深度学习离真正接近人类认知还相差较远。而随机未训练的网络相比训练好的网络更接近人脑,这似乎在告诉我们其实我们大脑的学习机制与通过finetune得到的深度网络区别较大。/pic/3_NqL0VbxjW5h2H2ZG6Iy3AmXsepjBdw.jpg
这个模型有点类似于一个不停迭代的EM算法, 倾听者预测发言者的个性(persona), 发言者把对话的历史结合发言者的预测生成可能说的下一句,以此不停迭代。从数学的角度, 这就是一个贝叶斯定律在nlp的应用, 把人的心理属性,通过贝叶斯的先验后验, 嵌入到了对话机器人里,引入的倾听者犹如我们大脑里时刻倾听和分析自己的脑区。/pic/5_oicv2EZ5m7HdUyibPEnIygq0vu8vFg.jpg
直接模拟大脑工作原理改善AI像DQN这样的强化学习模型依赖大量的存储数据,因为在训练的时候我们要把之前的和当下的数据混合在一个batch里反复训练来避免迅速的遗忘。我们想象一下这需要把整个游戏的经历都存储在内存或硬盘等待后续读取。如果是Atari这种小游戏, 这是可以做到的,当游戏变得足够大呢?变成真实生活呢?你把所有经历过的事情都高清存储,估计脑子会爆炸吧 。那么生物是怎么解决这个问题的呢?事实上我们并不擅长机械的存储记忆, 但是我们擅长想象和重构。思考一下你看过一个难忘的电影后, 你会在你的梦境里合成你自己的版本。
这体现了人认知的本质, 我们通过训练一个生成模型, 把过去的经历浓缩到我们的这个能够幻想的生成器里 ,这就是我们的世界模型,是我们能思考和学习的基础。这部分功能,通常认为是海马体提供的,它擅长进行replay和preplay, 通过生成未来可能发生的事情(一个新的事件序列)使得我们能够快速的强化学习且不遗忘过去。我们模仿这个原理, 构建了一个同时可以作生成器和判别器的反馈网络, 一边做图像分类,一边可以生成同类图像的表示, 这样生成器和判别器一起训练, 缓解灾难遗忘问题。BRAIN-LIKE REPLAY FOR CONTINUAL LEARNING WITH ARTIFICIAL NEURAL NETWORKS模型结构的原理:虚拟的皮层层和海马/pic/9_ecXNMKnVzSWcW9SAeWsv536zZAAHOw.jpg
DEEP ACTIVE INFERENCE FOR AUTONOMOUS ROBOT NAVIGATION这一篇是对上述active inference原理在机器人领域的直接应用理念性的文章:LEVELS OF ANALYSIS FOR MACHINE LEARNING这篇文章注重神经科学到机器学习的语言对接。在神经科学里, 最重要的语言体系当属Mars 的三个层次, 也就是计算层, 算法层,实现层。对同一个方法, 计算层我们通常从信息处理的角度描述, 算法层我们通常说的是具体的实现方法, 而实现层才开始涉及工具- 比如卷积神经网络。这个语言体系, 先前没有被很好的嫁接到机器学习里,事实上, 它对于机器学习算法有很好的描述潜力, 比如DQN算法, 在Marrs的语言系统里, 它在计算层次的对应是bellman equation这种动态优化问题,在算法层次是off-line Q learning 这种经典强化学习算法, 在实现层次则是各种神经网络。从某种角度上, 采取相同语言体系会使两个领域的人更容易沟通,也容易启发出跨领域的作品。更多精彩文章请见baicsworkshop.github.io
更多阅读从神经网络和强化学习的角度来看人类的决策系统
为什么模拟大脑尚如此困难