符号主义对深度学习的意义浅谈

符号主义人工智能经历过古典时期的专家系统阶段, 中期的知识图谱阶段, 和近期深度学习和符号主义的再次联姻。那么一个很重要的问题是符号主义为什么会复兴,它对当下的机器学习又有何意义?

参考阅读:

Reconciling deep learning with symbolic artificial intelligence: representing objects and relationswww.sciencedirect.com

首先, 当下的深度学习有三个最主要的问题,很低的数据使用效率, 泛化能力, 可解释性,都可以从符号主义得到极大帮助。这一点也不难理解, 所谓符号,多数指我们语言中那些经常被使用的抽象概念,这些概念再不同的任务和环境中被广泛使用组成新的概念,比如红色,圆形等,如果能够在不同任务中学习到这些最基本的元素, 那么无疑将极大的改善数据使用效率和泛化能力。同时, 从视频,声音等信息中提取出的这种符号,几乎一定是和我们的自然语言有所对应,和我们的认知概念有所对应,因此,提取这些符号将极大助力模型的可解释性。从这两个角度看, 符号的确可以解决深度学习的几个根本问题。
更加重要的是,符号的使用和我们的推理认知能力极为相关,这也是为什么在第一代的人工智能时代人们如此重视符号, 因为它是逻辑思维的载体,有了符号我们可以在符号基础上罗列各种运算,进行关系预测和推理等, 对应我们日常思维中的归纳演绎等过程。从某种意义上看,基于符号的人工智能模拟了人类的思维, 而深度学习则模拟了人类思维的硬件。这两种一定应该是相通的。然而今天看来它们却成为了独立的两个方法, 这是为什么呢?深度学习的本质是表征学习。站在信息论的角度,它把一定的视觉听觉信息表示成高维向量,在经过若干次线性和非线性的变化抽调和任务信息无关的细节,压缩成为和任务最相关的信息表征。那么我们不禁要问这些留下的信息表征是否就是我们要的符号呢? 答案是no。即使经过巨大的CNN我们得到猫或狗的表征,但是从没有一个研究指出这些表征里哪些神经元包含猫的形状,哪些神经元包含猫的颜色,事实上每个细胞都或多或少的表达颜色或形状,也就是一种混合的信息表达, 从神经编码的角度看这叫分布表征(distributed representation), 或混合编码(mix selectivity),从信息表征的角度看这是Entangled representation,或者说耦合的表征。这种特性是使得每个神经元可以高效的被利用(表征不同的特征),从而用有限的细胞数去区分更多的模式;但是也使得深度网络变得不可解释, 泛化性差, 鲁棒性差。而人的神经网络经过进化和连续学习,既有深度学习这种混合编码特性,又有低维解耦的符号,这点是目前深度学习望尘莫及的。那么有什么方法可以从深度学习里得到符合人类认知的符号系统呢?一种方法比较直接, 可以直接把深度学习的output设计成人类已知的符号比如视觉系统里的符号,颜色等,我觉得这里有两个关键点,一个是低维,一个是解耦。所谓低维, 是说这个符号不可以太多, 所谓解耦, 是说它们要尽量独立的。低维因为可以大量复用的符号本来就没多少, 解耦因为这些符号如果是可解释的且重要的,就一定要构成一个不依赖其它符号存在的独立因子。那么在深度学习里加入符号主义的精髓?我理解的符号主义的核心, 一是哪些是构成这个世界的正确符号, 二是该如何确定符号与符号间的关联,三是如何通过符号组合成不同的模型或场景表示。深度学习的power在于可以通过学习的方法解决以前计算不能得到的目标, 比如这里的第一步,符号的提取。这就必须要提自编码器。自编码器宛如一个信息瓶颈,通过若干层非线性变化,把高维的时空向量压缩成几个低维变量z(latent variable), 然后再通过一个类似解码器的部分还原回原先的高维时间和空间序列, 通过这个无监督的学习过程,实现信息的压缩(z代表真实信息的编码)。普通的自编码器能够实现这个高维到低维的转化但不一定能够解耦。而变分自编码器(VAE)就不同了, 它假定中间压缩得到的z变量要符合一个多元高斯的先验分布, 这样的分布本质就假定了z变量不同维度间的独立性,也就是不同因子的解耦,加上z的维度本身就要求低, 它极有可能就是我们所要的符号(进化生成的符号就是在信息论的角度就是最小冗余的编码)。那么z是否可以真正学到抽象独立的符号呢?这点从文章下图的实验中可以略知一二。 /pic/1_0iccbXSwggOSQPLsx9LpFz8cMiaiaQ.jpg在这个图中,我们尽可能的保持其它变量不变,而只改变变分自编码器中的某个独立维度, 这时我们发现当改变变分自编码器学到的表示里的某个维度数字大小发生变化,另一个维度则是手写数字的风格发生变化,显然数字大小和手写数字风格是极好理解的人类符号, 也就是非常具有鲁棒性的迁移特征,这样两个维度z某种程度构成书写数字的一个解耦的低维的独立因子图, 也就是这个任务的符号表示系统(联系因果学习)。
/pic/2_ibniaek3VBwibwiaaxMXKPQibYzrNw.jpg
另一个基于无监督学习得到这种低维解耦表示的方法被称为稀疏编码, 这个理论旨在直接从数据里学习到一个字典,字典里的常用词可以最好的构建真实世界且字典最节约, 事实上稀疏编码的理论就是我们大脑处理信息的重要理论基石。还有一类值得关注的从深度学习里得到可解释的低维符号的方法来自RNN(LSTM),这类含时间的神经网络可以从数据里学习一个原系统的动力学模型,而动力学系统内的主要变量可能就是我们需要的符号。我之前的论文用预训练的RNN进行导航,就是引导出这种低维的动力系统表示。符号模仿的第二部涉及符号关系的建模:我们需要找到符号和符号之间的联系, 从而进一步释放符号主义的真正能力,进行关系建模和推理。实现这一步的方法也可以使用简单暴力的深度学习,这里有两类框架已经极大的接近了这一目的,一个是图关系网络, 一个是基于自注意力的transformer。我们来看两个风格的区别和联系:对于关系网络, 本质上我们采用的手段是学习不同符号两两相互作用的表征, 这个工作可以暴力的使用MLP来完成, 首先我们把不同符号间的关系表示成为两两一对的矩阵(全连接图), 然后我们假定存在一个巨大的MLP,只要输入两个符号的特征,就可以得到其相互关系的表征,输出相互连接。这样的系统本质假定了关系的类型是/pic/7_JvNcGdermvTD0Zq5dMJjI8FBxe8vBQ.jpg
Learning to See Physics via Visual De-animation – NIPS
4. The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Sentences From Natural Supervision – ICLRMao, Jiayuan, et al. “The neuro-symbolic concept learner: Interpreting scenes, words, and sentences from natural supervision."arXiv preprint arXiv:1904.12584(2019).视觉处理和符号融合的一个里程碑式的框架, NS-CL模型可以把图像场景转化成可以执行的符号化编码, 最后在这个符号表征基础上回答问题。比如我们知道CNN代表的视觉网络是个黑箱, 那么如何让这个黑箱变得可解释?我们可以让CNN网络直接把图像变成一系列可解释的符号 。你可能觉得这不就是region proposal或图像切割? 实际不是的, 因为我们想要得到的符号可以代表一个世界的最小语言体系, 检验它的最好标准是得到的符号能否让我们复原图像。这有点像一个自编码器的概念, 但是比自编码器要更容易解释。为了做到这点,我们可以把解码器替换成一个传统的图像生成引擎, 它本身就是基于人工设定的符号, 只有我的CNN能够输出这样的人工设定的符号, 传统解码器才能work。这样的模型可以得到完全可解释的视觉系统, 在各种需要说明如何work的视觉系统里, 无疑会发挥大用。具体pipeline如下图。/pic/12_2IX01DTnHLSkP4JngowWSQvTJEQLXA.jpg

/pic/13_4g6ia2bQMxQVNIRRDuzwxrO5INSHuw.jpg
有志探讨开发者欢迎加微信TieXu0609相关阅读:因果学习的三个层次
如何让机器学习关系推测
AI的下一个十年

吴斌2020-08-04 11:45:25

很好的文章。 ”那么有什么方法可以从深度学习里得到符合人类认知的符号系统呢?一种方法比较直接, 可以直接把深度学习的output设计成人类已知的符号比如视觉系统里的符号,颜色等,” 我认为这个思路是对的,但是,自编码器等单模型是不能完成整件事的,需要很多很多模型,组成系统,共同完成。如同人类等高级动物,需要很多器官或模块,分工协作,在系统层面,才能完成符号推理等高级功能。

( ^_^ )自由之滨2020-08-04 08:04:07

象征,符号,取类比附。

吸引子2020-08-17 22:31:08

人的学习过程是一个不断更新先验知识的过程,如果不从编码开始,先验知识总结成经验符号,在新事物编码过程中用部分编码加经验符号(同一事物的多模态的符号更好),或者把旧的训练结果与编码过程混合,不知道会不会有惊喜,四大名著往往因为经历的多寡而理解不同

倒帶人生.2020-08-04 13:29:49

有两个问题想请教下: 1. 如何看待Symbolic Representation 和 Compositional Representation之间的关系?两者都需要吗? 2. 不知理解的是否准确,人脑这个复杂系统实现了某种意义上的emergence of compositionality,那么当我们设计一个模型时,比如NS-CL这样的结构,这种transparency 是 emergence of compositionality的必要条件吗?

作者

symbolic就蕴含了compositional ,不然也没有意义了