《Deeplearningrevolution》摘录与自由能假说详解
之前的年度好书(2018人工智能十本好书汇总)中提到过这本书,今天就重点来说说这本书。本书的作者是深度学习的创始人之一,这本书可以说是作者的回忆录,讲述了他几十年学术生涯的经历,包括他和很多著名科学家,例如和发明Mathematica的Walform及发明DNA双螺旋的克拉克共事的经历。书中回溯了人工智能近50年来的发展史,列出了神经网络和人脑的关系,对未来AI广泛应用带来的社会影响进行了讨论,并在书的结尾探讨了生命,意识与智能的关系这个偏哲学的问题。本文将按顺序摘录书中一些有趣的新知与观点,更多内容,可以去原书查看。
1)弗林效应,深度学习让人类更加智能。
智力分为晶体智力和流体智力,不同智力随年龄变化的趋势不同,流体智力遵循抛物线式的发展,晶体智力则随着年龄缓慢增高。AlphaGo在一个狭窄的领域同时展现出晶体和流体智力,同时表现出令人惊异的创造力。弗林效应指全人类平均智商每十年上升3个点,该趋势为什么会发生,能否在未来持续,本书认为深度学习的普及在未来可以通过改善学习的体验来提升特定行业人的智能,例如之前要成为国际象棋大师需要在大城市,这样才有好老师,但国际象棋的AI让来自挪威小镇的13岁少年也能成为国际象棋大师。
2)独立分量分析ICA
上图展示了PCA和ICA的不同,PCA找到的坐标轴总是垂直的,而ICA找到沿点方向伸展的轴,来表示分离的信号,这些信号可能是不垂直的。ICA作为无监督学习的一种,被用于数千个场景,包括音频信号中去掉噪声,去除脑电及frmi中的噪声。而该方法来自大脑中的稀疏性编码,视网膜中的视觉信号的紧凑编码,在皮层中被扩展为高度分布且高度稀疏的新编码,从而使得只需要其中一小部分就能重建原图像中的任意给定区域。通过稀疏编码,可以减少自然场景中的冗余,更有效的传递图像中的信息,从而最大限度的提升网络传递的信息量。
3)dropout 正则化与大脑中皮层突触失活的相似。
作为常用的正则化技术,dropout会随机的删除神经网络在的部分人工神经元。而大脑中典型的兴奋性突触有90%的失败率,但当每个神经元存在数千个突触时,大树定理决定了每个神经元活动总和的偏差较低,这意味着每个神经元的性能不会有大规模的下降,而突触需要消耗大量的能量,大脑中神经元的失活可以节省能量。
4)视觉皮层和卷积网络
深度学习的一个优点是我们可以从网络中的每个单元提取记录,并追踪信息流从一层到另一层的转变,然后可以将分析这种网络的策略用于分析大脑中的神经元。深度学习中每层神经元的统计特性,与皮层层次结构中的每层神经元的非常接近。卷积网络的每一个性能改进,其背后都有工程师可以理解的计算理由,但有了这些变化,网络越来越接近神经科学发现的视皮层体系结构。例如对视觉层次结构的上层分类表面的分解,决策表面比下面层次的表面更平坦,这类似于卷积神经网络中高层的神经的差异较小。
5)神经元的稳态的缩放
突触可塑性的一个特别重要的形式上稳态(homeostasis),以确保神经元将活动水平保持在其最佳动态范围内。当突触强度降低到零或达到极限时,神经元可能永远无法获得足够的输入来达到阀值,或者接收太多的输入并始终保持高水平的活动。而对所有神经元的突触整体进行归一化,可以维持神经元活动的平衡。如平均活动速率过高,所有兴奋性突触的强度都减少,抑制性突触的强度增加。而在深度学习中,梯度爆炸/消失与上述的大脑中的突触强度过大/小类似,且由于随机梯度下降也会带来不同维度变化率不一致的问题,从而需要通过批量正则化来解决。稳态缩放和神经网络中训练技巧的对应,再一次展现了神经科学和深度学习之间存在相得益彰的共生关系。
6)算法空间与Wolfram‘s law
想象一个充满了所有算法的空间,这个空间中的每个点是一个可以完成对应任务的算法,其中有些是有用且高效的。之前这些算法是手工创作的。而Wolfram根据对元细胞自动机的统计,发现在算法空间中不必手术很长一段路径,就能找到解决一类有趣问题的算法。这意味着对于一个问题,算法空间中存在大量有效的解法。在神经网络的空间中,也发现其符合Wolfram定律,而之前读过的《适者降临》则推测在进化中也存在类似的结构。算法空间中存在众多效果相同的解,这带来一个问题,是否存在一种比梯度下降更快的方式需要数据量更小的方式去找到这种解。一种可以借鉴的是生物进化中的间断性平衡,通过偶然的跳跃性的剧变加上每个物种基于随机误差的局部搜索,从而在不同类型间的个体中探寻未知的边界。
7)神经形态芯片
不同于谷歌的TPU或者麒麟的NPU,神经形态芯片可以用来模拟人脑中神经元突触连接与放电脉冲,其中处理的是连续的而不是离散的信号。这使得神经形态芯片的能耗显著降低。在未来摩尔定律注定会遇到物理定律的限制而失效时,神经形态芯片的发展值得关注。
8)自然界中的损失函数是什么?
深度学习取决于对一个损失函数的优化,而在自然界中,不同的网络中,例如基因网络,代谢网络,免疫网络,神经网络,社交网络,食物链网络中各自有着怎样的损失函数了,这些不同的损失函数的背后是否存在一个通用的模式,从而导致了不同约束条件下的多样性了?这是这本书最后几张提出的问题。
针对这个问题,简单说说我最近看的一篇综述,其中对这个问题作出了自己的回答,虽然作者的解释有一些宽泛,但还是有一些道理的。
自由能在之前的文章讲述过(机器学习是怎么巧妙揭开大脑工作原理的),说的是内外之间的差别。任何一个动态的有生计的存在,都要和外界环境打交道,外界环境不会是固定的,而有生命的个体,在其内部要保持相对的稳态,对于一个细胞是这样,对于一个器官,一个生物,一个生态系统也是这样。为了保持内在的稳态,可以未来进行预测,也可以选择性的采样,就是选择待在那些对维持自己稳态友好的坏境在。对于大脑来说,选择的是第一条路,即预测误差的最小化,而对于癌细胞来说,则是通过改变周围的环境来让自己更容易保持稳态。所谓自由能是热力学中的一个概念,说的是系统减少的内能中可以转化为对外做功的部分。自由能的最小化之所以可能是所有有生命的网络都需要优化的损失函数,正是由于有生物的东西积聚能量不易,因此要避免将其消耗在对外做功上。
从自由能的角度来看,生物体为何能维持负熵,在于在每一个尺度上,通过进化,以降低自由能为目标,都找到了维持相对稳态的方法,由于算法空间中有众多可行的解法,从而导致了生物的多样性。
对于个人来说,自由能理论也不止是智识上的游戏,文中指出了俩种减少自由能的方法,一种是通过行动带降低意外的最大值,另一种是扩大你认知的范围,让你能够看到更多。比如你在一家企业工作,你和企业组成的整体之间就存在着自由能,这包括企业解雇给你带来的冲击,长期在一家企业工作带来技能退化,企业中流行的习惯给你带来的伤害(例如长时间的加班或者推卸责任),所有这些都是你要避免的。类似的,选择和谁构建家庭,也可以从自由能的角度去思考,要使组成的家庭中的自由能最小,首先要确定家庭中会出现那些意外,是个人三观,还是成长背景,经济地位的,在想想该如何通过改变认知及行动的模式(习惯)来降低自由能,从而使家庭稳定。
总结一下,本文摘录了《深度学习》这本书中的一些精彩内容,展示了这本书的内容的深度与广度,整本书围绕作者(美国四大国家学院(国家科学院、国家医学院、国家工程院、国家艺术与科学学院四院院士)的个人经历展开。文末针对书中提出的问题,结合最近读到的文献,给出了回答,并结合实际生活,指出我们该如何理解并应用自由能最小化的假说。我们的大脑有分层推理的功能,并由此模拟世界的因果顺序从而减少预测误差。大脑通过模拟因果顺序,试图揭露和解释自己输入的感觉信息,努力维持在预测误差最小的状态,而人工智能模拟因果顺序和最小化预测误差是有条件的,这也指出了当前的人工智能和通用智能之间的差距。通用智能来自于简单媒介之间的相互作用,通过对具体问题的深入了解,可以为更综合的理论铺平道理,从而对自然界中的损失函数是什么给出一个比自由能更普世的解答。