通过神经场景预测看生成式模型的潜力

这一篇文章我们将了解机器学习的一大类问题,即生成模式。对于人工智能基础理论比较熟悉的同学都知道机器学习模型分为判别式和生成式模型两个范式。判别式模型典型的如各种分类器, 所做的事情是一个函数映射,从一个输入信息上得到0,1 这样的分类结果。而生成式模式的本质是得到一个概率分布函数,通过抽样可以得到新的没有见过的完整数据,比如你给模型学习一堆人脸, 它不仅可以判断是不是人脸,还可以输出一张它没见过的人脸。当下技术的主流, 是判别式的模型,因为它们简单直接,学习效率高,可以直接给人们提供比如人脸识别,疾病检测这样的实用功能。然而生成模型却代表了AI的未来 ,因为它真正考验模型对世界的“理解”, 所谓真正的理解就是你能自己造出来, 能够生成一张脸的模型,显然比能够判别一张照片是否是人脸的模型更懂人脸。而生成模型非常实际的意义,是它可以帮助我们把积累的海量无标注数据利用起来,也就是我们通常说的无监督预训练。因为在生成类任务里,神经网络无需提供标注数据,而是可以使用大量未标注的数据,比如行车记录仪记下的视频,你只需要把视频切割成无数帧,每一次根据过去的历史预测下一帧就可以预训练网络,为后续任务提供基础。这种预测性的学习, 被Yan Lecun 称为自监督学习, 被认为是利用真实世界的海量数据,自主学习知识的最有前景框架。而一类最典型的生成问题,是刚刚提到的视频或场景预测, 也就是模型看着一连串发生的场景,预测下一刻会发生什么,或者根据在同一场景下的不同角度画面, 预测一些未知角度的画面。要知道这体现了大脑最重要的工作原理, 预测编码原理, 我们自己时刻不停的预测未来会发生什么, 是我们智慧的本本源。同时, 它也是具备高难度的任务, 当你转过一个角度看物体, 它会变成什么样, 这体现了你对空间远近,透视, 物体的连续和分割,都要有较好的理解。也就是说, 当你学会了预测, 就掌握了真实世界的规则。生成式模型最经典的工作莫过于自编码器如著名的变分自编码器VAE,以及这几年十分火爆的GAN, 对抗生成网络。然而其想象力却远不止此, 以下, 我就介绍一篇Science 论文,来说明一个这类任务的鲜活实例。
/pic/7_tOewjd6DmbiamTUr9EHLJWTaaicJxQ.jpg
为了进一步验证这一点,我们可以分析神经网络的表示。通过TSNE的分析,我们可以看到GQN对不同场景的聚类效果远好于VAE, 也就是说GQN学到了不同场景的本质, 而不是在一个平均化的模板上对每个特定场景修修补补(VAE无法分出不同场景)。/pic/9_a4UycDdV00a8W8y4BCcXKEU9p8mUIA.jpg
那么学习到的表示除了预测生成未见过的图像,还有什么应用吗?在文章开头讲过,这些学到的表示正是后续任务,尤其是强化学习任务的基础!因为通过这种无监督学习,神经网络已经掌握了这个世界的几何,物理知识,因此在做相关任务时候更加得心应手,如在刚刚的场景预训练过的GQN紧接着进行深度强化学习控制一个机器手, 我们会发现经过预训练的网络(下面右图蓝线)比起没有经过的好了一大块。这说明因为预训练,我们获得了关键性的先验知识!(Inductive bias) 。你还记得Yan Lecun的蛋糕的比喻吗?强化学习是蛋糕上的樱桃,监督学习是蛋糕的奶花, 而无监督学习是蛋糕的真正实体!那么这三部分显然不是孤立的, 生成式的预测任务, 使得蛋糕的实体被开发出来, 从而摘到樱桃不再困难!
/pic/12_PFxV9FJ071mHa4jhqK86HUttjtibIg.jpg
其它有趣的预测生成模型:VAE-GAN: VAE和GAN是经典生成模式的两大家族, 应该说两者在使用上各有千秋, 自编码器VAE善于寻找不同数据背后其支配性的隐变量, 可解释性好, 但是生成效果往往比较模糊。而GAN反过来, 比较黑箱难以解释, 但是生成效果好 。VAE-GAN试图把两大家的优势结合在一起,先构建一个VAE, 再把VAE生成的图象进入一个GAN的结构里, 与真实图象比对,用一个判别式分辨真伪。/pic/13_icqrX4fvvQrEHfia1kBDhRngNKVdwQ.jpg

/pic/14_zuX8drfMHzPQ4QUA7lxhanrUMowj1Q.jpg
VAE-GAN的核心主要体现在其loss function里,同时包含了VAE和GAN的loss。/pic/17_hnRbI1HsWYgvShdVg5M6JyPhWsev4w.jpg这个看似复杂的模型其实有一个非常基本的假设, 那就是每一层的输出都在尽可能的预测上一层的输入,大脑每一个模块无论抽象层次高低都执行预测编码(背后的计算原理相似)。既然是预测, 就一定要包含对过去的记忆, 因此就包含了一个LSTM网络模拟这种记忆, 同时,既然是一个层级化的网络, 我们要对信息进行一级级的抽象,这个工作是由CNN完成的, 因此每个层次就都包含了CNN对特征进行处理和LSTM对信息进行记忆。每一层接受上一层的输入同时也将自己的输出和预测误差回传给上一层,使得学习变得更加可行。最终这个模型可以实现State of the art的视频预测性能。这个模型内部生成的表示可以直接和视皮层的神经活动进行对比, 呈现出有趣的相似性。生成式模型和预测试编码结合的AI前景是无限的, 因为它可以源源不断的利用日常生活的海量数据, 真正实现自主式的学习。对于AI真正掌握数据冰山背后真实物理世界的规律,意义巨大。这样得到的预训练模型,可能掌握对后续AI任务关键的先验知识,从而成为构建更强大AI的基础。也希望更多的同学可以关注到这一领域。最后分享一个铁哥3月30号的 live 讲座 ICLR论文看脑科学如何助力人工智能:
铁哥知乎live讲座-从导航看AI的未来
从中你可以了解如何用强化学习构建一个适应各种不同环境任务的导航系统,制造一个“聪明”的人工小鼠。

更多阅读从神经网络和强化学习的角度来看人类的决策系统

海马体启发下的类脑人工智能
4种不同的记忆及记忆的本质

阅读原文