强化学习书籍与课程推荐

人工智能有关决策的核心是强化学习。让机器来决策,首先体现在如何模仿人类的决策。对于决策这个问题, 对于人类是困难的, 对于机器就更难。而强化学习, 就是一套如何学习决策的方法论。当下的强化学习逐步过渡到深度强化学习主导的时代, 从打游戏,逐步向机器人,无人驾驶等领域扩散。

然而强化学习的入门门槛却比其它人工智能领域要高,其中一个原因是强化学习课程不像深度学习和机器学习一样琳琅满目, 铁哥在此给大家推荐几个经典的强化学习课程和书籍。

经典书籍:

由于这是一个80年代才发展起来的新兴学科,其经典著作也非常稀少。如果硬要推一本, 那首推Rechard Sutton的强化学习经典书籍, 首先Rechard老爷子是强化学习的发明人, 这也就为Reinforcement Learning: An Introduction. 这本书从强化学习是什么开始引入,然后把内容分为表格化方法(Tabular method), 近似方法(Apporximative method) 和 强化学习前沿(主要讲解强化学习和心理学的关系)三个方面。而Tabular method又是其中最大的一块。所谓的Tabular方法,指的是在任务的所有状态都已知的情况下,强化学习问题等同为一个把每个状态的未来收益都列出来的状态表, 唯一要做的就是把表里的每个数值都通过各种不同的经历都列出来。

这个写法的根基在于Sutton老人家的得意之作在于TD学习的方法, 这种利用迭代方法boostrap对未来收益的估计的方法特别好体现在表格方法里,后面的TD-lambda等高阶的TD方法也在这里一并讲出。表格化方法还有一个优点是容易引入动态规划(dynamic programming)的整体框架, 这是人工智能领域比较少见的非常优雅成系统的数学方法。

然而本书毕竟成书较早, 虽然理论功底十分扎实, 但是对强化学习当下的应用, 尤其是深度强化学习, 涉猎较少, 对于学以致用的中国学生显然无法满足要求。因此这本书只建议作为基础入门之选,可以让你从根上熟悉强化学习理论是怎么一步步生长出来的。

以下推荐经典课程:

1, Deepmind 强化学习课程系列

Deepmind的课程高度尊重了Sutton书籍的经典性, 可谓是其书籍的现代版。这个课程偏向强化学习的理论框架搭建,应该说比较好的延续了Rechard Sutton偏向于值学习为基础的框架,甚至可以看作Sutton书籍的视频版 。本书从强化学习的基本概念入手,引入值函数, 引入TD学习 和蒙特卡洛抽样学习逐层引入强化学习的基本概念,因此课程的理论框架偏向于值函数学习这一套, 这也是和Sutton最初的框架一脉相承。

Deepmind采用这样的课程体系也不难理解, 因为Deepmind 在强化学习的第一桶金深度强化学习攻克Atari game就是DQN(深度Q学习)的巨大功劳, 值学习和值函数学习在状态给定清晰的游戏里也具有最高的效率。

课程优点是理论框架和数学推导极为扎实,而且讲解和比喻非常清晰有趣, 缺点是实践性内容比较依然稀缺, 当然你可以去Deepmind的网页查找论文和对应的github。DeepMind课程在Youtube上可以找到两个不同的品种,一个是David Silver亲自讲的,一个是更年轻的教授的较新版本,两个课程事实上非常相似。

Deepmind的课程缺少实践的内容本身也和其公司注重打游戏而非把算法用在工业实践有关, 而另一个课程则可以看成极好的对其补充。

2,Berkeley· deep RL 285

这个课程较少为人所知, 但是确是一个真正的干货满满的深度强化学习课程。它的内容一开始就跳开了Sutton老爷子的动态规划框架,而是从一个更接地气的角度模仿学习入手。一开始学生就可以接触到自动驾驶这样的非常实际的问题, 这和Berkeley在机器人领域功底深厚密不可分。因此如果你喜欢研究深度强化学习的偏实践问题, 那么我强烈推荐这个课程。

从理论上看有意思的是, 它的介绍角度偏向于policy gradient作为框架的基础。课程一开始以模仿学习引入, 然后指出模仿学习的不足, 无法轻易的泛化到人类经验之外,从而开始引入学习策略和策略梯度,以及最核心的Actor-Critic算法。而在所有其它教材里浓墨重彩的值学习方法, 却仅仅是作为Actor-Critic一个去掉Actor的特例讲解。这与工业控制领域更多依靠策略梯度而很难应用值函数法是密切相关的(因为工业领域一般面对较为连续的动作空间,比如机器手的移动)。同时这个课程最大的优势在于引入了元强化学习,分布式强化学习, 多任务学习, 生成式模型等领域前沿概念,仅仅看课表就可以感受到其内容之新颖。

这个课程的主讲人是Sergey Levine, 也是这个领域的前沿研究者。

/pic/1_wDfDCAlMyGOIsSiahLJfGp65ywcGOA.jpg作为总结补上强化学习的学科地图。我们看到解决一般性的强化学习有两大不同的流派,一个叫做策略优化(左),旨在利用策略梯度直接优化行为,得到最后的奖励。一个叫做动态规划(右), 旨在通过假定存在一个马尔可夫状态链,迭代式的求解每个状态下的未来收益,侧重先评估再改进行为。Deepmind的书籍课可以看作从右向左的过程, 而伯克利的课程则是从左向右。经典的理论注重从右向左, 当下强化学习实践注重从左向右, 此处就是其关键所在。

/pic/2_axNYdXL5IEJicj192fghBvEu7xn7Bw.jpg最后分享一个铁哥3月30号的 live 讲座 ICLR论文看脑科学如何助力人工智能:

ICLR论文看脑科学如何助力人工智能www.zhihu.com/pic/3_8YRJ7juo9W6iaBpvXic4xlYQZxwOKg.jpg

从中你可以了解如何用强化学习构建一个适应各种不同环境任务的导航系统,制造一个“聪明”的人工小鼠。

更多阅读

铁哥知乎live讲座-从导航看AI的未来

站在AI与神经科学交叉点上的强化学习

多巴胺引领下的分布式强化学习

曾子恒2020-03-23 13:25:55

铁哥[爱心][爱心][爱心]