论文速读-让神经网络懂得黄金法则

己所不欲,勿施于人,这被称为道德中的黄金法则(Golden Rule),随着强化学习变得越来越复杂,和现实世界的嵌入越来越加深,人们对走火入魔的AI的安全性变得越发担心,7月26号新出的一篇论文,在传统的深度强化学习方式Deep Q-learning的基础上,提出了有同情心的DQN(Deep Q network)这一新的范式,通过在强化学习中引入黄金法则,让智能体(agent)学会避免自己短视的行为给其他智能体带来的伤害,从而在一个需要多个智能体共存的环境中,通过构筑对其他智能体的收益的想象(心智模型),来平衡个体的收益和与其他智能体合作带来的收益。带有同情心的强化学习,对于将强化学习引入到实际应用场景中,有借鉴意义,对于构建有道德感的AI,是重要的第一步。

/pic/1_ajblD5uUcSXWdZiaBoroKEvyXor3vg.jpg

强化学习的核心目标是学会奖励函数,也就是在一个特定的环境中,一个行为会带来多少奖励或者惩罚,然而,当智能体需要和其他智能体或者人类共存时,往往很难事先设定那些行为是会给其他智能体带来负面的外部效应的,而解决该问题的方式是让智能体模仿人类,具有同情心。例如人类看到走在钢丝上的人,会感受到恐惧,尽管Ta自身并没有处在危险的环境中,类比机器人,如果机器人学到了从高处掉下来会对自己造成伤害,那么其也要能学到不应该把其他的智能体从高处推下来。

该文的最关键的创新点是:the value of a given state with the value of constructed states simulating what the learning agent would experience if its position were switched with another agent,也就是智能体在学习自己行为的奖励时,会利用自己当前的估值网络去评价如果自己处在其他智能体的位置时会发生什么,之后通过一个参数(自私指数),来调控估值网络中对自己受益和预估的他人收益所占的比重,当自私指数为1时,就是传统的深度Q-learning,算法的具体步骤如下:

  1. 对当前所有可能的行动进行估值,从中选出价值最高的那个a
  2. 观察下一时刻s+1该行动带来的奖励
  3. 对于特定的Q(s,a)进行梯度下降,更新网络的参数,该步骤反映了模型自私的部分
  4. 对其他智能体定位,之后假设和这些智能体交换位置,考虑对应智能体在时刻s时的状态
  5. 预估其他智能体在本智能体采取行动a的时候,会有怎样的奖励
  6. 根据自私系数(selfishness parameter β),对第五步和第三步得出的估值函数进行加权平均
  7. 根据加权平均后的估值函数,在对神经网络中的参数进行梯度下降

对比传统的DQN(下图所示),增加的主要的第四步和第五步,以及引入自私系数,在更复杂的情况下,可以针对不同的智能体,或者根据智能体的状态或和自己的相似度,对不同的智能体给予不同的beta值,从而代表同情心的“亲疏有别”,以适应真实环境中的复杂场景。

/pic/2_tnZPX3LCNib7BPjlyMxJYAiabw8htA.png

之后看具体的例子,虽然只是toy example,但也可以看出通过调节自私系数,可以控制智能体和其他智能体共存及协作的能力。

在模拟实验中,智能体在如下图所示的格子中,其目标是获得电池,图中的绿色代表人类,其特点是始终通过随机游走的方式来寻找电池,智能体的奖励是边际递减的,即第一个找到的电池带来1.0的收益,第二个0.9的收益,第三个0.8,以此类推,红色的框框代表智能体的感受域。

/pic/3_FInyS7iapiapy5o29D03YjWjr1T8hA.jpg

在上述的设定中,一个懂得黄金法则的智能体学会不会把所有的电池都据为己有,而下图的实践结果表明,相比于传统的deep Q learning(蓝色线条),当自私指数降低之后,智能体学会了自己不拿走那么多的电池,而当智能体的自私指数低于0.5时,智能体经过40000次训练后学会的是只拿走2-3个电池,真正是做到了先人后己。图中的浅蓝色代表手动修改估值函数,对不平均的分配增加惩罚项,与hard coding的方式相比,有同情心的神经网络能够根据不同的自私指数,动态调整,同时学到电池的边际收益递减这一环境中的特征。

/pic/4_fEzKhLVdNzvSQsCLQiaNDicswYKSTQ.jpg

如果将上图中的竖轴换成平均指数,即2倍的人或机器从开始到当前所有时刻的奖励的最小值和俩者之和的比值,可以看出下图所示,当自私指数为0.5时(对自己和其他智能体的收益有同样的偏好),相比手动修改估值函数,有同情心的DQN能够在一开始就让平均指数保持在较高值,并在训练结束时持续让智能体在资源获取时更加注重公平。

/pic/5_fRqn1favm4Vg9GqWp7lbMNMhPWV06w.jpg

/pic/6_n3sLibFrZXicwu4IibmW4ybfrwoqyw.jpg

除了让智能体更好的合作,有同情心的DQN还和智能体的内在动机有关,当模型要面对的状态空间很大,奖励很稀疏时,通过引入同情心,可以让智能体更多的去探索陌生的环境,从而当自己在面临类似环境时,能够提前有所准备,当其他智能体学到很有效的策略时,同情心的引入也可以让智能体能够不必自身亲自经历,即学到该策略。

在现实场景中应用有同情心的DQN时,除了构建成熟的检测和推算其他智能体状态的流程,最需要考虑的是不同的智能体可能有不同的目标和制约条件,即己之蜜糖,彼之砒霜,如何让智能体在最少的手动输入的前提下,学到不同的行为对自己和对他人的奖励是不同的,是进一步研究的重点。人类的小孩如何学会灵活的展示自己的同情心的过程,可以对此提供启示。

一句话总结:本文提供对强化学习进行改进的新范式,有助于AI伦理,AI安全的研究,对合作环境下的强化学习的应用也有所启发。

更多阅读

论文速读:理解强AI的恐惧与希望的四个维度

如何让有监督学习变得有解释性

吸引子2019-07-29 07:24:01

AI对于人有利他行为和自我牺牲就更好了