多余的话借深度网络说说最近发生的几件事

关于刘鑫的事情,我曾经写过一篇明知道不讨喜会找骂的小文-Do not pity the dead. Pity the living,写的是关于这件事有关的一些我觉得有关系的格言。将这些格言组织成一篇有论据,更重要的是有观点,也注定会更讨喜的文, 对我来说一点不难。但我从来都不是为了讨读者的喜欢而写作的,有没有人来读,我根本不care,也别给我说什么媒体和个人写作的区别,都不过只是一个说人话的地方。我在乎的只是我在写作的时候是否有所提高,永远都是写给一俩个人的。

记得曾经的孙志刚还是小悦悦的事件,当年我一个要好的朋友因为这件事很生气,很难受,哭着对我说这世界怎么这样,我不知怎么去安慰。就陪着一起读书,一起查资料,想象我们要为这件事做一期访谈类的节目,类似铿锵三人行吧,我们查了很多的书,比如路西法效应等社会心理学的研究,还有小说和影视作品中的话,以及哲学家关于正义的讨论,后来我们终于不那么生气了。

如今又是一件令我们哭不出声音的事情出现。我觉得关于这件事,是该写点什么的,我喜欢写写新奇的角度,那就按照我熟悉的写起吧。最近看到一个微课,名字是阿尔法元100:0完爆阿尔法狗的给人类的三个启示,说的是人类可以从深度神经网络的架构中能学到些什么。那就照猫画虎,说说从深度学习的角度来看,三颜色这件事该怎么去看。我这里会少谈时事,多讲技术。

所谓学龄前教育,就如同神经网络的参数初始化。任何一个有过实战经验的人,都知道参数初始化的重要性。不止会影响模型收敛的速率,也就是需要花更多的时间,才能够找到一个相对好的解,还会影响模型的泛化能力。举一个极端的例子,如果你对模型初始的参数都设置为一样的值,例如0,那么神经网络就变成了一个确定性的模型,也就是无法在之后的训练数据中,无法学到任何需要用到概率的判断。

那么该怎么对神经网络的参数进行初始化了,常用的有俩种方法,一种是随机给每个权重一个符合均匀分布的数字,比如拿一个公平的骰子,从1到6的数字随机之中选一个。第二种方法是给这些权重随机选择一个符合正态分布,平均为0的数。我没有尝试过,如果给参数初始化时,随机给他们分配一个符合尾巴很肥的幂律分布的随机数会是怎样。可以推算下,对于那些被随机分配到初始权重接近负无穷的点,也许这些点的权重很难通过训练回到他们应有的样子了,这不是稀疏编码,让训练好的神经元随机的失联,而是从一开始就将这些信息丢掉。就假设我们是训练识别猫狗图像的神经网络吧,这意味着有些时候,我们的神经网络会怎么都认不出图中的动物的耳朵在那里,也许缺少了耳朵形状这一个特征,对网络整体的影响并不大。但正如在雪崩时,没有一片雪花是无辜的。但凡涌现的系统,每一个输入的信号,都可能成为那影响飓风的蝴蝶之翼。

接着来说说深度学习的深。为什么深度学习的神经网络需要那么多层了?这个问题的答案,我最初的回答是因为局部感知,也就是先只看整体图景的一个局部,正因为你限制了自己的任务,从而使得你能够更准确的完成你的任务,正如经济学中讲的分工带来效率的突飞猛进,如果每一个辨别能力不那么强的神经元,可以通过较少的训练就能够很好的完成需要整合局部信息的任务,那么通过层次化的管理,例如深度学习中的KPI–交叉熵,那么就可以聚沙成塔,完成复杂的信息整合。

但是后来的我回答这个问题,却会说为什么深度学习需要这么多层,是因为每层的神经元都需要做到权值共享。所谓weight sharing,就是让神经元们有一套普世的价值观,这不止对加快网络的收敛,提高训练的速度很重要,更可以增加模型的泛化能力。若没有了权值共享,那么你以为你身边的人和你有一样的价值观,等到不知什么时候却发现那么对那些你以为天经地义的事情,你们都有着不同的观点,这时你就会发现,网络的深度变得没有多少意义,因为你无法根据自己身处的环境,判定你处于网络中的那一层。

所以我觉得权重共享是比dropout更应该向所有人普及的一个概念,dropout说的是在面对不确定的未来时,通过小的可控的失败来避免大错误,类似反脆弱的概念,而权重共享却关系到我们每一个人该怎么去交流,关于权重共享,我曾写过一篇文 从深度学习中的weight sharing说说共同价值观,可以参考。

接着说一说深度学习中最大的魔鬼,也就是梯度消失和梯度爆炸。先说梯度消失,今天公众号李松蔚发了一篇文不只是被虐的孩子,整个社会都应激障碍了,我觉得应激障碍这个词,很形象的说了梯度爆炸是什么。由错误驱动的学习是一层一层进行的,但学习的过程中使用的信号是上一层错误的偏导数,偏导数是只关注变化的,在一层层的信号传递链,变化被放大,也许只是一件小事,但就如同玩电话传消息的孩子,会将原本的信息扭曲,从而使得即使网络本来有很多层,但深度越深,得到的反馈越少。

只关注变化,这很想《怪诞行为学》中描述的锚定效应,更概括的来说,是人的情绪,就是这样一个短时的偏导运算符,只关注相比别人,你得到了多少。当上海廉价的幼儿园和北京的高价幼儿园依次出事,社会作为一个整体由不得会反应过度。情绪的链式传递,导致了更为关键的信息被忽视,比如长期以来对基础教育尤其是幼儿教育的投入不和法律缺失。不要以为找到了幕后的黑手,就算是深度的思考了。面对每一个都可能会切身面对的社会问题,每一个人都需要拿出创业者的激情来。既然现在幼师的准入门槛还没有明确的规定,以剔除那些本身不喜欢小孩的人,那么能不能通过社交网络中留下的痕迹,通过APP中的行为测试,去识别你孩子的幼儿园老师是不是喜欢孩子。

接着说说梯度消失对应的梯度消失。这里可以看六神磊磊今天发的文 没有中间层的结果,就是直面下层的火力。我们常说米国这二十年来中产阶级消失了,对应到深度学习中,这个问题就是梯度消失。消失的中层,使得哪怕预先优化好的网络结构变成了一张白纸,制度不管用了。

吵闹但无序的底层无法和自以为国师的精英上层对话。你说你拆除违章建筑,是合法合规,就理应如此。而他们则说着要生存,说着自己的孩子已经受了多少不平等的对待。然而若是送快递的小哥和收快递的白领之间能够说几句贴心话,那么这些白领也许能够写出带着感情的文章,写成内参,让更上层的决策者知道自己的每一个决策究竟对于活生生的人意味着什么,那信息的传递就不算脱节。然而若是收快递的白领也人人自危,觉得自己不过是长的肥一些的韭菜,那么我们就说梯度消失了,模型中离输出层越远,能学到的东西越少。

任何社会运都行在一个变化无穷的环境中,整个社会可以看成是一个需要不断优化的神经网络。而面对复杂的环境,本来深层的网络是能够相对更好的应对的。然而,正如做科普的童鞋常常觉得为什么科普这么难,不靠谱的养生神帖那么多。本质的原因不是科普文写的不好,而是由于要学习的网络太深了,而在向中间层的传递过程中,出现了梯度消失。

而解决梯度消失或者梯度下降的一个常用方法,就是批量正则化(batch normalization),也就是在每一层的时候,都对要传递的信号进行一下平移和拉伸,使得他们呈现为平均值为0,符合高斯分布的一组变量。通过批量正则化,网络的每一层都会拿到分布的相似一组信号,这样做的好处是让网络学的更快,同时缓解了梯度消失/爆炸的问题,如果你得到的初始信号不包含上一层的偏见,那么你学习中也没有偏见可以放大或者忽视。

而这需要在神经网络的每一层之间,加上一个专门正则化的处理层。而这正是媒体在一个成熟的社会里应做的事。好的媒体不是1984,那对应的是梯度消失,或者是美丽新世界,那对应的是梯度爆炸。好的媒体用每一层能够听懂的话,去克制的说出,更多的时候是一遍遍的复述普遍共享的价值观和事实。就如同精准饮食,针对每一层的文化背景,去说他们能听懂的话,去讲他们愿意听的故事。

人人都能发声的时代,如果你只是表示情绪,那么你也许贡献的更多是噪音,若你只是想获得关注,那么你传递的更多是别人想要的而不是别人真的需要的,写任何文,我总觉得要做的既是不得不写,又清楚知道自己写的不过是篇多余的话,才算是为自己而写。古之学者为己 今之学者为人,不可不戒。

原创不易,随喜赞赏

/pic/1_vHVmC19a0o7YS03eqTrIL9QJS4wS4w.jpg

更多阅读

Do not pity the dead. Pity the living

人的价值在于提问-读《Human are underrated》

郭瑞东2017-11-25 00:56:29

我是作者,我对批量正则化的理解有问题。需要纠正,不是整体的平移,而是针对每一个神经元的

Captain_GR2017-11-25 09:30:07

抛开具体概念和各种术语定义,我懂笔者想要表达的意思了。喜欢有建设性的意见,至少让人笃信这个世界是有解的。

Alice2017-11-25 00:23:42

读的还是很艰难,但还是尽量去理解怎么不制造噪音,怎么从深入的角度思考事件背后的本质,加强学习

作者

肯定难懂啊,我写的不够好,又想写的多

李嘉乐2017-11-25 08:14:07

好的媒体用每一层能够听懂的话,去克制的说出,更多的时候是一遍遍的复述普遍共享的价值观和事实。就如同精准饮食,针对每一层的文化背景,去说他们能听懂的话,去讲他们愿意听的故事。为这句话点赞

愿意&Run2017-11-26 11:08:50

1人们意识不到是心理疾病的问题导致幼师虐童,但是心理动力的结构上有四种形式上的分别:占比最大的是宣泄,其次是,投射性认同:刺激他人产生你的不愉快情感/冲动化:你用仇恨(也可是吃和性)缓解张力或者不愉快的情感。/把自我批评转变为批评别人:你批评他人,以替代指责自己。将攻击性转向他人。 关键的问题一方面在于对病因的探索,而另一方面,则在于对病情的治愈,方法有二:一是诱导其合理宣泄,二是以治疗师为容器,深度的将其疗愈。 这不光是资金投入的问题,也是一个技术的问题。 2价值观是思维上的意义,是有意义的思维。 3很多时候模糊的准确胜过精确的错误,但有的时候两者是一码事。

Alice2017-11-25 00:46:06

特意去看了李松蔚和六神磊磊的文章,又回来重新看了一遍[呲牙]

LETHALONE2017-11-25 00:22:21

honor the dead,pity the living.

skywalker2018-01-28 18:09:49

我就是我,不一样的烟火。 跟随自己的心,说自己真正想说的话,这可能是难以做到的。那些事故圆滑的人,是会做人,说的做的都是别人喜欢的事情。可是真的对于别人来说那不是最最需要的。反观那些尖锐的人或许做的事说的话才是有利于别人的。

最爱月光白2017-11-26 10:55:37

媒体从业表示能看懂本文,但是,做起来非常非常非常难。试图每一层都能听懂,大概率是梯度爆炸…前两天有个相当克制的同行,隐晦的发了条微博,大意是借以前一个报道,表示调查没深入不要伤及无辜,立刻就有人过来骂。

赵磊2017-11-25 23:17:45

《时代周刊》创立时就是以改写别家新闻起家的 如何定位自己在链条中所处的环节 不是一个简单的问题

逸兴白鹤2017-11-25 22:42:05

现实是其自身最好的表象。

Nancy很忙2017-11-25 07:47:14

所有脑细胞都集中在顶部,还是理解得不够透彻啊

谢殊姝2017-11-25 00:41:56

跳过一些专业流程讲解,大致了解机制,读起来还是很明晰的。谢谢作者,对媒体的理解给我很大启发。

刘祥2017-11-25 00:34:57

仿生学算法,本是模仿自然现象设计出来的算法,作者反过来用这些算法的原理和现象解释社会现象,佩服!(刚开始学习算法,如果措辞不当,请纠正)

南2017-11-25 00:12:48

写的真好赞 1