从深度学习中的weightsharing说说共同价值观
本来这篇小文的题目是“我们能从深度学习中学到什么生活中的道理?”,但其实我这里只想谈一个问题,那就不要标题党了,学学人家物种起源的起名方式,只追求说清楚要讲的是什么,不管这会不会吸引到更多的点击。
去年曾有一本书“Algorithm to live by”,讲的是我们能从计算机的算法里学到那些可以用来指导我们生活中的决策,例如如何进行任务管理,如何选择终身伴侣等,关于这本书,可以参考用算法背后的道理指导自己生活中的决策这篇文章,而这里想讲讲深度学习中的一个技巧—weight sharing,以及这个技巧背后的逻辑在那些地方也是变通下依然适用。
上图描述的是一个神经网络中的一个神经元,神经网络中每一个模拟的神经元最终在完成学习后,都包含一个权重(weight),权重表明了这个神经元重视那些输入节点的信息,又不怎么在意那些输入节点的信息。而卷积神经网络(CNN)中,就是将待处理的信息,例如图片滑动切割成很多份,每一份先经过一层模拟神经元的处理,再将上一层处理后得到的特征标签作为下一层的输入再去进行更高抽象层次上的信息整合。
以上是简单的背景介绍,感兴趣的可以去看之前的文章用CNN来识别鸟or飞机的图像。在CNN卷积神经网络之中,每一个底层的神经元要做的事情其实是相似的,都是要识别基本的形状,比如直线,曲线,锐角,钝角等。既然这样,那不妨要求这些底层的神经元在学习后的具有相同的权重。这样做可以通过减少需要学习的变量的方法来加快学习的速度,还可以提高学习后的神经网络的泛化能力,使得学到的神经网络能够适合之前没有见过的情景上。而这就是所谓的weight sharing。
Weight sharing 背后的哲学是复用的观念,类似于函数式编程中的高阶函数。如果你不懂高阶函数,没关系,接下来的内容保证不出现计算机领域的术语了。就如同如果一个函数本身是有用的,那么其在其他地方也应该是适用的。Weight sharing通过限制,使得神经网络在处理基础概念的底层学习时学到那些通用的普世的概念,从而简化学习的过程。正如复用函数减少的代码的复杂度,对权重的复用也可以使的神经网络变得更为健壮,使得神经网络可以在全新的场景中也表现出相同的准确性。
可是这和我们的生活有什么关系了?问问历史课本,为什么要称赞秦始皇搞得同书同文车同轴吧;或者问问标准化组织,推行同一套度量衡,对促进全球的贸易和交通有多大的助益。只有在一些基本的问题上达成共识,这个社会才可以合力处理一些更复杂的问题。那些简单的问题,类似于卷积神经网络中底层的神经元,而标准化运动和weight sharing,则有着异曲同工之妙。
不止是度量长度,我们的思想交流中也需要标准化。我们看到那些一篇文章中包含着一摞能维基出的名人,就以为这样的文章实在牛。这样的行为,和那些看到名校教授的头衔,就对其所说的话就不假思索相信的人,不过是五十步笑百步。真正看懂了某某牛人思想的人,写文章时不必在文章中列出人名来,明眼人能看出其文章受到了这些大师的影响,然后看到文章后的致谢或者引用列表,会心一笑。没有看过这些大师的人,也不会因为这些大师本来的表述习惯和时代限制而晦涩难懂,写作者自会加入自己的理解和批判,使得这些永恒的思想获得当下语境中的恰如其分的阐释。
在和更广大的听众交流观点,分享知识的过程中。Weight sharing指导我们不要说一堆只有内行能听懂的词。唐诗中我最喜欢的王维,白居易的诗,都是通俗易懂的,没有那么多生僻的字,也不堆砌典故。文章合为时而著,歌诗合为事而作。发生了事情,有不得不说的话,用一个新颖的角度讲想说出的话简单明了的表达出来就好。写文章不是炫耀学识,而是夯实共同交流的基础。
2007年一个寒冷的上午,在华盛顿特区的一个地铁站里,一位男子用一把小提琴演奏了6首巴赫的作品,共演奏了45分钟左右。他前面的地上,放着一顶口子朝上的帽子。显然,这是一位街头卖艺人。没有人知道,这位在地铁里卖艺的小提琴手,是约夏·贝尔,世界上最伟大的音乐家之一。他演奏的是一首世上最复杂的作品,用的是一把价值350万美元的小提琴。 在约夏·贝尔演奏的45分钟里,大约有2000人从这个地铁站经过。
这个故事其实说明了我们大多数人对人名,穿着这些看似是身外之物的东西其实是很看重的。有了这样的认识,我们也就理解了为什么有的人写文章办讲座会喜欢用新创出的词语,或者一些看似深奥的术语,这和用名人光环为自己加持是差不多的。我们理解了人脑里普遍存在的这类essential bias,就不会那么言辞激烈的将那些习惯说生僻词,梗English,或者满口诺奖得主如何如何的人称为装逼犯了。你理解了他们为什么这么做,理解了他们这么做在什么情况下有效,你就变得包容了,这或许就是孔子说的耳顺吧。
等等,你刚写了essential bias,这个词我看不懂,你这不是自己打脸吗?没错,任何规矩都是要有特例来打破的,不然这一定是世界上最坏的规矩。当你觉得你有信心讲清楚一个概念,并且这个概念本身很有用时,可以引入这样的词,但千万不能太多或太密集。essential bias词来自于一本叫《How pleasure work》的书,我之后的文中会写到。这样的解释还是无助于你们理解这个词的意思,那就把它拆开。essential就是本质的意思,bias指偏见,连起来指我们看东西的时候只看我们能理解的东西,然后将其看成是能够解释事情发生原因的本质因素,而忽略其他因素的倾向。
比如在上述的故事里,我们不在乎小提琴拉的是不是好,而在乎的是拉小提琴的人是谁,他在那里拉的。就如同两幅画,你不借助专业的仪器,根本分不出真伪,但是真的画就是要比伪作贵上数十倍。将这个心理上的倾向推广起来,可以用一个更广泛的概念来解释,基本归因错误。即人们在对发生的事情归因时,会忽视环境文化当时的具体情景等复杂因素的影响,而直接将事情因何发生解释为受到某些少数当事人个性的影响。例如用名人的个性来解释历史的发展。我们在阅读时,在意作者是否有名,在意作者是否再说一些我们听不懂但听起来很厉害的词,其实也在不知觉的受到基本归因错误的影响,我们以为作者的头衔,用词就代表了这篇文章的本质,而不是注意这篇文章本身说的有没有价值。
然而这样的价值观,注定是无法通用的,己所不欲,勿施于人。你自己不喜欢读那些你读不懂的文章,就不要写这种文,只有抱持这样的观念,才能够普世。自媒体时代的每个人,都如同神经网络中的一个神经元,需要向周围的同伴传递经过你处理后的世界图景,如果大家说起话来都即同鸭讲,那自然没法交流,可是如果你说的别人没有经过怀疑就信了,那么整个社会这个神经网络的表现就会很不稳定。既然大多数人都只是处理自己一亩三分地上的信息,那最好我们能有着相同的常识作为知识上的共同公约数,让之后的交流可以拿着我们都认可的知识作为起点。还要有一些每个人都认可的底线作为价值观上的最小公倍数,不管更高阶的价值有多么的南辕北辙,可讨论起底线,每个人都能有一样的声音。
总结一下今天想说的几句话:
1 大多数人看人喜欢看一个人的头衔,看文章喜欢看一篇文章是否深刻,看事情喜欢看其中最显眼的人,这些都可以用基本归因错误解释。
2 让社会中尽可能多的人具有相同的常识和普世价值观,哪怕这些很精简很基础,对保持社会的稳定以及其应对复杂的调整必不可少。
3 在底层的信息处理上,标准化和通用的规则能够为更高抽象层次的信息整合提供基础。
PS 这篇文构思的时候想举黛玉教香菱作诗的例子,黛玉没有一开始就拿一堆“诗品”,“文心雕龙”来叫香菱读。还想举小龙女教杨过轻功的例子,没有背口诀,而是抓麻雀。当你理解了一个学问,你就不必按照它原来的样子去教,而可以去因材施教。但因为和这篇文的主题关系不大,修改时删去了。
原创不易,随喜赞赏
扩展阅读
博希2017-06-23 09:32:31
蛤?…我觉得有些时候价值观不是简简单单的嘴上说说纸上写写,可能人世没有想的那么简单,比如某些大师的用词,你说不是用词好,那么诗人不就是用词精妙么,怎么就艰涩了,计算机可能要有共同的语言,但是精妙的设计跟之前那个词语我觉得是一样的吧..就粗浅的看法,把所有都介于什么普世价值观,也把大师想的有点太轻了吧。拙见,不必放在心上
关鑫2017-06-23 03:34:13
人脑很懒啊,懒得启动慢思考。让别人相信自己,可以用充分的理由说明,也可以拉一个权威,后者更节省能源。但是这个策略要分目标,说服另一个权威或多疑的人,最好有充分理由。对我来说,看不需要思考的养生类知识,信丁香系就好了嘛。
mia2017-06-22 23:17:16
超赞。和我共鸣不已
愿意&Run2017-11-10 16:01:12
人们需要共同语言,协议领域———— 自媒体时代的每个人,都如同神经网络中的一个神经元,需要向周围的同伴传递经过你处理后的世界图景,如果大家说起话来都即同鸭讲,那自然没法交流,可是如果你说的别人没有经过怀疑就信了,那么整个社会这个神经网络的表现就会很不稳定。既然大多数人都只是处理自己一亩三分地上的信息,那最好我们能有着相同的常识作为知识上的共同公约数,让之后的交流可以拿着我们都认可的知识作为起点。还要有一些每个人都认可的底线作为价值观上的最小公倍数,不管更高阶的价值有多么的南辕北辙,可讨论起底线,每个人都能有一样的声音。
lvyesa2017-06-23 12:37:50
赞同。。。觉得好文章应该普众,而不应该太深奥