人工智能大潮下的UI设计(二)
在上一篇中,我们说道 *所以要了解人工智能之前先要了解人类智能本身。*而在本篇将会解释人的智能和人工智能的神经科学基础,揣测其可以给设计带来的影响。
要理解智能,必须要明白为什么需要智能?世界的信息是无穷无尽的,因此生命在于环境的交流中需要筛除不需要的或者冗余的信息,以保证其生成的效率。不同物种的生物在感官层面向着不同的方向演化,以利于其生存,有的动物天生弱视如蝙蝠,却可以依赖超声定位,有的天生色盲,却有超群的夜间视力,如肉食哺乳动物。无限的信息与有限的信息处理能力的博弈就是动物神经系统演化的结果。
在先前几章中我们可以看到的一些例子正是人类视觉系统对信息进行优化处理的结果,如阿恩海姆的回忆图形实验、中国鱼纹的演化过程、字母演化的过程。
1、公元前1800年左右恐怖谷铭文
2、约公元前1750年刻写于西奈的一份早期闪米特铭文
3、公元前1000年,腓尼基字母中的aleph
4、公元前800年前后,腓尼基字母中的aleph
1、同上,公元前800年前后腓尼基字母中的aleph
2、公元前740年左右的希腊alpha,现存最古老的希腊铭文
3、希腊铭文,公元前720年左右,A第一次站了起来
4、约公元前500年左右的伊特鲁利亚字母A
5、公元113年的罗马字母A,来自图拉真柱的基座
我们也可以直观的感受到UI设计愈来愈倾向于扁平化,这一点我们也在先前进行了讨论,如下列几个App的扁平化。
网速提升带来App的富媒体化,从可以上传图片,到视频,再到直播,无线可以提供的信息越来越丰富,对媒介App本身要求越来越简洁,好比鸡尾酒的杯子只能是透明的。
更深一层思考扁平化,**人的认知似乎在寻求一种信息上的平衡,如果信息内容相对单调,那么就在媒介形式上进行填充,**比如古腾堡圣经中的衬线体文字以及繁冗的花纹修饰,即使是今天,衬线体也是印刷界的主流。
**如果内容相对丰富,如facebook上的直播和自动视频,那么就在媒介形式上力求简洁,**比如无衬线字体在移动手机上的广泛应用,以及越来越平的界面。
在展开讨论智能之前,我们要知道**正是因为有所局限,智能才成为高级生命的必需,而智能的目标也就是如何更高效的处理信息。**那么倒退回来,如果不需要高效的处理信息,生命形态会是什么样子?有一种生物叫做海鞘,早期幼年的时候海鞘需要在海中游动,需要神经系统处理运动信息。当成年后,海鞘会固着在岩石上,不再需要移动,也就不再需要大量耗费能量的神经系统,海鞘就会消化自己的神经系统。
所以说高级智能并非是生命的必需,只有在面临更多信息时才成为必然,而智能的基础神经系统必须用有限的资源处理庞杂的信息,这就是智能的目标。
在深入讨论人的智能之前,先看下图,再思考这个图片的意义。
这两个图表达的是格式塔的闭合原则,就是人在心里会把图形的缺口填充成闭合图形,这个过程本来是“自然而然”的,但是当我们抛开直观感觉去思考的时候就会发现这种直观的感觉并非是事物本来的样子。第一个图中几段间隔的线为什么在我们看来变成了“圆环”?第二个图中的扇形和线最后竟然构成了一个“三角形”?又如下图的插头,我们为什么会把这些本没有生命的插头看成特殊的表情?
这些都肯定了一个直观的事实:当视觉信息进入我们意识的时候已经被组织并且赋予了意义。当我们从哲学角度反思这个意义就会发现:既然人们可以进行理性的思维,那么必然就有与之具备的思维能力,这种思维能力就是先于经验的存在,只有具有这种能力人们才能获得经验知识,人具有与生俱来的智慧能力。康德得到这种判断并非通过格式塔的图形的直观式的反思,而是康德对自身思维能力来源的论断。大脑对视觉信息自然组织的能力,就是康德《纯粹理性批判》中“先验”概念的由来,“这个词(指先验transzendental)并不意味超经验的什么东西,而是指虽先于经验却只为使经验知识成为可能的那些东西”。这种能力在康德之后二百余年,被人们从微观的神经学研究中得以再次证明,也就是人的智能的神经学基础。
用诺贝尔奖得住坎德尔的话总结就是:“大脑并不是简单地接纳感官输入的原始数据,然后忠实地对它们进行再创造,而是每个感觉系统先对数据进行初步分析分解,然后根据先天固有的联系和规则重新构建原始信息,这些都与康德的观点一致!”
无论从哪种途径,人们都听说过“神经”、“神经元”、“脑细胞”这样的词汇,这里就涉及到一个基本的理论,神经元学说。20世纪50年代电子显微镜的出现,确定了神经元学说(neuron doctrine)的最后证据,神经元是神经系统的基本单位,通过彼此并不直接相连的突触传递信息。
把神经元的轴突和树突类比成单向的“电缆”,那么大脑就是由960亿个彼此复杂相连的“电缆”相连构成的庞大复杂的网络,这个网络运行的基本原理就是赫布定律。唐纳德·赫布(Donald Hebb)在1949年出版了《行为的组构》(The Organization of Behavior),他在书中提出,脑内反映某外界客观物体的表征,是由被该外界刺激激活的所有皮层细胞组成的,赫布把这群同时激活的神经元称为一个细胞集合(cell asssembly)。这本书的重要结论是:1.记忆痕迹广泛分布于细胞集合的细胞连接内;2.记忆痕迹也可能参与感觉和知觉的神经元。赫布定律在之前有关记忆的形成和知识的形成过程中有所论述,简化的说就是突触前神经元向突触后神经元进行持续重复刺激后,会使传递的效能被强化或改变,如下赫布细胞集合和记忆存储的解释图。
在这个图中我们可以发现一个并不完整的刺激也可以激活记忆,这就是格式塔闭合原则的神经学基础,我们的大脑中存在圆形和三角形的细胞集合,即使是不完整的图形也可以激活这样的细胞集合。
那么构成赫布的细胞集合的神经元是以怎样的连接方式相联系的?又是什么样的机制促使相关的细胞联结成细胞集合?先回答第一个问题,神经元是以怎样的连接方式相联系的。
首先,神经元之间的联系是以突触完成的,一个神经元细胞受到刺激后会把刺激最终通过突触传递给其它的神经元。突触相连的方式是多样的,可以是轴突到树突,可以是轴突到细胞体,也可以是轴突到轴突,如下图。
其次,突触不光可以传递兴奋,还可以抑制兴奋,这是突触的两个类型,GrayⅠ型突触,通常为兴奋性的,GrayⅡ型突触,则通常为抑制性的,如下图。
**第三,神经信号在神经元之间的传递主要分为两步,第一步是在轴突上的传导,另一部分是在突触上的传导。**轴突上的传导主要以沿着神经轴突流动的电信号实现,而在轴突的末端,也就是突触上,则主要通过化学突触分泌的化学递质实现,很少数是电突触。通过不同突触以不同方式相连的神经元最终构成了赫布的细胞集合的网络。现在我们回答第二个问题,什么样的机制促使相关的细胞联结成细胞集合。
细胞联结成细胞集合,实际上就是神经传递效能的强化过程,一个神经元受到另一个神经元反复频繁的刺激后,两个神经之间的联系就被加强了。神经传递效能的强化方式有以下几种:
1.突触可塑性的强化
首先是突触的容量可以改变,如下图。
每一神经元在树突和胞体上接受有限数量的突触,这一数量较神经元的突触容量。在运动神经元成熟之前,有很多并不需要的突触,任意一个运动神经元的刺激都可能促使相关的肌纤维产生反应,这样运动的行为就不是精确的。而在经过长期锻炼之后,不需要的突触消失,一个神经元支配一根肌纤维,这样运动就可以变得非常精确。婴幼儿的突触数量要多于成年人,所以我们可以看到婴儿的运动是缓慢的不精确的,而成年人则可以做出复杂的动作。
其次,突触可以进行重排列,如下图。
一个神经元可以接受来自ABC3个神经元一共12个的突触刺激,经过重排后,A和C各提供6个突触,而B则不提供,这样一种突触方式改变为另一种方式,被称为突触重排。
2.髓鞘的增厚
传递电信号的神经轴突被浸浴在可导电的含盐细胞外液中,类似于导线的内芯金属层,它所在环境的绝缘性相对较差,而髓鞘则相当于导线内芯外部的绝缘层,它由多层神经胶质细胞膜组成。髓鞘并不是沿着轴突持续不断的延伸,而是有一些中断,被称为朗飞氏结。髓鞘的作用是可以使电信号在朗飞氏结间传导得更远更快。
最新的研究表明,持续的锻炼和刺激可以增加髓鞘的厚度,达到加快传递神经元间电信号的目的。
3.细胞凋亡
简单的说,神经元的存活依赖于靶细胞(被刺激的细胞)提供的营养因子,而对营养因子的竞争结果就是部分神经元的凋亡。
细胞凋亡不同于细胞的坏死,细胞凋亡是因为吸收不到营养因子,选择表达自我破坏性遗传指令的结果。通过细胞凋亡可以发现,神经系统在追求尽可能的高效。所有以上这些神经元微观结构的变化总体上都遵循着赫布定律,都是赫布定律以某种具体形态表达的结果,有的改变突触,有的使细胞凋亡,所以赫布定律也被称为认知神经科学的基本定律。
有两种力量在塑造人的神经系统,一种是来自于遗传,婴儿具有极高的学习能力和各种本能,另一种来自于环境。假设我们的人生就是在观看一部不间断的“电影”,我们和这部“电影”的互动塑造了我们本身,改变了这个世界。赫布定律强调反复刺激可以改变神经元之间的联系,也就是说输入的信息最终塑造了我们的神经元之间的联系,经过反复训练或者刺激形成的细胞集合,在宏观上形成的就是我们的内隐记忆和外显记忆,就是我们的知识,经验,技能,甚至是偏好,比如喜好黄金分割比就是长期接触黄金分割比的结果。越是高等的动物越可以从记忆中获得信息来对刚接触到的信息进行加工,这个就是学习过程,学习的结果就是经验知识。
坎德尔研究海兔这样一种生物,一种长的向蜗牛一样的软体动物,在它的身上也有学习能力的基础,神经系统(缩鳃反射)的习惯化和敏感化。简单的说,就是当频繁刺激海兔而不受到伤害,海兔就会习惯这种刺激,而相反如果受到伤害,那么一点点刺激也会促使海兔快速反应,能做出这样记忆行为的可爱动物只有2万个神经元,而人类拥有960亿个,人类真实的记忆能力其实非常强大。
人类自然也会对熟悉的不危险刺激泰然处之(习惯化),对危险的消息反应迅速(敏感化),与习惯化最为相关的故事当然是“狼来了”这种告诉小孩不要撒谎的故事,与敏感化相关的则是淘气闯祸的孩子一看到气势汹汹的母亲都会想办法跑的远一点。经验会对我们的思维产生影响,当遇到某个概念你第一想到的肯定是比较熟悉的东西。当想到白色的时候,我们会想到什么?笔者本人想到的是白色的鸽子,婚纱,白雪,想到熊会想到什么?棕熊,黑熊,还有大熊猫。但是无论是想到白色还是熊的时候都不是第一时刻想到北极熊,这是因为这种动物是我比较少的接触到北极熊。
笔者本人举这个例子的思维过程是先预设“颜色”+“物种”,颜色我联想到了白色,然后恰巧看到一篇棕熊的文章,于是才举了这个例子,整个过程似乎是随机的,但其实并非如此,经验会对思维产生影响,如下图,用线的粗细模拟笔者思维中表征之间联系的强度。
形成这种联系网络与相应强度的原因非常好理解,粗线的连线就是我们日常生活最常接触的事物,而北极熊无论对于白色还是熊的概念都不是经常碰见的,人们最先想起的大多会是其经常接触的事物。再看这个例子,当提起蘑菇的时候,人们脑中的印象是什么样子的?我可以肯定的是不会是这个图的样子。
“蓝瘦的香菇”(难受的想哭的谐音)。蘑菇确实可以是蓝色的,我们判断出它是蘑菇基本靠的是轮廓上的相似性。现在有这样一个问题,假设有一个蓝色蘑菇具有蓝色轮廓(数据均为假设),他有98%的概率是被看成真的蓝色蘑菇,而有2%的概率被看成是是被染色的,而还有一个物体是蓝色蘑菇轮廓的但不是蘑菇,他有10%的概率被当成蓝色蘑菇,而在蓝色蘑菇轮廓中真正蓝色蘑菇出现的概率是1%,那么现在出现了一个蓝色蘑菇轮廓的物体,那么这个蘑菇是真的蓝色蘑菇的概率是多少?实际上看到蓝色蘑菇的同时,我们大多数人的反应是“这是假的吧?”这个就可以通过贝叶斯概率来说明。
这个等式的分子1% X 98%代表真实的出现的蘑菇(1%)而且(数学符号“X”)被正确识别(98%)的概率,这个等式的分母的另一半中99%的概率来自100%-1%(不是蓝色蘑菇的概率),99%X10%代表不是蘑菇却被当成蘑菇的概率,分母整体的意思是被识别成真蘑菇的概率,所以等式的分子除以分母就代表:真的蓝色蘑菇且被正确识别的概率/被当成真蘑菇的概率 = 真蘑菇的概率 = 9%,这和我们的直觉判断基本一致,蘑菇怎么可能是蓝的?!如果把这个画成表征的联系图是什么样子?
我们可以看到,蘑菇轮廓和蓝色的联系非常细,当我们提起蘑菇的时候,它更多的联系的是白色或者棕色,只有极低的可能联系蓝色。再回头看一下公式,真正影响公式结果的是99%x10%的存在,是100%-1%中的1%的影响,这是什么意思呢?就是说蓝色蘑菇出现的概率实在太低了,即时出现了一个蓝色的蘑菇轮廓的东西,大脑的经验依旧会告诉你这玩意九成是假的。知识表征之间的联系从数学上表达出来就是贝叶斯概率中“先验概率”(例子中的1%)对整体判断的影响,一个好人做了100件好事,做错了一件并不严重的错事不会根本性影响他在我们心中的印象,所谓瑕不掩瑜。
影响我们脑中蘑菇这个概念的意象表征的是经验,我们会从经验而非即刻的东西对未来进行判断,这就是人的智能,或者说生命智能的来源,习惯化和敏感化就是这样的过程。
从蘑菇表征的联系图可以看出,**神经系统依赖信息刺激形成强化联系,它最终会反应成宏观上我们对事物的判断,甚至抽象成数学概率来表达,贝叶斯定律就是神经效能增强的一种数学表现。既然可以被抽象成数学概念,那么也就可以用计算机来模拟人的智能。**康德所谓的先验也就是神经系统的这种依赖过往经验形成判断的固有机制,它本身不是知识,却成为形成知识和智慧的来源。
还有一个例子,美国有两个城市,圣地亚哥和圣安东尼奥,问哪个城市的人口更多?美国芝加哥大学的本科生有三分之二给出了正确答案:圣地亚哥。之后,再找德国学生,正确率竟然是百分之百。结果为什么是这样?因为德国学生几乎没听过圣安东尼奥,他们只知道圣地亚哥。如果两个事物中有一个可以被再认,而另一个不能,那么人们会推论可识别的一方在这个问题的时候具有更高的赋值,这个被称为认知心理学上的再认启发法。人们消费的时候,更倾向于他们听过的品牌,因此品牌设计的关键点不是给出产品信息,而是努力提高品牌识别度。启发法在很多情况下是非常有效的,如果事无巨细的完全依赖逻辑进行判断,我们要仔细查询任何判断所需的数据,那么决策的过程将变得极为缓慢。晚上去哪吃饭?买什么样的衣服?用什么样的洗发水?这时最好的方法是听从直觉。
总体来讲,信息在输入之后会影响我们的判断,判断的标准并非是逻辑的正误而是信息出现的频率,或者说是否熟悉,认知有时追求的不是绝对准确,而是相对准确,以此来保证其高度的效率。
智能的目的是处理信息,那么这个过程在微观又是如何的?首先得从信息是什么入手,然后是针对这样的信息怎么处理,以及处理效率的问题。生物都有基本的趋利避害的本能,人看到危险时会本能的躲开,海兔遇到物理刺激的时候会本能的收缩,而更为低等的细菌也会根据环境的酸碱度通过鞭毛移动自己以适应环境。显然环境信息对于细菌是酸碱度,对于海兔是物理刺激,对于人是变化的光线。信息介质对于生命形态是多样的,但有一点是相同的,就是特定的信息会影响特定的生物,会刺激特定生物,而不影响特点生物的其它刺激则不算信息,人的耳朵听不到超声波,但是蝙蝠却必须依赖超声波定位,人眼看不到红外线,但是某些蛇却依赖红外线捕获猎物。我们可以宣称信息是对生物产生效应的外部刺激,那么对于人而言,视觉信息无疑是最为重要的,从视觉信息的处理方式无疑可以窥见人类心智的基本基础。
在之前我们讨论色彩恒常性的问题时候,得出一个结论,“大脑没有使用绝对值,而是依旧以一种更高效的方式认知这个世界,世界的色彩是’脑补’后形成的”。“脑补”的认知神经学机制是什么?它有什么用处?我们先回想一下视锥细胞和视杆细胞的工作机制,如下图。
视锥细胞与双极细胞的联系是一对一的,而视杆细胞与双击细胞是多对一的,这样视锥细胞获得的感觉更精确,视杆细胞获得的感觉更敏捷。现在我们再深入一下这个问题,先了解下双极细胞的 感受野(receptive field),视网膜上给光刺激能改变细胞膜电位的区域。它分为两个部分:一个提供直接光感受器输入的圆形视网膜区域,成为感受野中心;另一个通过水平细胞提供输入的视网膜的环形区域,成为感受野周边。如下图,是光感受器细胞到双极细胞通路的解剖图。
双极细胞直接从感受野中心的光感受器细胞获得刺激,图中感受野中心的蓝色细胞与蓝色的双极细胞直接相连。双极细胞间接从水平细胞获得来自感受野周边的光感受器细胞的刺激,图中粉色的感受野周边的粉色细胞先与紫色的水平细胞相连,而水平细胞再与蓝色的双极细胞相连。这就算说当光线刺激感受野中心的时候,双极细胞直接获得刺激,而当光线刺激感受野外围的时候,双极细胞间接获得刺激。
同是感受野,为什么要分中心和周边,进而形成直接通路和间接通路?这样的结构有什么意义?
**这种结构的结果就是,当感受野中心和周边受到相同的刺激的时候互相抵消了!**当感受野中心受到光照的时候的反应(给光反应)与感受野周边没有光的时候一样,而感受野中心没有光的时候与感受野周边有光的时候一致。这种结构叫拮抗的中心-周边感受野(center-surround receptive field), 双极细胞获得的感受野中心与感受野周边对光的反应是相反的!在这个结构中起到关键作用的是水平细胞的侧向抑制作用,水平细胞与光感受器之间形成了三联带型突触的相互连接,促使在感受野周边和中心形成相反的反应。如果两者同时受光或者同时不受光,最终输出的神经信号都会很弱。与双极细胞相连的神经节细胞也有相关的机制,如下图,测试在感受野中心明暗不一致时神经节细胞的反应。
进一步的进行测试,模拟一个阴影从感受野上经过的过程,如下图。
感受野的中心受光后会抑制感受野周边,1.当中心与周边同时受光的时候,中心抑制了周边的刺激,周边传出的刺激较弱;2.当黑色覆盖小部分周边的时候,传入的刺激变小,中心彻底抑制了周边,周边传出刺激几乎不见了;3.当中心被黑色覆盖后,抑制消失,而周边还有部分受光刺激,周边受到的刺激向下传导,强度很强;4.当中心和周边都被黑色覆盖后,周边的刺激传入较低,尽管中心的抑制作用消失,但是传出的刺激强度不高。对比最左边与最右边,可以发现全部黑色覆盖的信号会强于全部光照,这个原因就是中心受刺激后的抑制作用要大于周边受刺激的作用,同时周边在没有光照的时候也会传递刺激,所以当中心黑暗抑制作用消失后,周边传递的刺激依旧传递了刺激。
双击细胞和神经节细胞为什么会产生拮抗的效果?同时刺激反倒彼此削弱?这就是我们提到过的GrayⅡ型突触的抑制作用产生的作用,如下图。
a部分表示的是兴奋性突触激活而抑制性突触没激活,细胞体的膜电位有反应,b部分表示二者同时激活,细胞体的膜电位没反应,这就代表抑制性突触把兴奋抵消掉了。当感受野中心的细胞受刺激的时候,它就会抑制来自于感受野周边的细胞的刺激,所以当两者同时受光或者同时进入黑暗后,视觉受到的刺激都会变弱。
我们回顾一下过程,光线进入视网膜的感受野,当感受野中心和周边受光不一致的时候,视觉刺激最强烈,而一致的地方则不强烈,那么对我们视觉的宏观影响是什么样的?就是下图的效果所表达的。
左边看上去A与B明暗不一致,而在右边可以发现实际明度一致,我们的神经是以相对值而不是绝对值感受明暗甚至色彩,又如下图。
两个类似繁体字的“門”中的相连图形是同样的明度或者色相,但是第一个图左边的灰色看上去比右边更深,第二个图左边的红色也看上去比右边的橙色更深,这就是因为神经系统把明度与色相的差距拉大了。如果切换到设计师熟悉的场景,就是学习素描的时候,老师反复强调的明暗交界线要区分开。
一方面,物体明暗与色彩反差较大的时候,视觉会继续放大这样的差异,强者愈强,弱者愈弱,这就是马太效应;另一方面,对同质刺激的削弱就是色彩恒常性的基础,即使是在不同冷暖光源下,我们的视觉也会调整看到的色调,还原色彩本来的样子。
我们讨论了视觉感受野的神经机制,人对光线的反应并非按照其绝对值,而是弱化了同质的刺激,强化了异质刺激。那么还有一点,对于异质刺激神经的反应比较容易产生,而对于同质的刺激,多大的强度才会激活神经的反应?韦伯定律就是讨论此点。维基百科的原文含义是,在同类刺激之下,其差异阈限的大小是随着标注刺激強弱而成一定比例关系的。韦伯对感觉的刺激进一步研究还发现,对两个刺激物的辨别能力不是取决于两者差异的绝对值,而是取决于差异的相对值。这两句话有些抽象,只要举两个例子就非常好理解,比如我们在嘈杂的饭店吃饭,如果想让别人听见你的话,你就必需用更大的声音说话;还有对于商品的价格,当我们买一个原价9块钱的商品,如果降价了2块就感觉降价非常多,而如果它是9000块,即时降价10块也感觉很少。感觉对刺激的反应,是根据刺激所在的背景(产生背景刺激)所反应,更进一步,是根据刺激与背景(产生背景刺激)的变化比例产生反应。
我们可以发现韦伯定律并不只在视觉领域产生作用,在听觉,触觉,甚至心理活动中都存在这样的效应,也就是说按照相对值处理信息的神经机制是广泛存在的。面对这个世界,信息有无穷多的数量和无穷多的层次,而人的大脑又有其生理极限,以有限分析无限就要求神经系统演化出高效的机制,过滤掉无用的(同质化的)信息而把有用的(不同的)信息加强,马太效应、色彩恒常性、韦伯定律都是这种高效机制的表现。
wy2016-12-30 08:50:04
这篇文章好/强生物学模型才是人工智能的基石