用复杂对抗复杂群分享实录上
这次分享的题目是取自万维钢的 保守主义的三个维度 -读《智识分子,做个复杂的现代人》中的一句话,说的是现代社会充满了复杂,而我们要做的是用复杂来对抗复杂。 铁哥先从什么是复杂系统讲起。
复杂系统对立是什么? 简单系统。
什么是简单系统? 比如光滑水平面\这些系统可以用物理经典的还原论思维来简化\比如卫星绕地球运动, 我们只要把卫星所受到的基本作用力一一分解出来, 然后列出牛顿方程, 就可以解决掉卫星的轨迹问题。
而复杂系统说的是由大量单元互相作用组成的系统, 其活动呈现非线性, 往往形成具备无数层级的复杂组织。
这里主要强调的是大量互相作用的微观单元, 通过非线性效应, 得到一个性质与微观单元完全不同的宏观整体。 他强调一套联系不同尺度的数学方法
我想这里强调的是, 尽管组成上述三幅图, 沙丘, 花菜,和河流网络的微观单元(沙子,细胞,水)非常不同,但是他们的宏观形式在数学上却有惊人的相似性。
1967年,Mandelbrot在美国权威的《科学》杂志上发表了题为《英国的海岸线有多长?统计自相似和分数维度》(How Long Is the Coast of Britain? Statistical Self-Similarity and Fractional Dimension)的著名论文。海岸线作为曲线,其特征是极不规则、极不光滑的,呈现极其蜿蜒复杂的变化。
我们不能从形状和结构上区分这部分海岸与那部分海岸有什么本质的不同,这种几乎同样程度的不规则性和复杂性,说明海岸线在形貌上是自相似的,也就是局部形态和整体态的相似。在没有建筑物或其他东西作为参照物时,在空中拍摄的100公里长的海岸线与放大了的10公里长海岸线的两张照片,看上去会十分相似。
事实上,具有自相似性的形态广泛存在于自然界中,如:连绵的山川、飘浮的云朵、岩石的断裂口、粒子的布朗运动、树冠、花菜、大脑皮层……Mandelbrot把这些部分与整体以某种方式相似的形体称为分形(fractal)。1975年,他创立了分形几何学(Fractal Geometry)。在此基础上,形成了研究分形性质及其应用的科学,称为分形理论。
图中的雪崩和股市的灾难性崩盘也呈现如果在时间轴上看, 是否也具有某种相似性?这里讲到的概念是相变。虽然组成股市和雪山的微观粒子不同, 但是他们却具有类似的动态特征。由此我们看到复杂系统的核心魅力。那就是这些展示的现象虽然说是由性质完全不同的基本组成元素构成,但是在宏观上却表现出类似的性质, 那是因为这些基本单元的组成形式是类似的
那么我就快速的具体说一下这些组织是如何形成的。首先研究这些组织你无法通过只研究其单元理解。比如你大脑是典型的复杂系统, 你要理解大脑视觉回路是如何识别一只猫的, 你无法通过分解出每个神经细胞的概念就能够理解我们的脑神经回路是如何处理视觉信号的。 同样社会是一个复杂系统, 你理解了人性, 却无法因此理解社会和公司的形成。
复杂系统的形成主要有三个东西
1, 作用(关联) - 不是单体的特性, 而是单体是如何相互关联形成组织的, 因为这类系统共同的特点是长程关联 。 关联往往导致1+1>2 或1+1< 2 或称为非线性 。 最典型的例子是市场, 复杂系统给出价格是网络相互作用导致的,我们都受到邻居影响(herding effect)相互作用非常重要。比如刚收的神经元是因为相互作用构成神经网络来处理信号的。
相互作用导致协同效应。两个人在一起可以是1+1大于2 , 也可以是1+1 小于2, 但基本不会是1+1=2, 前两者都可以看做是非线性的体现。比如为什么会有公司,那一定是某种合作导致的1+1大于2效应使得组织可以产生。
2,反馈 复杂系统多描述一个系统的时间变化过程, 如市场价格的波动, 神经网络随时间的活动等, 研究这个时间变化过程, 往往要考虑此刻的结果对下一刻系统结果输出的影响。股市的反身性就是反馈的一种。
反馈分为正反馈和负反馈, 负反馈导致定点平衡态。 正反馈导致不稳定性, 如雪崩, 股市崩盘。因为在所有复杂系统中, 都存在正反馈和负反馈。反馈带有回路的概念。一个单元通过相互作用传递给另一个单元, 反过来另一个单元又可以把信息传递回来。反馈往往是指此刻的活动对下一刻的活动的影响。比如市场价格。市场价格永远围绕均衡波动。价格高,导致市场买的人少, 又降低,这是典型的负反馈。负反馈把系统维持在稳定位置。dx=-x, 这是负反馈。
3,相变 是复杂系统的第三个重要性质 ,而且是我们后面提到组织形成的核心 当系统主导反馈的性质发生变化,则经历一个相变。
相变在自然和社会中无处不在, 自然中的相变当然包括冰和水之间的转化, 也包括磁铁从一种相到另一种相的变化, 社会中的中的相变如苏联的解体, 人类历史王朝的变化更迭。这里物理里的典型例子是磁铁。
磁铁这个东西 , 并非总具有磁性 。那么具有磁性和不具备磁性的铁是什么区别呢?请看上图。
磁铁有两个相, 一个是组织成分均匀一致(有序)的状态, 一个是无序和混乱的状态。虽然他们都是铁原子构成的。大家觉得是铁原子无序的排序会产生磁性还是有序的排序?当然是有序的, 所谓你要对外发挥一种作用, 需要齐心合力, 那个无序的构型使得每个磁针的磁性相互抵消了。
这里就建立了相的概念。那么相变,就是当你改变某个外部变量, 整个系统从一个相到达另一个相的过程。相变理论是复杂系统研究的重要对象, 我们都知道磁铁有的有极性有的没有极性。 研究磁铁特性变化的模型被称为Ising model ,说的是paramagnetic (无磁性)到 ferromagnetic (有磁性)的变化。这里影响一个系统相变的主要是两个要素, 一个是熵(无序性,系统信息的缺失), 一个是某种趋同的效应。
在铁磁物质里, 每一个原子都有极性, 平行排列的极子具有指向相同方向的趋势 ,而熵无序的作用则破坏这种效应, 两种力量互相争夺,在较高温度下,熵的作用占主导,而较低温度下,有序的趋同的力量占主导。 在某个温度下,磁体的原子从无序的状态过度到完全有序的状态。 在完全有序的状态下整个磁体显现出对外的磁性。在此处,我们可以控制的外部变量就是温度。
温度越高, 熵就越大。 F=E-TS, 热力学系统寻找自由能最小的状态, 当温度为0,系统自由能最小的状态是一致有序的态, 温度升高, 无序的态的自由能逐步减少, **直到某个点, 称为比有序态更有优势的状态。**类似的还有水到冰的相变。也是在某个温度上, 无序和有序的交替。
我们来看我们今天的核心, 一篇文章。大家都看过harry potter 或者twilight把。
你看的时候头脑中一定不会出现这些图。如果我要你画一张小说人物关系的脉络图, 而且我要你写一个程序搞, 你会怎么搞?事实上,我们可以用分析复杂网络的方法分析一部小说, 对, 就是这么神奇。这个链接是一个更酷的关于7部星球大战的人物关系网络的可视化
http://assets.dtcj.com/visualization/star_war/index.html
接着来说这篇论文,题目是“Mining and modeling character networks”,也就是上面的图的出处。如果要机器来学习小说中人与人的关系, 核心方法就是挖掘对话中两个人物共同出现的频率我们可以做一个简单规定, 就是一个人物出现时候, 其前15个字和后15个字之内如果出现另一个人物, 那么就算这两个人同时出现。我们统计任意两个人物同时出现的频率。这时候我们会得到一个描述人物关系的矩阵。
这个矩阵的含义大家觉得是什么?提一下英文名就是adjacent matrix。在现实世界里,这个矩阵如果过大,就需要用mapreduce 来做奇异值分解。然后我们需要用一定的数学方法从矩阵把人物关系网络求出来。要从矩阵到网络, 我们第一个要解决的问题是什么?假设这个已经知道了 , 就是共同出现的频率。
我们首先要确立网络的中心。处于网络中心的是什么? 是小说的核心- 主角。那么如果我们把一部小说想象成描述一个江湖。那么这些人物如同构成了一个社会网络。这个网络里的头一名 从网络的角度看吗, 需要有哪些特征呢。首先我们可以思考是那些具有联系最多的人。但是大家想一下这个方法有没有缺陷呢? 肯定有的,如果一个看门大爷具有公司所有人的联系, 他对群体的影响力却不是很大。
此处注意我们研究一个问题要明确每个概念, 比如重要性, 是可以看做一个人对他人的影响力。 而其影响力只能从外界和它的联系看出(循环了哎)1, 它周围有多少重要人物 2, 互动的频率是多少? 是不是看门老大爷? 3 , 积分, 总量也是重要的。 那么单看度就是不够的, 有没有别的方法? 其他领域有无借鉴?
没错, 要看两点, 一个是权重, 即每个连接所发生的频率, 如果看门大爷偶尔和领导说一句话, 那么它的权重几乎是0, 就可以排除掉。 另一个是这些连接本身的重要性, 如果你只有三个连接, 他们一个是习近平, 一个是李克强,一个是xx, 那就知道你的位置了。ok 这个问题很早就被google的创始人larry page 解决掉了 , 这个算法就是大名鼎鼎的pagerank。pagerank算法是如何运算的 , 原理并不难理解。
我们还想象网站的情形, 首先你假定你是一只猴子, 随机的进入了网站构成的巨大网络,然后我们做一个最基本的假设,那就是你可以从一个网站跳到与之相邻的网站, 这个跳跃的概率等于1除以从这个网络节点的度(因为你必须做一个选择下一步去哪里, 如果你有n个选择, 那个每个选择被选中的概率是1比n)。 你让猴子跳跃很多次,不停迭代N步之后, 你最终将得到一个你进入每一个站点的概率分布, 那个你在随机跳动里最容易进入的点, 就是网络的中心。 用数学上表示, 就是你跃迁矩阵那个对应特征值为1的特征根。
最简单的方法是从三个网站相连的示意图开始计算。我们一开始看到这个图完全不知道ABC三个方框里面的数字, 所以我们就假设各自数字为三分之一。权重是方框里的数字除以从这个方框出去的边的个数。这个得出的对应某条边的数字可以理解为从一个网站点击开另一个网站的概率。
在某个网站上的数字大, 则说明这个网站本身比较重要, 点击人数比较多, 因此从这个网站出去打开其他网站的概率也较大。用这个方法可以得到在计算中心度的时候充分考虑到一个节点周围节点的重要性, 因为它衡量了整个网络对某个节点的影响,如果一个节点周围的点都不太有流量, 则及时该节点的连接数很高, 也较难有足够流量。
pagerank的算法的厉害之处在于通过不停迭代一次求出所有网站的重要性, 或者从复杂网络的语言说, 就是取得了每个节点的中心度。我们之后可以按照这些中心度给所有网络节点排序。
从上面的图可以看出,相比之前用度进行的排序, 用pagerank算法进行的排序能够更加清晰的区分哈利波特中主角和配角。但对于权力的游戏,由于这本小说本身的特性,区别并不明显。
在这篇论文里, 我们还比较了其他关于中心度计算的方法。计算中心度是得到复杂网络的核心一步, 因为我们画图的时候需要把中心度最高的那个人物画在中央, 而中心度次高的画在他旁边的位置 ,这样依次向外。
而这种从无序到有序的变化, 在社会中摇身一变就成为了羊群效应。
比如说我们现在有一个美式风情小镇, 人家一个院子, 院子里都有草坪。你愿意还是不愿意割草一取决于你的习惯, 二取决于你的邻居割没割草, 如果一开始大家随机的选取愿不愿意割草, 那么在一段时间后这种趋势将完全被破坏,我们看到我们的地方形成了一些大片的割草或不割草的区域。 同理可以解释很多文化区域的形成, 历史中形成的国家边界, 经济和股市里大规模从众导致的追涨追跌等。
此处就讲到临界, 所谓临界,就是相变时候的状态, 因为这个时候最特别, 你说他到底是有序还是无序呢?
这称为临界。 临界点上的系统属性特别复杂, 统计上我们经常看到具有标志性的肥尾分布或类似肥尾的分布, 这样的分布无处不在, 比如股市价格波动, 工资分布(帕累托)
临界态极为重要 , 为什么?
因为系统在临界点上的属性特别复杂,丰富和有趣, 而且,更重要的, 大部分和我们息息相关的系统事实上都在某种程度处于临界态(或靠近临界态)包括大部分的生物系统, 经济系统。刚讲到的股市崩盘和雪崩的例子, 都是诠释了临界态。
我们有一套理论解释临界态是怎么发生的, 以及检测, 例如 处在临界值上的大脑, 隐秩序 书评 –追忆遗传算法之父John Holland 和 重返沙堆: 通往理解信息扩散的实在之路
所谓涌现, 是在刚才讲到的作用, 反馈, 自组织临界基础上得到的, 系统从微观到宏观, 性质属性质的突破。 最简单的例子是路, 所谓人走的多了就成了路, 森林中出现交错的小径是大量人物穿越所涌现出的一种现象。涌现性和相变点也有千万联系 , 大家可以关注自组织临界(self organised criticality)的理论, 去查看更多这个领域的知识。
我们现在开始引入复杂网络以及介绍一篇文章。
刚刚说复杂系统元素很多, 而且元素之间均有相互作用, 最好的刻画方法就是复杂网络。
此图描述了一个国际贸易的复杂网络。构成这个网络的是不同的产业。线指代生产两种产品之间所需要的元素。比如两种不同的电子产品, 都需要数据分析技术和云计算, 他们就被联系起来。两种产品之间需要的共同元素越多, 这条线就越粗。
这张图描述的产品网络,有非常具体的应用。一个国家可以看做在产品网络里跳跃的猴子,你只能有一个节点跳到相邻节点。因为当你生产汽车的时候, 你只可能生产与之共同需求元素相似的产品, 比如飞机, 坦克。所以你的国家在产业网络里的起点决定你未来可能的发展路径。什么样的产品会位于产品网络的中心, 哪些会位于边缘,具体见 从国家产业升级到职业选择–一篇Science神文的启示
之后的文章中还讲到了一篇跨界的论文,结合了文学和机器学习,也是这次分享的主角。更多精彩,敬请期待。
感谢 Salome 同学提供的记录。
更多阅读
大明辶2016-08-22 13:00:58
想起了KK的几个论点,赞赞赞/奋斗
曹淇淞Whale2016-08-22 22:34:22
精彩精彩,喜欢
闲人老胡2016-08-22 12:34:51
看几遍也是只能看懂一点点,但是,就是喜欢看。比不敢看的美女还想看。
来自寺巷镇的jsd,目标是2016-08-22 11:51:17
所以权利的游戏主角是谁,有什么必然推论……
peo2016-08-22 09:03:29
期待下一篇
敬_一念定静2016-08-22 07:45:43
这需要看几遍才能看懂…有点晕耶…