你方唱罢我登场,什么样的社交网络能维持活跃?看个体间的链接类型

引子:

为什么豆瓣小组长期以来从没像微博热门话题一样出个超级大新闻,但豆瓣小组又能长期维持不错的用户活跃度?

为什么人人网曾经一度比它模仿的对象 Facebook 搞得更加蒸蒸日上、充满朝气,结果到后来人人要挂了,Facebook 还没死?

微博当时怎么火起来的?后来怎么又陷入低谷?再后来为啥又走出低谷,比原先更火爆了?

怎样才能壮大+活跃你的社交圈子?中,浙江大学计算机学院博士生讲述了他在Scientific Report 上的一篇文章的发现,这篇文章主要讲研究方法,有些类似于对抗

用复杂对抗复杂 群分享实录 下(内含精彩项目征集)中所讲的

抛开具体的企业经营、技术设施和竞争环境等因素,**社交网络用户活跃性的问题可以被抽象提炼成一个纯粹由节点(node)和边(edge)构成的社交关系图上的问题——如何让网络中的大量节点持久保持活跃?**这一问题对复杂网络的理论研究还有社交网络的实际应用而言,都是一个有趣且有意义的事情。

先前的工作通常在预先生成或给定的网络结构上考虑个体的持久活跃问题;然而,社交网络的发展,是网络在增长的同时伴随着已加入个体的活跃状态的级联反应。

社交网络的持久活跃问题 VS 网络鲁棒性研究

个体在社交网络中持久活跃的能力,或称社交网络持久性(social network persistence)是网络对故障和干扰的容错能力(即鲁棒性,robustness)研究的重要组成部分。

早期鲁棒性研究关注网络的静态鲁棒性,即网络在面对节点或连边出现的随机错误(random error)以及招致目标攻击(target attack)后的容错弹性(resilience)。静态鲁棒性研究关注的是网络的拓扑结构,尤其是以节点度数、边介数等为代表的网络连通性指标。而后,动态鲁棒性或称网络持久性成为研究的重点。持久性关注的是网络长期保持一定状态或者特定功能的能力。

例如,在高压电网中级联失效(cascading failure)是一个常见的事故,当电力系统满载或者轻微过载时,某个节点的错误有可能导致大范围电力系统的瘫痪,一夜回到解放前。这一现象至今非常普遍,06年欧洲大断电和12年印度大断电波及几百万、几亿人口的生活。又如,在食物网中,一个营养学物种的消亡有可能威胁食物网的平衡;更别提各国政府不约而同闻之色变的物种入侵问题。食物网的持久性体现在初始物种在受到干扰之后存活下来的比例。类似的,在社交网络中,维持个体的活跃度是促进整个社区繁荣的关键一步。

真实的社交网络具备一些特征,每个特征都可能影响到个体的活跃度。

1. 多样的网络增长模式(network growth mode)

社交网络怎样由小长大?它们的增长模式是复杂多变的。

例如早期新浪微博的策略是绑大V,邀请各路明星名人加入微博,然后这些名人带动粉丝加入,这是一种个体流行度优先(popularity-first)的增长模式。人人网或称校内网抓住的是高三毕业大一新生的需求,学生需要跟高中同学保持联系,同时在大学结交新朋友,还有用户是想看同年级中的美女帅哥、学霸、社交达人等;还有一些网上的兴趣社区,是用户根据兴趣爱好联系起来。这类网络的增长模式是个体的相似度优先(similarity-first)。还有一些社交网站,没有明确的增长方式,可以看做是自由增长的方式,也可以理解成一种没有人为干预的自组织的增长方式。

这里注意到,个体的吸引力来自于个体的流行度(popularity)和相似度(similarity)[1]。同时,个体的差异性以及个体之间链接类型的差异使得即便是相同的网络结构、相同的一群个体,不同的网络增长模式会带来不同的网络持久性。

2. 社交网络中个体的活跃状态也具有级联反应

图论中 k-core 与 k-core 分解的概念就被用来理解社交网络结构对级联反应的作用;电力系统级联失效模型和传染病传播模型等也被用于研究社交网络中的级联反应,例如谣言传播、影响力最大化、病毒营销等。这里的 k-core 是图论中的一个重要概念。如图1,如果我们称一个子图是3-core 或者3-degeneracy,那么图中每个节点最少具有3个邻居是属于3-core 或更高层的 core;节点邻居数不超过3的节点是不属于3-core 的,可能属于1-core 或者2-core;如果一个节点有超过3个邻居,但没有足够的邻居属于3-core,那么该节点也不属于3-core。K-core 可以帮助人们理解图的稀疏程度、连接密度等[2]。

/pic/1_KDYepuM3TmgG1lMjVfTbkK9kxM6vCQ.png

图1:一个典型的 k-core 分解示意图。图片来源[3]。对 t-core 这一层而言,每个节点至少有 t 个邻居也属于 t-core 或者更高层的 core。

**3. 社交网络的节点总量成增长态势的同时还伴随着节点状态的级联变化。**社交网络的增长与个体状态级联的协同过程对网络持久性的影响,还缺乏研究。

不同的社交网站具备不同的增长模式,但这些多样的增长模式到底对网络中个体的持久活跃意味着什么呢?这个问题更深一层的是:不同的社交关系,不同的链接类型对网络持久性有什么样的影响?

社交网络的增长+节点活跃状态的联动 → 一个网络结构与节点状态协同演化的模型

考虑到获取各类社交网站的真实数据来促成这项研究有较大难度。我们选择从网络建模仿真的角度来探索这个问题。我们的工作建立在 Papadopoulos 的网络模型[1]和 k-core 概念的基础上。

Papadopoulos 的工作提供了一个迄今最为强大的网络增长模型。先前网络的增长模型是以节点的流行度为核心,高流行度的节点更容易具备较高的连接度数(更广的人脉),而高度数的节点有更大概率优先与新加入的节点链接。Papadopoulos 认为,节点之间的相似度也是吸引其他节点与之相连的因素。他们的模型将多种真实世界中的网络(技术网络、生物网络和社交网络)映射到由节点的流行度和相似度构成的极坐标中,并引入流行度和相似度所在双曲空间中的双曲距离作为优先链接的评判标准。这项工作的意义是,这个改进的优先链接模型,不但可以复现先前优先链接模型实现的节点度数在统计学上的幂律分布(类似于经济学里的马太效应,度数高节点度数越来越高,度数低的节点度数很低而且数量众多);而且,由该模型生成的网络可以很好的模拟多种真实世界的网络在双曲距离上的链接概率。

不过,Papadopoulos 的工作只考虑了网络的增长,不涉及节点状态动态改变的这些问题;此外,在其模型中,节点的流行度与节点加入网络的时间是绑定的,这与真实世界中多样的网络增长模式不符。

在[4]的工作中,我们提出基于节点的流行度优先(popularity-first)、相似度优先(similarity-first)和随机加入(random)三种社交网络的增长模式,解绑了节点的流行度和加入时间,同时保留了基于双曲距离的优先链接机制。然后,我们在增长网络基础上引入了级联过程,可以描述网络增长与节点状态级联的协同演化。这里需说明的是,我们这里提出的随机增长是空白试验,完全不考虑节点的相关性,就随机的加入网络;这跟真实世界中一些自由增长的网络不同。

/pic/2_QxlvME7Yyz3U45uXYSk8AhM9eCaSYQ.png

图2:三种不同增长模式下社交网络演化过程示意。在极坐标系下,每个节点具有两个属性,极径 r 和极角 θ。极径可看做节点的流行度的大小,极径越小,流行度越高;而两个节点的夹角代表它们的相似度。流行度优先就是节点按照极径由小到大加入网络;相似度优先就是按照夹角的大小(例如从0度开始),由小到大加入网络;随机模式则是充分随意的加入节点。节点是否链接由双曲距离的大小等参数决定,节点再经过自发活跃度之后,由活跃邻居阈值决定是否继续活跃。如图所示,即便是相同的节点,因为加入顺序的不同,造成节点的链接类型、生成的网络结构不同,节点的活跃状态也呈现明显的差异。

当新用户加入网络时具有一个自发活跃(spontaneous activity)的时期,这时个体对网络充满新鲜感,它的活跃不受其他用户的影响。当过了自发活跃期之后,如果个体还有一定的活跃邻居,那个体还可以继续保持活跃,否则就会变成不活跃。这个活跃邻居阈值(active neighbour threshold)可以追溯到 k-core。如果每个节点要具有3个活跃邻居才能保持活跃,那最终这些活跃节点构成的图可以看做是动态网络下的3-core 退化图。图2是仿真模型基于三种网络增长模式的演化过程示意。节点都具有流行度以及与其他节点的相似度。即便是相同的一批节点,遵从相同的规则来建立链接和保持活跃,但是因为加入网络的顺序不同,网络增长的模式不同,最终网络中活跃节点的比重也会截然不同。详细的建模过程详见[4]。

1+1>2——节点流行度和相似度的耦合效应产生意外的网络持久性

我们首先在上文提出的三种简单的网络增长模式下,探究个体的自发活跃度与最终网络活跃节点比例(FAR)的关系(如图3)。结果表明,当节点拥有高自发活动(spontaneous activity),流行度优先的增长模式获得更高的网络持久性;否则,节点在较低的自发活动下,相似度优先的增长模式更好。此外,相似度优先增长模式几乎不受节点自发活动的影响,保持稳定的持久性;流行度优先的增长模式却对此非常敏感,成正相关。

/pic/3_dZ7IGUET4ibQOnVvGh8nmiblAFBGCQ.png

图3:个体自发活跃度 h 对最终活跃节点所占比例 FAR 的影响。这里自发活跃度是相对网络演化总时间的一个相对比例。

节点的流行度和相似度呈现出对持久性截然不同的作用。一个很自然的想法是,将流行度优先与相似度优先的策略耦合起来,形成一个复合的网络增长模式(例如,一种简单的方式就是把节点的流行度和相似度加权调和,作为新的节点加入顺序)。因为这种复合不是简单的1+1=2,而是可能会产出两种单一模式所不具有的新的效果,我们称之为耦合效应。

按正常推理,复合增长模式下 FAR 有可能叠加了两种简单增长模式的优点;也可能介于两种简单策略之间;当然,还有可能两种增长模式的优势抵消,破坏了网络的持久性。幸运的是,我们发现在较短时间内连续加入相似的节点,同时再加入少量高流行度的节点可获得最佳混合下的持久性。该理论值甚至达到单一的流行度增长方式或单一的相似度优先增长模式下网络持久性的数倍(图4):

当给定了某个个体活跃度 h 后,随着节点流行度所占的权重 w 从0到1的增加,网络的最终活跃占比 FAR 先是快速上升,到达最佳混合比例后会下降,之后又会缓慢提升。最佳混合比例一直位于 w < 0.5范围内,这说明节点的相似度对网络的持久性具有基础性的作用,而适当考虑流行度带来两个因素的耦合效应可以进一步增强网络的持久性。至于混合后 FAR 下降的原因,正如上文所述,如果混合比例在0.5附近时,相当于节点流行度优先和相似度优先的优势作用被抵消了,网络增长不再是强强叠加,而类似退化成随机增长的模式(如图3)。不过这种混合的随机增长,和完全均匀的随机增长还是有区别的。

实验结果的进一步解释和讨论详见[4]。

/pic/4_DpOxjswgwIP9gYmaaLtCbibM2JgQlw.png图4:网络最终活跃占比对混合比例 w 和个体活跃度 h 的反应。w 表示节点流行度所占的比重,w = 0退化成相似度优先的增长;w = 1退化成流行度优先的增长。而 w 介于0~1之间时,则形成复合的增长模式,耦合了节点的流行度和相似度。

启示 & 展望

我们的研究表明,节点活跃性的演化不仅取决于网络拓扑,而且与节点间的链接类型有关。

我们的实验结果对认识和理解某些社交网络的发展很有意义。论文中考虑的节点的流行度、相似度,节点自发活跃等内容是对真实世界的抽象。在涉及具体的社区类产品的运营时,这些内容对运维策略和产品设计也有启发。这里以人人网和新浪微博为例,做一个对比说明。这部分不属于实验内容,是用实验结果反过来理解真实的社交网络。

人人网的增长模式是以用户相似度为基础的。高三毕业的用户需要跟高中同学保持联系,同时又结识大学的新朋友,继而推动了人人网的兴起。当用户的新鲜劲(自发活跃)结束之后,人人网没能留住一部分用户。一个普遍的现象是,大一新生在人人网上异常活跃,到了大三、大四、就业之后,便渐渐淡出人人网。其实这一情况在其他社交网站中也非常普遍,人人网还是有机会像豆瓣、Facebook 一样,保有剩下的活跃用户,继续保持不错的活跃水平。然而,后来的大一新生已经连加入人人网这件事都懒得做、不愿做,造成的级联反应是大范围的大一新生不再加入人人网。此外,人人网上老是分享老梗、周期性的冒出来老掉牙的消息,已经加入的用户也对人人网更加失去了兴趣。人人网里失去了大三、大四之后用户需要的东西。自此,人人网逐渐走向衰落。

/pic/5_3sKA7X7bHuoQYmBibZicVx7gaIwxXQ.png

图5:人人网股价走势。来源:谷歌搜索,renren stock, 2016-03-03

微博早期的增长模式是用户流行度优先的。微博先是招揽各路名人、明星加入微博;这些名人的粉丝也随之加入微博,及时了解偶像动态。同样的,微博在早期的迅速扩张之后,在2013-2015年期间,曾经经历过类似人人网的低谷,大量用户在自发活跃一段时间后也失去了新鲜感。微博采用的策略是(也许是今日头条给的灵感)——挖掘与名人、新闻有关的热门微博、超级话题;完善微博和话题下的评论和讨论;引入了短视频等多媒体形式。依靠这些高流行度用户和高流行度的话题带动用户积极参与讨论互动;同时一些兴趣话题又把兴趣相近的用户连接起来,一条微博下方评论的点赞数可能远远超过了微博内容本身。在2016年7-8月份期间,奥运会、乒乓球、张继科、洪荒少女、王宝强、马蓉等等各类头条话题、还有这些热门话题诡异的情节走向,彻底引爆了新浪微博。终于微博的市值也在这一年超过了它全球范围内的对手,推特。

/pic/6_m8tTIYibq9ibLxMdGExtqKZsYMib2g.png

/pic/7_Re6SaP86r4PU39hzpLgM9fzlsczKnA.png

图6:新浪微博(上)与推特(下)股价走势。来源:谷歌搜索,weibo stock, twitter stock, 2016-03-03

不过,这篇文章还无法解释微信的增长方式,没有考虑长期不再活跃的社区重新复活的问题。这里考虑节点的活跃度时采用的活跃/不活跃的二值离散值,活跃度也可以进一步细化为连续值,即活跃程度的概念。此外,在理解社区的活跃程度之后,还有进一步的一类问题:怎样能在保持社区活跃的同时,让社区朝着健康、积极、开放的方向发展,而不被例如国际恐怖主义分子等势力操控。

参考:

[1] Papadopoulos, Fragkiskos, Maksim Kitsak, M. Ángeles Serrano, Marián Boguná, and Dmitri Krioukov. “Popularity versus similarity in growing networks.” Nature 489, no. 7417 (2012): 537-540.

[2] https://en.wikipedia.org/wiki/Degeneracy_(graph_theory)

[3] Kitsak, Maksim, Lazaros K. Gallos, Shlomo Havlin, Fredrik Liljeros, Lev Muchnik, H. Eugene Stanley, and Hernán A. Makse. “Identification of influential spreaders in complex networks.” Nature physics 6, no. 11 (2010): 888-893.

[4] Xiaogang Jin, Cheng Jin, Jiaxuan Huang, and Yong Min. “Coupling effect of nodes popularity and similarity on social network persistence.” Scientific Reports 7 (2017): 42956.

Cheng2017-03-16 08:57:11

我觉得没这么复杂,公众的需求就是从单一、相似逐步转向丰富、多层次、多样化,谁能适应这样的趋势,抓住影响力最大的那个群体,就能活得很好。赞 4