说说信息的祖源成分

面对每日来临的海量资讯,要是有人(或者算法)能对信息进行分类,给出阅读难度,文章风格,涉及的知识领域那该有多好啊。这样的方法可以应用到今日头条这样的资讯类APP上,也可以应用图书销售类网站的推荐系统上,例如推荐相同类别的书。

要想开发这样的应用,一个可以借鉴的方法是生物上的祖源鉴定,类似23rd and me 给出的结果,如下图:

/pic/1_W62BmYKdT42RIBxYhHP2MeFSesuSsQ.jpg

这样的结果是怎么算出来的了,这里需要介绍一些生物学上的知识,即SNP的概念,DNA是本由ACGT四个字母写成的书,在特定的点上,会出现差异,有的人是A,有的人是C,在不同人群中,也会有所差异,例如在中国人群体中,某个点A出现的概率是80%,而在非洲人中,C出现的概率则会是80%。祖源鉴定,正是利用了不同群体中大量SNP位点的差异这一信息进行判定的。

/pic/2_RagEgHQvFYFZLbqibO0nXK6xDVY5tw.jpg

这些和信息的分类有什么关系,类比一下,信息中也有很多SNP,比如一个词可以用多个同义词,不同的人会有不同的偏好,词语按不同的感情色彩分为负面,正面,中性,词语还可以按照难度进行分类,可以按照所属的领域进行分类,这样一来,就可以使用类似的方法,去判断一篇文章一本书属于那一类,是否是同一个作者写的。

举个例子,Text analysis of Trump’s tweets confirms he writes only the (angrier) Android half” 这篇文章就是利用川普推特中来自iphone和安卓手机的不同词语的出现频率来判断一个是来自与川普本人,一个是是来自其竞选团队。参考

http://mp.weixin.qq.com/s?src=3&timestamp=1474188129&ver=1&signature=eXmir8z2OsFLUQc8-bKHKxsZOQ2A*VpG1IWayjtZ-k8mNkyOK1gm2*kwb30HOkPTYhfL0QnnoLRCcN6xAaofv8SY5mhIREEtghQlpFzWPqWcYjjiOgKsccXItgg-50odVw7cB7JlLX*07-8AOd455U9sReuxMUf7jnVto*Da0fo=

而另一个来自其本人。另一个例子是判定红楼梦前80回和后40回是否是同一个作者,也利用了文言文中虚词的不同使用习惯,作为特征提取的方式。之后使用SVM分类,参考:

http://mp.weixin.qq.com/s?src=3&timestamp=1474188227&ver=1&signature=VYNSpw6Swdr6oRUroO4aa6IQ9eiO0DWG077yCZNBMFHRXGjKercP9CqaNEtiT6DWiCxZPei4RIvY2eBCZD7KR0qXAmQOYMgaXxLiIQuHQRmaitf-FAvP9akYJBKCliyYg3cROIvfQTykqZyREALjqw==

之后开一开脑洞,要做文章的难度,类型,风格等的分类,首先要做的是给出一组meme的SNP列表,可以是近义词,可以是一对正式的及非正式的词,也可以不同领域下同一个词的不同搭配方式,之后使用Affinity propagation(AP)聚类算法 或者 PCA降维,或者在有了分类所用的背景数据后,用随机森林,SVM等分类器对文章进行分类,在读者阅读前,给出文章的标签,以及每个标签对应的信息来源。

总结一下,这里探讨了一种新的自然语言处理的应用场景和相应的方法框架。生物信息中的很多方法借鉴与自然语言处理,而本文提供了一个反哺的例子。不同领域间的跨界迁徙,可以让我们获得创造力。