机器学习+生物大数据之机遇与挑战

身心健康,对于我们每一个人,都是生命中最宝贵的财富。投资健康,不论对于个人还是对于机构,都是个不错的idea。但我们应该怎么做了?在回答What这个问题之前,首先要问的是How,即机制的问题。

各位都有做过体检的经历,无论是血常规还是尿常规,检测报告上的各种数值都写着你是否在一个范围内,高了或是低了,都显示身体已经有了问题。这说明,身体健康的本质是机体能够将某些特定的核心特征维持在一个固定的范围内,从而使机体能够看起来是健康的。

然而这样的检测会有明显的局限,细心的读者应该已经注意到,在上文的描述中,当我们体检发现机体的核心指标有了问题,那么多半已是病入骨髓,即使能够治好,也会对身体造成些暂时甚至永久的伤害。这也意味着,即使你的检测指标都正常,也只能告诉你当前你的身体看起来没有问题,注意,仅仅是看起来,不是保证。而对于那些体检时某些指标刚刚过线的小伙伴,你们的健康状况,更加让看到体检报告的小伙伴心理没底。

总结起来,传统的医学,是从底向上的,而到了大数据时代,我们对健康的管理,将转变为从上到下的模式。这个转换需要业界和广大消费者的共同参与,需要我们改变对健康的认同。

决定我们健康的因素,可以用一个金字塔模型来说明,金字塔有四个角,每个角都不可或缺,对应到人的健康上,有四个因素,即GMEE,分别对应基因 GENE,微生物Microbe,运动 exercise,环境environment,这四个因素的综合作用,决定了人是否会健康,掌握了这四方面的数据,我们就可以用机器学习的方法,构建出一个模型,精确的预测出一个人未来健康与否,从而帮助个人做出更有准备的选择。

关于基因,参考 Gene A intimate history 读书笔记-大数据时代的基因故事

基因诊断离我们有多远十分钟读完《the society of genes》

关于微生物 参考 找回生物界的暗物质-微生物当粪便成为最佳药剂——《美国大西洋月刊》

目前,这些数据看起来都有了,无论是基因检测还是关于人体内微生物的检测,都会随着成本的降低而变得普及,从高端用户走向寻常百姓家。而日益普及的可穿戴设备,则会记录我们的运动数据,心跳数据,若之后智能眼睛普及后,随时随地记录我们的饮食和所处的环境,也不是什么难事。这无疑是很多人看好生物大数据的原因,我们已经有了硬件,我们已经到达了引爆点。

可硬件就足够了吗?互联网经济的真正起飞,不止得益于网费的降低,移动互联网基础设施的修建,更是由于人们改变了自己的认知。生物大数据要想起飞,只有硬件的完备是不够的。

这里首先要解决的就是数据的隐私处理。机器学习,尤其是深度学习要想有所作为,就必须依托于海量的数据集。Alpha GO 从三千万棋谱中学会了围棋,而进化45亿年赋予我们的机体,具有远远高与此的复杂度。要想做到对我们子孙的健康状况未仆先知,我们需要这个地球上大部分的人都能够将他们的GMEE数据贡献出来。然而我们对于涉及自身核心机密的生物数据,能够放心的交给某个私人公司或者政府机构吗。我们一方面需要更有效的算法,在保障用户个人隐私的基础上,让研究者能够使用匿名的数据做研究。另一方面,有志于生物大数据的机构也需要想办法说服用户,将其数据贡献出来。

这里举一个案例,23rd and me是全球最大的面向个人用户的基因检测服务提供商,最近他们做了个基因数据和近视相关的研究,样本量远远超过了之前的同类研究,在未来,类似的研究会使用更多的样品量,将会结合更多来源的信息,不止是基因上的SNP分型,还包括DNA甲基化的程度,包括人体的肠道微生态,包括运动手环所包含的运动信息。这里提到的信息类型,不同于一成不变的基因信息,是可以改变的,这固然在增加了时间这个维度后会极大的提高了机器学习算法所要面对的复杂程度,也对数据的隐私保障提出了更高的要求。

再举另一个案例,国内的微基因是一家类似23rd and me的公司,他们想研究基因和睡眠的关系,因此需要检测了基因的用户能够提供他们的智能手环记录的睡眠信息,然而,要想收集信息,就必须保证信息的安全。同时还需要给用户足够的承诺和激励,只有做到了这两点,才能保证足够多的数据来源。

信息安全不是生物大数据所需构建的唯一“软件”基础设施,即使有了足够多的跨平台的GMEE数据,机器学习的基于概率的方法,都会使得其给出的预测不会是绝对准确的,而大部分消费者,对于概率的认识,尤其是极大或极小的概率的认识是不准确的。由于我们觉得万分之一的风险和十万分之一的风险差不多,我们会抱着侥幸心理,不改掉自己的不健康的生活习惯。而当我们听到我的某方面的患病风险增高了一倍时,又会过度焦虑,却没有意识到实际上风险只是由百万分之一上升到了百万分之二。

生物大数据要想真正做到帮用户提高生活质量,不得不做的功课是对消费者做基础的统计科普,教会他们用概率来思考问题,教会他们去衡量极小的概率以及用贝叶斯的方式去动态的评估概率的变化,如果做不到这几点。那么机器学习从生物大数据中提炼出的建议只会让消费者产生误解,而无法指导用户的生活,从而在耗尽了他们的好奇心之后,面对泡沫的破灭。

总结起来,未来生物大数据与机器学习的结合,将会迎来巨大的增值潜力,但这是一个需要巨大的,长期的投资的领域。是一个更需要和消费者沟通这样软能力的领域,未来想在这个领域活下来,不止要技术上有优势,更是愿意花时间去潜移默化的教育用户,同时尊重用户隐私。

更多阅读

机器学习是怎么巧妙揭开大脑工作原理的

机器学习vs复杂系统特训课之铁哥小结(上)

说说随机森林