深度学习助力基因科技
有可能改变未来的一项技术之一是基因科技,据麦卡锡去年发布的一份报告,预计到2025年,全球将会累计产生10亿人次的全基因组数据,而检测基因的成本将下降到接近为0。考虑到每一个人的全基因组数据将会达到100G, 如何对这些海量数据的解读,现有的生物信息方法基于统计学模型,而12月20日在bioRvix(生物领域的论文预印本)上,来自谷歌子公司Deep mind 的科学家发表了一篇论文[1],提出一个名为DeepVariant 的检测工具,使用深度神经学习中的卷积神经网络CNN 来检查基因组上的单碱基突变(SNP)和小的插入缺失(Indel),其准确性超越了当前主流的生物信息学软件GATK。而在12月30日,来自康奈尔大学的另一组研究者又独立的发表了一篇用类似方法检测基因变异的软件[2]。两篇论文的爆发式出现,彰显了深度学习在基因组数据挖掘领域的巨大潜力。
每个人的体内都包含着3亿对碱基,这些碱基的排列方式决定了我们从生老病死的方方面面, 找到了你的基因组的差异之处,可以帮助我们了解我们的疾病的易感性,也可以知道我们的个体特征。对基因数据的传统分析方法,基于贝叶斯统计和专家的经验,针对不同的检测物种,需要很多人工的调节和试错,并且针对不同的测序平台,也需要进行特异性的配置。而基于深度学习的方法,巧妙的利用了图像识别领域成熟的技术,不止可以以通用的学习流程达到了现行软件相同的水平,更获得了由美国FDA 监管的SNP检测算法比赛的第一名 。由于这两项研究都还处于初期,考虑到深度学习算法巨大的提升空间,在可以预见的未来,基于深度学习的基因检测算法将会有更大的施展空间。
而在表观遗传学上,深度学习工具DeepCpG [3] 则可以根据基因序列预测单细胞层面是否会出现甲基化。在小鼠的胚胎干细胞上验证后,DeepCpG的表现优于现有的其他软件。甲基化会影响基因是否表达,而诸多启动子和增强子(DNA 序列中的调控区)与其调控的基因之间的相互作用则会影响基因的表达数量。同样是基于深度学习的SPEID [4] 基于基因序列预测启动子和增强子之间的相互作用,这是第一个基于基因序列来预测 启动子和增强子的软件,其效果优于基于基因功能做出的预测。
传统的基因组关联分析(GWAS)大多只能检测一个点突变(SNP)与所研究疾病的关系,而DeepWAS[5],这一新提出的框架则能够根据功能单元,选择出一组SNP 的集合,来更加综合的研究治病的基因突变,并能直接的寻找调控区域的基因突变。在一项针对抑郁症的研究中,使用DeepWAS 框架的新研究发现了一个新的控制抑郁症的主要基因MEF2C。
以上列出的5项研究,都来自与2016年下半年,而在2017年1月,又有一篇基于CNN 的文章[6]尝试预测HLA基因与多肽的相互反应。这些文章虽然都来自于论文预印本,没有经过正规的同行审查,但不同领域的大规模井喷式爆发,也显示了该领域的巨大潜力。随着基因组数据的大量积累,以及深度学习开源平台的普及,未来深度学习必将成为生物信息领域的“一股清流”,为人类的健康做出贡献。
参考文献
[1] Creating a universal SNP and small indel variant caller with deep neural networks
[2] Training Genotype Callers with Neural Networks
[3] Accurate prediction of single-cell DNA methylation states using deep learning
[4] Predicting Enhancer-Promoter Interaction from Genomic Sequence with Deep Neural Networks
[5] DeepWAS: Directly integrating regulatory information into GWAS using deep learning supports master regulator MEF2C as risk factor for major depressive disorder
[6] HLA class I binding prediction via convolutional neural networks
扩展阅读
YJL2017-01-13 08:34:42
30亿对碱基,不是3亿
作者
谢谢,billion说习惯了赞 1