自然机器智能综述:集成深度学习在生物信息学中的应用

生物信息学是一个跨学科的研究领域。其目标在于利用算法,将分子生物学的数据转化为生物学知识,并进一步将其转化为生物及医学应用。在机器的最前沿的集成学习和深度学习,在生物信息学领域的诸多问题,在包括DNA序列,蛋白相互作用及系统生物学有着广泛的应用。
集成学习(ensemble)及深度学习,是两个在生物信息学中应用广泛的技术,然而将两项技术结合在一起使用,却是最近的新鲜事。8月自然机器智能,针对这个话题的综述,概述了该领域的进展。

/pic/1_Yro0iaSnOzBKYCLV96qhFWEnc3G5vg.jpg
1)何为集成学习
/pic/2_4QdZ7oTz2sIVsXGwjTLSZclVILwczw.jpg三种集成学习的方式
在监督学习的模式下,begging和boosting是两种常见的集成学习方法,前者是将同一份数据进行拆分后,对于不同的子数据集,使用不同的模型,来进行训练,之后在预测时,使用训练出的所有预测模型,通过投票决定最终的预测结果。通过使用多种模型,可以避免数据中的偏差被当成模式,从而提升泛化能力。(上图左边)

而boosting则不会将数据分为多份,而是先训练一个预测模型,再将该模型的预测结果和标签的差当做新的标签,交给下一个模型。可以理解为自己搞不定的问题,专门提出来,交给后来的模型来解决。而在最终的预测中,每个训练的分类模型,在投票阶段,也会有不同的权重。(上图中间)

/pic/3_V5Xr1ibPVFoeybpI7wAoHPZ5R6xtwA.jpg在深度学习下,集成的应用如上图所示,最左为将数据集分成多份,之后训练同一超参数的模型,中间为在单一模型中,训练过程中随机让一些神经元失活;而最右端代表在最初级的特征提取层,不同模型共享参数,而在基于高抽象层次数据的模型下,训练一组不共享参数的独立模型,之后基于不同模型提取的更高抽象的特征,进行预测。

而在无监督学习的任务,例如聚类中,也可将数据拆分为多份,每一份进行使用基本的聚类方法,进行聚簇,最终会依据特定函数,将聚类结果整合。

/pic/4_a1DCdWPYLibaehZ3hnoA7V0ZvZ3DPA.jpg上图表述在自编码器架构下,三种集成学习的方式。左图代表将数据分为多份,每份数据训练一个相同架构的自编码器,之后将中间隐藏层降维的结果整合;中间代表同一份数据,使用不同深度(隐藏层数目不同)的自编码器训练,之后整合;而最左边的则还是随机在训练中,失活部分神经元的做法。
2)为何生物信息中的应用,需要集成学习

集成学习的优势,在于提升模型在小数据集上的稳定性。由于生物相关的数据,无法大规模生成,因此其对要求集成学习可以使用预先训练好的模型,以及通过比较不同的小数据训练出的模型间的两两误差,可以减少小数据集带来的偏差这一问题。

在生物相关数据中,如果训练数据的维度,比数据样本数还多,那对于模型训练,无疑是一个挑战。begging的方法,可以随机的挑选数据中的部分维度进行训练,而boosting的方法,可以逐步选取出对关注的模式最重要的数据维度,从而应对高维数据带来的挑战。

分类数据中,如果不同类型标签的数目不均一,对模型的训练,也会带来挑战。例如正样本的数据量极小,负样本数据量极少,可以训练多个模型,每个模型的训练数据都包含正样本及等量的随机抽取的负样本,从而提升模型的分类准确性。

生物数据中大多包含噪音,同时不同标签的数据不够同质化,其特征分布不同。集成学习对数据噪音不敏感,通过降噪自编码器,还可以降低用于分类的数据中的噪音。同时通过对不同数据使用不同模型,有针对性地训练,可以提升模型的应对异质化数据的能力。

生物模型的应用,需要提升模型的可解释性。而在集成学习中,引入注意力分配层,可以显式的指出模型使用了哪些特征进行预测。而集成模型中的特征选择方法,同样能帮助从生物数据中,提取出对预测最有帮助的biomarker。

集成学习的优势,还在于能够集成不同模型的优点,例如RNN模型适合应对包含长程关联的数据,而CNN则适合应对高维度的数据,如果能够使用boost的方式,先用CNN提取高维数据的局部模式,再用RNN提取出序列间的远距关联,则能够同时用到以上两种模型的优点。

集成学习还能够通过联邦学习及分布式机器学习,来减少模型训练所需的计算消耗,从而应对模型训练所需的越来越多的计算量。

3)总结

本文讨论了集成学习和深度学习的集合,原论文中用很大的篇幅,介绍了生物信息学中的应用,包括蛋白质谱数据,基因组学,医疗影像等问题上的应用。然而本解读文章想强调的是,集成学习对于第二阶段提到的问题,都是适用的,不止限于生物信息学的领域。因此本文提到的训练技巧,是相对通用的。
更多阅读

深度学习在医疗与生物界的应用概述
论文速递:通过模拟大脑-解决深度学习中的灾难性遗忘
深度学习助力读心术-从frmi数据中解读出你想的是那张脸

原论文下载:链接: https://pan.baidu.com/s/1AwfLLBoMKC2S6v2yx1us1A 提取码: whaa

heather2020-08-30 03:57:33

好奇up主为啥会pick生物信息