深度稳定学习

导读:当训练数据和测试数据所处的概率分布不同时,如何提升深度学习的泛化能力,清华大学崔鹏教授的论文“Deep Stable Learning for Out-Of-Distribution Generalization”,提出基于特征权重重置的StableNet,在包括NICO的数据集上,都表现良好。
原作者解读该文 因果学习新进展:深度稳定学习 (本文相对来说,有更多笔者自创的例子,相对更好理解,但对原文的重点把握不清)
1)让模型适应不同的数据集随着机器学习算法在生活中的广泛应用,大众希望算法在任何环境下都表现的靠谱,但考虑到机器学习算法的决策规则,来自训练数据集。对于和训练数据集差异较大的环境,如何确保该环境下保证算法的效果,这是稳定学习想要解决的问题。 /pic/4_eT1KjmzkZks0xH3icKkvxQsrnGhIbA.jpg 特征权重更新模块的算法伪代码
5)stable net在不平衡及对抗性数据集上表现良好为论证stable net在不均匀数据集上的表现,先基于手写数字集合在不同背景下的小数据集MNIST-M,使用ResNet18 作为分类器的基础,对比不同模型的效果,结果为下表,其中DR为占主要的背景域所占的比例,例如DR0.6指数据中60%的图片背景是雪花点为背景(特定的背景类举例),可以看到在大多数情况下,stable net的准确性都最高。随着占主要地位的背景域的比例升高,模型的预测准确度有所下降,但越是极端不平衡的训练集,stable net的表现相比传统cnn,就优势越发明显。 /pic/7_YUjr2EUlos6q90EhKCzBk1I39lg8sA.jpg 降低采样率到30%,stable net仍然能够保持较高的预测精度
6)总结该文通过对特征在预测任务中的权重,在训练过程中动态调整,得以自动化地提取出对图像预测真正有因果关系的特征,并通过一系列实验,论证这使模型能够具有在异分布数据下的泛化能力。该方法的中对特征权重的动态调整,可以看成是对复杂系统的自动化建模,模型的目地是进行因果发现,找出潜在的因果关系。
这样对特征进行动态调整的套路,从原理上,也可以应用到无监督学习及强化学习的应用上,例如在数据聚类中,如果待聚类的数据(包含A和B两个对应标签),来自两个不同的来源,带有不同分布的背景噪音(批次效应),那么聚类算法会将这两类数据聚成两簇,而这在聚类中,就是一个虚假的分层。造成该现象的原因是聚类算法无法区别相关性和因果性。如果能用类似的方式,在聚类算法的优化目标中引入特征权重,就能够应对批次效应这一问题。
参考文献1. Ali Rahimi and Benjamin Recht. Random features for large scale kernel machines. In Advances in neural information processing systems, pages 1177–1184, 2008 2. Towards Non-IID Image Classification: A Dataset and Baseline

更多阅读
因果推断领域新书(附PDF):Causal Inference: What If
因果推断书单-4本中文科普书 8本英文书