IT江湖之机器学习基础篇
本文转自 公众号 董老师在硅谷,更多精彩内容 欢迎长按下面的二维码关注关注 董老师在硅谷
作者何方神圣?女神童一枚,科大少年班中唯一写代码的女生,史称软姐。博士毕业美国莱斯大学,现在 Airbnb 任职。集美貌与智慧于一身,并世无双,授权发表,文末订阅公众号。
天下武林,宗派林立,英雄辈出。
虽说各门各派创出的招式千奇百妍,然追其宗源,左不过那几个武学正宗。
先说练内功的。这些不是直接被用来过招,然正宗武学必出于此。例如各种存储系统,像各种数据库系统和 Hadoop 上的数据存储;例如程序语言设计和编译器的设计;例如网络架构和网络协议;例如操作系统设计和内核等等等等。
外家功夫,可直接用来过招杀敌走镖,这里面分支就多了。如各种写 web service 的不同框架和套数;如专写前端的,专写 iOS 和 Android 的;如专门做支付的。。。
有一个分支,内外兼修,却更注重于外家招式的应用,练的是剑。我们姑且称之为 “机器学习”。(注:作者曾在池哥的 MachTalk上发过两篇关于机器学习的文章《软姐之机器学习第一讲》以及第二讲《如何学习一门新技术?》。
从五岳剑派说起
五岳剑派是金庸作品《笑傲江湖》中五个武林派别的合称,包括嵩山派、泰山派、华山派、衡山派和恒山派。五个派别各自独立又互有联系,所谓“五岳剑派,同气连枝”,各门派间之人会互以长幼辈分称呼;后并派改称为五岳派。
注:本节部分内容由华盛顿大学教授Pedro Domingos在2015年的ACM Webminar上介绍了他认为的机器学习五大流派改编。另一部分由作者对各位泰祖搜索编窜而成。
编者注 Pedro Domingos 的新书 《The master algorithm》 中有对这五种人工智能范式的更详细描述 ,详情见链接文章
先来看看这五岳剑派的代表人物和武功
中岳符号主义派(Symbolists)
代表人物:Tom Mitchell,Steve Muggleton,Ross Quinlan
武功流派:符号主义-逆演绎算法(inverse deduction)
宗派概述:符号主义的算法起源来源于逻辑学和哲学。通过对符号的演绎和逆演绎来对一些结果进行预测。比如,从 2+2=? 中来预测 2+?=4。也就是简单的逻辑推理。符号主义可能是最传统的人工智能方法了。但是在近二十余年,都没有取得太大的成果。
西岳联结主义派(Connectionists)
代表人物:Yann LeCun,Geoff Hinton,Yoshua Bengio
武功流派:联结主义-反向传播算法(backpropagation)
宗派概述:联结主义起源于神经科学。他通过对神经元的模拟,也就是人工神经元,来构造一个神经网络。为什么他的算法称为反向传播算法呢?我们说神经网络的构造与其说是一个网络,其实它更应该说是一个有向图。图中的每个节点是一个类似于逻辑回归的训练结点。当输入从图的起源方向流入,根据有向图最终的输出,反向分层训练调整有向图中的结点和联结。一个很著名的应用就是 Google 对图片或 Video 中的猫进行有效识别的神经网络。反向传播算法最主要的应用领域就是分类算法,进行分类的准确率高于其它集中算法。尤其是对于包含数值数据的应用更有效。
现在很流行的深度学习也可以说是此派的一个延伸。
南岳进化主义派(Evolutionaries)
代表人物:Tom Mitchell,Steve Muggleton,Ross Quinlan
武功流派:进化主义-基因编程(genetic programming)
宗派概述:进化主义起源于生物进化学。该派大量地使用遗传算法和遗传编程。例如佛蒙特大学的Josh Bongard研发的基于生物进化理论的「海星机器人」。该机器人能够通过内部模拟来「感知」自己身体各部件的状况,并进行连续建模,从而在不需要外部编程的情况下自己学会走路,当机器人外部受到破坏,比如说失去了一条腿,它可以重新建模并学习到一种新的行走方式。Josh Bongard在论文《Evolved Machines Shed Light on Robustness and Resilience》中对此进行了详细介绍。
****东岳贝叶斯派(Bayesians)
代表人物:David Heckerman,Judea Pearl,Michael Jordan
武功流派:贝叶斯派-概率推理(probabillistic inference)
宗派概述:贝叶斯派起源于统计学。基于概率统计的贝叶斯算法最常见的应用就是反垃圾邮件功能,贝叶斯分类的运作是借着使用标记与垃圾邮件、非垃圾邮件的关连,然后搭配贝叶斯推断来计算一封邮件为垃圾邮件的可能性。贝叶斯分类在输入特征相对独立的情况下分类预测效果尤为有效。
****北岳行为类比主义派(Analogizer)
代表人物:Peter Hart,Vladimir Vapnik,Douglas Hofstadter
武功流派:行为类比主义-核机器(kernel machines)
宗派概述:行为类比主义起源于心理学。最具代表的算法就是近邻算法和内核机。用过这两种算法的都知道,这两种算法最显著的特征就是它很大程度的模拟了人的一个“直觉”的行为心理。Netflix的推荐系统便是基于该理论的一个应用。
机器学习流派能否万源归宗?
Pedro Domingos总结了五大流派目前存在的问题和解决方案,但他也重点强调:“我们真正需要的是可以一次性解决这些所有问题的统一算法。”
岳不群道:“以少林寺在武林中的声望地位,登高一呼,各家各派中的高明卓识之士,闻风响应,千百年来必能有所建树。固然各家各流武术源流不同,修习之法大异,要武学之士不分门户派别,那是谈何容易?但‘君子和而不同’,武功尽可不同,却大可和和气气。可是直到今日,江湖上仍是派别众多,或明争,或暗斗,无数心血性命,都耗费于无谓的意气之争。既然历来高明之士,都知门户派别的纷歧大有祸害,为什么不能痛下决心,予以消除?
深度学习(Deep Learning)会不会是下一个一统江湖的盟主算法?
这个问题 Gregory Piatetsky 在问《The Master Algorithm》的作者 Pedro 的时候,Pedro 是这样说的(我翻译不好的地方直接上原文了,见链接1):
联结主义最近出尽了风头。尤其是在深度学习在一个又一个领域不断取得成果的情况下,人们很容易联想深度学习将成为新的盟主算法。但是最终人们将认识到这于实际的机器学习的理想算法还是有着很大的距离,因为深度学习仅仅解决了人工智能多个主要问题之一:给成功的案例多一些 credit,而将失败归咎于系统的复杂性。(because it only solves one of the major problems a general-purpose learner needs to solve: assigning credit for successes and blame for errors to the different parts of a complex system. )
与其他几个门派相比,深度学习有它的局限性。比如符号主义可以将所有的用来学习的知识以任意方式组合到一起,但是深度学习不行;比如进化主义可以对自身的网络结构进行进化,但是深度学习不行;比如贝叶斯派可以很好的处理学习数据中的不确定性,但是深度学习不行;比如行为类比主义可以对很复杂的情况进行泛化处理,但是深度学习不行。
联结主义最早的热门领域是视觉和语音,并在该领域取得了很大的成就。最近它的应用开始普及到对语言的识别和一些常识的推导,但 Pedro 认为深度学习要在这些新的领域取得突破性成果还是有很多阻力的,因为上面我们提到的它不具有的一些属性。即使是视觉和语音领域,我们听到的都是成功的凯歌,而其实那里还有很多的问题有待解决。
但是如果我们能将深度学习和其它各派的优势有效结合,我们将可以确定我们走在找到一个可以一统江湖的机器学习的王者算法的正确的道路上。
关于 Andrew Ng
在我两次的机器学习的分享中曾多次推荐 Andrew Ng(吴恩达)教授和他的 Coursera 教程。其实吴教授大家在这个领域的人都已经很熟悉了。这里只简单安利几句,并附上相关链接。他师从贝叶斯派的 Michael Jordan 教授,但是后来的研究感觉和神经网络关系更大。
吴恩达教授是斯坦福大学计算机科学系和电气工程系的副教授,斯坦福人工智能实验室的主任。他还与达芙妮·科勒一起创建了在线教育平台Coursera。2011年,吴恩达教授在Google创建了Google Brain项目,以通过分布式集群计算机开发超大规模的人工神经网络。2014年5月16日,吴恩达加入百度,负责“百度大脑”计划,并担任百度公司首席科学家。
链接和相关阅读:
- http://www.kdnuggets.com/2015/11/domingos-5-tribes-machine-learning-acm-webinar.html
- 《吴恩达:Google人工大脑背后的那个人》http://www.pingwest.com/andrewng-deep-learning/
- 《Coursera,Andrew Ng的下一站是百度》http://www.pingwest.com/will-andrew-ng-join-baidu-idl/
嘀嗒嘀嗒:讲述技术、白话硅谷。偶尔八八程序员身边的事儿。关注长按二维码:
这次上图了,点赞下次就继续~
王佳骏2016-05-30 00:31:30
仙风道骨的风清扬。