[AI科技评论]按:本文根据王立威教授在中国人工智能学会AIDL第二期人工智能前沿讲习班*机器学习前沿所不作报告《机器学习理论:总结与未来发展》编辑整理而来,在未转变本意的基础上稍作了删改。王立威王立威,在北京大学教授主要研究领域为机器学习。在还包括COLT, NIPS,JMLR, PAMI等权威会议期刊公开发表论文60余篇。2010年选入 AI’s 10 to Watch,是首位取得该奖项的亚洲学者。
2012年取得首届国家自然科学基金优秀青年基金,新世纪优秀人才。任 NIPS 等权威会议 Area Chair,和多家学术期刊编委。
以下为王立威教授所做到的现场演说的第三部分,主要阐释了Margin Theory,算法稳定性等涉及问题,并对深度自学算法进行了一些辩论。| Margin Theory讲解接下来给大家讲解机器学习中第二个较为最重要的理论——Margin Theory。Margin Theory和VC Theory有何区别?VC Theory和算法关系不大,它刻画的是子集的复杂程度;Margin Theory则有所不同,它牵涉到很多算法,后面我讲解的Margin Theory就是几乎在刻画算法。
所以大家要解读,机器学习理论的发展,是再行从刻画一些结构的性质,再行渐渐变化到刻画算法本身。我指出当前,特别是在对深度自学来说,最有价值的自学理论一定是在刻画深度自学算法本身的性质。当然你的模型复杂程度也简单,但那有可能不是最主要的。Margin是什么?Margin Theory大家有可能都听闻过,像SVM、Boosting这样的方法都包括有Large Margin的概念。
它究竟是什么含义呢?Margin Theory在SVM中怎么用大家都较为熟知了,想象一下:比如空间中有正负两类点,现在要去找一条线把这两类点分离。必须去找一种个分法使得这两类点分完了以后,离分类面的间距越大就越好,而这个间距就叫Margin。而对于Boosting来讲,也有类似于的概念。
我前面也谈到,Boosting就是由许多基本分类器把线性组合一起而获得的一个最后结果。Margin有什么起到?比如你人组了100个分类器,你要看这100个分类器里面到底有多少是把这个数据看作正的点,有多少是看作胜的。如果50%判成正的、50%判成胜的,实质上这个判断结果对数据就没Margin,Margin就是0;如果百分之百的判成正的,Margin就十分大。
所以大家可以领会一下,Boosting的Margin实质上反映了这个Boosting所用的基本分类器对数据分类结果的置信度(confidence)。如果百分之百都分为正的这一类,解释这个结果的置信度十分低;如果相似50%,则解释置信度非常低。
所以,这个置信度就是用Margin来回应的,它实质上对一般化能力起着了十分最重要的影响。为什么不会开始研究Margin Theory?大家最开始用VC Theory研究Boosting的时候,理论结果认同是综合越少的基本分类器,一般化效果越差。但实质上实验结果毕竟,综合了几千个基本分类器之后,一般化性能不仅没变差,还在大大逆好。
这看上去就很怪异,因此也引领人们去思维,不仅要考虑到模型的复杂程度,还要考虑到算法本身否也对一般化产生影响。从直观上解读:如何用Margin刻画一般化?Margin既可以对SVM刻画一般化,也可以对Boosting刻画一般化。不过我们再行把所有这些理论都忘记,全然从直观的角度来思维。
现在大家有这样两种情形大家来较为一下:第一种情形,我现在有一个分类器,它对绝大部分的数据都有一个相当大的置信度,要么是全部分为正类,要么全部分为负类。用Margin语言来说,就是对于绝大部分数据Margin都相当大;第二种情形,对于绝大部分数据来说Margin都较小,基本上都是只比50%略为多一点。这两种分类器虽然差异相当大,但是我们假设这两种情况在训练数据上的训练错误率是完全相同的。
训练错误率不能回应把数据分对还是分错了,而置信度实质上则代表了明确分类值的大小。大家看看,在训练错误率完全相同的前提下,是置信度大的更加有可能有强劲一般化能力,还是说道置信度小的可能性更大?即使从十分直觉的角度,不必通过任何理论你也能告诉,一定是置信度大的一般化能力更大。Margin Theory就是把刚才那个很直观的点子创建在准确的数学基础上,再行用森严的语言给阐释出来。
对数学很感兴趣的同学可以去看里面数学明确的证明;如果对这个没兴趣的,就解读我刚才谈的。就是说对于分类结果,千万不要只看训练错误率这么一个非常简单的数字,你要注目Margin。Margin代表了置信度,而置信度对一般化能力有非常根本性的起到。
我和周志华老师一起合作过很多工作,特别是在说明Boosting这方面。这大约是将近十年前做到的工作。
后来周老师和他的学生又做到了很多更加了解、更加精美的一些工作。所以如果大家感兴趣的话可以参看一下这方面的论文。| 对Margin Theory的总结VC Theory是宏观的,它是对问题的一种最简单的阐释,只考虑到算法对每个数据判对还是判错和模型的复杂程度,用这两点来刻画一般化。
而Margin Theory告诉他大家要更加注目算法的信息,算法不会输入很多置信度方面的信息。只不过在今天的深度自学里面,某种程度有这个问题: 深度自学最后输入的不光是是非,而是输入了一个实数值,这个值本身所含一定的信息量,这个值的大小在或许上只不过也体现了置信度的大小。
作为研究内容大家可以去探究一下,这个值对于深度自学的一般化能力有什么样起到。从Boosting发展历程中,进账了什么灵感?刚才我们谈了Margin Theory对SVM、对Boosting都是限于的,大家还可以探究一下两者之间的关系。下面是一个关于Boosting针对明确的Margin理论得出的数学的表达式,这个表达式比较复杂的,最初是由Boosting的明确提出者Freund和Schapire明确提出来的。
这个里面只不过还有很多的故事。非常简单说道一下这里面的故事。
Boosting只不过很有意思,大家如果总结一下机器学习的发展历史,你不会找到历史总是在大大反复的再次发生。大约在1995、1996年,人们明确提出了adaBoost算法。
这个算法明确提出来之后大家实在,怎么这么非常简单的一个人组就能大幅提高性能了呢?这看上去就像魔术,像今天的深度自学一样。它的方法只不过就是把基本的分类器人组一起。现在没有人需要说明为什么深度自学在实际中就是有这么好的效果,而当年adaBoost算法刚出来的时候也是如此。
不过迅速,adaBoost的明确提出者Freund和Schapire他们两个人就得出了理论Margin Theory,从数学上证明其原因是Boosting需要获得一个分类器,而它的Margin相当大。但是旋即之后,随机森林和bagging的明确提出者Leo Breiman又明确提出一个理论,叫Minimum Margin。
这个理论在定量方面做到得更佳,但是在实验结果上却和理论恰好相反——理论上更佳的Boosting算法,终究没理论上不好的Boosting算法的实验结果展现出得好。所以大家能解读了,这个时候的实验结果和理论预测是几乎对立的,那究竟应当是坚信实验还是坚信理论呢?这时我们就必需本着实事求是的精神,百分之百的认同实验结果:认同是理论上出有了什么问题。所以Breiman得出结论一个结论:Margin Theory认同是有很大问题的,它无法说明实际的现象。很多年以后,通过学者们,还包括我和周志华老师,在这方面做到的一些研究,我们找到这个理论只不过并没问题,问题在于之前的理论在定量的意义上没做最差。
你把定量做到的更为了解、更为细致之后,就不会找到Margin的理论和试验观测就统一了。所以Boosting发展历程的故事对我个人的一个灵感是,只不过有的时候算法的明确提出是不会比理论落后的,adaBoosting就是一个很典型的例子。
但是不要生气,我们渐渐的深入研究它、解读它,我坚信对深度自学是一样的,应当在旋即的将来,我们从理论上不会对深度自学有一个更加深刻印象的了解。关于王教授及其他教授的主题报告,敬请期待(公众号:)的先前报导。原创文章,予以许可禁令刊登。
下文闻刊登须知。
本文来源:全球最大的赌钱网-www.bestplrarticle.com
11440099486