近年来,人工智能的强势崛起,特别是方才以前的AlphaGo和韩国九段棋手李世石的人机大年夜战,让我们领略到了人工智能技巧的巨大年夜潜力。数据是载体,智能是目标,而机械进修是大年夜数据通往智能的技巧门路。是以,机械进修是数据科学的核心,是现代人工智能的本质。
通俗地说,机械进修就是大年夜数据中发掘出有价值的信息。数据本身是无意识的,它不克不及主动出现出有效的信息。如何才能找出有价值的器械呢?第一步要给数据一个抽象的表示;接着基于表示进行建模;然后估计模型的参数,也就是计算;为了应对大年夜范围的数据所带来的问题,我们还须要设计一些高效的实现手段,包含硬件层面和算法层面。统计是建模的重要对象和门路,而模型求解大年夜多被定义为一个优化问题,特别是,频率派办法其实就是一个优化问题。而贝叶斯模型的计算则往往牵扯蒙特卡洛(Monte Carlo)随机抽样办法。是以,机械进修是计算机科学和统计学的交叉学科。
比来有一本尚未出版的书《数据科学基本》(Foundation of Data Science),作者之一霍普克洛夫特(John Hopcroft)是图灵奖得主。在这本书前沿部分,提到了计算机科学的成长可以分为三个阶段:早期、中期和当今。早期就是让计算机可以运行起来,其重点在于开辟法度榜样说话、编译技巧、操作体系,以及研究支撑它们的数学理论。中期是让计算机变得有效,变得高效,重点在于研究算法和数据构造。第三个阶段是让计算机具有更广泛的应用,成长重点大年夜离散类数学转到概率和统计。我曾经和霍普克洛夫特交谈过几回,他认为计算机科学成长到今天,机械进修是核心。他正在读机械进修和深度进修方面的书,并筹划为本科生讲解机械进修课程。
统计与计算
借鉴计算机视觉理论开创人马尔(Marr)的关于计算机视觉的三级论定义,我把机械进修也分为三个层次:初级、中级和高等。初级阶段是数据获取以及特点的提取。中级阶段是数据处理与分析,它又包含三个方面:起首是应用问题导向,简单地说,它重要应用已有的模型和办法解决一些实际问题,我们可以懂得为数据发掘;其次,根据应用问题的须要,提出和成长模型、办法和算法以及研究支撑它们的数学道理或理论基本等,这是机械进修学科的核心内容;第三,经由过程推理达到某种智能。高等阶段是智能与认知,即实现智能的目标。数据发掘和机械进修本质上是一样的,其差别是数据发掘更接近于数据端,而机械进修则更接近于智能端。
如今大年夜家杀青了一个共鸣:如不雅你在用一个机械进修办法,而不懂其基本道理,这是一件异常恐怖的工作。恰是因为这个原因,今朝学术界对深度进修照样心存疑虑的。尽管深度进修已经在实际应用中展示出其强大年夜的才能,但个中的道理今朝大年夜家还不是太清跋扈。
计算机学家平日具有强大年夜的计算才能和解决问题的直觉,而统计学家擅善于理论分析和问题建模,是以,两者具有很好的互补性。Boosting、支撑向量机(SVM)、集成进修和稀少进修是机械进修界也是统计界在近十年或者是近二十年来最为活泼的偏向,这些结不雅是统计界和计算机科学界合营尽力成就的。例如,数学家瓦普尼克(Vapnik) 等人早在20世纪60年代就提出了支撑向量机的理论,但直到计算机界于90年代末创造了异常有效的求解算法,并跟着后续大年夜量优良实现代码的开源,支撑向量机如今成为了分类算法的一个基准模型。再比如,核主成分分析(Kernel Principal Component Analysis, KPCA)是由计算机学家提出的一个非线性降维办法,其实它等价于经典多维标准分析(Multi-Dimensional Scaling, MDS)。而后者在统计界是很早就存在的,但如不雅没有计算机界从新发明,有些好的器械可能就被湮没了。
世界上公认最好的两个统计系来自加州大年夜学伯渴攀利分校和斯坦福大年夜学。加州大年夜学伯渴攀利分校是美国统计学的发源地之一,可以说是当今统计学和机械进修的中间,其机械进修范畴的传授平日同时在计算机系和统计系都有正式职位。已故的布莱曼(Leo Breiman)传授是统计机械进修的重要奠定人,他是浩瀚统计进修办法的重要供献者,比如Bagging、分类回归树(CART)、随机丛林以及非负garrote稀少模械寥。布莱曼是乔丹(Michael Jordan)传授的伯乐,当初是他力主把乔丹大年夜麻省理工学院引进到伯渴攀利分校的。可以说,伯渴攀利分校的统计系袈潇诣了乔丹,反过来他也为伯渴攀利分校的统计学成长创造了新的活力,为机械进修范畴培养了一大年夜批优良的学者,建立了无可代替的功劳。
卡内基梅隆大年夜学是一个异常独特的黉舍,它并不是美国传统的常春藤大年夜学。可以说,它是以计算机科学为立校之本,是世界第一个建立机械进修系的黉舍。米歇尔(Tom Mitchell)传授是机械进修的早期建立者之一和守护者,他一向为该校本科生讲解“机械进修”课程。这个黉舍的统计学同样也是一流,是贝叶斯统计学的世界研究中间。
在机械进修范畴,多伦多大年夜学有着举足轻重的地位,它的机械进修研究组云集了一批世界级的学者,在《科学》(Science)和《天然》(Nature)揭橥多篇开创性的论文,实属罕有。辛顿(Geoffrey Hinton)传授是巨大年夜的思惟家,更是实践者。他是神经收集的建立者之一,是误差反向传播(BP)算法和深度进修的重要供献者。恰是因为他的不懈尽力,神经收集迎来了大年夜爆发。尼尔(Radford Neal)传授是辛顿的学生,他在贝叶斯统计范畴,特别是在蒙特卡洛马尔科夫链模仿办法(MCMC)方面做出了一系列的重要工作,还开源了很多贝叶斯统计办法法度榜样包,并一向致力于优化R说话。
机械进修的成长过程
对于20世纪90年代以前的成长过程,我熟悉不敷,懂得不深,认为当机会械进修处于成长的相对平淡期。而20世纪90年代中期到21世纪00年代中期是机械进修成长的黄金时代,重要标记是学术界出现出一批重要结不雅,比如,基于统计进修理论的支撑向量机、随机丛林和Boosting等集成分类办法,概率图模型,基于再生菏攀理论的非线性数据分析与处理办法,非参数贝叶斯办法,基于正则化理论的稀少进修模型及应用等等。这些结不雅奠定了统计进修的理论基本和框架。
推荐阅读
美国国防部通用拜访卡(Common Access Card,CAC,美国国防部用来进行多重身份验证的智能卡)负责人皮列里表示,身份验证要达到简略单纯操作的程度,面对的挑衅十分巨大年夜。国防部正在研究一种更灵活的身份验证办法>>>详细阅读
本文标题:机器学习的发展历程及启示
地址:http://www.17bianji.com/lsqh/34706.html
1/2 1