1.5发展历程 11 工智能领域的权威期刊Artificial Intelligence出版机器学习专辑,刊发了当时 一些比较活跃的研究工作,其内容后来出现在J.G.Carbonell主编、MIT出 版社1990年的《机器学习:范型与方法》[Carbonell,,1990)一书中.总的来看, 二十世纪八十年代是机器学习成为一个独立的学科领域、各种机器学习技术 百花初绽的时期 R.S.Michalski等人Michalski et al.,1983把机器学习研究划分为“从样 例中学习”“在问题求解和规划中学习”“通过观察和发现学习”“从指令 中学习”等种类;E.A.Feigenbaum等人在著名的《人工智能手册》(第三卷) [Cohen and Feigenbaum,.l983中,则把机器学习划分为“机械学习”“示教 学习”“类比学习”和“归纳学习”,机械学习亦称“死记硬背式学习”,即 把外界输入的信息全部记录下来,在需要时原封不动地取出来使用,这实际上 没有进行真正的学习,仅是在进行信息存储与检索;示教学习和类比学习类似 于R.S.Michalski等人所说的“从指令中学习”和“通过观察和发现学习”; 归纳学习相当于“从样例中学习”,即从训练样例中归纳出学习结果.二十世 纪八十年代以来,被研究最多、应用最广的是“从样例中学习”(也就是广义 的归纳学习),它涵盖了监督学习、无监督学习等,本书大部分内容均属此范畴 下面我们对这方面主流技术的演进做一个简单回顾 在二十世纪八十年代,“从样例中学习”的一大主流是符号主义学习, 其代表包括决策树(decision tree)和基于逻辑的学习.典型的决策树学习以信 参见第4章。 息论为基础,以信息熵的最小化为目标,直接模拟了人类对概念进行判定的 树形流程.基于逻辑的学习的著名代表是归纳逻辑程序设计(Inductive Logic 这时实际是LP的前身. Programming,简称LP),可看作机器学习与逻辑程序设计的交叉,它使用 泰见第15章。 阶逻辑(即谓词逻辑)来进行知识表示,通过修改和扩充逻辑表达式(例如Prolog 表达式)来完成对数据的归纳.符号主义学习占据主流地位与整个人工智能领域 的发展历程是分不开的.前面说过,人工智能在二十世纪五十到八十年代经历 了“推理期”和“知识期”,在“推理期”人们基于符号知识表示、通过演绎 推理技术取得了很大成就,而在“知识期”人们基于符号知识表示、通过获取 和利用领域知识来建立专家系统取得了大量成果,因此,在“学习期”的开始, 符号知识表示很自然地受到青睐.事实上,机器学习在二十世纪八十年代正是 被视为“解决知识工程瓶颈问题的关键”而走上人工智能主舞台的.决策树学 习技术由于简单易用,到今天仍是最常用的机器学习技术之一,LP具有很强 的知识表示能力,可以较容易地表达出复杂数据关系,而且领域知识通常可方 便地通过逻辑表达式进行描述,因此,LP不仅可利用领域知识辅助学习,还可
12 第1章绪论 通过学习对领域知识进行精化和增强:然而,成也萧何、败也萧何,由于表示能 力太强,直接导致学习过程面临的假设空间太大、复杂度极高,因此,问题规模 稍大就难以有效进行学习,九十年代中期后这方面的研究相对陷入低潮。 二十世纪九十年代中期之前,“从样例中学习”的另一主流技术是基于神 经网络的连接主义学习.连接主义学习在二十世纪五十年代取得了大发展,但 因为早期的很多人工智能研究者对符号表示有特别偏爱,例如图灵奖得主H Simo加曾断言人工智能是研究“对智能行为的符号化建模”,所以当时连接主 义的研究未被纳入主流人工智能研究范睛.尤其是连接主义自身也遇到了很大 的障碍,正如图灵奖得主M.Minsky和S.Papert在1969年指出,(当时的)神经 网络只能处理线性分类,甚至对“异或”这么简单的问题都处理不了.1983年, J.J.Hopfield利用神经网络求解“流动推销员问题”这个著名的NP难题取得 重大进展,使得连接主义重新受到人们关注,l986年,D.E.Rumelhart等人重 泰见第5章。 新发明了著名的BP算法,产生了深远影响.与符号主义学习能产生明确的概 念表示不同,连接主义学习产生的是“黑箱”模型,因此从知识获取的角度来 看,连接主义学习技术有明显弱点;然而,由于有BP这样有效的算法,使得它 可以在很多现实问题上发挥作用.事实上,BP一直是被应用得最广泛的机器 学习算法之一.连接主义学习的最大局限是其“试错性”;简单地说,其学习过 程涉及大量参数,而参数的设置缺乏理论指导,主要靠手工“调参”;夸张一点 说,参数调节上失之毫厘,学习结果可能谬以千里, 二十世纪九十年代中期,“统计学习”(statistical learning)闪亮登场并 迅速占据主流舞台,代表性技术是支持向量机(Support Vector Machine,.简称 参见第6章 SVM)以及更一般的“核方法”(kernel methods).这方面的研究早在二十世 纪六七十年代就已开始,统计学习理论Vapnik,1998在那个时期也已打下 了基础,例如V.N.Vapnik在1963年提出了“支持向量”概念,他和A.J Chervonenkis在1968年提出VC维,在1974年提出了结构风险最小化原则等 但直到九十年代中期统计学习才开始成为机器学习的主流,一方面是由于有效 的支持向量机算法在九十年代初才被提出,其优越性能到九十年代中期在文 本分类应用中才得以显现;另一方面,正是在连接主义学习技术的局限性凸显 之后,人们才把目光转向了以统计学习理论为直接支撑的统计学习技术.事实 见习题6.5 上,统计学习与连接主义学习有密切的联系.在支持向量机被普遍接受后,核技 巧kernel trick)被人们用到了机器学习的几乎每一个角落,核方法也逐渐成为 机器学习的基本内容之一, 有趣的是,二十一世纪初,连接主义学习又卷土重来,掀起了以“深度学
1.6应用现状 参见5.6节. 习”为名的热潮.所谓深度学习,狭义地说就是“很多层”的神经网络.在若 干测试和竞赛上,尤其是涉及语音、图像等复杂对象的应用中,深度学习技术 取得了优越性能.以往机器学习技术在应用中要取得好性能,对使用者的要求 较高;而深度学习技术涉及的模型复杂度非常高,以至于只要下工夫“调参” 把参数调节好,性能往往就好.因此,深度学习虽缺乏严格的理论基础,但它显 著降低了机器学习应用者的门槛,为机器学习技术走向工程实践带来了便利 那么,它为什么此时才热起来呢?有两个基本原因:数据大了、计算能力强了 “过椒合参见第2章. 深度学习模型拥有大量参数,若数据样本少,则很容易“过拟合”;如此复杂的 模型、如此大的数据样本,若缺乏强力计算设备,根本无法求解.恰由于人类进 入了“大数据时代”,数据储量与计算设备都有了大发展,才使得连接主义学 习技术焕发又一春.有趣的是,神经网络在二十世纪八十年代中期走红,与当时 intel x86系列微处理器与内存条技术的广泛应用所造成的计算能力、数据访 存效率比七十年代有显著提高不无关联深度学习此时的状况,与彼时的神经 网络何其相似 需说明的是,机器学习现在已经发展成为一个相当大的学科领域,本节仅 是管中窥豹,很多重要技术都没有谈及,耐心的读者在读完本书后会有更全面 的了解 1.6应用现状 在过去二十年中,人类收集、存储、传输、处理数据的能力取得了飞速提 升,人类社会的各个角落都积累了大量数据,亟需能有效地对数据进行分析利 用的计算机算法,而机器学习恰顺应了大时代的这个迫切需求,因此该学科领 域很自然地取得巨大发展、受到广泛关注. 今天,在计算机科学的诸多分支学科领域中,无论是多媒体、图形学,还是 网络通信、软件工程,乃至体系结构、芯片设计,都能找到机器学习技术的身 影,尤其是在计算机视觉、自然语言处理等“计算机应用技术”领域,机器学 习已成为最重要的技术进步源泉之一 机器学习还为许多交叉学科提供了重要的技术支撞.例如,“生物信息 学”试图利用信息技术来研究生命现象和规律,而基因组计划的实施和基因药 物的美好愿景让人们为之心潮澎湃。生物信息学研究涉及从“生命现象”到 “规律发现”的整个过程,其间必然包括数据获取、数据管理、数据分析、仿 真实验等环节,而“数据分析”恰是机器学习技术的舞台,各种机器学习技术 已经在这个舞台上大放异彩
14 第1章绪论 事实上,随着科学研究的基本手段从传统的“理论+实验”走向现在的 “理论+实验+计算”,乃至出现“数据科学”这样的提法,机器学习的重要 性日趋显著,因为“计算”的目的往往是数据分析,而数据科学的核心也恰是 通过分析数据来获得价值.若要列出目前计算机科学技术中最活跃、最受瞩 NASA-JPL的全称是美 国杭空杭天局喷气推进实 目的研究分支,那么机器学习必居其中.2O01年,美国NASA-JPL的科学家 在Science杂志上专门撰文Mjolsness and DeCoste,2001指出,机器学习对 科学研究的整个过程正起到越来越大的支撑作用,其进展对科技发展意义重大 20O3年,DARPA启动PAL计划,将机器学习的重要性上升到美国国家安全的 DARPA的全称是美国 高度来考虑.众所周知,美国最尖端科技的研究通常是由NASA和DARPA推 进的,而这两大机构不约而同地强调机器学习的重要性,其意义不言而喻 的研究项目。 2006年,卡耐基梅隆大学宜告成立世界上第一个“机器学习系”,机器学 习领域奠基人之一T.Mitchell教授出任首任系主任.2012年3月,美国奥巴马 政府启动“大数据研究与发展计划”,美国国家科学基金会旋即在加州大学伯 克利分校启动加强计划,强调要深入研究和整合大数据时代的三大关键技术 机器学习、云计算、众包(crowdsourcing).显然,机器学习在大数据时代是必 理能力,众包提供款摇标 不可少的核心技术,道理很简单:收集、存储、传输、管理大数据的目的,是为 记能力。 了“利用”大数据,而如果没有机器学习技术分析数据,则“利用”无从淡起. 谈到对数据进行分析利用,很多人会想到“数据挖掘”(data mining),这 里简单探讨一下数据挖掘与机器学习的联系.数据挖掘领域在二十世纪九十年 代形成,它受到很多学科领域的影响,其中数据库、机器学习、统计学无疑影 带疑义这是由于传就就 计学研究往往醉心于理论 响最大☑hou,2003.数据挖掘是从海量数据中发掘知识,这就必然涉及对“海 的倪美而忽视实际效用 量数据”的管理和分析.大体来说,数据库领域的研究为数据挖掘提供数据管 理技术,而机器学习和统计学的研究为数据挖掘提供数据分析技术.由于统计 学界的研究成果通常需要经由机器学习研究来形成有效的学习算法,之后再进 入数据挖掘领域,因此从这个意义上说,统计学主要是通过机器学习对数据挖 掘发挥影响,而机器学习领域和数据库领域则是数据挖掘的两大支撑 今天,机器学习已经与普通人的生活密切相关.例如在天气预报、能源物 探、环境监测等方面,有效地利用机器学习技术对卫星和传感器发回的数据进 行分析,是提高预报和检测准确性的重要途径;在商业营销中,有效地利用机器 学习技术对销售数据、客户信息进行分析,不仅可帮助商家优化库存降低成本, 还有助于针对用户群设计特殊营销策略;…下面再举几例 众所周知,谷歌、百度等互联网搜索引擎已开始改变人类的生活方式,例 如很多人已习惯于在出行前通过互联网搜索来了解目的地信息、寻找合适的
1.6应用现状 6 酒店、餐馆等.美国《(新闻周刊》曾对谷歌有一句话评论:“它使任何人离任 何问题的答案间的距离变得只有点击一下鼠标这么远”显然,互联网搜索是 通过分析网络上的数据来找到用户所需的信息,在这个过程中,用户查询是输 入、搜索结果是输出,而要建立输入与输出之间的联系,内核必然需要机器学 习技术.事实上,互联网搜索发展至今,机器学习技术的支撑居功至伟.到了今 天,搜索的对象、内容日趋复杂,机器学习技术的影响更为明显,例如在进行 “图片搜索”时,无论谷歌还是百度都在使用最新潮的机器学习技术.谷歌、 百度、脸书、雅虎等公司纷纷成立专攻机器学习技术的研究团队,甚至直接以 机器学习技术命名的研究院,充分体现出机器学习技术的发展和应用,甚至在 定程度上影响了互联网产业的走向 再举一例.车祸是人类最凶险的杀手之一,全世界每年有上百万人丧生车 轮,仅我国每年就有约十万人死于车祸。由计算机来实现自动汽车驾驶是一个 理想的方案,因为机器上路时可以确保不是新手驾驶、不会疲劳驾驶,更不会 酒后驾驶,而且还有重要的军事用途.美国在二十世纪八十年代就开始进行这 例如著名机器学习教利 方面研究.这里最大的困难是无法在汽车厂里事先把汽车上路后所会遇到的所 有情况都考虑到、设计出处理规则并加以编程实现,而只能根据上路时遇到的 期利用神经网络学习来控 制自动驾驶车的ALVINN 情况即时处理.若把车载传感器接收到的信息作为输入,把方向、刹车、油门 系统 的控制行为作为输出,则这里的关键问题恰可抽象为一个机器学习任务.2004 年3月,在美国DARPA组织的自动驾驶车比赛中,斯坦福大学机器学习专家 S.Thrunt的小组研制的参赛车用6小时53分钟成功走完了132英里赛程获得 冠军.比赛路段是在内华达州西南部的山区和沙漠中,路况相当复杂,在这样的 路段上行车即使对经验丰富的人类司机来说也是一个挑战.S.Thrun后来到谷 歌领导自动驾驶车项目团队.值得一提的是,自动驾驶车在近几年取得了飞跃 式发展,除谷歌外,通用、奥迪、大众、宝马等传统汽车公司均投入巨资进行 研发,目前已开始有产品进入市场.2011年6月,美国内华达州议会通过法案, 成为美国第一个认可自动驾驶车的州,此后,夏威夷州和佛罗里达州也先后通 过类似法案.自动驾驶汽车可望在不久的将来出现在普通人的生活中,而机器 学习技术则起到了“司机”作用. 机器学习技术甚至已影响到人类社会政治生活.2012年美国大选期间,奥 巴马麾下有一支机器学习团队,他们对各类选情数据进行分析,为奥巴马提示 下一步竞选行动.例如他们使用机器学习技术分析社交网络数据,判断出在总 统候选人第一次辩论之后哪些选民会倒戈,并根据分析的结果开发出个性化宣 传策略,能为每位选民找出一个最有说服力的挽留理由:他们基于机器学习模