IV 统计学习方法(第2版) 第2版增加的无监督学习方法,王泉、陈嘉怡、柴琛林、赵程绮等帮助做了认真细 致的校阅,提出了许多宝贵意见,在此谨对他们表示衷心的感谢。清华大学出版社的 薛慧编辑一直对本书的写作给予非常专业的指导和帮助,在此对她表示衷心的感谢! 由于本人水平有限,本书一定存在不少错误,恳请各位专家、老师和同学批评 指正。 李航 2019年4月
第1版序言 计算机与网络已经融入人们的日常学习、工作和生活之中,成为人们不可或缺的 助手和伙伴。计算机与网络的飞速发展完全改变了人们的学习、工作和生活方式。智 能化是计算机研究与开发的一个主要目标。近几十年来的实践表明,统计机器学习方 法是实现这一目标的最有效手段,尽管它还存在着一定的局限性。 本人一直从事利用统计学习方法对文本数据进行各种智能性处理的研究,包括自 然语言处理、信息检索、文本数据挖掘。近20年来,这些领域发展之快,应用之广, 实在令人惊叹!可以说,统计机器学习是这些领域的核心技术,在这些领域的发展及 应用中起着决定性的作用。 本人在日常的研究工作中经常指导学生,并在国内外一些大学及讲习班上多次做 过关于统计学习的报告和演讲。在这一过程中,同学们学习热情很高,希望得到指导, 这使作者产生了撰写本书的想法。 国内外已出版了多本关于统计机器学习的书籍,比如,Hastie等人的《统计学习 基础》,该书对统计学习的诸多问题有非常精辟的论述,但对初学者来说显得有些深 奥。统计学习范围甚广,一两本书很难覆盖所有问题。本书主要是面向将统计学习方 法作为工具的科研人员与学生,特别是从事信息检索、自然语言处理、文本数据挖掘 及相关领域的研究与开发的科研人员与学生。 本书力求系统而详细地介绍统计学习的方法。在内容选取上,侧重介绍那些最重 要、最常用的方法,特别是关于分类与标注问题的方法。对其他问题及方法,如聚类 等,计划在今后的写作中再加以介绍。在叙述方式上,每一章讲述一种方法,各章内容 相对独立、完整:同时力图用统一框架来论述所有方法,使全书整体不失系统性,读 者可以从头到尾通读,也可以选择单个章节细读。对每一种方法的讲述力求深入浅出, 给出必要的推导证明,提供简单的实例,使初学者易于掌握该方法的基本内容,领会 方法的本质,并准确地使用方法。对相关的深层理论,则予以简述。在每章后面,给出 一些习题,介绍一些相关的研究动向和阅读材料,列出参考文献,以满足读者进一步 学习的需求。本书第1章简要叙述统计学习方法的基本概念,最后一章对统计学习方
统计学习方法(第2版) 法进行比较与总结。此外,在附录中简要介绍一些共用的最优化理论与方法。 本书可以作为统计机器学习及相关课程的教学参考书,适用于信息检索及自然语 言处理等专业的大学生、研究生。 本书初稿完成后,田飞、王佳磊、武威、陈凯、伍浩铖、曹正、陶字等人分别审阅 了全部或部分章节,提出了许多宝贵意见,对本书质量的提高有很大帮助,在此向他 们表示衷心的感谢。在本书写作和出版过程中,清华大学出版社的责任编辑薛慧给予 了很多帮助,在此特向她致谢。 由于本人水平所限,书中难免有错误和不当之处,欢迎各位专家和读者给予批评 指正。 李航 2011年4月23日
目 录 第1篇监督学习 第1章统计学习及监督学习概论.3 1.1统计学习3 1.2统计学习的分类 5 1.2.1基本分类.6 1.2.2按模型分类 1 1.2.3按算法分类 .13 1.2.4按技巧分类 13 1.3统计学习方法三要素 .15 1.3.1摸型.15 1.3.2策略 .16 1.3.3算法 19 1.4模型评估与模型选择 …19 1.4.1训练误差与测试误差 .19 1.4.2过拟合与模型选择 .20 1.5正则化与交叉验证 .23 1.5.1正则化… .23 1.5.2交叉验证 1.6泛化能力. .24 1.6.1泛化误差… .24 1.6.2泛化误差上界 .25 1.7生成模型与判别模型 1.8监督学习应用… 28 1.8.1分类间题.28
VIlI 统计学习方法(第2版) 1.8.2标注问题30 1.8.3回归问题. 32 本章概要.33 继续阅读… ..33 习题 33 参考文献… 34 第2章感知机… 35 2.1感知机模型. 学 2.2感知机学习策略 2.2.1数据集的线性可分性 2.2.2感知机学习策略 3阶 2.3感知机学习算法 … 8 2.3.1感知机学习算法的原始形式… 2.3.2算法的收敛性」 …41 2.3.3感知机学习算法的对偶形式 本章概要46 继续阅读 ·6 习46 参考文献, 4? 第3章k近邻法 3.1k近邻算法 .49 3.2k近邻模型… 60 3.2.1模型 60 3.2.2距离度量 0 3.2.3k值的选择 .52 3.2.4分类决策规则 2 3.3k近邻法的实现:kd树 63 3.3.1构造kd树 3 3.3.2搜索kd树… 本章概要。 继续阅读 67