当前位置：和泉文库 > 计算机 > 浏览文档

《机器学习》课程教学资源：《机器学习》参考书籍PDF电子版（清华大学出版社，著：周志华）

机器学习是计算机科学的重要分支领域，本书作为该领域的入门教材，在内容上尽可能涵盖机器学习基础知识的各方面.全书共16章，大致分为3个部分：第1部分（第1~3章）介绍机器学习的基础知识：第2部分（第4~10章）讨论一些经典而常用的机器学习方法（决策树、神经网络、支持向量机、贝叶斯分类器、集成学习、聚类、降维与度量学习)：第3部分（第11~16章）为进阶知识，内容涉及特征选择与稀疏学习、计算学习理论、半监督学习、概率图模型、规则学习以及强化学习等每章都附有习题并介绍了相关阅读材料，以便有兴趣的读者进一步钻研探索。

文件格式：PDF，文件大小：37.53MB，售价：50.12元

共434页，可试读40页，点击往前阅读 ↑↑

文档详细内容（约434页）

第2章模型评估与选择 2.1经验误差与过拟合通常我们把分类错误的样本数占样本总数的比例称为“错误率”(erro rate),即如果在m个样本中有a个样本分类错误，则错误率E=a/m;相应的， a套意分比人1一am称为精度”Cc以即精度三1销误率更一投地我们完学习器的实际预测输出与样本的真实输出之间的差异称为“误差”(eror), 受量绣证的~均学习器在训练集上的误差称为“训练误差”(ining ror)减“经验误差”(empirical error),在新样本上的误差称为“泛化误差”(generalization error)).显然，我们希望得到泛化误差小的学习器.然而，我们事先并不知道新不同样本是什么样，实际能做的是努力使经验误差最小化.在很多情况下，我们可以化经验误差。学得一个经验误差很小、在训练集上表现很好的学习器，例如甚至对所有训练样本都分类正确，即分类错误率为零，分类精度为100%，但这是不是我们想要的学习器呢？遗憾的是，这样的学习器在多数情况下都不好. 我们实际希望的，是在新样本上能表现得很好的学习器.为了达到这个目的，应该从训练样本中尽可能学出适用于所有潜在样本的“普遍规律”，这样才能在遇到新样本时做出正确的判别.然而，当学习器把训练样本学得“太好”了的时候，很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降.这种现象在机器学习中称为过拟合亦称“过配” “过拟合”(overfitting).与“过拟合”相对的是“欠拟合”(underfitting),这火拟合亦称“火配” 是指对训练样本的一般性质尚未学好.图2.1给出了关于过拟合与欠拟合的个便于直观理解的类比. 有多种因素可能导致过拟合，其中最常见的情况是由于学习能力过于强大，大孝的餐西过提以至于把训练样本所包含的不太一般的特性都学到了，而欠拟合则通常是由据内涵共同决定的于学习能力低下而造成的.欠拟合比较容易克服，例如在决策树学习中扩展分支、在神经网络学习中增加训练轮数等，而过拟合则很麻烦。在后面的学习中我们将看到，过拟合是机器学习面临的关键障碍，各类学习算法都必然带有些针对过拟合的措施：然而必须认识到，过拟合是无法彻底避免的，我们所能做的只是“缓解”，或者说减小其风险.关于这一点，可大致这样理解：机器学习面临的问题通常是NP难甚至更难，而有效的学习算法必然是在多项式时间内

第2章模型评估与选择过拟合模型分类结果：误以为树叶必须有锯齿欠拟合模型分类结果 (误以为绿色的都是树叶图21过拟合、欠拟合的直观类比运行完成，若可彻底避免过拟合，则通过经验误差最小化就能获最优解，这就意味着我们构造性地证明了“P=NP”;因此，只要相信“P≠NP”,过拟合就不可避免在现实任务中，我们往往有多种学习算法可供选择，甚至对同一个学习算法，当使用不同的参数配置时，也会产生不同的模型.那么，我们该选用哪一个学习算法、使用哪一种参数配置呢？这就是机器学习中的“模型选择”(mod©l selection)问题.理想的解决方案当然是对候选模型的泛化误差进行评估，然后选择泛化误差最小的那个模型.然而如上面所讨论的，我们无法直接获得泛化误差，而训练误差又由于过拟合现象的存在而不适合作为标准，那么，在现实中如何进行模型评估与选择呢？ 2.2评估方法通常，我们可通过实验测试来对学习器的泛化误差进行评估并进而做出选专弃择，为此，需使用一个“测试集”esge来测试学习器对新样本的判别能。可解释性等方面。用这里暂且只考虑泛化力，然后以测试集上的“测试误差”(testing error)作为泛化误差的近似.通常我们假设测试样本也是从样本真实分布中独立同分布采样而得.但需注意的是，测试集应该尽可能与训练集互斥，即测试样本尽量不在训练集中出现、未在训练过程中使用过，测试样本为什么要尽可能不出现在训练集中呢？为理解这一点，不妨考虑这样一个场景：老师出了10道习题供同学们练习，考试时老师又用同样的这10 道题作为试题，这个考试成绩能否有效反映出同学们学得好不好呢？答案是否定的，可能有的同学只会做这10道题却能得高分.回到我们的问题上来，我们

22评估方法 25 希望得到泛化性能强的模型，好比是希望同学们对课程学得很好、获得了对所学知识“举一反三”的能力；训练样本相当于给同学们练习的习题，测试过程则相当于考试.显然，若测试样本被用作训练了，则得到的将是过于“乐观”的估计结果. 可是，我们只有一个包含m个样例的数据集D={(c1,h),(x2,2),, (cm,m)},既要训练，又要测试，怎样才能做到呢？答案是：通过对D进行适当的处理，从中产生出训练集S和测试集T,下面介绍几种常见的做法 2.2.1留出法 “留出法”(hold-out)直接将数据集D划分为两个互斥的集合，其中一个集合作为训练集S,另一个作为测试集T,即D=SUT,S门T=⑦.在S上训练出模型后，用T来评估其测试误差，作为对泛化误差的估计. 以二分类任务为例，假定D包含1000个样本，将其划分为S包含700个样本，T包含300个样本，用S进行训练后，如果模型在T上有90个样本分类错误，那么其错误率为(90/300)×100%=30%，相应的，精度为1-30%=70% 需注意的是，训练/测试集的划分要尽可能保持数据分布的一致性，避免因数据划分过程引入额外的偏差而对最终结果产生影响，例如在分类任务中至少要保持样本的类别比例相似.如果从采样(sampling)的角度来看待数据集的划分过程，则保留类别比例的采样方式通常称为“分层采样”(stratified sampling).例如通过对D进行分层采样而获得含70%样本的训练集S和含 30%样本的测试集T,若D包含500个正例、500个反例，则分层采样得到的 S应包含350个正例、350个反例，而T则包含150个正例和150个反例：若 S、T中样本类别比例差别很大，则误差估计将由于训练/测试数据分布的差异而产生偏差另一个需注意的问题是，即便在给定训练/测试集的样本比例后，仍存在多参见习题21. 种划分方式对初始数据集D进行分割.例如在上面的例子中，可以把D中的样本排序，然后把前350个正例放到训练集中，也可以把最后350个正例放到训练集中，…这些不同的划分将导致不同的训练/测试集，相应的，模型评估的结果也会有差别.因此，单次使用留出法得到的估计结果往往不够稳定可靠，在使用留出法时，一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果.例如进行100次随机划分，每次产生一个训练/测试集用准风时可得估计特果的标于实验评估，100次后就得到100个结果，而留出法返回的则是这100个结果的平均此外，我们希望评估的是用D训练出的模型的性能，但留出法需划分训

点击进入文档下载页（PDF格式）

共434页，可试读40页，点击继续阅读 ↓↓

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录