当前位置：和泉文库 > 计算机 > 浏览文档

《机器学习》课程教学资源：《机器学习》参考书籍PDF电子版（清华大学出版社，著：周志华）

机器学习是计算机科学的重要分支领域，本书作为该领域的入门教材，在内容上尽可能涵盖机器学习基础知识的各方面.全书共16章，大致分为3个部分：第1部分（第1~3章）介绍机器学习的基础知识：第2部分（第4~10章）讨论一些经典而常用的机器学习方法（决策树、神经网络、支持向量机、贝叶斯分类器、集成学习、聚类、降维与度量学习)：第3部分（第11~16章）为进阶知识，内容涉及特征选择与稀疏学习、计算学习理论、半监督学习、概率图模型、规则学习以及强化学习等每章都附有习题并介绍了相关阅读材料，以便有兴趣的读者进一步钻研探索。

文件格式：PDF，文件大小：37.53MB，售价：50.12元

共434页，可试读40页，点击往前阅读 ↑↑

文档详细内容（约434页）

2.3性能度量 3 必然都被选上了，但这样查准率就会较低：若希望选出的瓜中好瓜比例尽可能高，则可只挑选最有把握的瓜，但这样就难免会漏掉不少好瓜，使得查全率较低.通常只有在一些简单任务中，才可能使查全率和查准率都很高。在很多情形下，我们可根据学习器的预测结果对样例进行排序，排在前面的是学习器认为“最可能”是正例的样本，排在最后的则是学习器认为“最不可能”是正例的样本，按此顺序逐个把样本作为正例进行预测，则每次可以兴地的信急，即可计算出计算出当前的查全率、查准率.以查准率为纵轴、查全率为横轴作图，就得到查全率、查淮率了查准率查全率曲线，简称“PR曲线”，显示该曲线的图称为“PR图”，图点格R物黄·或23给出了一个示意图 1 0. 04 常盖非单调。不平滑的 0.2 在很多局部有上下波动 0.4 08 春会套图2.3P-R曲线与平衡点示意图 PR图直观地显示出学习器在样本总体上的查全率、查准率，在进行比较时，若一个学习器的PR曲线被另一个学习器的曲线完全“包住”，则可断言后者的性能优于前者，例如图2.3中学习器A的性能优于学习器C;如果两个学习器的P-R曲线发生了交叉，例如图2.3中的A与B,则难以一般性地断言两者孰优孰劣，只能在具体的查准率或查全率条件下进行比较.然而，在很多情形下，人们往往仍希望把学习器A与B比出个高低.这时一个比较合理的判据是比较P曲线下面积的大小，它在一定程度上表征了学习器在查准率和查全率上取得相对“双高”的比例.但这个值不太容易估算，因此，人们设计了一些综合考虑查准率、查全率的性能度量， “平衡点”(Break-Event Point,简称BEP)就是这样一个度量，它是“查准率=查全率”时的取值，例如图2.3中学习器C的BEP是0.64，而基于BEP 的比较，可认为学习器A优于B

2.3性能度量 33 TP micro-R=P+F示' (2.16) micro-F1=2x micro-Px micro-R micro-P+micro-R (2.17) 2.3.3R0C与AUC 很多学习器是为测试样本产生一个实值或概率预测，然后将这个预测值与一个分类阑值(threshold)进行比较，若大于阑值则分为正类，否则为反类.例如，神经网络在一般情形下是对每个测试样本预测出一个0.0,1.0之间的实值，神经网络参见第5幸」然后将这个值与0.5进行比较，大于0.5则判为正例，否则为反例.这个实值或概率预测结果的好坏，直接决定了学习器的泛化能力.实际上，根据这个实值或概率预测结果，我们可将测试样本进行排序，“最可能”是正例的排在最前面 “最不可能”是正例的排在最后面.这样，分类过程就相当于在这个排序中以某个“截断点”(cut point)将样本分为两部分，前一部分判作正例，后一部分则判作反例. 在不同的应用任务中，我们可根据任务需求来采用不同的截断点，例如若我们更重视“查准率”，则可选择排序中靠前的位置进行截断：若更重视“查全率”，则可选择靠后的位置进行截断.因此，排序本身的质量好坏，体现了综合考虑学习器在不同任务下的“期望泛化性能”的好坏，或者说，“一般情况下”泛化性能的好坏.ROC曲线则是从这个角度出发来研究学习器泛化性能的有力工具 ROC全称是“受试者工作特征”(Receiver Operating Characteristic)曲线，它源于“二战”中用于敌机检测的雷达信号分析技术，二十世纪六七十年代开始被用于一些心理学、医学检测应用中，此后被引入机器学习领域 [Spackman,.1989.与2.3.2节中介绍的P-R曲线相似，我们根据学习器的预测结果对样例进行排序，按此顺序逐个把样本作为正例进行顶测，每次计算出两个重要量的值，分别以它们为横、纵坐标作图，就得到了“ROC曲线” 与PR曲线使用查准率、查全率为纵、横轴不同，ROC曲线的纵轴是“真正例率”(True Positive Rate,,简称TPR),横轴是“假正例率”(False Positive Rate,简称FPR),基于表2.1中的符号，两者分别定义为 TP TPR-TP+FN' (2.18) FP FPR-TN+FP (2.19)

点击进入文档下载页（PDF格式）

共434页，可试读40页，点击继续阅读 ↓↓

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录