评估方法 口自助法 以自助采样法为基础,对数据集D有放回采样m次得到训练集 D′,D\D用做测试集。 ●实际模型与预期模型都使用η个训练样本 ●约有1/3的样本没在训练集中出现 ●从初始数据集中产生多个不同的训练集,对集成学习有很大的 好处 ●自助法在数据集较小、难以有效划分训练/测试集时很有用;由 于改变了数据集分布可能引入估计偏差,在数据量足够时,留 出法和交叉验证法更常用
评估方法 自助法: 以自助采样法为基础,对数据集 有放回采样 次得到训练集 , 用做测试集。 ⚫ 实际模型与预期模型都使用 个训练样本 ⚫ 约有1/3的样本没在训练集中出现 ⚫ 从初始数据集中产生多个不同的训练集,对集成学习有很大的 好处 ⚫ 自助法在数据集较小、难以有效划分训练/测试集时很有用;由 于改变了数据集分布可能引入估计偏差,在数据量足够时,留 出法和交叉验证法更常用
大纲 口经验误差与过拟合 口评估方法 口性能度量 口比较检验 口偏差与方 口阅读材料
大纲 经验误差与过拟合 评估方法 性能度量 比较检验 偏差与方差 阅读材料
性能度量 性能度量是衡量模型泛化能力的评价标准,反映了任务 需求;使用不同的性能度量往往会导致不同的评判结果 在预测任务中,给定样例集D={(x1,yn),(x2,2),,rm,ym)} 评估学习器的性能∫也即把预测结果f(x)和真实标记比较. 回归任务最常用的性能度量是“均方误差” E(f;D)=∑(f(m;)-)
性能度量 性能度量是衡量模型泛化能力的评价标准,反映了任务 需求;使用不同的性能度量往往会导致不同的评判结果 在预测任务中,给定样例集 评估学习器的性能 也即把预测结果 和真实标记比较. 回归任务最常用的性能度量是“均方误差”:
性能度量 对于分类任务,错误率和精度是最常用的两种性能度量 ●错误率:分错样本占样本总数的比例 ●精度:分对样本占样本总数的比率 分类错误率 精度 E(;D)=∑If(x)≠m)ac(f; m ∑I(f(x;)=) i=1 E(; D)
性能度量 对于分类任务,错误率和精度是最常用的两种性能度量: ⚫ 错误率:分错样本占样本总数的比例 ⚫ 精度:分对样本占样本总数的比率 分类错误率 精度
性能度量 信息检索、Web搜索等场景中经常需要衡量正例被预测 出来的比率或者预测出来的正例中正确的比率,此时查 准率和查全率比错误率和精度更适合。 统计真实标记和预测结果的组合可以得到“混淆矩阵” 分类结果混淆矩阵 TP 真实情况 预测结果 查准率P 正例 反例 TP+FP 正例P(真正例)FN(假反例 反例FP(假正例)TN(真反例) 查全B_TP TP+FN
性能度量 信息检索、Web搜索等场景中经常需要衡量正例被预测 出来的比率或者预测出来的正例中正确的比率,此时查 准率和查全率比错误率和精度更适合。 统计真实标记和预测结果的组合可以得到“混淆矩阵” 查准率 查全率