大纲 口经验误差与过拟合 口评估方法 口性能度量 口比较检验 口偏差与方 口阅读材料
大纲 经验误差与过拟合 评估方法 性能度量 比较检验 偏差与方差 阅读材料
评估方法 现实任务中往往会对学习器的泛化性能、时间开销、存 储开销、可解释性等方面的因素进行评估并做出选择 我们假设测试集是从样本真实分布中独立采样获得, 将测试集上的“测试误差”作为泛化误差的近似,所 以测试集要和训练集中的样本尽量互斥
评估方法 现实任务中往往会对学习器的泛化性能、时间开销、存 储开销、可解释性等方面的因素进行评估并做出选择 我们假设测试集是从样本真实分布中独立采样获得, 将测试集上的“测试误差”作为泛化误差的近似,所 以测试集要和训练集中的样本尽量互斥
评估方法 通常将包含个m样本的数据集D={(x1,y),(x2,v),…,(xm,m)} 拆分成训练集S和测试集T: 口留出法: ●直接将数据集划分为两个互斥集合 ●训练/测试集划分要尽可能保持数据分布的一致性 ●一般若干次随机划分、重复实验取平均值 ●训练/测试样本比例通常为2:1~4:1
评估方法 留出法: ⚫ 直接将数据集划分为两个互斥集合 ⚫ 训练/测试集划分要尽可能保持数据分布的一致性 ⚫ 一般若干次随机划分、重复实验取平均值 ⚫ 训练/测试样本比例通常为2:1~4:1 通常将包含个 样本的数据集 拆分成训练集 和测试集 :
评估方法 口交叉验证法: 将数据集分层采样划分为k个大小相似的互斥子集,每次用k-1个子 集的并集作为训练集,余下的子集作为测试集,最终返回k个测试 结果的均值,k最常用的取值是10 L DiDaDa. D D- Ds DoDid 训练集 测试集 D1D2D3DDDD-DD][Da→测试结果1 D,D,D, DA DS Do D,DD[D]一测试结果2平均返回 结果 DaD, D: Ds Da Ds D Did[一测试结果10 10折交叉验证示意图
评估方法 交叉验证法: 将数据集分层采样划分为k个大小相似的互斥子集,每次用k-1个子 集的并集作为训练集,余下的子集作为测试集,最终返回k个测试 结果的均值,k最常用的取值是10
评估方法 与留出法类似,将数据集D划分为k个子集同样存在多种划分方式, 为了減小因样本划分不同而引入的差别,k折交叉验证通常随机使用 值,例如常宽的“10次10折交叉验证”次k折交叉验证结果的均 不同的划分重复p次,最终的评估结果是 假设数据集D包含m个样本,若k=m,则得到留一法: ●不受随机样本划分方式的影响 ●结果往往比较准确 ●当数据集比较大时,计算开销难以忍受
评估方法 与留出法类似,将数据集D划分为k个子集同样存在多种划分方式, 为了减小因样本划分不同而引入的差别,k折交叉验证通常随机使用 不同的划分重复p次,最终的评估结果是这p次k折交叉验证结果的均 值,例如常见的“10次10折交叉验证” 假设数据集D包含m个样本,若令 ,则得到留一法: ⚫ 不受随机样本划分方式的影响 ⚫ 结果往往比较准确 ⚫ 当数据集比较大时,计算开销难以忍受