简介(4) 为了解决这些问题需要许多特殊的条件设定 比如 “成功”的学习器的设定 ·学习器是否输出等于目标概念的假设 ·只要求输出的假设与目标概念在多数时间内意见一致 ·学习器通常输出这样的假设 学习器如何获得训练样例 由一个施教者给出 ·由学习器自己实验获得 ·按照某过程随机生成 2003.12.18 机器学习-计算学习理论作者: Mitchel译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-计算学习理论作者:Mitchell 译者:曾华军等讲者:陶晓鹏 6 简介(4) • 为了解决这些问题需要许多特殊的条件设定, 比如 – “成功”的学习器的设定 • 学习器是否输出等于目标概念的假设 • 只要求输出的假设与目标概念在多数时间内意见一致 • 学习器通常输出这样的假设 – 学习器如何获得训练样例 • 由一个施教者给出 • 由学习器自己实验获得 • 按照某过程随机生成
简介(5) 72节介绍可能近似正确(PAC)学习框架 73节在PAC框架下,分析几种学习算法的样本 复杂度和计算复杂度 ·74节介绍了假设空间复杂度的一个重要度量标 准,称为VC维,并且将PAC分析扩展到假设空 间无限的情况 75节介绍出错界限模型,并提供了前面章节中 几个学习算法出错数量的界限,最后介绍了加 权多数算法 2003.12.18 机器学习-计算学习理论作者: Mitchel译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-计算学习理论作者:Mitchell 译者:曾华军等讲者:陶晓鹏 7 简介(5) • 7.2节介绍可能近似正确(PAC)学习框架 • 7.3节在PAC框架下,分析几种学习算法的样本 复杂度和计算复杂度 • 7.4节介绍了假设空间复杂度的一个重要度量标 准,称为VC维,并且将PAC分析扩展到假设空 间无限的情况 • 7.5节介绍出错界限模型,并提供了前面章节中 几个学习算法出错数量的界限,最后介绍了加 权多数算法
可能学习近似正确假设 可能近似正确学习模型(PAC) 指定PAC学习模型适用的问题 在此模型下,学习不同类别的目标函数需要 多少训练样例和多大的计算量 本章的讨论将限制在学习布尔值概念, 且训练数据是无噪声的(许多结论可扩 展到更一般的情形) 2003.12.18 机器学习-计算学习理论作者: Mitchel译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-计算学习理论作者:Mitchell 译者:曾华军等讲者:陶晓鹏 8 可能学习近似正确假设 • 可能近似正确学习模型(PAC) – 指定PAC学习模型适用的问题 – 在此模型下,学习不同类别的目标函数需要 多少训练样例和多大的计算量 • 本章的讨论将限制在学习布尔值概念, 且训练数据是无噪声的(许多结论可扩 展到更一般的情形)
问题框架 Ⅹ表示所有实例的集合,C代表学习器要学习的目标概念集合,C 中每个目标概念c对应于X的某个子集或一个等效的布尔函数c X→>{0,1} ·假定实例按照某概率分布D从X中随机产生 学习器L在学习目标概念时考虑可能假设的集合H。在观察了一系 列关于目标概念c的训练样例后,L必须从H中输出某假设h,它是 对c的估计 我们通过h在从ⅹ中抽取的新实例上的性能来评估L是否成功。新 实例与训练数据具有相同的概率分布 我们要求L足够一般,以至可以从C中学到任何目标概念而不管训 练样例的分布如何,因此,我们会对C中所有可能的目标概念和 所有可能的实例分布D进行最差情况的分析 2003.12.18 机器学习-计算学习理论作者: Mitchel译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-计算学习理论作者:Mitchell 译者:曾华军等讲者:陶晓鹏 9 问题框架 • X表示所有实例的集合,C代表学习器要学习的目标概念集合,C 中每个目标概念c对应于X的某个子集或一个等效的布尔函数c: X→{0,1} • 假定实例按照某概率分布D从X中随机产生 • 学习器L在学习目标概念时考虑可能假设的集合H。在观察了一系 列关于目标概念c的训练样例后,L必须从H中输出某假设h,它是 对c的估计 • 我们通过h在从X中抽取的新实例上的性能来评估L是否成功。新 实例与训练数据具有相同的概率分布 • 我们要求L足够一般,以至可以从C中学到任何目标概念而不管训 练样例的分布如何,因此,我们会对C中所有可能的目标概念和 所有可能的实例分布D进行最差情况的分析
假设的错误率 为了描述学习器输出的假设h对真实目标 概念的逼近程度,首先要定义偎设h对应 于目标概念c和实例分布D的真实错误率 h的真实错误率是应用h到将来按分布D抽 取的实例时的期望的错误率 定义:假设h的关于目标概念c和分布D的 真实错误率为h误分类根据D随机抽取的 实例的概率 errorD(h)= Pr[c(x)*h(x)I 2003.12.18 机器学习-计算学习理论作者: Mitchel译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-计算学习理论作者:Mitchell 译者:曾华军等讲者:陶晓鹏 10 假设的错误率 • 为了描述学习器输出的假设h对真实目标 概念的逼近程度,首先要定义假设h对应 于目标概念c和实例分布D的真实错误率 • h的真实错误率是应用h到将来按分布D抽 取的实例时的期望的错误率 • 定义:假设h的关于目标概念c和分布D的 真实错误率为h误分类根据D随机抽取的 实例的概率 error (h) Prc(x) h(x) x D D