机器学习 第5章评估假设 2003.12.18 机器学习-评估假设作者: Mitchell译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-评估假设作者:Mitchell 译者:曾华军等讲者:陶晓鹏 1 机器学习 第5章 评估假设
概述 对假设的精度进行评估是机器学习中的基本问题 本章介绍用统计方法估计假设精度,主要解决以下三 个问题: 已知一个假设在有限数据样本上观察到的精度,怎样估计它 在其他实例上的精度? 如果一个假设在某些数据样本上好于另一个,那么一般情况 下该假设是否更准确? 数据有限时,怎样高效地利用这些数据,通过它们既能学 习到假设,还能估计其精度? 统计的方法,结合有关数据基准分布的假定,使我们 可以用有限数据样本上的观察精度来逼近整个数据分 布上的真实精度 2003.12.18 机器学习-评估假设作者: Mitchell译者:曾华军等讲者:陶晓鹏 2
2003.12.18 机器学习-评估假设作者:Mitchell 译者:曾华军等讲者:陶晓鹏 2 概述 • 对假设的精度进行评估是机器学习中的基本问题 • 本章介绍用统计方法估计假设精度,主要解决以下三 个问题: – 已知一个假设在有限数据样本上观察到的精度,怎样估计它 在其他实例上的精度? – 如果一个假设在某些数据样本上好于另一个,那么一般情况 下该假设是否更准确? – 当数据有限时,怎样高效地利用这些数据,通过它们既能学 习到假设,还能估计其精度? • 统计的方法,结合有关数据基准分布的假定,使我们 可以用有限数据样本上的观察精度来逼近整个数据分 布上的真实精度
动机 对学习到的假设进行尽可能准确地性能评估十分重要 为了知道是否可以使用该假设 是许多学习方法的重要组成部分 当给定的数据集有限时,要学习一个概念并估计其将 来的精度,存在两个很关键的困难: 估计的困难 使用与训练样例和假设无关的测试样例 估计的方差 即使假设精度在独立的无偏测试样例上测量,得到的精度仍可能 与真实精度不同 测试样例越少,产生的方差越大 本章讨论了对学到的假设的评估、对两个假设精度的 比较、两个学习算法精度的比较 2003.12.18 机器学习-评估假设作者: Mitchell译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-评估假设作者:Mitchell 译者:曾华军等讲者:陶晓鹏 3 动机 • 对学习到的假设进行尽可能准确地性能评估十分重要 – 为了知道是否可以使用该假设 – 是许多学习方法的重要组成部分 • 当给定的数据集有限时,要学习一个概念并估计其将 来的精度,存在两个很关键的困难: – 估计的困难 • 使用与训练样例和假设无关的测试样例 – 估计的方差 • 即使假设精度在独立的无偏测试样例上测量,得到的精度仍可能 与真实精度不同。 • 测试样例越少,产生的方差越大 • 本章讨论了对学到的假设的评估、对两个假设精度的 比较、两个学习算法精度的比较
学习问题的框架 有一所有可能实例的空间X,其中定义了多个 目标函数,我们假定Ⅹ中不同实例具有不同的 出现频率。一种合适的建模方式是,假定存在 未知的概率分布D,它定义了X中每一实例 出现的概率。 学习任务是在假设空间上学习一个目标概念, 训练样例的每一个实例按照分布D独立地抽取 然后连同正确的目标值提供给学习器。 2003.12.18 机器学习-评估假设作者: Mitchell译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-评估假设作者:Mitchell 译者:曾华军等讲者:陶晓鹏 4 学习问题的框架 • 有一所有可能实例的空间X,其中定义了多个 目标函数,我们假定X中不同实例具有不同的 出现频率。一种合适的建模方式是,假定存在 一未知的概率分布D,它定义了X中每一实例 出现的概率。 • 学习任务是在假设空间上学习一个目标概念, 训练样例的每一个实例按照分布D独立地抽取, 然后连同正确的目标值提供给学习器
评估假设的问题 给定假设h和包含若干按D分布抽取的样 例的数据集,如何针对将来按同样分布 抽取的实例,得到对h的精度最好估计 这一精度估计的可能的误差是多少 2003.12.18 机器学习-评估假设作者: Mitchell译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-评估假设作者:Mitchell 译者:曾华军等讲者:陶晓鹏 5 评估假设的问题 • 给定假设h和包含若干按D分布抽取的样 例的数据集,如何针对将来按同样分布 抽取的实例,得到对h的精度最好估计 • 这一精度估计的可能的误差是多少