置信区间表达式的推广(2) 公式5.1只能应用于离散值假设,它假定样本S 抽取的分布与将来的数据抽取的分布相同,并 且假定数据不依赖于所测试的假设 公式5.1只提供了近似的置信区间,这一近似在 至少包含30个样例,并且 errors(h)不太靠近0或 1时很接近真实情况 判断这种近似是否接近真实的更精确规则是: n·eror s(h)(-eros(h)≥5 2003.12.18 机器学习-评估假设作者: Mitchell译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-评估假设作者:Mitchell 译者:曾华军等讲者:陶晓鹏 11 置信区间表达式的推广(2) • 公式5.1只能应用于离散值假设,它假定样本S 抽取的分布与将来的数据抽取的分布相同,并 且假定数据不依赖于所测试的假设 • 公式5.1只提供了近似的置信区间,这一近似在 至少包含30个样例,并且errorS (h)不太靠近0或 1时很接近真实情况 • 判断这种近似是否接近真实的更精确规则是: nerrorS (h)(1−errorS (h)) 5
统计学中的基本定义和概念 随机变量 某随机变量Y的概率分布 随机变量Y的期望值或均值 随机变量的方差 Y的标准差 二项分布 正态分布 中心极限定理 估计量 Y的估计偏差 N%置信区间 2003.12.18 机器学习-评估假设作者: Mitchell译者:曾华军等讲者:陶晓鹏 12
2003.12.18 机器学习-评估假设作者:Mitchell 译者:曾华军等讲者:陶晓鹏 12 统计学中的基本定义和概念 • 随机变量 • 某随机变量Y的概率分布 • 随机变量Y的期望值或均值 • 随机变量的方差 • Y的标准差 • 二项分布 • 正态分布 • 中心极限定理 • 估计量 • Y的估计偏差 • N%置信区间
错误率估计和二项比例估计 样本错误率和真实错误率之间的差异与 数据样本大小的依赖关系如何? 给定从总体中随机抽取的某些样本的观 察比例,估计某个属性在总体的比例 此处,我们感兴趣的属性是:假设h对实 例错误分类 2003.12.18 机器学习-评估假设作者: Mitchell译者:曾华军等讲者:陶晓鹏 13
2003.12.18 机器学习-评估假设作者:Mitchell 译者:曾华军等讲者:陶晓鹏 13 错误率估计和二项比例估计 • 样本错误率和真实错误率之间的差异与 数据样本大小的依赖关系如何? • 给定从总体中随机抽取的某些样本的观 察比例,估计某个属性在总体的比例 • 此处,我们感兴趣的属性是:假设h对实 例错误分类
错误率估计和二项比例估计(2) 测量样本错误率相当于在作一个有随机输出的 实验 从分布D中随机抽取n个独立的实例,形成样本 S,然后测量样本错误率 errors(h) 将实验重复多次,每次抽取大小为n的不同的 样本S;,得到不同的∞,取决于S:的组成中的 随机差异 π被称为一随机变量,一般情况下,可以将 随机变量看成一个有随机输出的实验。随机变 量值即为随机实验的观察输出 2003.12.18 机器学习-评估假设作者: Mitchell译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-评估假设作者:Mitchell 译者:曾华军等讲者:陶晓鹏 14 错误率估计和二项比例估计(2) • 测量样本错误率相当于在作一个有随机输出的 实验 • 从分布D中随机抽取n个独立的实例,形成样本 S,然后测量样本错误率errorS (h) • 将实验重复多次,每次抽取大小为n的不同的 样本Si,得到不同的 ,取决于Si的组成中的 随机差异 • 被称为一随机变量,一般情况下,可以将 随机变量看成一个有随机输出的实验。随机变 量值即为随机实验的观察输出 error (h) Si error (h) Si
错误率估计和二项比例估计(3) 设想要运行k个这样的随机实验,得到k 个随机变量值,以图表的形式显示观察 到的每个错误率值的频率 当k不断增长,该图表将呈现如表5-3所 显示的分布,称为二项分布 2003.12.18 机器学习-评估假设作者: Mitchell译者:曾华军等讲者:陶晓鹏 15
2003.12.18 机器学习-评估假设作者:Mitchell 译者:曾华军等讲者:陶晓鹏 15 错误率估计和二项比例估计(3) • 设想要运行k个这样的随机实验,得到k 个随机变量值,以图表的形式显示观察 到的每个错误率值的频率 • 当k不断增长,该图表将呈现如表5-3所 显示的分布,称为二项分布