第5章统计方法 本章目 阐述统计推论在数据挖掘中的一些常用方法。 介绍评价数据集的差异的不同统计参数 描述朴素贝叶斯分类和对数回归方法的内容和基 本原理。 °用列联表的相关分析介绍对数线性模型。 论述方差分析和多维样本的线性判别分析的一些 概
第5章 统计方法 本章目标 • 阐述统计推论在数据挖掘中的一些常用方法。 • 介绍评价数据集的差异的不同统计参数。 • 描述朴素贝叶斯分类和对数回归方法的内容和基 本原理。 • 用列联表的相关分析介绍对数线性模型。 • 论述方差分析和多维样本的线性判别分析的一些 概念
统计学是一门收集、组织数据并从这些数 据中得出结论的科学。数据集的一般特性 的描述和组织是描述性统计学的主题领域, 而怎样从这些数据推岀结论是统计推理的 主题。 统计数据分析是为数据挖掘制定的最好的 套方法论。从一元的到多元的数据分析 统计学为数据挖掘提供了大量的不同类型 的回归和判别分析方法
• 统计学是一门收集、组织数据并从这些数 据中得出结论的科学。数据集的一般特性 的描述和组织是描述性统计学的主题领域, 而怎样从这些数据推出结论是统计推理的 主题。 • 统计数据分析是为数据挖掘制定的最好的 一套方法论。从一元的到多元的数据分析, 统计学为数据挖掘提供了大量的不同类型 的回归和判别分析方法
5.1统计推断 在统计推断这个领域,如果观测到组成总体的所 有观测值是不可能或不切实际的,只要关心怎样 得出关于总体的结论 在大多数统计分析应用中,必须依据从总体中抽 取的子集的观测值。称这个子集为数据集,从这 个数据集建立一个总体的统计模型,从而对相同 的总体作推断。 问题是它可能导致对总体错误的推断,因此最好 是在独立的、随机观察的情况下选取一个随机的 数据集
5.1 统计推断 • 在统计推断这个领域,如果观测到组成总体的所 有观测值是不可能或不切实际的,只要关心怎样 得出关于总体的结论。 • 在大多数统计分析应用中,必须依据从总体中抽 取的子集的观测值。称这个子集为数据集,从这 个数据集建立一个总体的统计模型,从而对相同 的总体作推断。 • 问题是它可能导致对总体错误的推断,因此最好 是在独立的、随机观察的情况下选取一个随机的 数据集
统计推断方法:估计和假设检验。 在估计中,为了估计系统的未知参数需要给出一个 置信度或一个置信区间。 我们的目标是从数据集1中获得信息来估计现实系 统f(X,w模型的一个或更多的参数w。数据集可用 下式描述 T={(x1,x1n),(x212 n m1"""--mn 上式可作为一组具有相应特征值的样本被列成表格 的形式。只要估计岀这个模型的参数,就能用来 预测随机变量Y,Y是中固有的一个属性Y∈Ⅹ 如果Y是数值数据,称为回归,如果是离散的 无序的数据,称为分类
• 统计推断方法:估计和假设检验。 在估计中,为了估计系统的未知参数需要给出一个 置信度或一个置信区间。 • 我们的目标是从数据集T中获得信息来估计现实系 统f(X,w)模型的一个或更多的参数w。 数据集可用 下式描述: T={(x11,…,x1n), (x21,…,x2n) (xm1,…,xmn)} 上式可作为一组具有相应特征值的样本被列成表格 的形式。只要估计出这个模型的参数,就能用来 预测随机变量Y,Y是T中固有的一个属性Y∈X。 如果Y是数值数据,称为回归,如果是离散的、 无序的数据,称为分类
当估计出数据集的参数模型ν后,就可用该 模型(以函数f(x*,)给出的结论去预测Y 预测值与真实值Y之间的差称为预测误差。 对于Y的预测值,模型fX*,)的自然属性度 量指标是整个数据集的期望均值平方差 ErlY-f(X*, w)21 至于假设检验相关课程已有介绍
• 当估计出数据集的参数模型w后,就可用该 模型(以函数f(X*,w)给出)的结论去预测Y。 • 预测值与真实值Y之间的差称为预测误差。 • 对于Y的预测值,模型f(X*,w)的自然属性度 量指标是整个数据集T的期望均值平方差: ET [Y-f(X*,w)2 ] • 至于假设检验相关课程已有介绍