推断统计-假设检验 数据科学导论 假设检验(hypothesis test): ·亦称显著性检验(significance test),是指对未知的总体参数或分布提出某种假设,然 后根据样本统计量及抽样误差理论,利用小概率反证法的逻辑思维作出是否拒绝此种假设 的统计推断方法。 ■基本思想 ·假设检验的基本思想是,首先对所需要比较的总体提出一个基于小概率事件的无差别的假 设,然后通过样本数据去推断是否拒绝这一假设。 ·即,使用反证法:当一件事情的发生只有两种可能A和B,为了肯定其中的一种情况A,但 又不能直接证实A,这时否定另一种可能B,则间接的肯定了A
数据科学理论与实践 推断统计-假设检验 数据科学导论 ▪ 假设检验(hypothesis test): • 亦称显著性检验(significance test),是指对未知的总体参数或分布提出某种假设,然 后根据样本统计量及抽样误差理论,利用小概率反证法的逻辑思维作出是否拒绝此种假设 的统计推断方法。 ▪ 基本思想 • 假设检验的基本思想是,首先对所需要比较的总体提出一个基于小概率事件的无差别的假 设,然后通过样本数据去推断是否拒绝这一假设。 • 即,使用反证法:当一件事情的发生只有两种可能A和B,为了肯定其中的一种情况A,但 又不能直接证实A,这时否定另一种可能B,则间接的肯定了A
推断统计-假设检验 数据科学导论 ·小概率原理 ·概率很小(接近于零)的事件在一次抽样中不太可能出现,故可以认为小概率事件在一次 随机抽样中是不会发生的 。 示例: ·例如在2000粒中药丸中只有一粒是虫蛀过的,现从中随机取一粒,则取得“虫蛀过的药 丸”的概率是1/2000,这个概率是很小的,因此也可以将这一事件看作在一次抽样中是 不会发生的。 ·若从中随机抽取一粒,恰好是虫蛀过的,这种情况发生了,我们自然可以认为“假设”有 问题,即虫蛀率p不是1/2000,从而否定了假设。 ·:否定假设的依据就是小概率事件原理 原假设H0:虫蛀率p是1/2000 备择假设H1:虫蛀率p不是1/2000
数据科学理论与实践 推断统计-假设检验 数据科学导论 ▪ 小概率原理 • 概率很小(接近于零)的事件在一次抽样中不太可能出现,故可以认为小概率事件在一次 随机抽样中是不会发生的 ▪ 示例: • 例如在2000粒中药丸中只有一粒是虫蛀过的,现从中随机取一粒,则取得“虫蛀过的药 丸”的概率是1/2000,这个概率是很小的,因此也可以将这一事件看作在一次抽样中是 不会发生的。 • 若从中随机抽取一粒,恰好是虫蛀过的,这种情况发生了,我们自然可以认为“假设”有 问题,即虫蛀率p不是1/2000,从而否定了假设。 ▪ 否定假设的依据就是小概率事件原理 原假设H0:虫蛀率p是1/2000 备择假设H1:虫蛀率p不是1/2000
推断统计-假设检验 数据科学导论 ·假如你去买栗子,老板告诉你,我的栗子非常好,都没有坏的,顶多一万个 栗子里面有一个坏的,你该如何检验这句话? 举栗鸭 1/10000,小概率事件 随手拿一个栗子,是坏的概率是? 如果随手拿一个栗子,是坏的,反证老板的话不对 原假设HO:栗子非常好,几乎没坏的 备择假设H1:栗子不太好,有很多坏的
数据科学理论与实践 推断统计-假设检验 数据科学导论 ▪ 假如你去买栗子,老板告诉你,我的栗子非常好,都没有坏的,顶多一万个 栗子里面有一个坏的,你该如何检验这句话? 1/10000,小概率事件 随手拿一个栗子,是坏的概率是? 如果随手拿一个栗子,是坏的,反证老板的话不对 原假设H0:栗子非常好,几乎没坏的 备择假设H1:栗子不太好,有很多坏的
假设检验的基本步骤 数据科学导论 建立检验假设 确定检验水 选定检验方 确定P值,做 做出专业判 准 法 出统计推断 断 【例1】一般女性平均身高160.1cm,某大学随机抽取100名女大学生 (正态分 布),测量其身高,身高的均数是163.74cm,标准差是3.80cm。 请问某大学 女大学生身高是否与一般女性不同? H0:某大学女大学生身高与一般女性身高相同,u=u0 零假设针对两个总体 H1:某大学女大学生身高与一般女性身高不同,u≠u0 如何设立H1? 0=0.05 H0:这100名大学生与三般女性身高相同
数据科学理论与实践 假设检验的基本步骤 数据科学导论 建立检验假设 确定检验水 准 选定检验方 法 确定P值,做 出统计推断 做出专业判 断 【例1】一般女性平均身高160.1 cm,某大学随机抽取100名女大学生(正态分 布),测量其身高,身高的均数是163.74cm,标准差是3.80cm。 请问某大学 女大学生身高是否与一般女性不同? H0:这100名大学生与一般女性身高相同 H0:某大学女大学生身高与一般女性身高相同,u=u0 H1:某大学女大学生身高与一般女性身高不同,u≠u0 =0.05 零假设针对两个总体 如何设立H1?
四大检验方法 数据科学导论 ·t检验 ·应用场景:计量资料,配对样本或两组独立样本比较 ·应用条件:样本差值正态(配对),两组样本均正态(独立样本) ·方差分析 ·应用场景:计量资料,多组样本(>2组) ·应用条件:多组样本均正态且方差齐 ·卡方检验 ·应用场景:计数资料 ·应用条件:依据不同样本量选择适宜方法 ·非参数检验 ·应用场景:计量资料或等级资料 ·应用条件:两组或多组计量资料但不满足t检验或方差分析,等级资料比较
数据科学理论与实践 四大检验方法 数据科学导论 ▪ t检验 • 应用场景:计量资料,配对样本或两组独立样本比较 • 应用条件:样本差值正态(配对),两组样本均正态(独立样本) ▪ 方差分析 • 应用场景:计量资料,多组样本(>2组) • 应用条件:多组样本均正态且方差齐 ▪ 卡方检验 • 应用场景:计数资料 • 应用条件:依据不同样本量选择适宜方法 ▪ 非参数检验 • 应用场景:计量资料或等级资料 • 应用条件:两组或多组计量资料但不满足t检验或方差分析,等级资料比较