课程设置 恋石子大学 课时:理论课:22学时 实习课:10学时 授课人:理论课 方差分析(ANOVA) 联系方式:预防医学系卫生统计学教研室 Te1.:2057153 Analysis of variance Email:yfyxxzjy0126.com yfyxx (讨论、答疑) 预防医学集 大学一类课程网站一教学资源一(作业,pt) 计 a的 m=c;=33-业=3 2 ◆次比财,=0.05,作老n此候,积I 5k.制-1-1-m】n =1-1-0.050.1426是0.0562.9倍 解决此问一方差分。 方差分ANOVA) 方差分斯基本思想 杀为处 卷支异=随机支界十处周素子救的支平 卷处 of variance.ANOVA). MS组两 。由装围硫计举象RAF引her首先,提 出的一种桃计方染,养以F个名方 F-MS 差会新的桃计量,所以方差会新又 计意义?可以道过F界仙泰作出能计推每
方差分析(ANOVA) Analysis of variance 预防医学系 2 课程设置 � 课时: 理论课: 22学时 实习课: 10学时 授 课 人:理论课 联系方式:预防医学系卫生统计学教研室 联系方式:预防医学系卫生统计学教研室 联系方式:预防医学系卫生统计学教研室 联系方式:预防医学系卫生统计学教研室 Tel.:2057153 2057153 2057153 2057153 Email:yfyxxzjy@126.com yfyxxzjy@126.com yfyxxzjy@126.com yfyxxzjy@126.com Baidu贴吧:yfyxx yfyxx yfyxx yfyxx (讨论、答疑) (讨论、答疑) (讨论、答疑) (讨论、答疑) http://tieba.baidu.com/f?kw=yfyxx# http://tieba.baidu.com/f?kw=yfyxx# http://tieba.baidu.com/f?kw=yfyxx# http://tieba.baidu.com/f?kw=yfyxx# 大学一类课程网站 大学一类课程网站 大学一类课程网站 大学一类课程网站→教学资源→(作业、ppt) http://eol.shzu.edu.cn/eol/jpk/course/layout/default/index.jsp?courseId=1204 http://eol.shzu.edu.cn/eol/jpk/course/layout/default/index.jsp?courseId=1204 http://eol.shzu.edu.cn/eol/jpk/course/layout/default/index.jsp?courseId=1204 http://eol.shzu.edu.cn/eol/jpk/course/layout/default/index.jsp?courseId=1204 例 6.1 三组大鼠 GSH 值(mg/gprot) 甲 乙 丙 合计 79.81 87.58 60.29 80.60 70.73 62.63 … … … 104.28 80.36 46.56 72.29 56.40 55.23 全部数据 12 12 12 36 83.15 75.63 52.27 70.35 12.30 11.07 10.85 17.35 问题? 1.各组测量值与其均数不相等的原因是什么? 各组测量值与其均数不相等的原因是什么? 各组测量值与其均数不相等的原因是什么? 各组测量值与其均数不相等的原因是什么? 2.三组均值各不相同的原因是什么? 三组均值各不相同的原因是什么? 三组均值各不相同的原因是什么? 三组均值各不相同的原因是什么? 3.能否用独立样本的 t 检验进行统计分析? 进行统计分析? 进行统计分析? 进行统计分析? 3 3 2 3 ( 3 1 ) 2 3 = − m = C = 每次比较时,α=0.05,作完n次比较,累积Ⅰ类错误 的概率为α ,则α =1-(1-α) 。 本题α =1-(1- 0.05) =0.1426 0.05) =0.1426 0.05) =0.1426 0.05) =0.1426 是0.05的2.9倍. 因此,对多个样本均数的比较 因此,对多个样本均数的比较 因此,对多个样本均数的比较 因此,对多个样本均数的比较t检验能否用? 解决此问题—方差分析。 n 3 4 � 由英国统计学家 由英国统计学家 由英国统计学家 由英国统计学家R.A.Fisher R.A.Fisher R.A.Fisher R.A.Fisher首先提 出的一种统计方法,并以 出的一种统计方法,并以 出的一种统计方法,并以 出的一种统计方法,并以F命名方 差分析的统计量,所以方差分析又 差分析的统计量,所以方差分析又 差分析的统计量,所以方差分析又 差分析的统计量,所以方差分析又 称 F 检验。 � 将所研究的对象分为多个处理组 将所研究的对象分为多个处理组 将所研究的对象分为多个处理组 将所研究的对象分为多个处理组,施加不同的干 预,施加的干预称为处理因素( 预,施加的干预称为处理因素( 预,施加的干预称为处理因素( 预,施加的干预称为处理因素(factor),处理因 素至少有两个水平 素至少有两个水平 素至少有两个水平 素至少有两个水平(level) (level) (level) (level)。用这类资料的样本信 。用这类资料的样本信 。用这类资料的样本信 。用这类资料的样本信 息来推断各处理组间多个总体均数是否存在差 息来推断各处理组间多个总体均数是否存在差 息来推断各处理组间多个总体均数是否存在差 息来推断各处理组间多个总体均数是否存在差 别,常采用的统计分析方法为方差分析 别,常采用的统计分析方法为方差分析 别,常采用的统计分析方法为方差分析 别,常采用的统计分析方法为方差分析(analysis (analysis (analysis (analysis of variance, ANOVA) of variance, ANOVA) of variance, ANOVA) of variance, ANOVA)。 方差分析 (ANOVA) (ANOVA) (ANOVA) (ANOVA) 5 方差分析基本思想 方差分析基本思想 方差分析基本思想 方差分析基本思想 基于变异分解的原理,在单因素方差分析中,整个 基于变异分解的原理,在单因素方差分析中,整个 基于变异分解的原理,在单因素方差分析中,整个 基于变异分解的原理,在单因素方差分析中,整个 样本的变异可以看成由如下两部分组成: 样本的变异可以看成由如下两部分组成: 样本的变异可以看成由如下两部分组成: 样本的变异可以看成由如下两部分组成: 总变异=随机变异 总变异=随机变异 总变异=随机变异 总变异=随机变异 + 处理因素导致的变异 处理因素导致的变异 处理因素导致的变异 处理因素导致的变异 总变异=组内变异 总变异=组内变异 总变异=组内变异 总变异=组内变异 + 组间变异 F= MS组间 MS组内 理论上F值应等于1。由于抽样误差的影响, 。由于抽样误差的影响, 。由于抽样误差的影响, 。由于抽样误差的影响, F值一般不 会为1,而是接近1,但如果处理因素确有作用,则组间变 ,但如果处理因素确有作用,则组间变 ,但如果处理因素确有作用,则组间变 ,但如果处理因素确有作用,则组间变 异会远大于组内均方, 异会远大于组内均方, 异会远大于组内均方, 异会远大于组内均方, F值将明显大于1,大到多少才有统 ,大到多少才有统 ,大到多少才有统 ,大到多少才有统 计意义?可以通过 计意义?可以通过 计意义?可以通过 计意义?可以通过F界值表作出统计推断。 界值表作出统计推断。 界值表作出统计推断。 界值表作出统计推断。 6
一、方差分析的表本忍想 总支异的分解 5=55an+55A U愚=v焦两十0 。饭设西样本来自同一卷体。 H 1=2=3 R能器 Ek国去作用 烧喷同支太F1 ◆ >才差是描述变弄的一种指标,方 第一节方差分斯的基本思想 差分新是一种假设检验的方法。方 ,表据研充日的不浸计妻素普薄支手分辉成几个部 差分新也此是对支弄的分新。 >是对卷变异进行分斯。看总变异 ,方差分新财,一版固素地多,惑支开此装会解得 是由哪些部分姐成的,这些部分问 的头象如何。 ,展据支开的来添。将金部元第佳蒸的喜均姜平 方差分用条件 方和及自雨度分解为两个或多个部分。除随机 买差外。具余鲁个部分的支异可山某要潜变图 ,1、春样来是湘玉独立的随机样本,物服从 素的作用如以解。 正泰分有: ~2、春样未的惑体方基和普,即方差春性。 通过此较不同来添支界的方差(也叫均方 MS)。借助F分车账出晚计推断。从而习断苯 图素对观感酒标有无形响
一、方差分析的基本思想 • SS总=SS组间+SS组内 υ总= υ组间+υ 组内 � 假设两样本来自同一总体。 假设两样本来自同一总体。 假设两样本来自同一总体。 假设两样本来自同一总体。 • H0:μ1= μ2 = μ3 • 这时 � = T+E = T+E = T+E = T+E F= MS组间 MS组内 E H0成立则理论上F值=1 若处理起作用,则组间变异会增大, 若处理起作用,则组间变异会增大, 若处理起作用,则组间变异会增大, 若处理起作用,则组间变异会增大,F值>1 处理因素作用 随机因素作用 7 组间变异 总变异 组内变异 总变异的分解 8 �方差是描述变异的一种指标,方 方差是描述变异的一种指标,方 方差是描述变异的一种指标,方 方差是描述变异的一种指标,方 差分析是一种假设检验的方法。方 差分析是一种假设检验的方法。方 差分析是一种假设检验的方法。方 差分析是一种假设检验的方法。方 差分析也就是对变异的分析。 �是对总变异进行分析。看总变异 进行分析。看总变异 进行分析。看总变异 进行分析。看总变异 是由哪些部分组成 由哪些部分组成 由哪些部分组成 由哪些部分组成的,这些部分间 的,这些部分间 的,这些部分间 的,这些部分间 的关系如何。 9 第一节 方差分析的基本思想 方差分析的基本思想 方差分析的基本思想 方差分析的基本思想 � 根据研究目的和设计要求将 根据研究目的和设计要求将 根据研究目的和设计要求将 根据研究目的和设计要求将总变异分解成几个部 分,通过F检验,来分析影响总变异的各因素的 检验,来分析影响总变异的各因素的 检验,来分析影响总变异的各因素的 检验,来分析影响总变异的各因素的 效应及因素间的交互效应。 效应及因素间的交互效应。 效应及因素间的交互效应。 效应及因素间的交互效应。 � 方差分析时,一般因素越多,总变异就被分解得 方差分析时,一般因素越多,总变异就被分解得 方差分析时,一般因素越多,总变异就被分解得 方差分析时,一般因素越多,总变异就被分解得 越细,误差部分就越小,从而提高了检验效率。 越细,误差部分就越小,从而提高了检验效率。 越细,误差部分就越小,从而提高了检验效率。 越细,误差部分就越小,从而提高了检验效率。 10 � 根据变异的来源,将全部观察值 根据变异的来源,将全部观察值 根据变异的来源,将全部观察值 根据变异的来源,将全部观察值总的离均差平 方和及自由度分解为两个或多个部分,除随机 分解为两个或多个部分,除随机 分解为两个或多个部分,除随机 分解为两个或多个部分,除随机 误差外,其余每个部分的变异可由某些特定因 误差外,其余每个部分的变异可由某些特定因 误差外,其余每个部分的变异可由某些特定因 误差外,其余每个部分的变异可由某些特定因 素的作用加以解释。 素的作用加以解释。 素的作用加以解释。 素的作用加以解释。 � 通过比较不同来源变异的方差(也叫均方 通过比较不同来源变异的方差(也叫均方 通过比较不同来源变异的方差(也叫均方 通过比较不同来源变异的方差(也叫均方 MS),借助F分布做出统计推断,从而判断某 分布做出统计推断,从而判断某 分布做出统计推断,从而判断某 分布做出统计推断,从而判断某 因素对观察指标有无影响。 因素对观察指标有无影响。 因素对观察指标有无影响。 因素对观察指标有无影响。 11 方差分析应用条件: 方差分析应用条件: 方差分析应用条件: 方差分析应用条件: � 1、各样本是相互独立的随机样本,均服从 正态分布; � 2、各样本的总体方差相等,即 、各样本的总体方差相等,即 、各样本的总体方差相等,即 、各样本的总体方差相等,即方差齐性。 12
>只研完一个园素(可者多个水平,k个 水平).故称单因素设计。它是将个试 脸对象随机地分配列k个水平鱼(处理组) 中。 完全随机设计的方差分析 >k个处理鱼样本舍量最好相等,但也可以 不等。 计 组内支(SS,) ■组内个观值工与本 鱼内均值工之差的平方 4种变来: =立,- 金海量条闹的业县 组间支异(83m】 ■血内的值元与感均值下之差的平方和 同的是异度量。 =2- 处厦国素春个水平颜润的 是
完全随机设计的方差分析 �只研究一个因素 只研究一个因素 只研究一个因素 只研究一个因素(可有多个水平,如k个 水平) ,故称单因素设计。它是将每个试 故称单因素设计。它是将每个试 故称单因素设计。它是将每个试 故称单因素设计。它是将每个试 验对象随机地分配到 验对象随机地分配到 验对象随机地分配到 验对象随机地分配到k个水平组(处理组) 中。 �k个处理组样本含量最好相等 个处理组样本含量最好相等 个处理组样本含量最好相等 个处理组样本含量最好相等,但也可以 不等。 14 例 6.1 三组大鼠 GSH 值(mg/gprot) 甲 乙 丙 合计 79.81 87.58 60.29 80.60 70.73 62.63 … … … 104.28 80.36 46.56 72.29 56.40 55.23 全部数据 12 12 12 36 83.15 75.63 52.27 70.35 12.30 11.07 10.85 17.35 三种变异: • 组内数据的变异 组内数据的变异 组内数据的变异 组内数据的变异 ——> 组内变异 • 三组之间数据的变异 三组之间数据的变异 三组之间数据的变异 三组之间数据的变异 ——> 组间变异 • 全部数据间的变异 全部数据间的变异 全部数据间的变异 全部数据间的变异 ——> 总变异 15 组内变异(SSe) � 组内各个观测值 组内各个观测值 组内各个观测值 组内各个观测值 与本 组内均值 之差的平方 和。反映了组内(同一 和。反映了组内(同一 和。反映了组内(同一 和。反映了组内(同一 水平下)样本的随机波 水平下)样本的随机波 水平下)样本的随机波 水平下)样本的随机波 动。 2 1 1 ( ) i k i n j SSe Xij X i =∑∑ − = = Xij 30 40 50 60 70 80 90 100 110 甲 乙 丙 X甲 X乙 X 丙 Xi X ij 16 组间变异(SSTR) � 组内均值 与总均值 之差的平方和 组内均值 与总均值 之差的平方和 组内均值 与总均值 之差的平方和 组内均值 与总均值 之差的平方和 2 1 SS n (X X ) i k i TR = ∑ i − = 反映了: 处理因素各个水平组间的 处理因素各个水平组间的 处理因素各个水平组间的 处理因素各个水平组间的 差异,同时也包含了随机 差异,同时也包含了随机 差异,同时也包含了随机 差异,同时也包含了随机 误差。 Xi X 30 40 50 60 70 80 90 100 110 甲 乙 丙 X X甲 X乙 X 丙 17 总变异(SST) 全部测量值大小不同,这种变异称为 全部测量值大小不同,这种变异称为 全部测量值大小不同,这种变异称为 全部测量值大小不同,这种变异称为 总变异,以各测量值 总变异,以各测量值 总变异,以各测量值 总变异,以各测量值Xij与总均数 间的差异度量。 间的差异度量。 间的差异度量。 间的差异度量。 Xij ∑∑ = = = − k i n j T ij i SS X X 1 1 2 ( ) 30 40 50 60 70 80 90 100 110 甲 乙 丙 X X 18
方差分斯基本思想 一、方差分析的基本恩想 SSu=5SaW+SSa为 0=心焦用t 总麦异一随热变井 处理因素导数的变异 U鱼内 ■般设样本象自周一卷体。 总变异一姐内变异 姐间变异 ·H:1=g2=3 F- MS ·这财 处理因作用 MMS组内 机因案作用 大到多少才 总变异的分解 总麦异的分解 组问麦异组内麦异 ,条个观来值与落均教不同:一下 可以分解为: 现来值与组均教的差异:七g一正 变异 血均数与落均教的差弄:无,一工 即:-x=(-)+(国-习 1.总变异 2.组问变异(SSTR) 较旷 ■血内均值不与慈均值下之差的平方和 燕喜均美平方九 =u-) 红反脑:所有时重位之调落的文术拉发 庭酷骨, 处里国素春个水平血闲的 巧=春调量值X与善均数T差值的平方和 差开,两财也色合了随机
方差分析基本思想 方差分析基本思想 方差分析基本思想 方差分析基本思想 基于变异分解的原理,在单因素方差分析中,整个 基于变异分解的原理,在单因素方差分析中,整个 基于变异分解的原理,在单因素方差分析中,整个 基于变异分解的原理,在单因素方差分析中,整个 样本的变异可以看成由如下两部分组成: 样本的变异可以看成由如下两部分组成: 样本的变异可以看成由如下两部分组成: 样本的变异可以看成由如下两部分组成: 总变异=随机变异 总变异=随机变异 总变异=随机变异 总变异=随机变异 + 处理因素导致的变异 处理因素导致的变异 处理因素导致的变异 处理因素导致的变异 总变异=组内变异 总变异=组内变异 总变异=组内变异 总变异=组内变异 + 组间变异 F= MS组间 MS组内 理论上F值应等于1。由于抽样误差的影响, 。由于抽样误差的影响, 。由于抽样误差的影响, 。由于抽样误差的影响, F值一般 不会为1,而是接近1,但如果处理因素确有作用,则组间 ,但如果处理因素确有作用,则组间 ,但如果处理因素确有作用,则组间 ,但如果处理因素确有作用,则组间 变异会远大于组内均方, 变异会远大于组内均方, 变异会远大于组内均方, 变异会远大于组内均方, F值将明显大于1,大到多少才 有统计意义?可以通过 有统计意义?可以通过 有统计意义?可以通过 有统计意义?可以通过F界值表作出统计推断。 界值表作出统计推断。 界值表作出统计推断。 界值表作出统计推断。 19 一、方差分析的基本思想 • SS总=SS组间+SS组内 υ总= υ组间+ υ组内 � 假设样本来自同一总体。 假设样本来自同一总体。 假设样本来自同一总体。 假设样本来自同一总体。 • H0:μ1= μ2 = μ3 • 这时 � = T+E F= MS组间 MS组内 E H0成立则理论上F值=1 若处理起作用,则组间变异会增大, 若处理起作用,则组间变异会增大, 若处理起作用,则组间变异会增大, 若处理起作用,则组间变异会增大,F值>1 处理因素作用 随机因素作用 20 组间变异 总变异 组内变异 总变异的分解 21 总变异的分解 � 每个观察值与总均数不同: � 可以分解为: 观察值与组均数的差异: 组均数与总均数的差异: � 即: x x ij − ij x i x − x xi − x x x (x x ) (x x) ij − = ij − i + i − 22 总离均差平方和 总离均差平方和 总离均差平方和 总离均差平方和 ( 1) ( ) 2 1 1 2 = − ∑∑ − = = S n SS x x k i n j ij i 总= 1. 总变异 X SS总反映:所有测量值之间总的变异程度 反映:所有测量值之间总的变异程度 反映:所有测量值之间总的变异程度 反映:所有测量值之间总的变异程度 SS总=各测量值Xij与总均数 差值的平方和 全部观测值的方差 23 2.组间变异(SSTR) � 组内均值 与总均值 之差的平方和 组内均值 与总均值 之差的平方和 组内均值 与总均值 之差的平方和 组内均值 与总均值 之差的平方和 2 1 SS n (X X ) i k i TR = ∑ i − = 反映了: 处理因素各个水平组间的 处理因素各个水平组间的 处理因素各个水平组间的 处理因素各个水平组间的 差异,同时也包含了随机 差异,同时也包含了随机 差异,同时也包含了随机 差异,同时也包含了随机 误差。 Xi X 30 40 50 60 70 80 90 100 110 甲 乙 丙 X X甲 X乙 X 丙 24
3.数内支 三种“变异”之间的关集 鱼内高均差平方型 成2-4- 且 V丝=VN十Va时 =双-Sn 组内变异St 随机误差 组间变异心:处理因素+随机误差 在同一处理血内,最然专个更比对象热受的处里相 网,但侧量值仍春不湘两,达种麦平绿为组内支异。 巧小收低反映丁政轨函是的形响。也赫5巧aE 均幸2方织小有关外、 均方之比=Fvalue 如果备粗禅本的总体均敷相等(瓜 还与其自由度有关,由于各部分自由度不相等 各处理的样本来 因此各部分高均差平方和不能直接比较,须将 间变异组内 各部分离均差平方和除以相应自由度,其比值 均方与相内均方的比值称为厂统计量 称为均方差,简称均方(mean square,.组 间均方和组内均方的计算公式为: 证明, 平国素方差分折的计养金式 玉林耀结中小店 F分布 0 愚支异wG,-yN-1 ■F分布有而个自由度,组问自由度和组内自 由度: -su 复调文者四一宝-对-】总 品 ■F分市是一种偏态分布。 鱼内支异亚一2%-好N-k 具中:N∑伪处理血数
组内离均差平方和 组内离均差平方和 组内离均差平方和 组内离均差平方和 总 组间 组内 - = SS SS SS x x n S k i i i k i n j ij i i = ⎥ = − ⎦ ⎤ ⎢ ⎣ ⎡ ∑ ∑ − ∑ = = =1 2 1 1 2 ( ) ( 1) m i 3. 组内变异 在同一处理组内,虽然每个受试对象接受的处理相 在同一处理组内,虽然每个受试对象接受的处理相 在同一处理组内,虽然每个受试对象接受的处理相 在同一处理组内,虽然每个受试对象接受的处理相 同,但测量值仍各不相同,这种变异称为组内变异。 同,但测量值仍各不相同,这种变异称为组内变异。 同,但测量值仍各不相同,这种变异称为组内变异。 同,但测量值仍各不相同,这种变异称为组内变异。 SS组内仅仅反映了随机误差的影响。也称 仅仅反映了随机误差的影响。也称 仅仅反映了随机误差的影响。也称 仅仅反映了随机误差的影响。也称SS误差 25 三种“变异”之间的关系 , 且 ν总 =ν组间 +ν组内 组内变异 SS 组内: 随机误差 组间变异 SS 组间:处理因素 + 随机误差 26 均方(mean square (mean square (mean square (mean square,MS) 变异程度除与离均差平方和的大小有关外, 还与其自由度有关,由于各部分自由度不相等, 因此各部分离均差平方和不能直接比较,须将 各部分离均差平方和除以相应自由度,其比值 称为均方差,简称均方(mean square (mean square (mean square (mean square,MS)。组 间均方和组内均方的计算公式为 : SS MS ν = 组间 组间 组间 SS MS ν = 组内 组内 组内 27 均方之比=F value 如果各组样本的总体均数相等( H0: … ), 即各处理组的样本来自相同总体,无处理因素的作用,则组 间变异同组内变异一样,只反映随机误差作用的大小。组间 均方与组内均方的比值称为 F 统计量 , F 值接近于 l,就没有理由拒绝 H0;反之,F 值越大,拒绝 H0 的理由越充分。数理统计的理论证明,当 H0 成立时,F 统计量服从 F 分布。 28 单因素方差分析的计算公式 单因素方差分析的计算公式 单因素方差分析的计算公式 单因素方差分析的计算公式 变异来源 离均差平方和 SS 自由度 υ 均方 MS F 总变异 N-1 组间变异 k-1 组内变异 N-k ( 1) ( ) 2 1 1 2 = − ∑ ∑ − = = S n SS x x k i n j ij i 总= ∑ = = − k i i i SS n x x 1 2 组间 ( ) 组间 组间 νSS 组内 组内 νSS 组内 组间 MS MS 其中: N = ∑ni , k为处理组数 ∑ = = − k i SS ni S i 1 2 组内 ( 1) 29 F分布 � F分布有两个自由度 ,组间自由度和组内自 由度 ; � F分布是一种偏态分布。 30