第四章方差分析 方差分析是一种特殊的假设检验,是判断多组数据之间平均数差异是否显著的。对多组 数据若仍用前一章中的t检验一对对比较,会大大增加犯第一类错误的概率。例如有5组数 据要比较,则共需比C5210次。若H正确,每次接受的概率为1-a=0.95,10次 都接受为0.95≈0.60,因此a′=1-0.60=0.40,即全部比较中至少犯一次第一类错误的概 率为0.40,这显然是不能接受的。方差分析则是把所有这些组数据放在一起,一次比较就 对所有各组间是否有差异作出判断。如果没有显著差异,则认为它们都是相同的;如发现有 差异,再进一步比较是哪组数据与其他数据不同。这样,就避免了使a大大增加的弊病。下 面我们先介绍一些方差分析中要用到的术语。 1.因素可能影响试验结果,且在试验中被考查的原因或原因组合。有时也可称为因子。例 如温度、湿度、药物种类等 2.水平因素在试验或观测中所处的状态。例如温度的不同值,药物的不同浓度等。 3.主效应反映一个因素各水平的平均响应之差异的一种度量。一个因子第i水平上所有数 据的平均与全部数据的平均之差,称为该因子第i水平的主效应 4.交互效应由两个或更多因素之间水平搭配而产生的差异的一种度量。 5.处理实验中实施的因子水平的一个组合。 6.固定因素该因素的水平可准确控制,且水平固定后,其效应也固定。例如温度,化学药 物的浓度,动植物的品系,等等。 7.随机因素该因素的水平不能严格控制,或虽水平能控制,但其效应仍为随机变量。例如 动物的窝别(遗传因素的组合),农家肥的效果,等等 8.误差除了实验中所考虑的因素之外,其他原因所引起的实验结果的变化。它可分为系统 误差和随机误差: 系统误差:误差的组成部分,在对同一被测量的多次测试中,它保持不变或按某种规律变 化。它的原因可为已知,也可为未知,但均应尽量消除。 随机误差:误差的组成部分,在对同一被测量的多次测试中,它受偶然因素的影响而以不 可预知的方式变化。它无法消除或修正。 §4.1单因素方差分析 单因素方差分析是指我们需要研究的因素只有一个,这一因素可以有几个不同的水平 我们的目标就是要看看这些水平的影响是否相同。为了在有随机误差的情况下进行比较,各 水平都应有一定数量的重复 为方便表述,我们对数据给出一种固定的表示法 因素的水平数 n:每一水平的重复数 x:第i水平的第j次观察值。1≤i≤a,1≤j≤n 第i水平所有观察值的和 x=-x.,第i水平均值
第四章 方差分析 方差分析是一种特殊的假设检验,是判断多组数据之间平均数差异是否显著的。对多组 数据若仍用前一章中的 t 检验一对对比较,会大大增加犯第一类错误的概率。例如有 5 组数 据要比较,则共需比 10 2 2 5 4 5 = C = 次。若 H0 正确,每次接受的概率为 1-α=0.95,10 次 都接受为 0.9510≈0.60,因此α′=1-0.60=0.40,即全部比较中至少犯一次第一类错误的概 率为 0.40,这显然是不能接受的。方差分析则是把所有这些组数据放在一起,一次比较就 对所有各组间是否有差异作出判断。如果没有显著差异,则认为它们都是相同的;如发现有 差异,再进一步比较是哪组数据与其他数据不同。这样,就避免了使α大大增加的弊病。下 面我们先介绍一些方差分析中要用到的术语。 1. 因素 可能影响试验结果,且在试验中被考查的原因或原因组合。有时也可称为因子。例 如温度、湿度、药物种类等。 2. 水平 因素在试验或观测中所处的状态。例如温度的不同值,药物的不同浓度等。 3. 主效应 反映一个因素各水平的平均响应之差异的一种度量。一个因子第 i 水平上所有数 据的平均与全部数据的平均之差,称为该因子第 i 水平的主效应 4. 交互效应 由两个或更多因素之间水平搭配而产生的差异的一种度量。 5. 处理 实验中实施的因子水平的一个组合。 6. 固定因素 该因素的水平可准确控制,且水平固定后,其效应也固定。例如温度,化学药 物的浓度,动植物的品系,等等。 7. 随机因素 该因素的水平不能严格控制,或虽水平能控制,但其效应仍为随机变量。例如 动物的窝别(遗传因素的组合),农家肥的效果,等等。 8. 误差 除了实验中所考虑的因素之外,其他原因所引起的实验结果的变化。它可分为系统 误差和随机误差: 系统误差:误差的组成部分,在对同一被测量的多次测试中,它保持不变或按某种规律变 化。它的原因可为已知,也可为未知,但均应尽量消除。 随机误差:误差的组成部分,在对同一被测量的多次测试中,它受偶然因素的影响而以不 可预知的方式变化。它无法消除或修正。 §4.1 单因素方差分析 单因素方差分析是指我们需要研究的因素只有一个,这一因素可以有几个不同的水平, 我们的目标就是要看看这些水平的影响是否相同。为了在有随机误差的情况下进行比较,各 水平都应有一定数量的重复。 为方便表述,我们对数据给出一种固定的表示法: a:因素的水平数 n:每一水平的重复数 xij:第 i 水平的第 j 次观察值。1≤i≤a, 1≤j≤n = = n i i i j x x 1 . , 第 i 水平所有观察值的和 . 1 . i i x n x = ,第 i 水平均值
∑∑x全部观察值的和 ,总平均值 x)2,第i水平上的子样方差 方差分析中,我们用以下的线性统计模型描述每一观察值: (4.1) 其中μ:总平均数:a:i水平主效应;E:随机误差。要求~N(0,02),且互相独立。注意 这里要求各水平有共同的方差02 单因素方差分析的目的就是检验各∝是否均相同。由于因素可分为固定因素和随机因 素,它们会对方差分析的过程产生不同的影响,我们分别加以讨论 、固定因素模型: 例4.1用4种不同的配合饲料饲养30日令的小鸡,10天后计算平均日增重,得以下数据 表4.1不同饲料日增重值 日增重值X 6158526870 4种饲料的效果是否相同? 例41是固定因素模型,因为在配合饲料中,每种饲料的营养成份是固定的,它的效果 也应是固定的。反映到线性模型中,就是α1是常数,且可要求 a1=0 (4.2) 这种对a1的限制并没有失去一般性,这是因为根据(41)式,如果各G之和H不为0,则 我们可把其和数移到总平均数u中去,即令∝1′=0-H,从而使新的a1′之和为0。同时, 也只有新的a1′才符合前述主效应的定义 固定模型的统计假设为:H:a1=0,i=1,2……a HA:a1≠0,至少对某一i 方差分析的基本思想,就是将总变差分解为各构成部分之和,然后对它们作统计检验。 ∑∑(x,-+-x
= = = a i n i ij x x 1 1 .. 全部观察值的和 .. 1 .. x an x = ,总平均值 = • − − = n i i ij i x x n S 1 2 2 ( .) 1 1 ,第 i 水平上的子样方差。 方差分析中,我们用以下的线性统计模型描述每一观察值: xij=+i+ij, i=1, 2 …… a, j=1, 2, …… n (4.1) 其中:总平均数;i:i 水平主效应;ij:随机误差。要求ij ~N(0,σ2 ),且互相独立。注意 这里要求各水平有共同的方差σ2。 单因素方差分析的目的就是检验各i 是否均相同。由于因素可分为固定因素和随机因 素,它们会对方差分析的过程产生不同的影响,我们分别加以讨论。 一、固定因素模型: 例 4.1 用 4 种不同的配合饲料饲养 30 日令的小鸡,10 天后计算平均日增重,得以下数据: 表 4.1 不同饲料日增重值 饲料 日增重值 Xij 1 55 49 62 45 51 2 61 58 52 68 70 3 71 65 56 73 59 4 85 90 76 78 69 4 种饲料的效果是否相同? 例 4.1 是固定因素模型,因为在配合饲料中,每种饲料的营养成份是固定的,它的效果 也应是固定的。反映到线性模型中,就是i 是常数,且可要求 = = a i ai 1 0 , (4.2) 这种对i 的限制并没有失去一般性,这是因为根据(4.1)式,如果各i 之和 H 不为 0,则 我们可把其和数移到总平均数中去,即令i ′= i –H,从而使新的i ′之和为 0。同时, 也只有新的i ′才符合前述主效应的定义。 固定模型的统计假设为:H0:αi = 0, i = 1, 2 …… a HA: αi ≠ 0, 至少对某一 i 方差分析的基本思想,就是将总变差分解为各构成部分之和,然后对它们作统计检验。 即: = = = = = − + − − a i n j i j i i a i n i i j x x x x x x 1 1 2 . 1 1 2 ( ..) ( ..)
∑ (x1-x)+2(x-x.一x)+(工-王 ∑∑(x-x)2 (x-.,)+2∑∑(x,-xx一x) 由于 (x-x)x-2) ∑ (x-x.)·【(x1-x1) 0 用符号表示,上式可写成: 44) 其中符号的意义为: SSr:总平方和; SSA处理间平方和; SSe:误差平方和,或处理内平方和 它们的自由度分别为an-1,a-1和an-1),即自由度也作了相应分解: 令MS:"以(n-1) ,称为误差均方:M 称为处理间均方;则它们的数学期 望分别为: E(MSe) E (x,-x)2] +a +e a. -8 E∑∑(En-1)] C∑∑(6-26nE1+82)
由于 0 ( ..) [( )] ( ..) ( ) ( )( ..) 1 . . . 1 1 . . . 1 1 . = = − − = − − − − = = = = = a i i i i a i n j i ij i i a i n j ij i x x x x x x x x x x x x ∴ = = = = − = − + − a i a i n j i ij i a i ij x x n x x x x 1 1 1 2 . 2 . 1 2 ( ..) ( ..) ( ) (4.3) 用符号表示,上式可写成: SST = SSA + SSe (4.4) 其中符号的意义为: SST:总平方和; SSA 处理间平方和; SSe:误差平方和,或处理内平方和。 它们的自由度分别为 an–1, a–1 和 a(n–1),即自由度也作了相应分解: an – 1 = a –1 + a(n – 1) 令 ( −1) = a n SS MS e e ,称为误差均方; −1 = a SS MS A A ,称为处理间均方;则它们的数学期 望分别为: [ ( 2 )] 1 [ ( ) ] 1 [ ( ) ] 1 [ ( ) ] 1 ( ) 1 ( ) 1 1 2 . . 2 1 1 2 . 1 1 2 . 1 1 2 . = = = = = = = = − + − = − − = + + − − − − = − − = − = a i n j i j i j i i a i n i i j i a i n i i i j i i a i n j i j i e e E an a E an a E an a E x x an a E SS na a E MS [( ) ( ..) 2 ( )( ..)] [( ) 2( )( ..) ( ..) ] 1 1 1 1 1 1 2 2 . 1 1 2 . 2 . = = = = = = = = = − + − + − − = − + − − + − a i n j a i n j i j i i a i n j i j i i a i n j i j i i j i i i x x x x x x x x x x x x x x x x
∑∑ ∑2 an-a E∑∑2-n∑E](:E(En)=0,…E(2)=a2) an-a (ana2-m.0) an-a E(MS) E(SS,) E∑∑(x-x.,)] i=1j=1 En2(4+ a-g)2] (E1-E.)+(a1-a) E∑(1-.)+2∑(-E.)(a1-a)+∑(an-a)2 E(s)=0a为常数,且∑a=0 ∴原式 E∑(2-2EE+E.2)+ E∑(E)2-aE(E2)+∑ a-I(q na a-1 从这两个数学期望来看,我们给MS。和MS3起的名字是有道理的。MS。的期望是o2,即随 机误差E的方差,说明它就是随机误差的一个估计量:而Ms的期望是a2+”,∑x2, 除了有代表随机误差的σ2外,还有一项是各水平主效应的平方和,即它代表了各处理间差 异的大小。 若H成立,则有:a:=0,i=1,2, a;此时E(MS)=σ2;若H不成立,则E(MS)>0 令
2 2 2 2 2 1 1 1 2 . 2 1 1 1 1 2 . . 1 2 ( ) 1 [ ] ( ( ) 0, ( ) ) 1 [ 2 ] 1 = − − = − = = − = − + − = = = = = = = = = n an na an a E n E E an a E n an a i j i j a i n j a i i j i a i n j n j a i i i j i a i i j [ ( ..) 2 ( ..) ( ) ( ) ] 1 [( ..) ( )] 1 [ ( ..) ] 1 1 [ ( ..) ] 1 1 ( ) 1 1 ( ) 1 1 1 2 . 2 . 1 2 1 2 . 1 1 2 . = = = = = = = − + − − + − − = − + − − = + + − − − − = − − = − = a i a i a i i i i i a i i i a i i i a i n j i A A E a n E a n E n a E x x a E SS a E MS ∵E(ij)=0, i 为常数,且 = = a i i 1 0 ∴ 原式 = = − = − + + − a i i a i i i a n E a n 1 2 1 2 . 2 . 1 [ ( 2 .. .. )] 1 = = = = − = + − − + − = − − + − = a i i a i i a i i a i i a n a n na a n a a n a n E a E a n 1 2 2 1 2 2 2 1 2 1 2 .. 2 . 1 1 ( ) 1 1 [ ( ) ( )] 1 从这两个数学期望来看,我们给 MSe和 MSA 起的名字是有道理的。MSe 的期望是σ2,即随 机误差ε的方差,说明它就是随机误差的一个估计量;而 MSA 的期望是 − = + a i i a n 1 2 2 1 , 除了有代表随机误差的σ2 外,还有一项是各水平主效应的平方和,即它代表了各处理间差 异的大小。 若 H0 成立,则有:αi=0,i=1,2,…… a;此时 E(MSA)=σ2;若 H0 不成立,则 E(MSA)>σ2 , 令
S F (4.5) 则当H成立时,F~F(a1,na-a);否则F值有偏大的趋势。因此可用F分布表对Ho是否成立 进行上单尾检验。 方差分析的计算是比较繁杂的,因此常使用计算机进行计算。公式为 现在的计算器常有统计功能,利用这样的计算器也可大大简化计算。步骤为: 1°把每一水平视为一个小样本,先求出它们的样本均值和样本方差,即x,S2。 2°把所有x视为一个样本,求出它的样本方差S2,则 MSA=n·S 3s=(n-n∑s,或AS=Ss2 现在我们来计算例4.1(使用带统计功能的计算器) 例4.1解:用计算器求出各处理的平均数和子样方差及平均数的子样方差: 饲料 4 ∑S2 52461.864.8796127.24 41.8 542663 216.5 代入(48)、(4.9)式,得:MSA=5×12724=636.2,MSe=216.5/4=54125 FA∥ A=11.754 查F分布表,得:F09(3,16)=324,Fo993,16)=529 ∵F>F09,∴拒绝H,差异极显著。即:这4种饲料的增重效果差异极显著。 这就是方差分析中最简单的单因素固定模型的分析方法。对固定模型来说,如果结果是 差异显著,一般还应进行多重比较,具体方法稍后介绍。从这一分析过程中可以很清楚地看 到方差分析的基本思想,那就是不再对数据进行一对对的比较,而是对总体的方差进行分解, 首先分离出随机误差所导致的变差,然后再将处理所引起的变差与它相比较,如果处理的变 差明显大于随机误差,则说明各水平间的差异不能用随机误差解释,应认为各水平间有明显 差异:否则则说明各水平间的不同可以认为是随机误差引起,即各水平间没有差异。这样就 对多组实验之间的差异一次完成了检验,从而避免了多次检验引起的犯错误可能大大升高的 问题。下面我们再来看看如果因素的效果是随机的,对方差分析的过程将产生什么影响
e A MS MS F = (4.5) 则当 H0 成立时,F ~ F(a-1, na-a);否则 F 值有偏大的趋势。因此可用 F 分布表对 H0 是否成立 进行上单尾检验。 方差分析的计算是比较繁杂的,因此常使用计算机进行计算。公式为: = = = − a i n j T ij na x SS x 1 1 2 2 .. (4.6) = = − a i A i na x x n SS 1 2 2 .. . 1 (4.7) SSe = SST − SSA 现在的计算器常有统计功能,利用这样的计算器也可大大简化计算。步骤为: 1°把每一水平视为一个小样本,先求出它们的样本均值和样本方差,即 2 . , i Si x 。 2°把所有 i. x 视为一个样本,求出它的样本方差 2 x S ,则 2 MS A n Sx = (4.8) 3° = = − a i SSe n Si 1 2 ( 1) ,或 = = a i e Si a MS 1 1 2 , (4.9) 现在我们来计算例 4.1(使用带统计功能的计算器): 例 4.1 解:用计算器求出各处理的平均数和子样方差及平均数的子样方差: 饲料 1 2 3 4 2 x S = a i i S 1 2 i. x 52.4 61.8 64.8 79.6 127.24 2 i S 41.8 54.2 54.2 66.3 216.5 代入(4.8)、(4.9)式,得:MSA = 5×127.24 = 636.2, MSe = 216.5/4 = 54.125, = = 11.754 e A MS MS F 查 F 分布表,得:F0.95(3, 16) = 3.24, F0.99(3, 16) = 5.29 ∵ F>F0.99,∴拒绝 H0,差异极显著。即:这 4 种饲料的增重效果差异极显著。 这就是方差分析中最简单的单因素固定模型的分析方法。对固定模型来说,如果结果是 差异显著,一般还应进行多重比较,具体方法稍后介绍。从这一分析过程中可以很清楚地看 到方差分析的基本思想,那就是不再对数据进行一对对的比较,而是对总体的方差进行分解, 首先分离出随机误差所导致的变差,然后再将处理所引起的变差与它相比较,如果处理的变 差明显大于随机误差,则说明各水平间的差异不能用随机误差解释,应认为各水平间有明显 差异;否则则说明各水平间的不同可以认为是随机误差引起,即各水平间没有差异。这样就 对多组实验之间的差异一次完成了检验,从而避免了多次检验引起的犯错误可能大大升高的 问题。下面我们再来看看如果因素的效果是随机的,对方差分析的过程将产生什么影响