第六章协方差分析 协方差分析是把方差分析与回归分析结合起来的一种统计分析方法。它用于比较一个变 量Y在一个或几个因素不同水平上的差异,但Y在受这些因素影响的同时,还受到另一个变 量X的影响,而且X变量的取值难以人为控制,不能作为方差分析中的一个因素处理。此时 如果X与Y之间可以建立回归关系,则可用协方差分析的方法排除X对Y的影响,然后用方 差分析的方法对各因素水平的影响作出统计推断。在协方差分析中,我们称Y为因变量,X 为协变量 也许有人会问随机因素的影响也是不能人为控制的,为什么不能把X作为一种随机因素 处理呢?这里的差异主要在于作为随机因素处理时虽然每一水平的影响是不能人为控制的, 但我们至少可以得到几个属于同一水平的重复,因此可以把它们分别用另一因素的不同水平 处理。最后在进行方差分析时,我们才能排除这一随机因素的影响,对另一因素的各水平进 行比较。这一点可从以下的计算公式中看出来: Ss4=∑(x-X)2 SSB=∑(x-x)2 在上述公式中,如果第一个下标i变化时相同的j所代表的第二个因素的水平都不相 同,就没有理由认为下面的(*)式一定会成立,也就不能认为SSA仅是第一个因素的影响 对于系统分组的方差分析,虽然不同的i中同一个j的取值可以不同,但仍要求 ∑B()=0,i=12…a 这样就保证了在x中可以消去第二个因素的影响。如果我们对第二个因素的取值完全无法 控制,那就意味着对于不同的i,β的变化是完全没有规律的,当然也就不可能满足上述的 (*)式,此时就没有办法采用方差分析的方法,只能把第二个因素视为另一个变量X,试 试用协方差分析的方法排除它的影响了 例如当我们考虑动物窝别对增重的影响时,一般我们可把它当作随机因素处理,这一方 面是由于它不容易数量化,另一方面是同一窝一般有几只动物,可分别接受另一因素不同水 平的处理;如果我们考虑试验开始前动物初始体重的影响,这时一般方法是选初始重量相同 的动物作为一组,分别接受另一因素的不同水平处理,此时用方差分析也无问题。但若可供 试验的动物很少,初始体重又有明显差异,无法选到相同体重的动物,那就只好认为初始体 重X与最终体重Y有回归关系,采用协方差分析的方法排除初始体重的影响,再来比较其他 因素例如饲料种类,数量对增重的影响了 消除初始体重影响的另一种方法是对最终体重与初始体重的差值即yⅹ进行统计分析 这种方法与协方差分析的生物学意义是不同的。对差值进行分析是假设初始体重对以后的体 重增量没有任何影响,而协方差分析则是假设最终体重中包含初始体重的影响,这种影响的 大小与初始体重成正比。如果这一比值为1,协方差分析与对差值进行方差分析是相同的。 但如果比值不为1,它们的结果将是不同的。也就是说协方差分析是假设使初始体重不同的 因素在以后的生长过程中也会发挥作用,而对差值进行方差分析是假设这些因素以后不再发 挥作用:这两种生物学假设显然是不同。希望同学们在学习一种统计方法时不仅要注意它与
第六章 协方差分析 协方差分析是把方差分析与回归分析结合起来的一种统计分析方法。它用于比较一个变 量 Y 在一个或几个因素不同水平上的差异,但 Y 在受这些因素影响的同时,还受到另一个变 量 X 的影响,而且 X 变量的取值难以人为控制,不能作为方差分析中的一个因素处理。此时 如果 X 与 Y 之间可以建立回归关系,则可用协方差分析的方法排除 X 对 Y 的影响,然后用方 差分析的方法对各因素水平的影响作出统计推断。在协方差分析中,我们称 Y 为因变量,X 为协变量。 也许有人会问随机因素的影响也是不能人为控制的,为什么不能把 X 作为一种随机因素 处理呢?这里的差异主要在于作为随机因素处理时虽然每一水平的影响是不能人为控制的, 但我们至少可以得到几个属于同一水平的重复,因此可以把它们分别用另一因素的不同水平 处理。最后在进行方差分析时,我们才能排除这一随机因素的影响,对另一因素的各水平进 行比较。这一点可从以下的计算公式中看出来: 2 . .. = ( − ) i SS A Xi X = − j SSB X j X 2 .. ( ) 在上述公式中,如果第一个下标 i 变化时相同的 j 所代表的第二个因素的水平都不相 同,就没有理由认为下面的(*)式一定会成立,也就不能认为 SSA 仅是第一个因素的影响 了。对于系统分组的方差分析,虽然不同的 i 中同一个 j 的取值可以不同,但仍要求 = = = b j j i i a 1 ( ) 0, 1,2, (*) 这样就保证了在 X i. 中可以消去第二个因素的影响。如果我们对第二个因素的取值完全无法 控制,那就意味着对于不同的 i,βj 的变化是完全没有规律的,当然也就不可能满足上述的 (*)式,此时就没有办法采用方差分析的方法,只能把第二个因素视为另一个变量 X,试 试用协方差分析的方法排除它的影响了。 例如当我们考虑动物窝别对增重的影响时,一般我们可把它当作随机因素处理,这一方 面是由于它不容易数量化,另一方面是同一窝一般有几只动物,可分别接受另一因素不同水 平的处理;如果我们考虑试验开始前动物初始体重的影响,这时一般方法是选初始重量相同 的动物作为一组,分别接受另一因素的不同水平处理,此时用方差分析也无问题。但若可供 试验的动物很少,初始体重又有明显差异,无法选到相同体重的动物,那就只好认为初始体 重 X 与最终体重 Y 有回归关系,采用协方差分析的方法排除初始体重的影响,再来比较其他 因素例如饲料种类,数量对增重的影响了。 消除初始体重影响的另一种方法是对最终体重与初始体重的差值即 y-x 进行统计分析。 这种方法与协方差分析的生物学意义是不同的。对差值进行分析是假设初始体重对以后的体 重增量没有任何影响,而协方差分析则是假设最终体重中包含初始体重的影响,这种影响的 大小与初始体重成正比。如果这一比值为 1,协方差分析与对差值进行方差分析是相同的。 但如果比值不为 1,它们的结果将是不同的。也就是说协方差分析是假设使初始体重不同的 因素在以后的生长过程中也会发挥作用,而对差值进行方差分析是假设这些因素以后不再发 挥作用;这两种生物学假设显然是不同。希望同学们在学习一种统计方法时不仅要注意它与
其他方法算法上有什么不同,更要注意算法背后的生物学假设有什么不同,这种深层次的理 解有助于我们在今后的工作中选取正确的统计方法。 由于协方差分析的过程包含了对协变量影响是否存在及其大小等一系列统计检验与估 计,它显然比对差值进行分析等方法有更广泛的适用范围,因此除非有明显证据说明对差值 进行分析的生物学假设是正确的,一般情况下还是应采用协方差分析的方法。 协方差分析的计算是比较复杂的。在本章中我们重点介绍最简单的协方差分析的算法, 即一个协变量,单因素的协方差分析。 6.1协方差分析的基本原理 我们以最简单的情况:一个协变量,单因素的协方差分析为例对协方差分析的基本原理 加以说明。 统计模型: 在协方差分析中,我们认为每一个因变量的观察值可分解为以下各部分的和: y=u+a,+B(x-x)+a (6.1) 其中y:第ⅰ水平的第j次观察值 x;:i水平的j次观察的协变量取值。 x:x;的总平均数 :y的总平均数 an:第i水平的效应 β:Y对X的线性回归系数。 En:随机误差 需要满足的条件为: (1)E~ND(0,02) (2)B≠0,即Y与X存在线性关系,且各水平回归系数相等,即协变量的影响不随水平 的变化而改变 (3)处理效应之和为0,即:∑a1=0。 上述第三个条件说明该因素为固定因素。若为随机因素,则应该为处理效应的方差为0 模型(6.1)式也可写为: yu=u+a+Bx+ei (6.2) 这种写法看起来简单一点,它的缺点是μ不再是Y的总平均值,因为y.=4'+压.。我们 以后的讨论针对(61)式进行 协方差分析的统计量 进行协方差分析需计算以下统计量
其他方法算法上有什么不同,更要注意算法背后的生物学假设有什么不同,这种深层次的理 解有助于我们在今后的工作中选取正确的统计方法。 由于协方差分析的过程包含了对协变量影响是否存在及其大小等一系列统计检验与估 计,它显然比对差值进行分析等方法有更广泛的适用范围,因此除非有明显证据说明对差值 进行分析的生物学假设是正确的,一般情况下还是应采用协方差分析的方法。 协方差分析的计算是比较复杂的。在本章中我们重点介绍最简单的协方差分析的算法, 即一个协变量,单因素的协方差分析。 §6.1 协方差分析的基本原理 我们以最简单的情况:一个协变量,单因素的协方差分析为例对协方差分析的基本原理 加以说明。 一、 统计模型: 在协方差分析中,我们认为每一个因变量的观察值可分解为以下各部分的和: ij i ij ij y = + + (x − x..) + (6.1) i = 1, 2 … a, j = 1, 2 … n。 其中 yij:第 i 水平的第 j 次观察值。 xij:i 水平的 j 次观察的协变量取值。 .. x :xij 的总平均数。 :yij 的总平均数。 i :第 i 水平的效应。 β:Y 对 X 的线性回归系数。 ij :随机误差。 需要满足的条件为: (1) ij ~NID(0, σ2 ) (2)β≠0,即 Y 与 X 存在线性关系,且各水平回归系数相等,即协变量的影响不随水平 的变化而改变。 (3)处理效应之和为 0,即: = = a i i 1 0 。 上述第三个条件说明该因素为固定因素。若为随机因素,则应该为处理效应的方差为 0。 模型(6.1)式也可写为: ij i ij ij y = + + x + , (6.2) 这种写法看起来简单一点,它的缺点是不再是 Y 的总平均值,因为 y.. x.. = + 。我们 以后的讨论针对(6.1)式进行。 二、 协方差分析的统计量: 进行协方差分析需计算以下统计量:
y y2-y2 (x-x. x j)=∑∑ (x.)·(y.) T=∑∑(1-p)2=∑y2-y2/am ∑∑(x-x.)2=∑x2-x2 ∑∑x-x,-)=∑(xXx ∑(y2-元) i=l j= Ey=∑∑(x1-xy-元,)=S 其中S,T,E分别代表总的,处理的和误差的(包括协变量的影响)平方和及交叉乘积 和。它们的关系可表示为 S=T+E 这实际是平方和的分解。同学们可自行证明其交叉项为0。 三、协方差分析的原理 协方差分析的核心思想是通过对因变量Y进行调整,消去协变量X的影响,从而能对 另一因素不同水平的影响进行统计检验。在模型中,各参数的估计量为: b a1=J-.-b(x-x.) 其中b=E 误差平方和为 SS=E -bE =E-E/E 它的自由度为:df=a(n-1)-1。这是因为Sy的自由度为an-1,Ty的自由度为a-1,所 以Ey的自由度为an-1-a+1=a(n-1)而bExy为一个一元回归平方和,自由度为1,所 以SS的自由度为a(n-1)-1 MSe=SSe/a(n-1)-1l 注意上述计算中用的是E而不是S,即对每一个水平分别计算后再加起来的,因此是排 除了,影响的回归
= = = = = = = = = = = = = − − = − = − = − = − = − a i n j i j i j a i n j xy i j i j a i n j i j a i n j xx i j a i n j i j a i n j yy i j an x y S x x y y x y S x x x x an S y y y y an 1 1 1 1 1 1 2 .. 2 1 1 2 1 1 2 .. 2 1 1 2 ( ..) ( ..) ( ..)( ..) ( ..) / ( ..) / = = = = = = = = = = − − = − = − = − = − = − a i i i a i n j xy i i a i i a i n j xx i a i i a i n j yy i x y an x y n T x x y y x x an n T x x y y an n T y y 1 . . 1 1 . . 1 2 .. 2 . 1 1 2 . 1 2 .. 2 . 1 1 2 . ( ..) ( ..) 1 ( )( ) 1 ( ..)( ..) / 1 ( ..) / 1 ( ..) xy xy a i n j xy ij i ij i xx xx a i n j xx ij i yy yy a i n j yy ij i E x x y y S T E x x S T E y y S T = − − = − = − = − = − = − = = = = = = 1 1 . . 1 1 2 . 1 1 2 . ( )( ) ( ) ( ) 其中 S,T,E 分别代表总的,处理的和误差的(包括协变量的影响)平方和及交叉乘积 和。它们的关系可表示为: S = T + E 这实际是平方和的分解。同学们可自行证明其交叉项为 0。 三、协方差分析的原理: 协方差分析的核心思想是通过对因变量 Y 进行调整,消去协变量 X 的影响,从而能对 另一因素不同水平的影响进行统计检验。在模型中,各参数的估计量为: ˆ .. ( ..) ˆ ˆ .. . * . * y y b x x b y i = i − − i − = = 其中 xx xy E E b = * 。误差平方和为: SSe Eyy b Exy Eyy Exy Exx / * 2 = − = − 它的自由度为:dfe = a(n − 1) − 1。这是因为 Syy 的自由度为 an − 1, Tyy 的自由度为 a − 1, 所 以 Eyy 的自由度为 an − 1 − a + 1 = a(n − 1), 而 b *Exy 为一个一元回归平方和,自由度为 1,所 以 SSe的自由度为 a(n − 1) − 1。 MSe = SSe / [a(n − 1) − 1] 注意上述计算中用的是 E 而不是 S,即对每一个水平分别计算后再加起来的,因此是排 除了 i 影响的回归
我们希望检验:H0:a1=0,i=12,…a。在此假设下,统计模型变为: +B(x1-x.) 这是一个一元回归问题,此时μ和B的最小二乘估计为: u=y B=b 误差平方和为 其中S2/S,为Y对X的回归平方和。 若H不成立,则SS中会有a1的影响,因此会明显偏大。它们的差SS。一SS就是各a 对总变差的贡献,自由度为a-1。所以我们可用下述统计量对H作检验: 1,a(n-1)-1) (63) (n-1)-1 若F大于查表得到的上单尾分位数,则拒绝H0,即各水平效应明显不同 我们可以把协方差分析与方差分析作一比较 若不存在协变量影响,即β=0,模型变为 yi=1+ 这是单因素方差分析。总变差为Sy,误差平方和为Ey,处理平方和Ty=Sy-Ey,我们 用 M a /(a(n-1) 作统计检验 若β≠0,我们用它对Sy和Ey作调整:把Ey调整为SS作为误差估计,由于又用了 个估计量b,又减少了一个自由度,SSe的自由度变为an-1)-1;Sy调整为SSa,它与 SS的差作为处理平方和的估计,它的自由度仍为a-1。因此,调整后的统计量变为(63) 式 从上面的分析可见,处理平均数实际上包括了处理效应和协变量的回归效应,经过
我们希望检验: H0 :i = 0, i = 1,2, a 。在此假设下,统计模型变为: ij ij ij y = + (x − x..) + 这是一个一元回归问题,此时 和 的最小二乘估计为: ˆ = y.. xx xy S S = b = ˆ 误差平方和为: , 2 ' xx xy e yy S S SS = S − df = an − 2。 其中 Sxy Sxx / 2 为 Y 对 X 的回归平方和。 若 H0 不成立,则 ' e SS 中会有 i 的影响,因此会明显偏大。它们的差 SSe − SSe ' 就是各 i 对总变差的贡献,自由度为 a − 1。所以我们可用下述统计量对 H0 作检验: ~ ( 1, ( 1) 1) ( 1) 1 1 ' − − − − − − − = F a a n a n SS a SS SS F e e e (6.3) 若 F 大于查表得到的上单尾分位数,则拒绝 H0,即各水平效应明显不同。 我们可以把协方差分析与方差分析作一比较: 若不存在协变量影响,即 =0,模型变为: ij i ij y = + + 这是单因素方差分析。总变差为 Syy,误差平方和为 Eyy,处理平方和 Tyy = Syy − Eyy,我们 用 /( ( 1)) /( 1) − − = E a n T a ME MT yy yy yy yy 作统计检验。 若 0,我们用它对 Syy和 Eyy 作调整:把 Eyy 调整为 SSe作为误差估计,由于又用了一 个估计量 b *,又减少了一个自由度,SSe的自由度变为 a(n − 1) − 1; Syy 调整为 ' e SS ,它与 SSe的差作为处理平方和的估计,它的自由度仍为 a − 1。因此,调整后的统计量变为(6.3) 式。 从上面的分析可见,处理平均数 i. y 实际上包括了处理效应和协变量的回归效应,经过
调整后变为: =一b(x1一.),i=1,2,…a y已消去了协变量的影响,只有处理效应了。它是模型中4+a1的最小二乘估计。可以证 明它的标准误差为 MSel- 1(x,-x.) 这实际上一元回归中条件均值估计的标准误差。 进行协方差分析应满足的条件有: (1)玩1~NIDO0,G2) (2)β1=β2=…=βa=B (3)β≠0 在做协方差分析的过程中应对上述条件进行检验。 §62协方差分析的计算过程 本节中我们给出较详细的协方差分析计算过程,包括全部应进行的条件检验。 (1)对各处理水平,分别计算协变量与因变量的回归方程,并求出各处理内的剩余平方和 s9,49S9,.为组内剩余平方和,其自由度们=-2 (2)令MS= SSe /(n-2),t=1,2,…a,并利用它们检验方差齐性。可选取差异最大 的两个的比值作F统计检验,若无显著差异,则可认为具有方差齐性。 (3)把各处理水平的平方和及交叉乘积和合并得到Ey,Ex,Exy;并求得公共回归系数 E 及S=E-E2/Ex,称为误差平方和,它的自由度为df=a 1)-1 (4)检验各处理水平的回归线是否平行: 阝2 B3=B。由于组内剩余平方和SS完全是由随机误差引起,而用共同的b 计算出的SS则包含了随机误差及各水平回归系数b的差异的影响,而且可证明它是可以分 解的,所以有: 其自由度可6=d-d=a-1,令 MS,=SS,/df 然后用 F=MS/MS G 作检验。若差异不显著,则可认为各β相等
调整后变为: ' ( ..), 1,2, , . * y i. = yi. − b xi − x i = a . ' i y 已消去了协变量的影响,只有处理效应了。它是模型中 +i 的最小二乘估计。可以证 明它的标准误差为: ] 1 ( ..) [ 2 . xx i y i E x x n S MSe − = + 这实际上一元回归中条件均值估计的标准误差。 进行协方差分析应满足的条件有: (1)ij ~ NID(0, 2 ) (2)1 = 2 = … = a = (3) 0 在做协方差分析的过程中应对上述条件进行检验。 §6.2 协方差分析的计算过程 本节中我们给出较详细的协方差分析计算过程,包括全部应进行的条件检验。 (1)对各处理水平,分别计算协变量与因变量的回归方程,并求出各处理内的剩余平方和 Gi SSe ,令 = = a i Gi e G SSe SS 1 ,称为组内剩余平方和,其自由度 df = a(n − 2) G e 。 (2)令 MS SS n i a Gi e Gi e = /( − 2), = 1,2, ,并利用它们检验方差齐性。可选取差异最大 的两个的比值作 Fmax 统计检验,若无显著差异,则可认为具有方差齐性。 (3)把各处理水平的平方和及交叉乘积和合并得到 Eyy, Exx, Exy;并求得公共回归系数 xx xy E E b = * ,及 SSe Eyy Exy Exx / 2 = − ,称为误差平方和,它的自由度为 dfe = a(n − 1) − 1。 (4)检验各处理水平的回归线是否平行: H0: 1 = 2 = … = a = 。由于组内剩余平方和 G SSe 完全是由随机误差引起,而用共同的 b * 计算出的 SSe则包含了随机误差及各水平回归系数 bi 的差异的影响,而且可证明它是可以分 解的,所以有: G SSb = SSe − SSe 其自由度 df = df − df = a −1 G b e e ,令 MSb SSb dfb = / 然后用 G F MSb MSe = / 作检验。若差异不显著,则可认为各 i 相等