第七章方差分析 第一节方差分析的意义 在第五章里介绍了一个或两个样本平均数的假设测验方法,即t测验或u测验的方法, 但在农业科学试验中,更多见的是研究多个样本(处理)之间的差异。当对多个平均数作差 异显著性测验时,如果采用t测验或u测验的方法分别作出测验存在着以下三个缺陷。首先, 对于一个多样本资料采用两两平均数间分别作差异显著性测验非常麻烦,会使统计工作量加 大。因为对k个样本平均数进行两两平均数间分别作差异显著性测验,所有可能的平均数差 值为k(k-1)/2个,当k较大时,统计工作量将骤然加大,甚至无法承受。其次,从统计上夸 大了样本间的差异,增加了犯第一类错误(否定正确的假设)的概率。这是因为,当假设 两个样本随机抽自同一正态总体时,其样本平均数的差数(x-x2)落到抽样分布总体N -2,a2-)否定区间的概率(事先规定的显著水平a)被扩大了。若对每两个样 本测验的显著水平都取α=0.05,实际上的显著水平己不是a=0.05,而是a>0.05。例如 对于一个均数差值(x1一x2)犯第一类错误的概率为005,两个均数差值时则为 0.95=00975:而10个均数差值时犯第一类错误的概率则将达到1-0.950=04013了。再次, 对于一个多样本的试验资料,样本间是属于内在关联(尤其是试验误差)的信息整体,这时 若对两两平均数间单独进行假设测验,就等于将这一整体割裂开来。从统计的大数定律可知 这将带来误差自由度的损失,并影响对误差估计的精度。因此,对多样本平均数的假设测验, 需采用一种更为合适的统计方法一差分析 方差分析的统计方法是由英国著名统计学家 R.A. Fisher于1923年提出来的。方差分析的 基本原理是将总变异分裂为各个因素的相应变异,作出其数量估计,从而发现各个因素在变 异中所占的重要程度;除了可控因素所引起的变异外,用其他剩余变异来准确而无偏的估计 试验误差,作为统计假设测验的依据:再通过显著性检验F测验,发现各个因素在变异 中所占的重要程度,进而对无效假设H0:4=2=…=(各样本的总体平均数相等作出 统计推断。 方差分析在农业试验资料的统计分析中占有十分重要的地位,是最常用的一种统计分析 方法。特别是在多因素试验和各种田间设计的试验中,方差分析可以帮助我们发现起主要作 用的因素,从而抓住主要矛盾或关键措施
1 第七章 方差分析 第一节 方差分析的意义 在第五章里介绍了一个或两个样本平均数的假设测验方法,即 t 测验或 u 测验的方法, 但在农业科学试验中,更多见的是研究多个样本(处理)之间的差异。当对多个平均数作差 异显著性测验时,如果采用 t测验或 u 测验的方法分别作出测验存在着以下三个缺陷。首先, 对于一个多样本资料采用两两平均数间分别作差异显著性测验非常麻烦,会使统计工作量加 大。因为对 k 个样本平均数进行两两平均数间分别作差异显著性测验,所有可能的平均数差 值为 k(k-1)∕2 个,当 k 较大时,统计工作量将骤然加大,甚至无法承受。其次,从统计上夸 大了样本间的差异,增加了犯第一类错误(否定正确的假设 H0)的概率。这是因为,当假设 两个样本随机抽自同一正态总体时,其样本平均数的差数( 1 2 x − x )落到抽样分布总体 N ( 1 − 2, 2 1 2 − )否定区间的概率(事先规定的显著水平 )被扩大了。若对每两个样 本测验的显著水平都取 = 0.05 ,实际上的显著水平已不是 = 0.05 ,而是 >0.05。例如, 对于一个均数差值( 1 2 x − x )犯第一类错误的概率为 0.05,两个均数差值时则为 1- 0.952=0.0975;而 10个均数差值时犯第一类错误的概率则将达到 1-0.9510=0.4013了。再次, 对于一个多样本的试验资料,样本间是属于内在关联(尤其是试验误差)的信息整体,这时 若对两两平均数间单独进行假设测验,就等于将这一整体割裂开来。从统计的大数定律可知, 这将带来误差自由度的损失,并影响对误差估计的精度。因此,对多样本平均数的假设测验, 需采用一种更为合适的统计方法―差分析。 方差分析的统计方法是由英国著名统计学家 R.A.Fisher 于 1923 年提出来的。方差分析的 基本原理是将总变异分裂为各个因素的相应变异,作出其数量估计,从而发现各个因素在变 异中所占的重要程度;除了可控因素所引起的变异外,用其他剩余变异来准确而无偏的估计 试验误差,作为统计假设测验的依据;再通过显著性检验 F 测验,发现各个因素在变异 中所占的重要程度,进而对无效假设 H0 1 = 2 == k : (各样本的总体平均数相等)作出 统计推断。 方差分析在农业试验资料的统计分析中占有十分重要的地位,是最常用的一种统计分析 方法。特别是在多因素试验和各种田间设计的试验中,方差分析可以帮助我们发现起主要作 用的因素,从而抓住主要矛盾或关键措施
第二节方差分析的步骤 、自由度与平方和的分解 在第三章中已介绍过,样本方差也称为均方,即样本标准差的平方,它是一个表示变异 的量,是平方和除以自由度的商。因此,要将一个试验资料的总变异分裂成各个变异来源的 相应变异,首先必须将总的自由度与平方和分解为各个变异来源的相应部分,即自由度与平 方和的分解是方差分析的第一个步骤 现以具有k个处理,每个处理含有n个重复观察值,共有m个观察值的试验资料为例, 来说明自由度与平方和分解的过程。这种类型的资料常来自于盆栽试验等完全随机试验设计, 资料的整理方法见表71。 表7.1各处理重复观察值数目相等的完全随机试验数据符号表 处理 重复观察值 T1 1.平方和的分解 在方差分析中,经常用线性模型来表示观察值的变异来源构成,表7.1资料的线性模型 表达为 式中:μ为在假设全部数据都随机抽自同一正态分布总体时的总体平均数:τ;为第i处理对 x的效应;E为x的随机误差,以上各参数的样本估计值分别为 =(x-x,)En=(x-x) 因此,上述线性模型由样本估计时的表达式为 x=x.+(x1…x…)+(x-x2) 如将上述表达式(72)中的x项移至等式左边,可得到离均差形式
2 第二节 方差分析的步骤 一、自由度与平方和的分解 在第三章中已介绍过,样本方差也称为均方,即样本标准差的平方,它是一个表示变异 的量,是平方和除以自由度的商。因此,要将一个试验资料的总变异分裂成各个变异来源的 相应变异,首先必须将总的自由度与平方和分解为各个变异来源的相应部分,即自由度与平 方和的分解是方差分析的第一个步骤。 现以具有 k 个处理,每个处理含有 n个重复观察值,共有 nk个观察值的试验资料为例, 来说明自由度与平方和分解的过程。这种类型的资料常来自于盆栽试验等完全随机试验设计, 资料的整理方法见表 7.1。 表 7.1 各处理重复观察值数目相等的完全随机试验数据符号表 处 理 重 复 观 察 值 Ti. i x . 1 11 x … j x1 … n x1 T1. 1 x . ┇ ┇ ┇ ┇ ┇ ┇ i i1 x … ij x … in x Ti. i x . ┇ ┇ ┇ ┇ ┇ ┇ k k1 x … kj x … kn x Tk. k x . 总 和 T.. x .. 1.平方和的分解 在方差分析中,经常用线性模型来表示观察值的变异来源构成,表 7.1 资料的线性模型 可表达为 xij = μ+ τi +εij (7.1) 式中:µ为在假设全部数据都随机抽自同一正态分布总体时的总体平均数;τi 为第 i 处理对 xij 的效应;εij 为xij的随机误差,以上各参数的样本估计值分别为 ˆ = x .. i ˆ =( i x .- x ..) ij ˆ =( ij x - i x .) 因此,上述线性模型由样本估计时的表达式为 ij x = x ..+( i x .- x ..)+( ij x - i x .) (7.2) 如将上述表达式(7.2)中的 x ..项移至等式左边,可得到离均差形式 ( ij x - x ..)=( i x .- x ..)+( ij x - i x .) (7.3)
(73)式表明任一观察值x,与总平均数x之差都可分解为处理效应和误差效应两部分 如果我们用离均差平方总和(即平方和)这一表示数据变异程度大小的统计量来表示这些变 异,则得到关系式 k k ∑Σ(x1-x…)2=nΣ(x,·x.)+∑∑(x;-x.)2 (74) i=l j=l i=l j=l 式中∑∑(xx)2为总变异平方和,用SSr表示n2(x…x)2为处理平方和,用SS i=l j= 表示;三兰(x)2为误差平方和,用S表示。即 Ss =SS+ss (7.5) 在实际应用计算中各公式分别为 SSr=∑x (7.6) k 其中称为矫正数,记为C,即 (7.7) (78) (7.9) 2自由度的分解 总变异自由度也可分解为两部分,即总变异自由度=处理间自由度+误差自由度。总变 异自由度用vr表示:处理间自由度用v,表示;误差自由度用v表示。 由于计算总平方和时,资料中的各数据要受到 (xn菜)=0条件的约束,所 以,总自由度为 nk (7.10) 由于用x,计算处理间平方利时,x,要受到∑(xx)=0条件的约束,所以,处理
3 (7.3)式表明任一观察值 ij x 与总平均数 x ..之差都可分解为处理效应和误差效应两部分。 如果我们用离均差平方总和(即平方和)这一表示数据变异程度大小的统计量来表示这些变 异,则得到关系式 n j k i=1 =1 ( ij x - x ..)2 = k i n =1 ( i x .- x ..) 2+ n j k i=1 =1 ( ij x - x .)2 (7.4) 式中 n j k i=1 =1 ( ij x - x ..)2 为总变异平方和,用 SST 表示;n k i=1 ( i x .- x ..) 2 为处理平方和,用 SSt 表示; n j k i=1 =1 ( ij x - x .)2为误差平方和,用 e SS 表示。即 SST = SSt + SSe (7.5) 在实际应用计算中各公式分别为 nk T SS x T .. 2 2 = − (7.6) 其中 nk T .. 2 称为矫正数,记为 C ,即 nk T C .. 2 = (7.7) C n T SS i k i t − = = 2 . 1 (7.8) SSe = SST − SSt (7.9) 2.自由度的分解 总变异自由度也可分解为两部分,即总变异自由度=处理间自由度+误差自由度。总变 异自由度用 T v 表示;处理间自由度用 t v 表示;误差自由度用 e v 表示。 由于计算总平方和时,资料中的各数据要受到 = = k i n 1 j 1 ( ij x - x.. ) =0 条件的约束,所 以,总自由度为 vT = nk −1 (7.10) 由于用 . i x 计算处理间平方和时, . i x 要受到 = k i 1 ( . i x - x.. )=0 条件的约束,所以,处理
间自由度为 (7.11) 由于计算处理内(误差)平方和时,要受到∑(x-x)=0=1.2…A)k个条件的约束 所以,误差自由度为 实际应用公式可用 3.方差 将各变异来源的平方和除以相应的自由度,即得各变异来源的方差,有 总变异 ∑(x1-x.)2 S (713) 处理间 2_SS,n2(x-x.)2 14) (x-x)2 误差 (7.15) k(n-1) 通过计算各部分方差值的大小,可了解各变异原因所引起的变异程度的大小。 4.实例分析 例71以A、B、C、D4种药剂处理水稻种子,其中A为对照,每处理得4个苗高观察 值(cm),其结果如表72 表7.2不同药剂处理水稻的苗高(cm) 药剂 A 21 22 D 15 总和T 76 T=336 平均x 19 x=21 已知k=4,n=4,T=336,则 (1).总变异平方和与总自由度 nk4×4
4 间自由度为 vt = k −1 (7.11) 由于计算处理内(误差)平方和时,要受到 x x ij n j − = ( 1 .)=0(i=1,2,…,k) k 个条件的约束, 所以,误差自由度为 v = nk − k = k(n −1) e (7.12-1) 实际应用公式可用 e T t v = v − v (7.12-2) 3.方差 将各变异来源的平方和除以相应的自由度,即得各变异来源的方差,有 总变异 ( 1) ( ..)2 2 1 1 − − = = = = nk x x v SS S ij n j k i T T T (7.13) 处理间 ( 1) ( ..) 2 . 2 1 − − = = = nk n x x v SS S i k i t t t (7.14) 误差 ( 1) ( ) 2 . 2 1 1 − − = = = = k n x x v SS S ij i n j k i e e e (7.15) 通过计算各部分方差值的大小,可了解各变异原因所引起的变异程度的大小。 4.实例分析 [例 7.1]以 A、B、C、D 4种药剂处理水稻种子,其中 A 为对照,每处理得 4个苗高观察 值(cm),其结果如表 7.2。 表 7.2 不同药剂处理水稻的苗高(cm) 药 剂 A( 1 x .) B( 2 x .) C( 3 x .) D( 4 x .) A 19 21 20 22 B 23 24 18 25 C 21 27 19 27 D 13 20 15 22 总和 Ti 76 92 72 96 T=336 平均 i x 19 23 18 24 x =21 已知 k = 4, n = 4,T = 336 ,则 (1).总变异平方和与总自由度 7056 4 4 336 2 2 = = = nk T C
(1).总变异平方和与总自由度 SSr=∑x2-C=192+232+…+222-C 7278-7056=222 (2).处理间平方和与自由度 +72 =7160-7056=104 v.=k-1=4-1=3 (3).误差平方和与自由度 SS。=SSr-SS1=222-104=118 =k(n-1)=4×(4-1)=12 (4).各变异来源的方差 总变异Sr2= 15 处理间S 104 SS.118 983 以上药剂内方差S。2=9.83系4种药剂内变异的合并方差,它是表72资料的试验误差的估 计;而药剂间方差S12=3467则是试验误差加上不同药剂对苗高的效应 、方差分析的假设测验一F测验 F测验是方差分析的第个二步骤。在第五章里对两个样本方差相比较的差异显著性测验 (F测验)曾作过介绍。为测验假设H:012≤0x2:对HA:o12>02,我们以被测验项 的方差s12作分子,以误差的方差s2作分母,计算F=s12s2,若实得F>F0或F0,则推 断否定H,接受HA:若实得F<F00s,则推断接受H。例如,对表71类型的资料有处理间 方差s2=SS/v,误差方差s2=Sv,若要测验处理间是否有本质的差异,即测验处理间 的方差是否显著大于误差方差时,有F=s2/s2,当实得F≥F0s,但F<Fo时,我们可以推
5 (1).总变异平方和与总自由度 7278 7056 222 19 23 22 2 2 2 2 = − = SST = x − C = + ++ − C vT = nk −1= 44 −1=15 (2).处理间平方和与自由度 7160 7056 104 4 76 92 72 96 2 2 2 2 2 = − = − + + + − = = C C n T SS i t vt = k −1 = 4 −1 = 3 (3).误差平方和与自由度 SSe = SST − SSt = 222 −104 =118 ve = k(n −1) = 4 (4 −1) =12 (4).各变异来源的方差 总变异 14.80 15 2 222 = = = T T T v SS S 处理间 34.67 3 2 104 = = = t t t v SS S 误差 9.83 12 2 118 = = = e e e v SS S 以上药剂内方差 9.83 2 Se = 系 4 种药剂内变异的合并方差,它是表 7.2 资料的试验误差的估 计;而药剂间方差 34.67 2 St = 则是试验误差加上不同药剂对苗高的效应。 二、方差分析的假设测验 — F 测验 F 测验是方差分析的第个二步骤。在第五章里对两个样本方差相比较的差异显著性测验 (F 测验)曾作过介绍。为测验假设 H0:σ1 2≤σ2 2;对 HA :σ1 2>σ2 2,我们以被测验项 的方差 s1 2 作分子,以误差的方差 s2 2作分母,计算 F=s1 2 /s2 2,若实得 F>F0.05 或 F0.01,则推 断否定H0,接受 HA;若实得 F<F0.05,则推断接受 H0。例如,对表 7.1 类型的资料有处理间 方差 st 2=SSt/ t ,误差方差 se 2=SSe/ e ,若要测验处理间是否有本质的差异,即测验处理间 的方差是否显著大于误差方差时,有F=st 2 /se 2,当实得F≥F0.05,但F<F0.01 时,我们可以推