第六章方差分析 第五章所介绍的t检验法适用于样本平均数与总体平均数及两样本平均数间的差异显著 性检验,但在生产和科学研究中经常会遇到比较多个处理优劣的问题,即需进行多个平均数 间的差异显著性检验。这时,若仍采用t检验法就不适宜了。这是因为 1、检验过程烦琐例如,一试验包含5个处理,采用t检验法要进行¢=10次两两 平均数的差异显著性检验:若有k个处理,则要作kk-2次类似的检验。 2、无统一的试验误差,误差估计的精确性和检验的灵敏性低对同一试验的 多个处理进行比较时,应该有一个统一的试验误差的估计值。若用t检验法作两两比较,由 于每次比较需计算一个S-,故使得各次比较误差的估计不统一,同时没有充分利用资料 所提供的信息而使误差估计的精确性降低,从而降低检验的灵敏性。例如,试验有5个处理, 每个处理重复6次,共有30个观测值。进行t检验时,每次只能利用两个处理共12个观测 值估计试验误差,误差自由度为2(6-1)=10:若利用整个试验的30个观测值估计试验误差, 显然估计的精确性高,且误差自由度为5(6-1)=25。可见,在用t检法进行检验时,由于估 计误差的精确性低,误差自由度小,使检验的灵敏性降低,容易掩盖差异的显著性 3、推断的可靠性低,检验的I型错误率大即使利用资料所提供的全部信息估 计了试验误差,若用t检验法进行多个处理平均数间的差异显著性检验,由于没有考虑相互 比较的两个平均数的秩次问题,因而会增大犯I型错误的概率,降低推断的可靠性 由于上述原因,多个平均数的差异显著性检验不宜用t检验,须采用方差分析法。 方差分析( analysis of variance)是由英国统计学家 R.A. Fisher于1923年提出的。这种方 法是将k个处理的观测值作为一个整体看待,把观测值总变异的平方和及自由度分解为相应 于不同变异来源的平方和及自由度,进而获得不同变异来源总体方差估计值:通过计算这些 总体方差的估计值的适当比值,就能检验各样本所属总体平均数是否相等。方差分析实质上 是关于观测值变异原因的数量分析,它在科学研究中应用十分广泛。 本章在讨论方差分析基本原理的基础上,重点介绍单因素试验资料及两因素试验资料的 方差分析法。在此之前,先介绍几个常用术语。 1、试验指标( experimental index)为衡量试验结果的好坏或处理效应的高低,在 试验中具体测定的性状或观测的项目称为试验指标。由于试验目的不同,选择的试验指标也 不相同。在畜禽、水产试验中常用的试验指标有:日增重、产仔数、产奶量、产蛋率、瘦肉 率、某些生理生化和体型指标(如血糖含量、体高、体重)等 2、试验因素( experimental factor)试验中所研究的影响试验指标的因素叫试验因 素。如硏究如何提高猪的日增重时,饲料的配方、猪的品种、饲养方式、环境温湿度等都对 日增重有影响,均可作为试验因素来考虑。当试验中考察的因素只有一个时,称为单因素试 验:若同时研究两个或两个以上的因素对试验指标的影响时,则称为两因素或多因素试验。 试验因素常用大写字母A、B、C、…等表示 3、因素水平 level of facto)试验因素所处的某种特定状态或数量等级称为因素水 平,简称水平。如比较3个品种奶牛产奶量的高低,这3个品种就是奶牛品种这个试验因素
75 第六章 方差分析 第五章所介绍的t检验法适用于样本平均数与总体平均数及两样本平均数间的差异显著 性检验,但在生产和科学研究中经常会遇到比较多个处理优劣的问题,即需进行多个平均数 间的差异显著性检验。这时,若仍采用 t 检验法就不适宜了。这是因为: 1、检验过程烦琐 例如,一试验包含 5 个处理,采用 t 检验法要进行 2 C5 =10 次两两 平均数的差异显著性检验;若有 k 个处理,则要作 k(k-1)/2 次类似的检验。 2、无统一的试验误差,误差估计的精确性和检验的灵敏性低 对同一试验的 多个处理进行比较时,应该有一个统一的试验误差的估计值。若用 t 检验法作两两比较,由 于每次比较需计算一个 1 2 Sx −x ,故使得各次比较误差的估计不统一,同时没有充分利用资料 所提供的信息而使误差估计的精确性降低,从而降低检验的灵敏性。例如,试验有 5 个处理, 每个处理重复 6 次,共有 30 个观测值。进行 t 检验时,每次只能利用两个处理共 12 个观测 值估计试验误差,误差自由度为 2(6-1)=10;若利用整个试验的 30 个观测值估计试验误差, 显然估计的精确性高,且误差自由度为 5(6-1)=25。可见,在用 t 检法进行检验时,由于估 计误差的精确性低,误差自由度小,使检验的灵敏性降低,容易掩盖差异的显著性。 3、推断的可靠性低,检验的 I 型错误率大 即使利用资料所提供的全部信息估 计了试验误差,若用 t 检验法进行多个处理平均数间的差异显著性检验,由于没有考虑相互 比较的两个平均数的秩次问题,因而会增大犯 I 型错误的概率,降低推断的可靠性。 由于上述原因,多个平均数的差异显著性检验不宜用 t 检验,须采用方差分析法。 方差分析(analysis of variance)是由英国统计学家 R.A.Fisher 于 1923 年提出的。这种方 法是将 k 个处理的观测值作为一个整体看待,把观测值总变异的平方和及自由度分解为相应 于不同变异来源的平方和及自由度,进而获得不同变异来源总体方差估计值;通过计算这些 总体方差的估计值的适当比值,就能检验各样本所属总体平均数是否相等。方差分析实质上 是关于观测值变异原因的数量分析,它在科学研究中应用十分广泛。 本章在讨论方差分析基本原理的基础上,重点介绍单因素试验资料及两因素试验资料的 方差分析法。在此之前,先介绍几个常用术语。 1、试验指标(experimental index) 为衡量试验结果的好坏或处理效应的高低,在 试验中具体测定的性状或观测的项目称为试验指标。由于试验目的不同,选择的试验指标也 不相同。在畜禽、水产试验中常用的试验指标有:日增重、产仔数、产奶量、产蛋率、瘦肉 率、某些生理生化和体型指标(如血糖含量、体高、体重)等。 2、试验因素(experimental factor) 试验中所研究的影响试验指标的因素叫试验因 素。如研究如何提高猪的日增重时,饲料的配方、猪的品种、饲养方式、环境温湿度等都对 日增重有影响,均可作为试验因素来考虑。当试验中考察的因素只有一个时,称为单因素试 验;若同时研究两个或两个以上的因素对试验指标的影响时,则称为两因素或多因素试验。 试验因素常用大写字母 A、B、C、…等表示。 3、因素水平(level of factor) 试验因素所处的某种特定状态或数量等级称为因素水 平,简称水平。如比较 3 个品种奶牛产奶量的高低,这 3 个品种就是奶牛品种这个试验因素
的3个水平;研究某种饲料中4种不同能量水平对肥育猪瘦肉率的影响,这4种特定的能量 水平就是饲料能量这一试验因素的4个水平。因素水平用代表该因素的字母加添足标1, 2,…,来表示。如A1、A2、…,B1、B2、…,等 4、试验处理( treatment事先设计好的实施在试验单位上的具体项目叫试验处理,简 称处理。在单因素试验中,实施在试验单位上的具体项目就是试验因素的某一水平。例如进 行饲料的比较试验时,实施在试验单位(某种畜禽)上的具体项目就是喂饲某一种饲料。所以 进行单因素试验时,试验因素的一个水平就是一个处理。在多因素试验中,实施在试验单位 上的具体项目是各因素的某一水平组合。例如进行3种饲料和3个品种对猪日增重影响的两 因素试验,整个试验共有3×3=9个水平组合,实施在试验单位(试验猪)上的具体项目就是某 品种与某种饲料的结合。所以,在多因素试验时,试验因素的一个水平组合就是一个处理 5、试验单位( (experimental unit在试验中能接受不同试验处理的独立的试验载体叫 试验单位。在畜禽、水产试验中,一只家禽、一头家畜、一只小白鼠、一尾鱼,即一个动物; 或几只家禽、几头家畜、几只小白鼠、几尾鱼,即一组动物都可作为试验单位。试验单位往 往也是观测数据的单位。 6、重复 repetition在试验中,将一个处理实施在两个或两个以上的试验单位上, 称为处理有重复;一处理实施的试验单位数称为处理的重复数。例如,用某种饲料喂4头猪 就说这个处理(饲料)有4次重复 第一节方差分析的基本原理与步骤 方差分析有很多类型,无论简单与否,其基本原理与步骤是相同的。本节结合单因素试 验结果的方差分析介绍其原理与步骤。 线性模型与基本假定 假设某单因素试验有k个处理,每个处理有n次重复,共有Mk个观测值。这类试验资 料的数据模式如表6-1所示。 表6-1k个处理每个处理有n个观测值的数据模式 处理 合计x1,平均x x22 x2j x2 xk2 xk k 表中x表示第个处理的第j个观测值(P1,2,…,k户1,2,…,n):x=∑x表示第
76 的 3 个水平;研究某种饲料中 4 种不同能量水平对肥育猪瘦肉率的影响,这 4 种特定的能量 水平就是饲料能量这一试验因素的 4 个水平。因素水平用代表该因素的字母加添足标 1, 2,…,来表示。如 A1、A2、…,B1、B2、…,等。 4、试验处理(treatment) 事先设计好的实施在试验单位上的具体项目叫试验处理,简 称处理。在单因素试验中,实施在试验单位上的具体项目就是试验因素的某一水平。例如进 行饲料的比较试验时,实施在试验单位(某种畜禽)上的具体项目就是喂饲某一种饲料。所以 进行单因素试验时,试验因素的一个水平就是一个处理。在多因素试验中,实施在试验单位 上的具体项目是各因素的某一水平组合。例如进行 3 种饲料和 3 个品种对猪日增重影响的两 因素试验,整个试验共有 3×3=9 个水平组合,实施在试验单位(试验猪)上的具体项目就是某 品种与某种饲料的结合。所以,在多因素试验时,试验因素的一个水平组合就是一个处理。 5、试验单位(experimental unit) 在试验中能接受不同试验处理的独立的试验载体叫 试验单位。在畜禽、水产试验中,一只家禽、一头家畜、一只小白鼠、一尾鱼,即一个动物; 或几只家禽、几头家畜、几只小白鼠、几尾鱼,即一组动物都可作为试验单位。试验单位往 往也是观测数据的单位。 6、重复(repetition) 在试验中,将一个处理实施在两个或两个以上的试验单位上, 称为处理有重复;一处理实施的试验单位数称为处理的重复数。例如,用某种饲料喂 4 头猪, 就说这个处理(饲料)有 4 次重复。 第一节 方差分析的基本原理与步骤 方差分析有很多类型,无论简单与否,其基本原理与步骤是相同的。本节结合单因素试 验结果的方差分析介绍其原理与步骤。 一、线性模型与基本假定 假设某单因素试验有 k 个处理,每个处理有 n 次重复,共有 nk 个观测值。这类试验资 料的数据模式如表 6-1 所示。 表 6-1 k 个处理每个处理有 n 个观测值的数据模式 处理 观 测 值 合计 i. x 平均 i. x A1 x11 x12 … x1j … x1n . 1 x . 1 x A2 x21 x22 … x2j … x2n . 2 x . 2 x … … Ai xi1 xi2 … xij … xin . i x . i x … … Ak xk1 xk2 … xkj … xkn xk. . k x 合计 x.. x.. 表中 ij x 表示第 i 个处理的第 j 个观测值(i=1,2,…,k;j=1,2,…,n); = = n j i ij x x 1 . 表示第
个处理n个观测值的和2+=∑x表示全部观测值的总和:元 /n=x1./n 表示第i个处理的平均数:菜=∑∑x/An=x,km表示全部观测值的总平均数:x可以分 解为 (6-1) 共表示第i个处理观测值总体的平均数。为了看出各处理的影响大小,将共再进行分解 令 (6- 1=H-H (6-3) xy=a+ai+ey 其中μ表示全试验观测值总体的平均数,a1是第i个处理的效应( treatment effects)表示 处理i对试验结果产生的影响。显然有 0 E;是试验误差,相互独立,且服从正态分布N(0,σ2)。 (6-4)式叫做单因素试验的线性模型( linear model)亦称数学模型。在这个模型中xy 表示为总平均数μ、处理效应a;、试验误差εσ之和。由ε;相互独立且服从正态分布N(0, σ2),可知各处理A(=-1,2,…,k)所属总体亦应具正态性,即服从正态分布N(μ,o2)。 尽管各总体的均数可以不等或相等,σ2则必须是相等的。所以,单因素试验的数学模型 可归纳为:效应的可加性( additivity)、分布的正态性( normality)、方差的同质性 ( homogeneity)。这也是进行其它类型方差分析的前提或基本假定。 若将表(6-1)中的观测值x(=1,2,…,k;广产1,2,…,n)的数据结构(模型)用样本符 号来表示,则 x=x+(x2-x)+(x-x)=x+1+e (6-6) 与(6-4)式比较可知,王、(x-)=1、(x1-x)=en分别是μ、(u;-u)=a1、 (x共)=En的估计值。 (6-4)、(6-6)两式告诉我们:每个观测值都包含处理效应(μ;-μ或x,一x),与误差 (xn-,或x一x),故如个观测值的总变异可分解为处理间的变异和处理内的变异两部分 平方和与自由度的剖分
77 i 个处理 n 个观测值的和; = = = = = k i i k i n j ij x x x 1 1 1 .. .表示全部观测值的总和; x x n xi n n j i ij . / ./ 1 = = = 表示第 i 个处理的平均数; x x kn x kn k i n j ij .. / .. / 1 1 = = = = 表示全部观测值的总平均数; ij x 可以分 解为 ij i ij x = + (6-1) i 表示第 i 个处理观测值总体的平均数。为了看出各处理的影响大小,将 i 再进行分解, 令 = = k i i k 1 1 (6-2) i = i − (6-3) 则 ij i ij x = + + (6-4) 其中μ表示全试验观测值总体的平均数, i 是第 i 个处理的效应(treatment effects)表示 处理 i 对试验结果产生的影响。显然有 0 1 = = k i i (6-5) εij 是试验误差,相互独立,且服从正态分布 N(0,σ 2)。 (6-4)式叫做单因素试验的线性模型(linear model)亦称数学模型。在这个模型中 ij x 表示为总平均数μ、处理效应αi、试验误差εij 之和。由εij 相互独立且服从正态分布 N(0, σ 2),可知各处理 Ai(i=1,2,…,k)所属总体亦应具正态性,即服从正态分布 N(μi,σ 2 )。 尽管各总体的均数 i 可以不等或相等,σ2 则必须是相等的。所以,单因素试验的数学模型 可归纳为:效应的可加性(additivity)、分布的正态性(normality)、方差的同质性 (homogeneity)。这也是进行其它类型方差分析的前提或基本假定。 若将表(6-1)中的观测值 xij(i=1,2,…,k;j=1,2,…,n)的数据结构(模型)用样本符 号来表示,则 ij i ij i i ij x = x + x − x + x − x = x +t +e .. . .. . .. ( ) ( ) (6-6) 与(6-4)式比较可知, .. x 、 i i (x − x ) = t . .. 、 ij i ij (x − x ) = e . 分别是μ、(μi-μ)= i 、 (xij- i )= ij 的估计值。 (6-4)、(6-6)两式告诉我们:每个观测值都包含处理效应(μi-μ或 x . x.. i − ),与误差 ( ij i x − 或 ij i. x − x ),故 kn 个观测值的总变异可分解为处理间的变异和处理内的变异两部分。 二、平方和与自由度的剖分
我们知道,方差与标准差都可以用来度量样本的变异程度。因为方差在统计分析上有许 多优点,而且不用开方,所以在方差分析中是用样本方差即均方( mean squares)来度量资 料的变异程度的。表6-1中全部观测值的总变异可以用总均方来度量。将总变异分解为处理 间变异和处理内变异,就是要将总均方分解为处理间均方和处理内均方。但这种分解是通过 将总均方的分子—称为总离均差平方和,简称为总平方和,剖分成处理间平方和与处理内 平方和两部分;将总均方的分母—称为总自由度,剖分成处理间自由度与处理内自由度两 部分来实现的。 (一)总平方和的剖分在表6-1中,反映全部观测值总变异的总平方和是各观测 值x与总平均数x的离均差平方和,记为SSr。即 SSr=∑∑(x-x)2 因为 ∑∑x-x)2=∑∑[元-x)+(x1-x ∑∑x-x)+21-Xx1-3)+(x- i=1j= 心(x-x)+2x-x(1-x+(x-x 其中 所以 ∑(x-x)=心(一)+∑∑(x一元 (6-7)式中,心(一)2为各处理平均数元,与总平均数的离均差平方和与重复 数n的乘积,反映了重复n次的处理间变异,称为处理间平方和,记为SS,即 S=n∑(x-x)2 (6-7)式中,∑∑(x1-)2为各处理内离均差平方和之和,反映了各处理内的变异即 i=l j= 误差,称为处理内平方和或误差平方和,记为SS,即 于是有 SST=SS +SSe (6-8) (6-7),(6-8)两式是单因素试验结果总平方和、处理间平方和、处理内平方和的关系
78 我们知道,方差与标准差都可以用来度量样本的变异程度。因为方差在统计分析上有许 多优点,而且不用开方,所以在方差分析中是用样本方差即均方(mean squares)来度量资 料的变异程度的。表 6-1 中全部观测值的总变异可以用总均方来度量。将总变异分解为处理 间变异和处理内变异,就是要将总均方分解为处理间均方和处理内均方。但这种分解是通过 将总均方的分子──称为总离均差平方和,简称为总平方和,剖分成处理间平方和与处理内 平方和两部分;将总均方的分母──称为总自由度,剖分成处理间自由度与处理内自由度两 部分来实现的。 (一)总平方和的剖分 在表 6-1 中,反映全部观测值总变异的总平方和是各观测 值 xij 与总平均数 x.. 的离均差平方和,记为 SST。即 = = = − k i n j T ij SS x x 1 1 2 .. ( ) 因为 = = = = = = = = = = = = − + − − + − = − + − − + − − = − + − k i n j i j i n j i j i k i k i i i k i n j i i i j i i j i k i n j k i n j i j i i j i n x x x x x x x x x x x x x x x x x x x x x x 1 1 2 1 1 1 2 1 1 2 2 1 1 1 1 2 2 ( . ..) 2 [( . ..) ( .)] ( .) ( . ..) 2( . ..)( .) ( .) ( ..) ( . ..) ( .) 其中 = − = n j ij i x x 1 ( . ) 0 所以 = = = = = − = − + − k i n j k i k i n j ij i ij i x x n x x x x 1 1 1 1 1 2 . 2 . .. 2 .. ( ) ( ) ( ) (6-7) (6-7)式中, = − k i i n x x 1 2 ( . ..) 为各处理平均数 . i x 与总平均数 x.. 的离均差平方和与重复 数 n 的乘积,反映了重复 n 次的处理间变异,称为处理间平方和,记为 SSt,即 = = − k i t i SS n x x 1 2 ( . ..) (6-7)式中, = = − k i n j ij i x x 1 1 2 . ( ) 为各处理内离均差平方和之和,反映了各处理内的变异即 误差,称为处理内平方和或误差平方和,记为 SSe,即 = = = − k i n j e ij i SS x x 1 1 2 . ( ) 于是有 SST =SSt+SSe (6-8) (6-7),(6-8)两式是单因素试验结果总平方和、处理间平方和、处理内平方和的关系
式。这个关系式中三种平方和的简便计算公式如下 -sS 其中,C=x2.称为矫正数 (二)总自由度的剖分在计算总平方和时,资料中的各个观测值要受 2(x-)=0这条件的约来故总自由度等于资料中观测值的总个数减一,即 总自由度记为4,即4=k-1 在计算处理间平方和时,各处理均数x要受∑(x一)=0这一条件的约束,故处理间 自由度为处理数减一,即k-1。处理间自由度记为d,即d=-1 在计算处理内平方和时,要受k个条件的约束,即∑(xn-x)=0(=1,2,…k)。故 处理内自由度为资料中观测值的总个数减k,即-k。处理内自由度记为dc,即 dJC=n-k=k(mn-1)。 因为 nk-1=(k-1)+(nk-k)=(k-1)+k(n-1) 所以 r =d, +df e 综合以上各式得: dfr =kn-1 d=k-1 dfe =dfr -dr 各部分平方和除以各自的自由度便得到总均方、处理间均方和处理内均方,分别记为 (MS或S2)、MS(或S2)和MS2(或S2)。即 MSr= sf= ssr /dr MS,=Sf=SS, /dr MSe=se= sse /dfe (6-12) 总均方一般不等于处理间均方加处理内均方 例6.1】某水产研究所为了比较四种不同配合饲料对鱼的饲喂效果,选取了条件基 本相同的鱼20尾,随机分成四组,投喂不同饲料,经一个月试验以后,各组鱼的增重结果 列于下表 表6-2饲喂不同饲料的鱼的增重 (单位:10g) 饲料 鱼的增重(x;)
79 式。这个关系式中三种平方和的简便计算公式如下: x C n SS SS x C i k i t ij n j k i T = − = − = = = 2 . 1 2 1 1 1 (6-9) SSe = SST − SSt 其中,C=x2 ··/kn 称为矫正数。 (二)总自由度的剖分 在计 算总平方和时 ,资料中的 各个观测值要受 = = − = k i n j ij x x 1 1 ( ..) 0 这一条件的约束,故总自由度等于资料中观测值的总个数减一,即 kn-1。 总自由度记为 dfT,即 dfT=kn-1。 在计算处理间平方和时,各处理均数 i. x 要受 = − = k i i x x 1 ( . .. ) 0 这一条件的约束,故处理间 自由度为处理数减一,即 k-1。处理间自由度记为 dft,即 dft=k-1。 在计算处理内平方和时,要受 k 个条件的约束,即 = − = n j ij i x x 1 ( . ) 0 (i=1,2,…,k)。故 处理内自由度为资料中观测值的总个数减 k,即 kn-k 。处理内自由度记为 dfe,即 dfe=kn-k=k(n-1)。 因为 nk −1= (k −1) + (nk − k) = (k −1) + k(n −1) 所以 dfT = dft + dfe (6-10) 综合以上各式得: e T t t T df df df df k df kn = − = − = − 1 1 (6-11) 各部分平方和除以各自的自由度便得到总均方、处理间均方和处理内均方,分别记为 (MST 或 2 T S )、MSt(或 2 t S )和 MSe(或 2 e S )。即 MST ST SST dfT / 2 = = MSt St SSt dft / 2 = = MSe Se SSe dfe / 2 = = (6-12) 总均方一般不等于处理间均方加处理内均方。 【例 6.1】 某水产研究所为了比较四种不同配合饲料对鱼的饲喂效果,选取了条件基 本相同的鱼 20 尾,随机分成四组,投喂不同饲料,经一个月试验以后,各组鱼的增重结果 列于下表。 表 6-2 饲喂不同饲料的鱼的增重 (单位:10g) 饲料 鱼的增重(xij) 合计 i. x 平均 i. x