二、随机因素模型 例42随机选取4窝动物,每窝均有4只幼仔,其出生重见表42。不同窝出生重差异是否 显 表42动物出生重(g) 窝别 出生重X 34733326231.6 33.226.028.632.3 27.123.3278267 32.931.425.728.0 例42是随机因素模型,因为动物的窝别是无法控制的,也无法重复,它的效果是无法 预料的。随机因素的影响首先体现在线性统计模型中,它的表达式仍为: xj=+a+Ei,i=1,2,……a,j=1,2,……n 但由于各水平的效应无法预料,现在α不再能视为常数,而是随机变量了。即 a~MDO,Ga),~ND(0,0)ND意为独立正态分布) 此时一般Σa:=0不再成立,统计假设相应变为 H4:G2>0 这样,当H成立时,自然有a1=0,i=1,2,…a:若不成立,则作为从N(0,a2)中抽取 的样本,各α1不可能都相同,当然也不可能均为0。此时它们的和一般也不会是0。 对于随机模型,总平方和与自由度的分解与固定模型是相同的,因为在证明平方和分解 的过程中没有用到线性统计模型,因此因素类型的变化不会影响总平方和的分解。MSe的期 望也没有变,因为这些推导过程中也没有使用a1的性质。但MSA的期望变了,因为a1不再是 常数,a也不再为0 E(11≈1 E(SS) e(x-x 2 a (E1-g.)+(a1-a) .-E)2+2∑-E)(a1-a)+∑a 由于各a1与各相互独立,上式的交叉项期望为零。因此有: 原式 ∑(-E)2 ED∑E2-aE2 n ED n σ-+n0
二、随机因素模型 例 4.2 随机选取 4 窝动物,每窝均有 4 只幼仔,其出生重见表 4.2。不同窝出生重差异是否 显著? 表 4.2 动物出生重(g) 窝别 出生重 Xij 1 34.7 33.3 26.2 31.6 2 33.2 26.0 28.6 32.3 3 27.1 23.3 27.8 26.7 4 32.9 31.4 25.7 28.0 例 4.2 是随机因素模型,因为动物的窝别是无法控制的,也无法重复,它的效果是无法 预料的。随机因素的影响首先体现在线性统计模型中,它的表达式仍为: xij = +i+ij, i=1, 2, ……a, j=1, 2, ……n 但由于各水平的效应无法预料,现在i 不再能视为常数,而是随机变量了。即: ~ (0, ), ~ (0, ) 2 2 i NID ij NID (NID 意为独立正态分布) 此时一般Σi=0 不再成立,统计假设相应变为: H0: 2 =0 HA: 2 >0 这样,当 H0 成立时,自然有i =0,i=1, 2, ……a;若不成立,则作为从 N( 2 0, )中抽取 的样本,各i 不可能都相同,当然也不可能均为 0。此时它们的和一般也不会是 0。 对于随机模型,总平方和与自由度的分解与固定模型是相同的,因为在证明平方和分解 的过程中没有用到线性统计模型,因此因素类型的变化不会影响总平方和的分解。MSe 的期 望也没有变,因为这些推导过程中也没有使用i 的性质。但 MSA 的期望变了,因为i 不再是 常数, 也不再为 0。 ( ) = = = = = − + − − + − − = − + − − = − − = − = a i a i a i i i i i a i i i a i A A i E a n E a n E x x a n E SS a E MS 1 1 1 2 . 2 . 1 2 2 1 . [ ( ..) 2 ( ..) ( ) ( ) 1 [( ..) ( )] 1 [ ( ..) ] 1 1 1 ( ) 由于各i 与各 εij 相互独立,上式的交叉项期望为零。因此有: 原式 [ ( ..) ( ) ] 1 1 1 2 2 . = = − + − − = a i a i E i E i a n 2 2 2 2 2 2 1 2 2 1 2 .. 2 . ( ) 1 ( ) 1 [ ] 1 [ ] 1 n a a a a n an a n a a n E a a n E a a n a i i a i i = + − − − + − = − − − + − = = =
从上述均方期望可看出,若H成立,仍有: F F(a-1,a(n-1)) 而当H成立时,F值仍有偏大的趋势。因此仍可用F分布表作上单尾检验。但这时对结果的 解释却不同了。在固定模型中,结论只适用于检查的那几个水平。而在随机模型中由于是 σ2=0,因此结论可推广到这一因素的一切水平。 现在来计算例42 例42解:计算各处理平均数和方差,以及平均数的方差,填入下表 窝别 2 31.45 30.02526225 29.50 4.88 13.86 11.16 4.01 10.62 39.65 代入(4.8),(4.9)式,得 MSA=n·S2=4×4.88=1952 MS=S 49913 MS A=1.969 查F分布表,得:F09(3,12)=3.490∵F<Fs,∴接受H,可认为出生重无显著差异。 从上述分析过程可知,当因素从固定变为随机后,其影响主要表现在改变了统计模型中 参数a1的性质,使它从常数变成了随机变量。这样一来,所有涉及a1的地方都有了明显改变 包括统计假设H和H,均方期望E(MS),以及最后的解释。对单因素方差分析来说,因素 类型的变化没有影响统计量的计算与检验过程,这是与两个及更多因素方差分析不同之处 另外,由于随机因素的水平不能重复,因此多重比较也就变成没有意义的了。 三、不等重复时的情况 方差分析的数据都是按照精心设计的实验方案收集来的,一般来说各水平应有相同的重 复数。但若实验过程中由于某种原因丢失了一个或几个数据,又无法重做实验弥补,此时就 变成各水平有不同的重复数了。在这种情况下上述方差分析的方法仍然可用,但计算公式及 自由度都要作相应变化。令N=∑n,则总自由度变为N1,S的自由度仍为a-1,s 的自由度变为N-a。(4.6),(4.7)式相应变为 (4.11) 用计算器的计算方法也应改为:
从上述均方期望可看出,若 H0 成立,仍有: = ~ F(a −1, a(n −1)) MS MS F e A 而当 HA 成立时,F 值仍有偏大的趋势。因此仍可用 F 分布表作上单尾检验。但这时对结果的 解释却不同了。在固定模型中,结论只适用于检查的那几个水平。而在随机模型中由于是 2 =0,因此结论可推广到这一因素的一切水平。 现在来计算例 4.2: 例 4.2 解:计算各处理平均数和方差,以及平均数的方差,填入下表: 窝别 1 2 3 4 2 Sx 2 Si i. x 31.45 30.025 26.225 29.50 4.88 2 i S 13.86 11.16 4.01 10.62 39.65 代入(4.8), (4.9)式,得 4 4.88 19.52 2 MS A = n Sx = = = = = = a i e Si a MS 1 2 9.913 4 1 39.65 = = 1.969 e A MS MS F 查 F 分布表,得:F0.95(3, 12)=3.490 ∵ F<F0.95,∴接受 H0,可认为出生重无显著差异。 从上述分析过程可知,当因素从固定变为随机后,其影响主要表现在改变了统计模型中 参数i 的性质,使它从常数变成了随机变量。这样一来,所有涉及i 的地方都有了明显改变, 包括统计假设 H0 和 HA,均方期望 E(MSA),以及最后的解释。对单因素方差分析来说,因素 类型的变化没有影响统计量的计算与检验过程,这是与两个及更多因素方差分析不同之处。 另外,由于随机因素的水平不能重复,因此多重比较也就变成没有意义的了。 三、不等重复时的情况。 方差分析的数据都是按照精心设计的实验方案收集来的,一般来说各水平应有相同的重 复数。但若实验过程中由于某种原因丢失了一个或几个数据,又无法重做实验弥补,此时就 变成各水平有不同的重复数了。在这种情况下上述方差分析的方法仍然可用,但计算公式及 自由度都要作相应变化。令 = = a i N ni 1 ,则总自由度变为 N-1,SSA 的自由度仍为 a-1, SSe 的自由度变为 N-a。(4.6),(4.7)式相应变为 = = = − a i n j T ij i N x SS x 1 1 2 2 .. (4.10) N x n x SS a i i i A .. 2 1 2 . = − = (4.11) 用计算器的计算方法也应改为:
1°计算每一处理的样本方差S2 2°全部样本放在一起,计算总样本方差S 3°SS-=(N-1)·S2 S=∑(n2-1)S2 5°SSA=SSr-SS (4.13) 四、多重比较 固定模型拒绝H时,并不意味着所有处理间均存在差异。为弄清哪些处理间有差异,需 对所有水平作一对一的比较,即多重比较。常用的多重比较方法有以下几种 1.最小显著差数(LSD)法:实际就是用t检验对所有平均数作一对一对的检验。一般情况下 各水平重复数n相等,用M作为a2的估计量,可得: =3)=1AS(+)≈2Asy 统计量为: cltan-a 2MS./n 因此当 x|>t√2MS/n (4.14) 时,差异显著。t分位数的自由度df=a(n-1) 1o3y2MS/n即为最小显著差数,记为LSD。所有比较仅需计算一个ISD,应 用很方便。但由于又回到了多次重复使用t检验的方法,会大大增加犯第一类错误的概 率。为了克服这一缺点,人们提出了多重范围检验的思想:即把平均数按大小排列后, 对离得远的平均数采用较大的临界值R。这一类的方法主要有 Dun can法和 Newman-Keul 。后者又称为q法。现介绍如下: 2. Duncan法: Duncan法步骤如下 把需比较的a个平均数从大到小排好 x1≥x22 2°求出各对差值,并列成表 表4.3a个均值间的差值表 x2-X。x2-X X-X 2xn2-x。x X-X
1°计算每一处理的样本方差 2 i S 2°全部样本放在一起,计算总样本方差 S 2 3°SST =(N-1)·S 2 4° 2 1 ( 1) = = − i a i SSe ni S (4.12) 5°SSA = SST - SSe (4.13) 四、多重比较 固定模型拒绝 H0 时,并不意味着所有处理间均存在差异。为弄清哪些处理间有差异,需 对所有水平作一对一的比较,即多重比较。常用的多重比较方法有以下几种: 1. 最小显著差数(LSD)法:实际就是用 t 检验对所有平均数作一对一对的检验。一般情况下 各水平重复数 n 相等,用 MSe 作为 2 的估计量,可得: n MS n n S MS e i j x x e i j 2 ) 1 1 ( ( − ) = + = 统计量为: ~ ( ) 2 / t an a MS n x x t e i j − − = 因此当 xi − x j t 0.975 2MSe / n (4.14) 时,差异显著。t 分位数的自由度 df = a(n-1)。 t 0.975 2MSe / n 即为最小显著差数,记为 LSD。所有比较仅需计算一个 LSD,应 用很方便。但由于又回到了多次重复使用 t 检验的方法,会大大增加犯第一类错误的概 率。为了克服这一缺点,人们提出了多重范围检验的思想:即把平均数按大小排列后, 对离得远的平均数采用较大的临界值R。这一类的方法主要有Duncan法和Newman-Keul 法。后者又称为 q 法。现介绍如下: 2. Duncan 法: Duncan 法步骤如下: 1°把需比较的 a 个平均数从大到小排好: a x x x 1 2 2°求出各对差值,并列成表: 表 4.3 a 个均值间的差值表 a a-1 ………… 3 2 1 2 … a-2 a-1 X1 − Xa X 2 − X a … X a−2 − X a X a−1 − X a X1 − X a−1 X 2 − X a−1 … X a−2 − X a−1 ………… ………… … X1 − X3 X 2 − X3 X1 − X2
求临界值Rka=ya(k,d0)·Sz,K=2,3……a (4.15) 其中a=0.05或0.01,k表示两平均数在位次上的差别,即若差为x1-x;,则k=j-i+1 因此相邻二平均数k值为2,隔一个为3,余类推。S=√MS。/n,df为Ms的自由度。 ya(k,d)的值需查专门表格。最后把求得的临界Ra列成下表: 表4.4多重检验临界值表 Y0.05(2,df) Y0.01(2,df) R Yo.os(a, df) Yo or(a, df) 4°对差值表采用适当的R进行比较。差值表中每条对角线上的k值是相同的,可使用 同一个临界值R。差值大于Ro5,标以“*”;大于Rm则标“*”。若比较的两个水平重 复数不等,设为n,n,则可用它们的调和平均值n代替n。即: 此时 Rn=y(k,d),(+) (4.16 3. Newman-Q法。又称多重范围q检验。它的检验方法与 Duncan法完全相同,只是要查不 的系数表。它的系数表称为q值表 三种方法的比较: 比较 Duncan的r值表与q值表,可知当k=2时,yn=qn=√2·t。,此时三种检验法 是相同的。当k≥3时,三种方法临界值不同,其中LSD最小, Duncan法次之, Newman-Q 法最大。因此LSD法犯第一类错误概率最大, Duncan法次之, Newman-Kεu法最小,可按 照犯两类错误危害性大小选择适当的方法。一般来说, Duncan法最常用:若各水平均值只 需与对照比较,由于比较次数较少,可考虑选用LSD法。另外,只有F检验确认各平均数 间有显著差异后才可进行LSD法检验,而另两种方法则不一定,有时它们的结果也可能与 F检验不一致 例43对例4.1进行多重比较 解:前已算出:x=524,x2=61.8,x3=64.8,x=796, MSe=54.125,df=4×(5-1)=16 (1)最小显著差数法 查表,得to97s(16)=2.119,t09916)=2.9208 SD0s=to9(16)·√2MS/n=2.119×√2×54.125/5
3°求临界值 k df Sx R = (k, ) , ,K=2,3……a。 (4.15) 其中α=0.05 或 0.01,k 表示两平均数在位次上的差别,即若差为 i j x − x ,则 k=j-i+1。 因此相邻二平均数 k 值为 2,隔一个为 3,余类推。 Sx = MSe / n ,df 为 MSe 的自由度。 (k,df ) 的值需查专门表格。最后把求得的临界 Rk , 列成下表: 表 4.4 多重检验临界值表 K γ0.05 R0.05 γ0.01 R0.01 2 3 … a γ0.05(2,df) γ0.05(3,df) … γ0.05(a,df) R2,0.05 R3,0.05 … Ra,0.05 γ0.01(2,df) γ0.01(3,df) … γ0.01(a,df) R2,0.01 R3,0.01 … Ra,0.01 4°对差值表采用适当的 R 进行比较。差值表中每条对角线上的 k 值是相同的,可使用 同一个临界值 R。差值大于 R0.05,标以“*”; 大于 R0.01 则标“**”。若比较的两个水平重 复数不等,设为 ni, nj,则可用它们的调和平均值 nij 代替 n。即: ) 1 1 ( 2 1 1 nij ni nj = + , 此时 ) 1 1 ( 2 ( , ) , i j e k n n MS R = k df + (4.16) 3.Newman-Q 法。又称多重范围 q 检验。它的检验方法与 Duncan 法完全相同,只是要查不 同的系数表。它的系数表称为 q 值表。 三种方法的比较: 比较 Duncan 的 r 值表与 q 值表,可知当 k=2 时, 2 1 2 − = q = t a a ,此时三种检验法 是相同的。当 k≥3 时,三种方法临界值不同,其中 LSD 最小,Duncan 法次之,Newman-Q 法最大。因此 LSD 法犯第一类错误概率最大,Duncan 法次之, Newman-Keul 法最小,可按 照犯两类错误危害性大小选择适当的方法。一般来说,Duncan 法最常用;若各水平均值只 需与对照比较,由于比较次数较少,可考虑选用 LSD 法。另外,只有 F 检验确认各平均数 间有显著差异后才可进行 LSD 法检验,而另两种方法则不一定,有时它们的结果也可能与 F 检验不一致。 例 4.3 对例 4.1 进行多重比较。 解:前已算出: x1. = 52.4, x2. = 61.8, x3. = 64.8, x4. = 79.6, MSe = 54.125, df = 4×(5-1)=16 (1) 最小显著差数法: 查表,得 t0.975(16)=2.1199, t0.995(16)=2.9208 ∴ LSD0.05 = t0.975(16) 2MSe / n =2.1199× 254.125/ 5
2.1199×4.6530=9.8639 LSD 2.9208×4.6530=13.5905 列出各水平均值的差值表:(均值已从小到大排列,不必再排) 124* 94 178** 3.0 将各差值分别与LSDs和LSDo比较,大于LSD00s的标“*”,大于LSDo01的标“**”。 得:x与其他三个均值均达差异极显著,x3与x1差异显著。 (2) Duncan法 S2=√MS/mn=√54.125/5=3290,df=16 利用公式Ra=(k,d)S求各临界值: 表45 Duncan多重检验临界值表 K ro. s(k, 16) R005 o01(k,16 4.13 13.59 10.36 4.34 0.63 列出差值表,并与临界值表中的数值进行比较: 27.2* 124 9.4 3.0 14.8 最长的对角线上应使用k=2的临界值,因此首先与α=0.05的临界值9.87比较,大于 9.87的则标一个“*”号:再与a=0.01的临界值13.59比较,大于13.59则再加一个“ 号。次长对角线应使用k=3的临界值,因此应先后与10.36,1428比较,大于前者加 个“*”,大于后者再加一个“*”。第三条对角线上只有一个数272,它应与k=4的 临界值,即10.63和1464比较,显然它比这两个临界值都大,因此也应标上两个“ 号。这样就完成了多重比较。把这一差值表与前边最小显著差数法的差值表进行比较, 可以看到它们的结果是相同的。但若比较一下两种方法的临界值,就可以发现 Duncan 法k=2的临界值就是最小显著差数法的临界值,而κ>2的 Duncan法临界值变大,但 对本题来说,这种变大尚不足以改变最终的结果。 (3) Newman-Q法: 仍有:S=√MS.n=54125/5=32090,d16。 利用公式Qka=q2(k,4)S求各临界值: 表46 Newman-Q法临界值表 go.os(k, 16) Qo 3.00 987 4.13 13.59 13.32 5.19 1708
= 2.1199×4.6530 = 9.8639 LSD0.01 = 2.9208×4.6530 = 13.5905 列出各水平均值的差值表:(均值已从小到大排列,不必再排) 4 3 2 1 2 3 27.2** 17.8** 14.8** 12.4* 3.0 9.4 将各差值分别与 LSD0.05 和 LSD0.01 比较,大于 LSD0.05 的标“*”,大于 LSD0.01 的标“**”。 得: 4. x 与其他三个均值均达差异极显著, 3. x 与 1. x 差异显著。 (2)Duncan 法: S = MS / n = 54.125/ 5 = 3.290, x e df=16 利用公式 k df Sx R = r (k, ) , 求各临界值: 表 4.5 Duncan 多重检验临界值表 K r0.05(k, 16) R0.05 r0.01(k, 16) R0.01 2 3 4 3.00 3.15 3.23 9.87 10.36 10.63 4.13 4.34 4.45 13.59 14.28 14.64 列出差值表,并与临界值表中的数值进行比较: 4 3 2 1 2 3 27.2** 17.8** 14.8** 12.4* 3.0 9.4 最长的对角线上应使用 k=2 的临界值, 因此首先与α=0.05 的临界值 9.87 比较, 大于 9.87 的则标一个“*”号;再与α=0.01 的临界值 13.59 比较,大于 13.59 则再加一个“*” 号。次长对角线应使用 k=3 的临界值,因此应先后与 10.36,14.28 比较,大于前者加 一个“*”,大于后者再加一个“*”。第三条对角线上只有一个数 27.2,它应与 k=4 的 临界值,即 10.63 和 14.64 比较,显然它比这两个临界值都大,因此也应标上两个“*” 号。这样就完成了多重比较。把这一差值表与前边最小显著差数法的差值表进行比较, 可以看到它们的结果是相同的。但若比较一下两种方法的临界值,就可以发现 Duncan 法 k=2 的临界值就是最小显著差数法的临界值,而 k>2 的 Duncan 法临界值变大,但 对本题来说,这种变大尚不足以改变最终的结果。 (3)Newman-Q 法: 仍有: S = MS / n = 54.125/ 5 = 3.290, x e df=16 。 利用公式 k df Sx Q = q (k, ) , 求各临界值: 表 4.6 Newman-Q 法临界值表 K q0.05(k, 16) Q0.05 q0.01(k, 16) Q0.01 2 3 4 3.00 3.65 4.05 9.87 12.01 13.32 4.13 4.79 5.19 13.59 15.76 17.08