第八章方差分析和回归分析 §8.1方差分析 、教学目的 1.了解单因素实验的方差分析. 2.了解双因素无重复实验的方差分析及双因素重复实验 的方差分析 教学重点:单因素实验的方差分析 三、教学难点:双因素重复实验的方差分析 四、教学过程: (一)单因素的方差分析 1.单因素实验:为了考察某个因素A对所研究的随机变量X的影响是否显著,实验 时让其他因素保持不变,仅让因素A改变 2.水平:因素A在实验中所取的不同状态 用A1 3.方差分析:检验同方差的若干正态母体均值是否相等的一种统计分析方法 (1)设在A水平下的实验结果YN1,O)i=1,2,…,r.(分组总体) (2)每组进行七次实验,获得七次实验结果,y…j=1,2,…t(组内观测 (3)随机误差Ey与的差.E。NO·).y的数据结构构成 形式 y u ta 检验H0:11=12=…=L 引入①一般平均u1=∑1 ②因素A在第i个水平A,下的效应C,=L41=4·则∑a1=a 此时y=+a+En,因此要检验的原假设为 H。:c1=c2=ax3=…=Cr 各组内样本均值y=1ytx+y
1 第八章 方差分析和回归分析 §8.1 方差分析 一、教学目的: 1.了解单因素实验的方差分析. 2.了解双因素无重复实验的方差分析及双因素重复实验 的方差分析. 二、教学重点:单因素实验的方差分析. 三、教学难点:双因素重复实验的方差分析. 四、教学过程: (一)单因素的方差分析 1. 单因素实验:为了考察某个因素 A 对所研究的随机变量 X 的影响是否显著,实验 时让其他因素保持不变,仅让因素 A 改变. 2. 水平:因素 A 在实验中所取的不同状态. 用 A 1 ,A 2 ,…………,A r . 3. 方差分析:检验同方差的若干正态母体均值是否相等的一种统计分析方法., (1) 设在 A i 水平下的实验结果 Y i ~~N(u i , 2 ) i=1,2,…,r. (分组总体) (2) 每组进行七次实验,获得七次实验结果, yij .j=1,2,…,t, (组内观测 值) (3) 随机误差 ij , yij 与 ui 的差. ij ~~ N(0, 2 ). yij 的数据结构构成 形式 yij =ui ij + i=1,2,…,r: j=1,2,…,t. 检验 H 0 : u u ur = = ... = 1 2 引入 ① 一般平均 u = = r i ui r 1 1 . ②因素 A 在第 i 个水平 A i 下的效应 i =ui =u . 则 = = r i i 1 . 此时 i ij yij = u + + , 因此要检验的原假设为 H 0 : ... 0 1 2 3 = = = = = r 各组内样本均值 yi = = t j ij y t 1 1 = = + + t j i ij t u 1 1
总的均值y=∑∑yl+(其中m=rt) 统计量:总的偏差平方和 y-y 由于 V-y+y i=l j yy 其中 ①S,称组内平方和(误差平方的偏差和)反映了实验过程中各种随机因素所引 起的随机误差。(偶然误差) Ci8 ②S4:称为组间平方和,反映了各组样本之间的差异程度,即由于因素A的不同 水平A所引起的系统误差 ai t a8 ES.∑EDE1-E) ∑EC =r(t-1)d (n-r) 2
2 总的均值 y = = = r i t j ij y n 1 1 1 =u + (其中 n=rt) 统计量:总的偏差平方和 ST == = − r i t j ij y y 1 1 ( )2 由于 ST == = − + − r i t j ij i i y y y y 1 1 ( )2 == = − r i t j ij i y y 1 1 ( )2 + = − r i i t y y 1 ( ) = Se S A + 其中 ① Sve 称组内平方和(误差平方的偏差和)反映了实验过程中各种随机因素所引 起的随机误差。(偶然误差) Se == = − r i t j ij i 1 1 ( )2 ② S A :称为组间平方和,反映了各组样本之间的差异程度,即由于因素 A 的不同 水平 Ai 所引起的系统误差。 S A == + − r i i i t 1 ( )2 E Se = = = − r i t j E ij i 1 1 2 [ ( )] = = = − r i t j ij i E t 1 1 2 2 ( ) == − r i t t t 1 2 2 ( * ) =r(t-1) 2 =(n-r) 2
EStEEIa+2a 8-8)+8-8)21 t∑a,+tECE t∑a,+(r-1) 若H为真,则及均为的无偏估计。 n-r I 故,F 的比值不能太大,否则H。不真 由于一切yN( )且相互独立 由于一切E0~N0o)-E1E)-x(t-1)根x分布可加性 S 且_SA~x(n-r)S』与S相互独立 故,F F(r-1, 赫伦定理:设x1x2…xn为n个独立N0,1)的随机变量,=∑x2为x2(m)变量,若 Q=Q1+Q2+…+Qk其中Q;是某些正态变量的平方和。这些变量分别是 xn的线性组合,其自由度为f1,则若Q1相互独立,且为X2(f)
3 E S A = = + − + − r i t E i i i i 1 2 2 [ 2( )( )] = = r i t i 1 2 + ( ) = − r i i E r t 1 2 2 = = r i t i 1 2 + = r i t t 1 2 - rt rt 2 = = r i t i 1 2 + 2 (r−1) 若 H 0 为真 ,则 n r Se − 及 r −1 S A 均为 2 的无偏估计。 故, F = n r r S S e A − −1 的比值不能太大,否则 H 0 不真。 由于一切 yij ~ ~ ( , ) 2 N u 且相互独立 ~ ( 1) 1 2 2 S x n − T 。 由于一切 ( , ) 2 ~ N 0 ij ( )~ ( 1) 1 2 2 − x t − i i 根 x 2 分布可加性 Se x(n − r) 2 2 ~ 1 且 S A x(n − r) 2 2 ~ 1 S A 与 Se 相互独立 故, (r ,n r) n r r F S S F e A − − − − = ~ 1 1 。 赫伦定理:设 x n x x 1 2 , 为 n 个独立 N(0,1)的随机变量,Q= = n i i x 1 2 为 x (n) 2 变量,若 Q=Q 1+ Q 2 + +Q k 其中 Q i 是某些正态变量的平方和。这些变量分别是 x 1 ,x 2 x n 的线性组合,其自由度为 f i ,则若 Q i 相互独立,且为 X 2 ( i f )
变量台∑/=n(∑f) 证 必要性 若Q1,Q2 Qk相互独立且Q1~x2()i=1,2,…k则由X2-分布的可加性知 Q∑Q~x2(∑)又有Q~x2(m)从而n∑ 充分性: 设=n为正态变量1=12,…kj=12,…m1且Q=∑ 由假设知在=n1212…m中必可选出f个,而其余的可由这厂个线性表示,不妨 m可由 线性表示,代入Q、得:Q,为=1,2=12 的一个非负二次型化成标准二次型Q、=∑bb=士12是=,=2 的 线性组合,由于z是x1,x2…xn的线性组合 (二)双因子方差分析 设在某实验中,二因子在变动,因子A取r个不同水平A,A2…4,因子B取S不同 水平B,B1…B、在(4,B)水平组合下的实验结果独立的服从N(n,o2) 引入:= i=1,2 j=1,2 B =H,-H 则 0∑B,=0 若=+a+B1无交互的方差分析模型 Ju=A+A +ui +Eu 0 ∑B s相互独立且服从N0a2分布
4 变量 = = k i f i n 1 ( = k i i f 1 ) 证: 必要性: 若 Q , 1 Q 2 , Q k 相互独立 且 Q i ~x 2 ( )i f i = 1,2,k 则由 X 2 -分布的可加性知 Q= = k i 1 Q i ~x 2 ( = k i i f 1 ) 又有 Q~x (n) 2 从而 n= = k i i f 1 充分性: 设 ij z 为正态变量 i = 1,2,k mi j = 1,2, 且 Q = = mi j ij z 1 2 由假设知 在 i i i im z z z 1, 2 中必可选出 i f 个 ij z ,而其余的可由这 i f 个线性表示,不妨 设 1 , i= i f z , mi i z , , 可由 i i i i f z z z ,1 ,2 , , , 线性表示,代入 Q i 得:Q i 为 i i i i f z z z ,1 ,2 , , , 的一个非负二次型 化成标准二次型 Q i == i f i ij i b z 1 ~2 bij = 1 ~2 i z 是 i i i i f z z z ,1 ,2 , , , 的 线性组合,由于 ij z 是 x n x x 1 2 , 的线性组合。 (二)双因子方差分析 设在某实验中,二因子在变动,因子 A 取 r 个不同水平 , , A1 A2Ar 因子 B 取 S 不同 水平 B B BS , , 1 2 在 ( ) Ai Bj , 水平组合下的实验结果独立的服从 ( ) 2 N ij , 引入: = = = r i s j ij rs 1 1 1 s i 1 . = = s j ij 1 i = 1,2,r r j 1 . = = r i ij 1 j = 1,2,s i = i. − j = j − 则 = = r i i 1 . 0 = = s j j 1 . 0 一.若 ij = +i + j 无交互的方差分析模型 ( ) = = = + + + = = = = 相互独立 且服从 2 分布 1 1 0, 0 0 1,2, 1,2, N y i r j s i j s j j r i i i j i j i j
检验假设Ho1:a1=a2 a.=0 Ho2: B=B2 Ps 2.构造统计量F4= ~F(-1(-1Xs-1) F s-1,(-1)s-1) 3.给出显著性水平a,查F一分布表,确定拒绝域 4.计算F一值 S=∑∑Un-=∑∑ 其中ny s4=∑S(2-y)2=∑y-ny2 ∑ ∑ SeSr-S4-SB 其中:S。是由随机因素所引起的偶然误差 S,是由因素A的不同水平所引起的系统误差 SB是由因素B的不同水平所引起的系统误差 理论依据 引理1证Sr=S+SA+SB ∑∑(-y)2=∑∑(-y-y+y2+∑5 (其中交叉项乘积的代数和为零) 在H01,H02为真时
5 1. 检验假设 : H01 1 =2 = =r = 0 : H02 1 = 2 = = S = 0 2. 构造统计量 ( 1)( 1) 1 − − − = r s S r S F e A A ~ F(r −1,(r −1)(s −1)) ( 1)( 1) 1 − − − = r s S r S F e B B ~ F(s −1,(r −1)(s −1)) 3. 给出显著性水平 ,查 F − 分布表,确定拒绝域 4. 计算 F − 值 ST = = = r i s 1 j 1 ( ) 2 y y ij − == = r i s 1 j 1 2 2 y ny ij − 其中 2 ny = 2 1 1 1 = = r i s j ij y n S A == − r i i S y y 1 2 . ( ) = 2 1 2 . ny S y r i i − = S B == − s j j r y y 1 2 . ( ) = n y S y s i j − =1 2 . S e =S T -S A -S B 其中: S e 是由随机因素所引起的偶然误差 S A 是由因素 A 的不同水平所引起的系统误差 S B 是由因素 B 的不同水平所引起的系统误差 理论依据 引理 1 证 S T = S e +S A +S B S T == = − r i s j ij y y 1 1 2 ( ) == = − − + r i s j ij i j y y y y 1 1 2 . . ( ) + = − r i i s y y 1 2 . ( ) + = − s i j r y y 1 2 . ( ) (其中交叉项乘积的代数和为零) 在 H 01,H 02 为真时