第十讲多元线性模型数据矩阵:横向排,竖向看
1 第十讲 多元线性模型 数据矩阵:横向排,竖向看
似然比检验数理统计的似然理论指出,基于似然的极大似然估计是渐近最优的,似然比检验LRT以及渐近等价的Score、Wald检验也具有渐近最优性原假设下它们都分布收敛于卡方。Wilks定理.假设x,ERP,i=1.,n,的似然函数为L(O),ae?原假设H。:ae①。V=dim(),V。=dim(。),似然比检验统计量max L(0)L(0。)0E0.Wilks'A'=A2/nΛ=L(0)max L(0)0其中为的极大似然估计,为原假设下的的极大似然估计。记v=dim(),V。=dim(①。),则H。成立时,在正则(regular)条件下-2logA = -nlog A'-→ x-v,n →00.Bartlett校正方法修正n为ncn,C,~1
2 原假设下它们都分布收敛于卡方。 似然比检验 以及渐近等价的 、 检验也具有渐近最优性, 数理统计的似然理论指出,基于似然的极大似然估计是渐近最优的, LRT Score Wald Bartlett , 1. 2log log , . dim( ), dim( ) (regular) ˆ ˆ ' ) ˆ ( ) ˆ ( max ( ) max ( ) : , dim( ), dim( ), Wilks . , 1,., , ( ), , * 2 0 0 0 0 0 * 2/ 0 0 0 0 0 0 n n d n p i n nc cn n H Wilks L L L L H R i n L 校正方法修正 为 记 ,则 成立时,在正则 条件下 其中 为 的极大似然估计, 为原假设下的 的极大似然估计。 , 原假设 似然比检验统计量 定理 假设 的似然函数为 θ θ θ θ θ θ θ θ θ x θ θ θ θ 似然比检验
多正态总体的均值相同性检验:MANOVA假设g个方差矩阵相同总体单均值可能不同的正态总体:多正态问题X11X1n,iid~Np(u1,Z),样本均值和样本方差x1,S1Xg1.…,XgngidNp(ug,Z),样本均值和样本方差xg,Sg考虑零假设Ho:μ1==μg总样本量:n=n1++ng组内平均:X=XrinkTA组内方差: Sk= ax- Z(xi - X)(Xxl - x)T总平均:=ki=n=(xl-(t)= 总方差:S=--,Z%=1(nk - 1)Sk总“平方和" : T = (n -1)S = =1Zi(Xki -x)(Xki -)T.3
3 多正态总体的均值相同性检验:MANOVA 多正态 问题 假设𝑔个方差矩阵相同总体单均值可能不同的正态总体: 𝐱11, ., 𝐱1𝑛1 𝑖𝑖𝑑 ~𝑁𝑝 𝝁1, Σ , 样本均值和样本方差𝐱ത1, 𝑆1 . 𝐱𝑔1, ., 𝐱𝒈𝑛𝑔 𝑖𝑖𝑑 ~𝑁𝑝 𝝁𝑔, Σ , 样本均值和样本方差𝐱തg , 𝑆𝑔 考虑零假设𝐻0: 𝝁1 = ⋯ = 𝝁𝑔 总样本量:𝑛 = 𝑛1 + ⋯ + 𝑛𝑔 组内平均:𝐱ത𝑘 = 1 𝑛𝑘 σ𝑖=1 𝑛𝑘 𝐱𝑘𝑖 组内方差: 𝑆𝑘= 1 (𝑛𝑘−1) σ𝑖=1 𝑛𝑘 (𝐱𝑘𝑖 − 𝐱ത)(𝐱𝑘𝑖 − 𝐱ത) ⊤ 总平均:𝐱ത = 1 𝑛 σ𝑘=1 𝑔 σ𝑖=1 𝑛𝑘 𝐱𝑘𝑖 = 1 𝑛 σ𝑖=1 𝑛𝑘 𝑛𝑘𝐱ത𝑘 总方差:𝑆 = 1 (𝑛−1) σ𝑘=1 𝑔 σ𝑖=1 𝑛𝑘 (𝐱𝑘𝑖 − 𝐱ത)(𝐱𝑘𝑖 − 𝐱ത) ⊤ = 1 (𝑛−1) σ𝑘=1 𝑔 (𝑛𝑘 − 1)𝑆𝑘 总“平方和”:𝑇 = 𝑛 − 1 𝑆 = σ𝑘=1 𝑔 σ𝑖=1 𝑛𝑘 (𝐱𝑘𝑖 − 𝐱ത)(𝐱𝑘𝑖 − 𝐱ത) ⊤
分解总“平方和”:平方和分解T = (n - 1)S = Z=1Zi(Xki -X) (Xki -X)T= Zk=1Zni(Xk -X+ Xki - Xk) (Xk -X+ Xki - Xk)T= Z=1Zn1(X - x) (k - x)T+ Z=1 Zn1(Xki - Xk) (Xki - Xk) T=B+W其中·B为组间“平方和”(Between-group),代表各组之间的差异;·W为组内“平方和”(Within-group),代表组内的变差。H。的检验统计量基于B相对于W的大小。B/g-1是一元anova的F检验统计量。·当p=1时,F:w/(n-g)·当p>1时,B,W都是p×p矩阵,此时检验统计量有多种构建方法,但都与矩阵BW-1的某个数字特征,比如行列式trace有关,比如Wilks'lambdaA*=|W/IW +BI4
4 分解总“平方和”: 其中 • 𝐵 为组间“平方和”(Between-group),代表各组之间的差异; • 𝑊为组内“平方和”(Within-group),代表组内的变差。 𝑇 = 𝑛 − 1 𝑆 = σ𝑘=1 𝑔 σ𝑖=1 𝑛𝑘 (𝐱𝑘𝑖 − 𝐱ത) (𝐱𝑘𝑖 − 𝐱ത) ⊤ = σ𝑘=1 𝑔 σ𝑖=1 𝑛𝑘 (𝐱ത𝑘 − 𝐱ത + 𝐱𝑘𝑖 − 𝐱ത𝑘) (𝐱ത𝑘 − 𝐱ത + 𝐱𝑘𝑖 − 𝐱ത𝑘) ⊤ = σ𝑘=1 𝑔 σ𝑖=1 𝑛𝑘 (𝐱ത𝑘 − 𝐱ത) (𝐱ത𝑘 − 𝐱ത) ⊤+ σ𝑘=1 𝑔 σ𝑖=1 𝑛𝑘 (𝐱𝑘𝑖 − 𝐱ത𝑘) (𝐱𝑘𝑖 − 𝐱ത𝑘) ⊤ ≜ 𝐵 + 𝑊 平方和 分解 𝐻0 的检验统计量基于 𝐵相对于𝑊的大小。 • 当 𝑝 = 1时,𝐹 = 𝐵/𝑔 𝑊/(𝑛−𝑔)是一元anova的F检验统计量。 • 当 𝑝 > 1时,𝐵, 𝑊都是𝑝 × 𝑝矩阵,此时检验统计量有多种构 建方法,但都与矩阵𝐵𝑊−1的某个数字特征,比如行列式、 trace有关,比如Wilks’ lambda Λ ∗ = 𝑊 /|𝑊 + 𝐵| -1
原假设成立时(各组均值相同),B.W服从独立的Wishart分布:精确分布U = (W + B)-1/2 W(W + B)-1/2服从多元beta分布(Hsu1939.Olkin&Rubin1963)。拓展到多个独立的Wishart矩阵,会得到多元Dirichlet分布。1/2若W~W,(m,Z),B~W,(m2,Z),独立,U=(W+B)-1/2W(W+B)-1服从多元Beta分布B(m,/2,m2/2)I,(m, /2+m, /2)U (m-p-1)/2|I, -U (m2-p-1)/2f(U):F,(m, /2)F,(m2 /2)U是方阵,U的行列式的分布称为Wilks'lambda分布:m,-p+ip^=|U =IW / /W +B~ A,(m,m2)=beta22该分布非常复杂。下面从似然比检验出发求出其近似逼近,即Wilks检验。L
5 拓展到多个独立的 矩阵,会得到多元 分布。 服从多元 分布 。 原假设成立时(各组均值相同), 服从独立的 分布, Wishart Dirichlet beta (Hsu 1939,Olkin & Rubin 1963) ( ) ( ), Wishart 1/ 2 1/ 2 U W B W W BB W , 2, 2 | | | | / | |~ ( , ) beta Wilks' lambda | | | | . ( / 2) ( / 2) ( / 2 / 2) ( ) Beta ( / 2, / 2) ~ ( , ), ~ ( , ), ( ) ( ) 2 1 2 1 1 1 2 * ( 1)/ 2 ( 1)/ 2 1 2 1 2 1 2 1/ 2 1/ 2 1 2 mi d p m p p m p p p p p p p m p i p U W W B m m U U U I U m m m m f U B m m W W m B W m U W B W W B 是方阵, 的行列式的分布称为 分布: 服从多元 分布 若 独立, 该分布非常复杂。下面从似然比检验出发求出其近似逼近,即Wilks检验。 精确 分布