第十七讲 列联表与对应分析离散多元分析
第十七讲 列联表与对应分析 离散多元分析
多项分布假设每次随机试验有m种可能的互斥事件,概率各为p1,,Pm多项满足p1++pm=1,pi≥0,记n次独立随机试验中各个事件发分布生的个数分别为x1.…xm,则其联合概率函数p(x1.., m) = m2xII1 pr, Z1 xi = n, xi ≥ 0我们称x=(x1.,xm)T服从多项分布Mm(n,(p1,...Pm))。容易证明:命题1.若(x1,..,xm)~Mm(n,(p1,..,Pm)),P1 + ...+ pm=1,则(a)合并一些格子计数之后(概率也同样合并)仍然服从多项分布,(b)对任何下标集S = (i,,ik} {1,.,m},xs =(xij.,Xik)Xsxi.+xix=N~Mk(N, (pin,.,Pi)/(pin +..+ pin),且xs与x-s条件独立.(c) (x1,..,xm)= (y1..,ym)ly1 +.. + ym = n, 其中y1,..,ym独立,Yi~Poisson(api).(a)的说明:比如5项分布(x1..,xs)~Ms(n,(p1,.,ps))合并3成项分布(x1 + X5,X2,X3 + x4)~M3(n, (p1 + P5,P2,P3 +p4))
2 多项分布 假设每次随机试验有𝑚种可能的互斥事件,概率各为𝑝1, . , 𝑝𝑚, 满足𝑝1 + ⋯ + 𝑝𝑚 = 1, 𝑝𝑖 ≥ 0, 记𝑛 次独立随机试验中各个事件发 生的个数分别为 𝑥1, . , 𝑥𝑚,则其联合概率函数 𝑝 𝑥1, . , 𝑥𝑚 = 𝑛! ς𝑖=1 𝑚 𝑥𝑖 ! ς𝑖=1 𝑚 𝑝𝑖 𝑥𝑖 , σ𝑖=1 𝑚 𝑥𝑖 = 𝑛, 𝑥𝑖 ≥ 0 我们称𝐱 = 𝑥1, . , 𝑥𝑚 ⊤服从多项分布𝑀𝑚(𝑛, 𝑝1, . , 𝑝𝑚 )。 命题1 . 若 𝑥1, . , 𝑥𝑚 ~𝑀𝑚(𝑛, 𝑝1, . , 𝑝𝑚 ), 𝑝1 + ⋯ + 𝑝𝑚 = 1, 则 (a) 合并一些格子计数之后(概率也同样合并)仍然服从多项分布. (b) 对任何下标集𝑆 = 𝑖1, . , 𝑖𝑘 ⊂ 1, . , 𝑚 ,𝑥𝑆 = 𝑥𝑖1 , . , 𝑥𝑖𝑘 𝑥𝑆 |𝑥𝑖1 +⋯+𝑥𝑖𝑘 =𝑁~𝑀𝑘(𝑁, 𝑝𝑖1 , . , 𝑝𝑖𝑘 /(𝑝𝑖1 + ⋯ + 𝑝𝑖𝑘 )), 且𝑥𝑆与𝑥−𝑆条件独立. (c) 𝑥1, . , 𝑥𝑚 = 𝑦1, . , 𝑦𝑚 |𝑦1 + ⋯ + 𝑦𝑚 = 𝑛, 其中𝑦1, . , 𝑦𝑚独 立,𝑦𝑖~𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆𝑝𝑖). 容易证明: (a)的说明: 比如5项分布 𝑥1, . , 𝑥5 ~𝑀5(𝑛, 𝑝1, . , 𝑝5 ) 合并3成项分布: 𝑥1 + 𝑥5, 𝑥2, 𝑥3 + 𝑥4 ~𝑀3(𝑛, 𝑝1 + 𝑝5, 𝑝2, 𝑝3 + 𝑝4 )。 多项 分布
命题2.假设x= (x1,.,xm)T~Mm(n,p),p= (p1,.,Pm)T,则(a) E(x) = np, 即E(xi) = npi;(p:(1-p)-PiP2-PiPmP2(1- P2)-P2Pm(b) var(xi) = npi(1 - pi),-P2PlN=::Bcov(xi,x) = -npipj, i ± j;pm(1-pm)-pmPi- PmP2..即var(x) = n[diag(p) - ppT] ≤ nZ,(C)一(x- np) Nm(0,Z),n → 80. (退化多元正态,rank() = m-1)(a) (x- p)(m2)(αx-np)=Z m x-1 npi证明:(c)中心极限定理;1是的广义逆:(d)下面验证A=diagDdiadiag(p) = Im, diag=1mP0Pm) [diag(p) -ppT] = Im - 1mpT→ AZ = diag→ ZAZ= [diag(p) -ppT](Im-1mpT)diag(p)1m = p= diag(p) -ppT - diag(p)1mpT + ppT1mpTpT1m = 1= diag(p) - ppT = Z.3
3 命题2. 假设𝐱 = 𝑥1, . , 𝑥𝑚 ⊤~𝑀𝑚 𝑛, 𝐩 , 𝐩 = 𝑝1, . , 𝑝𝑚 ⊤ ,则 (a) 𝐸 𝐱 = 𝑛𝐩, 即𝐸 𝑥𝑖 = 𝑛𝑝𝑖 ; (b) var 𝑥𝑖 = 𝑛𝑝𝑖(1 − 𝑝𝑖), cov 𝑥𝑖 , 𝑥𝑗 = −𝑛𝑝𝑖𝑝𝑗 , 𝑖 ≠ 𝑗; 即𝑣𝑎𝑟 𝐱 = 𝑛 𝑑𝑖𝑎𝑔 𝐩 − 𝐩𝐩 ⊤ ≜ 𝑛Σ, (c) 1 𝑛 𝐱 − 𝑛𝐩 → 𝑁𝑚 0, Σ , 𝑛 → ∞. d (𝐱 − 𝑛𝐩) ⊤ 𝑛Σ − 𝐱 − 𝑛𝐩 = σ𝑖=1 𝑚 (𝑥𝑖−𝑛𝑝𝑖 ) 2 𝑛𝑝𝑖 → 𝜒𝑚−1 2 . 证明: (c)中心极限定理; (d) 下面验证𝐴 = diag 1 𝑝1 , . , 1 𝑝𝑚 是Σ的广义逆: diag 1 𝑝1 , . , 1 𝑝𝑚 𝑑𝑖𝑎𝑔 𝐩 = 𝐼𝑚, diag 1 𝑝1 , . , 1 𝑝𝑚 𝐩 = 𝟏𝑚 ⇒ 𝐴Σ = diag 1 𝑝1 , . , 1 𝑝𝑚 𝑑𝑖𝑎𝑔 𝐩 − 𝐩𝐩 ⊤ = 𝐼𝑚 − 𝟏𝑚𝐩 ⊤ ⇒ Σ𝐴Σ = 𝑑𝑖𝑎𝑔 𝐩 − 𝐩𝐩 ⊤ (𝐼𝑚−𝟏𝑚𝐩 ⊤) = 𝑑𝑖𝑎𝑔 𝐩 − 𝐩𝐩 ⊤ − 𝑑𝑖𝑎𝑔 𝐩 𝟏𝑚𝐩 ⊤ + 𝐩𝐩 ⊤𝟏𝑚𝐩 ⊤ = 𝑑𝑖𝑎𝑔 𝐩 − 𝐩𝐩 ⊤ = Σ. (退化多元正态 , 𝑟𝑎𝑛𝑘(Σ) = 𝑚 − 1) (1 ) (1 ) (1 ) 1 2 2 1 2 2 2 1 1 1 2 1 m m m m m m p p p p p p p p p p p p p p p p p p 𝑑 𝑑𝑖𝑎𝑔 𝐩 𝟏𝑚 = 𝐩 𝐩 ⊤𝟏𝑚 = 1 𝑑
拟合优度检Ho:Pi=pio,Pio已知.Ho成立时,验:Pearsond(Oi-Ei)2X2 = Zn, moXm-1,Zm卡方Einpio称为Pearson拟合优度卡方检验(Pearson,1900)。Pearson(19o0)提出了多项分布的拟合优度Pearson卡方检验,标志着现代统计的开端。Pearson(1904)提出列联表两个属性变量独立性的Pearson卡方检验K.Pearson (1goo).OntheCriterion that a Given System ofDeviationsfromtheProbableintheCaseofaCorrelatedSystemofVariablesis SuchthatitCanbeReasonablySupposedtohaveArisenfromRandomSampling.拟合优度K.Pearson(19o4).OnContingencyanditsRelationtoAssociationandNormalCorrelation.列联表1
4 𝐻0: 𝑝𝑖 = 𝑝𝑖0, 𝑝𝑖0已知. 𝐻0成立时, 𝑋 2 = σ𝑖=1 𝑚 (𝑥𝑖−𝑛𝑝𝑖0) 2 𝑛𝑝𝑖0 ≜ σ𝑖=1 𝑚 (𝑂𝑖−𝐸𝑖 ) 2 𝐸𝑖 → 𝜒𝑚−1 2 , 称为Pearson拟合优度卡方检验 (Pearson,1900) 。 d Pearson (1900) 提出了多项分布的拟合优度Pearson卡方检验,标 志着现代统计的开端。Pearson(1904)提出列联表两个属性变量独 立性的Pearson卡方检验. 拟合优度检 验: Pearson 卡方 • K. Pearson (1900). On the Criterion that a Given System of Deviations from the Probable in the Case of a Correlated System of Variables is Such that it Can be Reasonably Supposed to have Arisen from Random Sampling. 拟合优度 • K. Pearson (1904). On Contingency and its Relation to Association and Normal Correlation. 列联表
注意 Z (mp加项分母是均值E=npi而不是方差Vi=npi(1一pi),npi这是Pearson卡方令人疑惑的地方。X2为什么不是标准化后的平方和:2xi-Exi-npiZmZm1npi(1-a1.简单理由:由命题1(c),x1,,xm可看作是独立的xi~Pois(npi),则E(xi) =var(xi) = npix-E(确是Poisson变量的标准化。故xi-npiVnpiVvar(xi)2.复杂理由:约束Zm=1xi=n导致分母上是均值。多项分布中x;的标准化确实应该是“,但约束Z1xi =n导致不同xi/Vi之间负相关,需要将这些相关性考虑在内(即命题2(d)中的-)。5
5 注意 σ𝑖=1 𝑚 (𝑥𝑖−𝑛𝑝𝑖 ) 2 𝑛𝑝𝑖 加项分母是均值 𝐸𝑖 = 𝑛𝑝𝑖 而不是方差𝑉𝑖 = 𝑛𝑝𝑖 1 − 𝑝𝑖 , 这是Pearson卡方令人疑惑的地方。 𝑋 2为什么不是标准化后的平方和: σ𝑖=1 𝑚 𝑥𝑖−𝐸𝑖 𝑉𝑖 2 = σ𝑖=1 𝑚 𝑥𝑖−𝑛𝑝𝑖 𝑛𝑝𝑖 (1−𝑝𝑖 ) 2 ? 2. 复杂理由:约束 σ𝑖=1 𝑚 𝑥𝑖 = 𝑛 导致分母上是均值。 多项分布中𝑥𝑖 的标准化确实应该是 𝑥𝑖−𝐸𝑖 𝑉𝑖 , 但约束 σ𝑖=1 𝑚 𝑥𝑖 = 𝑛导致不同 𝑥𝑖 之间负相关, 需要将这些相关性考虑在内(即命题2 (d)中的Σ −)。 1. 简单理由:由命题1(c), 𝑥1, . , 𝑥𝑚可看作是独立的 𝑥𝑖~𝑃𝑜𝑖𝑠(𝑛𝑝𝑖), 则 𝐸 𝑥𝑖 = 𝑣𝑎𝑟 𝑥𝑖 = 𝑛𝑝𝑖 , 故 𝑥𝑖−𝑛𝑝𝑖 𝑛𝑝𝑖 = 𝑥𝑖−𝐸(𝑥𝑖 ) 𝑣𝑎𝑟(𝑥𝑖 ) 确是Poisson变量的标准化