关于独立性的检验.而对于例8.2那一类问题.要检验的是行和列变量的独立性(independence).当行列变量独立时,一个观测值分配到第ii个格子的理论概率pi应该等于行列两个概率之积pi.p.i,即零假设为Ho : Pij =pi.p.j.j=nini而第订格子的期望值为这时,在零假设下,它的估计值为pi=pi.p.jn..n..ni.n.jEij ~ Pijn. =n..这和前面检验齐性时零假设下的期望值一样,由此可以得到和上面检验齐性时导出的同样的统计量Q.这也可以说是殊途同归吧.这样导出的Q当然也有同样的渐近分布.这类关于独立性的问题的数据获取,通常是随机选取一定数自的样本,然后记录这些个体分配到各个格子的数目(频数):它并不事先固定某变量各水平的观测对象数自,这和齐性问题有所区别
对于例8.2,用y=matrix(scan("D:/data/shop.txt"),3,3,b=T)R语句读入数据,然后用语句chisq.test(y)得到Q=18.65,自由度为4,而p值为0.0009这说明在显著性水平不小于0.001时,我们可以拒绝零假设即认为.顾客的年龄与去哪个商场的选择是相关的
关于独立性检验还可以采用另一个基于多项分布的似然函数的检验统计量称为似然比检验统计量(likelihoodratioteststatistic)它是用一般的最大似然函数与在零假设下的最大似然的比.取其对数的二倍而得(简称为LRT)2ZnilnT=2二Eiii,j在零假设下,T有自由度为(r-1)(c-1)的×分布.在备选假设下,T和Q的值可能会很不同,但只要样本不太小,结果差不多.在许多情况下,由于T的可加性它用得更多.对于例8.2.在如前面描述的那样输入数据之后,我们可以使用下面的R语句:a=loglin(x,list(1,2)),得到T=18.69,再把得到的结果a代入语句pchisq(a$1rt,asdf,low=F)得到p值为0.0009.结论和用Q差不多.这里的函数a=loglin是后面要介绍的拟合对数线性模型的函数.利用这个对数线性模型的函数可以处理比这一节更加复杂的问题
8.2低维列联表的Fisher精确检验对于观测值数目不大的低维列联表的齐性和独立性问题还可以不用近似的x2统计量来检验.这就是所谓Fisher精确检验(Fisher'sexacttest或Fisher-Irwintest及Fisher-Yatestest(Fisher,1935ab;Yates,1934).我们以2×2列联表为例来讨论.假如列联表为B2B1总和A1ni.n11n12A2n21n2.n22总和n.2n..n.1
在这里,假定边际频数(行和列的频数总和)n1,n2.,n.1,n.2及n.都是固定的在A和B独立或没有齐性的零假设下,在给定边际频率时,这个具体的列联表的条件概率只依赖于四个频数中的任意一个(因为由给定的边际频数可以得到另外三个).在零假设下,该概率满足超几何分布,它可以写成(对任意的i=1,2和=1,2n.1n.2nin2n.i!ni.In.2!n2.!n21n11n12niln.!n1i!n12!n2i!n22!nn..1