第八章列联表8.1二维列联表的齐性和独立性的X2检验在前面的中位数检验中的×?检验统计量实际上和一般的r×c维列联表的×2检验统计量是一样的。但是对不同的目的和不同的数据结构,解释不一样,先看两个例子:例8.1(数据:wid.txt,wid.sav)对于某种疾病有三种处理方法.某医疗机构分别对22.15和19个病人用这三种方法处理,处理的结果分“改善”和“没有改善”两种,并且列在下表中:改善合计没有改善处理A1012227处理B815处理C61319合计562333我们希望知道不同处理的改善比例是不是一样
例8.2(数据:shop.txt,shop.sav,shopA.txt)在一个有三个主要百货商场的商贸中心,调查者问479个不同年龄段的人首先去三个商场中的哪个,结果如下:总和年龄段商场1商场2商场3708345198≤3015918619231-5041103889>50总和21519470479问题是想知道人们对这三个商场的选择和他们的年龄是否独立这两个例子的数据都有下面的两因子列联表形式:Be总和BiB2A1niln12nicni...........Arnrlnr2nrcnr.总和n.1n..n-2n.c
这里,行频数总和ni,=,ni,列频数总和n.=,ni,频数总和n..=,ni=,n.,,而A,...A.为行因子的r个水平,Bi,….B为列因子的c个水平用pi;表示第ij个格子频数占总频数的理论比例(概率).显然,Pij=E(ni)/n.,这里E(ni)为对ni;的数学期望,而相应的第i行的理论比例(概率)pi.及第列的理论比例(概率)p;分别为pi,=Zi=1Pi,和p-;=Z=1Pij
关于齐性的检验。对于例8.1所代表的那一类问题.要检验的是行分布的齐性(homogeneity).一般来说,对齐性的检验就是检验H。:“对所有行,(给定行的)条件列概率相同”,或者,用数学语言,记(给定第行后)第列条件概率为pili=pi/pi,零假设则为Ho:Pjli=Pjl*,对于所有不同的i和i*及所有的j成立而备选假设为H:“零假设中的等式至少有一个不成立”,在零假设下,我们可以记上面的条件概率为统一的p.i,它对于所有的行都是一样的
在零假设之下,第ii个格子的期望值E,应该等于p.ini,但p.,未知,在零假设下,可以用其估计p.,=n.i/n.代替.这样期望值Ni.n.jEi ~ p.jni. =n..而观测值Oi(按照前一章的记号)为nii:如此,前一章提到的Pearsonx2统计量为E Zj-(Oμ - u)~ Dr Zj-(ni - )ni.n.jEijn..它在样本量较大时(比如每个格子的期望频数E大于等于5时)近似地服从自由度为(r -1)(c-1)的x2分布关于例8.1,可以用R语句y=matrix(scan("D:data/wid.txt"),3,2,b=T)读入数据,然后用语句chisq.test(y)得到Q=1.076,自由度为2,而p值=0.5839这说明我们没有理由认为,各种处理的结果有所不同