第十章2检验问题1.某心理医生认为城市的生活环境更容易使人抑郁,随机调查了25-30岁青年200人,经抑郁自评量表测定,其城市定居者104名中有33人具有抑郁倾向,农村定居者96名中具有抑郁倾向的16人。所收集到的样本数据是否支持该心理医生的观点呢?2.研究人员将某中学32名学生根据各方面条件基本相同的原则配成16对,然后把每对学生随机分入实验组和对照组,实验组的16名学生参加课外科研活动,对照组的16名学生不参加此活动,一学期后,统一进行理解能力测验。结果有9对学生的理解能力测验成绩明显拉开了距离,其中8对是实验组学生得到“及格”,对照组学生得到“不及格”;1对是对照组学生得到“及格”,实验组学生得到“不及格”。参不参加课外科研活动理解能力测验及格率有差别吗?3.某研究者为了解大学新生的生活状态,采用自编学生生活调查问卷对一所大学的100名一年级新生进行了调查。调查项目中有近期情绪(稳定、不稳定)与失眠(是、否)两项,大学新生近期情绪是否稳定与失眠有关吗?联系是否密切?对以上问题需要通过×2检验(chi squaretest)回答。×检验也称卡方检验,是一种广泛使用的假设检验方法。本章将介绍检验在分类变量资料中的应用,即推断两个及两个以上总体率或构成比之间有无差别:两种属性、两种特征或两变量间相关关系是否存在等本章学习目标1.领会×检验的基本思想和应用条件2.熟练掌握独立性检验的各种方法和拟合优度检验3.初步掌握SPSS中检验的操作方法
第十章 2 检验 问题 1. 某心理医生认为城市的生活环境更容易使人抑郁,随机调查了 25-30 岁青年 200 人, 经抑郁自评量表测定,其城市定居者 104 名中有 33 人具有抑郁倾向,农村定居者 96 名中具 有抑郁倾向的 16 人。所收集到的样本数据是否支持该心理医生的观点呢? 2. 研究人员将某中学 32 名学生根据各方面条件基本相同的原则配成 16 对,然后把每 对学生随机分入实验组和对照组,实验组的 16 名学生参加课外科研活动,对照组的 16 名学 生不参加此活动,一学期后,统一进行理解能力测验。结果有 9 对学生的理解能力测验成绩 明显拉开了距离,其中 8 对是实验组学生得到“及格”,对照组学生得到“不及格”;1 对 是对照组学生得到“及格”,实验组学生得到“不及格”。参不参加课外科研活动理解能力 测验及格率有差别吗? 3. 某研究者为了解大学新生的生活状态,采用自编学生生活调查问卷对一所大学的 100 名一年级新生进行了调查。调查项目中有近期情绪(稳定、不稳定)与失眠(是、否)两项, 大学新生近期情绪是否稳定与失眠有关吗?联系是否密切? 对以上问题需要通过 2 检验(chi square test)回答。 2 检验也称卡方检验,是一种广 泛使用的假设检验方法。本章将介绍 2 检验在分类变量资料中的应用,即推断两个及两个 以上总体率或构成比之间有无差别;两种属性、两种特征或两变量间相关关系是否存在等。 本章学习目标 1. 领会 2 检验的基本思想和应用条件 2. 熟练掌握独立性检验的各种方法和拟合优度检验 3. 初步掌握 SPSS 中 2 检验的操作方法
第一节二分类两独立样本比较的检验一、检验的基本思想(一)分布1.×2的基本定义是一个希腊字母(音“卡”),”读作“卡方”或“卡平方”,是表示实际频数与理论频数(期望次数)之间差异程度的指标。若用A表示实际频数,T表示理论频数,则有×=(A-T)/T,可能的取值范围为(0,+)。2.x2分布曲线x分布(chi-squaredistribution)是一种连续型随机变量的概率分布,其分布曲线的形状依赖于自由度v的大小,自由度不同,则曲线分布不同,即α分布曲线是一簇,按其分布的密度函数f(2,v)可绘制自由度v=1,2,3,的2分布曲线图(图10-1)。x表示自由度为v的×2分布,它不是对称分布。×?分布曲线的特点有:①当自由度≤2时,分布曲线呈L型;②当自由度V>2时,×?分布曲线呈右偏态,随着v的增加,曲线逐渐趋于对称;③当自由度V趋于8o时,%分布趋向正态分布。%分布的总体均数就等于其自由度。图10-1不同自由度×2分布的概率密度曲线3.分布的可加性2分布的可加性是其基本性质之一。若独立随机变量X服从自由度V的2分布(即X,~x),独立随机变量X,服从自由度Vz的×分布(即X,~),这两个变量的和(X,+X2)服从自由度(+V2)的分布(即(X,+X2)~+)。4.x分布界值表自由度为V,×分布曲线下右侧尾部的面积为α时,曲线图横轴上对应位置的×值记作称分布的界值。为方便使用,统计学家编制了分布界值表,详细地值与P值的对应关系。2值愈大,P值愈小;反之,×值愈小,P值愈大。×检验时,先计算检验统计量×2值,然后按自由度v查×2界值表,确定P值。(二)检验的基本思想
第一节 二分类两独立样本比较的 2 检验 一、 2 检验的基本思想 (一) 2 分布 1. 2 的基本定义 是一个希腊字母(音“卡”), 2 读作“卡方”或“卡平方”,是表示实际频数与理 论频数(期望次数)之间差异程度的指标。若用 A 表示实际频数,T 表示理论频数,则有 2 2 = − ( ) A T T ,可能的取值范围为 (0, ) + 。 2. 2 分布曲线 2 分布(chi-square distribution)是一种连续型随机变量的概率分布,其分布曲线的形状 依赖于自由度 的大小,自由度不同,则曲线分布不同,即 2 分布曲线是一簇,按其分布 的密度函数 ( , ) 2 f 可绘制自由度 =1,2,3,.的 2 分布曲线图(图 10-1)。 2 ( ) 表 示自由度为 的 2 分布,它不是对称分布。 2 分布曲线的特点有:①当自由度 2 时, 2 分布曲线呈 L 型;②当自由度 >2 时, 2 分布曲线呈右偏态,随着 的增加,曲线逐 渐趋于对称;③当自由度 趋于∞时, 2 分布趋向正态分布。 2 分布的总体均数就等于其 自由度。 图 10-1 不同自由度 2 分布的概率密度曲线 3. 2 分布的可加性 2 分布的可加性是其基本性质之一。若独立随机变量 X1 服从自由度 1 的 2 分布(即 2 1 1 X ~ ),独立随机变量 X2 服从自由度 2 的 2 分布(即 2 2 2 X ~ ),这两个变量的和 ( ) X1 + X2 服从自由度 ( ) 1 + 2 的 2 分布(即 ( ) X1 + X2 ~ 2 1 2 + )。 4. 2 分布界值表 自由度为 , 2 分布曲线下右侧尾部的面积为 时,曲线图横轴上对应位置的 2 值 记作 2 , 称 2 分布的界值。为方便使用,统计学家编制了 2 分布界值表,详细地 2 值与 P 值的对应关系。 2 值愈大,P 值愈小;反之, 2 值愈小,P 值愈大。 2 检验时,先计 算检验统计量 2 值,然后按自由度 查 2 界值表,确定 P 值。 (二) 2 检验的基本思想
反应变量是二项分类的两个独立样本的资料,基本数据由两行两列实际频数构成,其参与分析的基本数据格式见表10-1。表10-1二项分类的两个独立样本资料数据格式合计样本阳性数阴性数阳性频率pib样本1a/niaa+b=nid样本2cc+d=n2c/n2合计a+c=m1b+d-m2a+b+c+d=n(a+c)/nab表中是整个分析表的基础,其余数据均由这四个基本数据推算出来。如果反cd应变量为二项分类变量,并是对两个独立样本阳性频率进行比较,称这样的数据格式为四格表(fourfoldtable)资料,又称2×2表资料。a、b、C、d四个数据为实际频数,记作Arc,即对应为A、A2、A、A,,行合计记作nr,列合计记作nc,n为总例数。例10-1某心理医生认为城市的生活环境更容易使人抑郁,随机调查了25-30岁青年200人,其中城市定居者与农村定居者分别为104名和96名。抑郁自评量表测定结果见表10-2,所收集到的样本数据是否支持该心理医生的观点呢?表10-225-30岁城市与农村青年抑郁发生率比较地域抑郁人数非抑郁人数合计抑郁发生率(%)城市31.7333(25.48) a71(78.52)b104(a+b)农村80(72.48)d96(c+d)16.6716(23.52) c合计24.5049(a+c)151(b+d)200(n)*抑郁指有抑郁倾向若例10-1检验假设H:元,=元,确定成立,即两样本率来自同一总体,则无效假设描述为:25-30岁城市青年与农村青年抑郁倾向的总体发生率相等,均等于合计的抑郁倾向发生率24.50%(平均率)。那么计算四个基本数据a、b、C、d所对应的理论频数Trc,25-30岁城市青年104人中理论上有无抑郁倾向者应分别为T,=104×24.50%=25.48、Tz=104(100-24.50)%=78.52;同理,25-30岁农村青年96人中理论上有抑郁倾向者应为T2,=96×24.50%=23.52,无抑郁倾向者T,=96(100-24.50)%=72.48。则任一格子的理论频数T计算公式为Trc =- nnc(10-1)n式中Trc为第R行(row)第C列(column)的理论频数。表10-2括号内数值即为a、b、C、d所对应的理论频数T、T2、TT,的值
反应变量是二项分类的两个独立样本的资料,基本数据由两行两列实际频数构成,其参 与分析的基本数据格式见表 10-1。 表 10-1 二项分类的两个独立样本资料数据格式 样本 阳性数 阴性数 合计 阳性频率 pi 样本 1 a b a+b=n1 a/n1 样本 2 c d c+d=n2 c/n2 合计 a+c=m1 b+d=m2 a+b+c+d=n (a+c)/n 表中 是整个分析表的基础,其余数据均由这四个基本数据推算出来。如果反 应变量为二项分类变量,并是对两个独立样本阳性频率进行比较,称这样的数据格式为四格 表(four fold table)资料,又称 2×2 表资料。 a b c d 、 、 、 四个数据为实际频数,记作 ARC , 即对应为 A A A A 11 12 21 22 、 、 、 ,行合计记作 R n ,列合计记作 Cn , n 为总例数。 例 10-1 某心理医生认为城市的生活环境更容易使人抑郁,随机调查了 25-30 岁青年 200 人,其中城市定居者与农村定居者分别为 104 名和 96 名。抑郁自评量表测定结果见表 10-2,所收集到的样本数据是否支持该心理医生的观点呢? 表 10-2 25-30 岁城市与农村青年抑郁发生率比较 地域 抑郁人数* 非抑郁人数 合计 抑郁发生率(%) 城市 33(25.48) a 71(78.52) b 104(a+b) 31.73 农村 16(23.52) c 80(72.48) d 96(c+d) 16.67 合计 49(a+c) 151(b+d) 200(n) 24.50 *抑郁指有抑郁倾向 若例 10-1 检验假设 H0: 1 2 = 确定成立,即两样本率来自同一总体,则无效假设描述 为:25-30 岁城市青年与农村青年抑郁倾向的总体发生率相等,均等于合计的抑郁倾向发生 率 24.50%(平均率)。那么计算四个基本数据 a b c d 、 、 、 所对应的理论频数 TRC ,25-30 岁城市青年 104 人中理论上有无抑郁倾向者应分别为 11 T = 104 24.50%=25.48、 12 T =104(100-24.50)%=78.52 ;同理,25-30 岁农村青年 96 人中理论上有抑郁倾向者应为 21 T = 96 24.50%=23.52 ,无抑郁倾向者 12 T = 96(100-24.50)%=72.48。则任一格子的理 论频数 T 计算公式为 R C RC n n T n = (10-1) 式中 TRC 为第 R 行(row)第 C 列(column)的理论频数。表 10-2 括号内数值即为 a b c d 、 、 、 所 对应的理论频数 T T T T 11 12 21 22 、 、 、 的值。 a b c d
若无效假设H。:元,=元z为真,则任一格子实际频数A与理论频数T差别不会很大,即Z(A-T)=0,为了消除符号影响,以(A-T)表示,得基本公式:=-A-T)(10-2)T由公式(10-2)可以看出:x2值反映了实际频数与理论频数的吻合程度。若H。成立,实际频A数与理论频T数的差值不会太大,值也会小;反之,若H。不成立,实际频数与理论频数的差值大,则值也会大。同时从公式(102)可以看出:由于(4-)为正值,1x值的大小还随格子数(严格地说是自由度v)的增多而增大,故自由度V愈大,x值也会愈大;所以用x2值准确地反映实际频数A和理论频数T的吻合程度时,必须考虑自由度v的影响。自由度是指可自由选择变动的独立存在的格子数,即自由度V=k-1-计算T时利用样本资料估计的参数个数。k为资料基本数据个数,四格表资料k=4,因为n是确定的,所以自由度v的计算是k-1,同时由于计算T时利用样本资料估计的参数个数有元,和元,两个,故四格表资料的自由度为V=4-1-2=1。推广到一般情况,检验的自由度V可用式(10-3)计算(10-3)V=(R-1)(C-1)式中R为行数,C为列数。四格表自由度为V=(2-1)(2-1)=1检验时确定检验水准为α,计算得到的值,要根据自由度查界值表确定概率P值。当×≥xa,时,P≤α,推断结论是拒绝H。,接受H,有统计学意义;当x<Xxa,时,P>α,结论是不拒绝H。,无统计学意义。四格表资料由两行两列实际频数构成,自由度为1,即在周边合计数不变的情况下,4个基本数据当中只有一个可以自由取值,因此,只要根据公式(10-1)计算出一个格子的理论值TRc,其它3个理论值可用周边合计数减去相应的理论值T得出。如例10-1数据,当城市青年有抑郁倾向者T=104×24.5%=25.48时,则有T12=104-25.48=78.52,T,=49-25.48=23.52,Tz=96-23.52=72.48(或T2z=151-78.52=72.48)。公式(10-2)是检验基本公式,不仅可适用于四格表资料,而且也适用于行×列表资料分析。可应用于两个或多个样本率的比较、两个或多个样本构成比的比较、关联性检验等。二、检验步骤例10-1资料的检验步骤如下:1.建立检验假设,确定检验水准H。:元,=元2,即25-30岁城市青年与农村青年抑郁倾向的总体发生率相等H,:元,±元2,即25-30岁城市青年与农村青年抑郁倾向的总体发生率不等α = 0.05
若无效假设 H0 : 1 2 = 为真,则任一格子实际频数 A 与理论频数 T 差别不会很大,即 ( ) 0 A T− = ,为了消除符号影响,以 2 ( ) A T− 表示,得基本公式: 2 2 ( ) A T T − = (10-2) 由公式(10-2)可以看出: 2 值反映了实际频数与理论频数的吻合程度。若 0 H 成立,实 际频 A 数与理论频 T 数的差值不会太大, 2 值也会小;反之,若 0 H 不成立,实际频数与 理论频数的差值大,则 2 值也会大。同时从公式(10-2)可以看出:由于 2 ( ) A T T − 为正值, 2 值的大小还随格子数(严格地说是自由度 )的增多而增大,故自由度 愈大, 2 值 也会愈大;所以用 2 值准确地反映实际频数 A 和理论频数 T 的吻合程度时,必须考虑自由 度 的影响。自由度是指可自由选择变动的独立存在的格子数,即自由度 = − − k 1 计算 T 时利用样本资料估计的参数个数。 k 为资料基本数据个数,四格表资料 k = 4 ,因为 n 是确 定的,所以自由度 的计算是 k −1 ,同时由于计算 T 时利用样本资料估计的参数个数有 1 和 2 两个,故四格表资料的自由度为 = − − = 4 1 2 1。 推广到一般情况, 2 检验的自由度 可用式(10-3)计算 = − − ( 1)( 1) R C (10-3) 式中 R 为行数,C 为列数。四格表自由度为 = − − = (2 1)(2 1) 1 检验时确定检验水准为 ,计算得到的 2 值,要根据自由度 查 2 界值表确定概率 P 值。当 2 2 , 时, P ,推断结论是拒绝 H0 ,接受 H1 ,有统计学意义;当 2 2 , 时, P ,结论是不拒绝 H0 ,无统计学意义。 四格表资料由两行两列实际频数构成,自由度为 1,即在周边合计数不变的情况下,4 个基本数据当中只有一个可以自由取值,因此,只要根据公式(10-1)计算出一个格子的理论 值 TRC ,其它 3 个理论值可用周边合计数减去相应的理论值 T 得出。如例 10-1 数据,当城 市 青 年 有 抑 郁 倾 向 者 11 T = = 104 24.5% 25.48 时 , 则 有 12 T = − = 104 25.48 78.52 , 21 T = − = 49 25.48 23.52 , 22 T = − = 96 23.52 72.48 (或 22 T = − = 151 78.52 72.48 )。 公式(10-2)是 2 检验基本公式,不仅可适用于四格表资料,而且也适用于行×列表资料 分析。可应用于两个或多个样本率的比较、两个或多个样本构成比的比较、关联性检验等。 二、检验步骤 例 10-1 资料的检验步骤如下: 1.建立检验假设,确定检验水准 0 H : 1 = 2 ,即 25-30 岁城市青年与农村青年抑郁倾向的总体发生率相等 1 H : 1 2 ,即 25-30 岁城市青年与农村青年抑郁倾向的总体发生率不等 = 0.05
2.计算检验统计量按公式(10-1)、公式(10-2)、公式(10-3)分别计算理论频数TRc、2值、自由度vT,=104×24.5%=25.48T,=78.52T,=23.52Tz=72.48-3548)+17852)+(162352) +(80-7248) =6.1225.4878.5272.4823.52V=(2-1)(2-1)=13.确定P值并推断结论以V=1查×2界值,得0.01<P<0.025:SPSS软件运行结果×2=6.124,V=1,P=0.013。按α=0.05检验水准拒绝H。,接受H,,有统计学意义。可以认为25-30岁城市青年与农村青年抑郁倾向的总体发生率不等,即可认为25-30岁城市青年的抑郁倾向发生率高于农村青年的发生率。三、四格表资料×检验的专用公式为简化计算过程,可将计算Pearson×2值的基本公式(10-2)转化为四格表专用公式(10-4)用于两样本率的比较。四格表资料%检验的专用公式为(ad - bc)nx=V=1(10-4)(a+b)(c+d)(a+c)(b+d)式中a,b,c,d为四格表的实际频数:(a+b),(c+d),a+c),(b+d)为周边合计数:n为总例数,即n=a+b+c+d。相应符号参见表10-1。公式(10-4)省去了计算理论频数的步骤,在不具备使用统计软件分析数据的条件时,常用公式(10-4)计算检验统计量值。例10-1资料用公式(10-4)计算×2值2=(33×80-16×71)*2002=6.12104×96×49×151计算结果与用公式(10-2)的完全相同。四、四格表资料检验的校正公式x检验是建立在渐进分布理论的基础上,要求样本量足够以保证其代表性,并要求各理论频数Tc≥5。?界值表中的界值是依据连续型2分布算得,而计数资料中的实际频数是不连续的分类资料,由公式(10-2)计算的×2值是离散型分布。计算出的×2值去查×界值表所得的概率P偏小,尤其是自由度v为1的四格表资料。所以对四格表资料来说,若n≥40,但有1≤T<5时,计算得%值偏大,必须加以校正。1934年,美国统计学家F.Yates提出了用|A-T|-0.5计算×的连续性校正法:x =4-7l-0.5)2, V=l(10-5)T(ad -bc|-号)"nx=(10-6)V=I(a+b)(c+d)(a+c)(b+d)公式(10-5)和公式(10-6)分别是公式(10-2)和公式(10-4)的校正。这种校正可以减小×~值而加大概率P。α连续性校正仅用于v=1的四格表资料,尤其是n较小时。当v≥2时,一般不作校正。例10-2某地区教委在甲、乙两所中学按毕业班学生总数比例随机抽取78名毕业班学生进行中考语文统一模拟测验,测验成绩85分以上为达标,结果见表10-3。问两所中学语文模拟测验的达标率是否相等?
2.计算检验统计量 按公式(10-1)、公式(10-2)、公式(10-3)分别计算理论频数 TRC 、 2 值、自由度 11 T = = 104 24.5% 25.48 12 T = 78.52 21 T = 23.52 22 T = 72.48 2 2 2 2 2 (33-25.48) (71-78.52) (16-23.52) (80-72.48) = + + + = 6.12 25.48 78.52 23.52 72.48 = − − = (2 1)(2 1) 1 3.确定 P 值并推断结论 以 =1 查 2 界值,得 0.01 0.025 P ;SPSS 软件运行结果 2 = 6.124 , =1, P = 0.013。 按 = 0.05 检验水准拒绝 0 H ,接受 1 H ,有统计学意义。可以认为 25-30 岁城市青年与 农村青年抑郁倾向的总体发生率不等,即可认为 25-30 岁城市青年的抑郁倾向发生率高于农 村青年的发生率。 三、四格表资料 2 检验的专用公式 为简化计算过程,可将计算 Pearson 2 值的基本公式 (10-2)转化为四格表专用公式 (10-4)用于两样本率的比较。四格表资料 2 检验的专用公式为 ( )( )( )( ) ( ) 2 2 a b c d a c b d ad bc n + + + + − = , =1 (10-4) 式中 a , b , c , d 为四格表的实际频数; (a + b) , (c + d), (a + c),(b + d) 为周边合计数; n 为 总例数,即 n = a +b + c + d 。相应符号参见表 10-1。 公式(10-4)省去了计算理论频数的步骤,在不具备使用统计软件分析数据的条件时,常 用公式(10-4)计算检验统计量 2 值。 例 10-1 资料用公式(10-4)计算 2 值 2 2 (33 80 16 71) 200 6.12 104 96 49 151 − = = 计算结果与用公式(10-2)的完全相同。 四、四格表资料 2 检验的校正公式 2 检验是建立在渐进分布理论的基础上,要求样本量足够以保证其代表性,并要求各 理论频数 5 TRC 。 2 界值表中的界值是依据连续型 2 分布算得,而计数资料中的实际频 数是不连续的分类资料,由公式(10-2)计算的 2 值是离散型分布。计算出的 2 值去查 2 界值表所得的概率 P 偏小,尤其是自由度 为 1 的四格表资料。所以对四格表资料来说, 若 n 40,但有 1 T 5 时,计算得 2 值偏大,必须加以校正。1934 年,美国统计学家 F.Yates 提出了用 | | 0.5 A T− − 计算 2 的连续性校正法: 2 2 ( 0.5) C A T T − − = , =1 (10-5) 2 2 2 ( ) ( )( )( )( ) n C | ad -bc|- n = a+b c+d a+c b+d , =1 (10-6) 公式(10-5)和公式(10-6)分别是公式(10-2)和公式(10-4)的校正。这种校正可以减小 2 值 而加大概率 P。 2 连续性校正仅用于 =1 的四格表资料,尤其是 n 较小时。当 2 时, 一般不作校正。 例 10-2 某地区教委在甲、乙两所中学按毕业班学生总数比例随机抽取 78 名毕业班学 生进行中考语文统一模拟测验,测验成绩 85 分以上为达标,结果见表 10-3。问两所中学语 文模拟测验的达标率是否相等?