第六章次数资料的统计分析 第三章述及,试验资料可分为两种类型,即数量性状资料和质量性状资料。对于质 量性状资料往往难于用数量水平表示,而只能用某种属性性状出现的次数表示。例如将 有芒白粒小麦与无芒红粒小麦杂交,在后代会出现有芒白粒、有芒红粒、无芒白粒、无 芒红粒等植株类型,每一种类型代表一种属性。对于每一种类型的个体,表达其属性程 度,用量值很难测定,而统计各种类型出现的次数却显然是合理而又方便的。 此外,数量性状有时也能用次数表示。例如:植株的高度,我们测量每一个个体的 高度得到的变数是连续性变数,如果把植株的高度按一定标准分成高、中、矮三种类型 计数各类型的株数,则得到的资料也是次数资料。另外,间断性变数也能用次数表示 例如在玉米群体中,按果穗的多少有0(空杆)、1(单穗)、2(双穗)等,如果记录 每株的穗数,就是间断性变数:如果统计空杆、单穗、双穗等类型出现的次数,就是一 种次数资料。 因此,不论质量性状或数量性状,都是可以用次数表示的。凡是试验结果用某种类 型出现的次数表示的,叫做次数资料或计数资料。 第一节次数资料的x测验 对次数资料的假设测验可通过x2分布进行,这里用到了x2分布的一个应用公式 x2=∑0-E)2 式中O为次数变数的实际观察次数,E为对应于O的理论次数,K为组数 本应用公式由 K. Pearson于1899年提出,并指出,当自由度大于1时,其与x2分 布相近似:当自由度大于1,且E不少于5时,其与x2分布近似相当好:仅当自由度 等于1时,两者稍有出入,应予以矫正。这一次数资料x2统计量的一大优点就是对所 研究的对象属于何种分布并无要求,这就使得它的应用范围相当广泛而简便,而且从应 用范围上讲,它既可应用于二项分布资料,也可应用于分类数大于2的多项分布 ( multinomial distribution)资料,因此,从统计功能上讲,其涵盖了后面将要介绍的二 项分布资料假设测验。 、次数资料适合性的假设测验 这一假设测验是测验某一次数资料的样本结果是否符合假设的理论次数分布,下面
1 第六章 次数资料的统计分析 第三章述及,试验资料可分为两种类型,即数量性状资料和质量性状资料。对于质 量性状资料往往难于用数量水平表示,而只能用某种属性性状出现的次数表示。例如将 有芒白粒小麦与无芒红粒小麦杂交,在后代会出现有芒白粒、有芒红粒、无芒白粒、无 芒红粒等植株类型,每一种类型代表一种属性。对于每一种类型的个体,表达其属性程 度,用量值很难测定,而统计各种类型出现的次数却显然是合理而又方便的。 此外,数量性状有时也能用次数表示。例如:植株的高度,我们测量每一个个体的 高度得到的变数是连续性变数,如果把植株的高度按一定标准分成高、中、矮三种类型, 计数各类型的株数,则得到的资料也是次数资料。另外,间断性变数也能用次数表示, 例如在玉米群体中,按果穗的多少有0(空杆)、1(单穗)、2(双穗)等,如果记录 每株的穗数,就是间断性变数;如果统计空杆、单穗、双穗等类型出现的次数,就是一 种次数资料。 因此,不论质量性状或数量性状,都是可以用次数表示的。凡是试验结果用某种类 型出现的次数表示的,叫做次数资料或计数资料。 第一节 次数资料的 2 测验 对次数资料的假设测验可通过 2 分布进行,这里用到了 2 分布的一个应用公式: − = k E O E X 1 2 2 ( ) (6.1) 式中 O 为次数变数的实际观察次数,E 为对应于 O 的理论次数,K 为组数。 本应用公式由 K. Pearson 于 1899 年提出,并指出,当自由度大于 1 时,其与 2 分 布相近似;当自由度大于 1,且 Ei 不少于 5 时,其与 2 分布近似相当好;仅当自由度 等于1时,两者稍有出入,应予以矫正。这一次数资料 2 统计量的一大优点就是对所 研究的对象属于何种分布并无要求,这就使得它的应用范围相当广泛而简便,而且从应 用范围上讲,它既可应用于二项分布资料,也可应用于分类数大于 2 的多项分布 (multinomial distribution)资料,因此,从统计功能上讲,其涵盖了后面将要介绍的二 项分布资料假设测验。 一、次数资料适合性的假设测验 这一假设测验是测验某一次数资料的样本结果是否符合假设的理论次数分布,下面
以实例讲解。 〔例6.1)某地农田杂草谱调查表明,在常规耕作方法下,田间三种主要杂草分布 比率为,一年生杂草:一年生阔叶:宿根性杂草=30:3040。今采用深翻后,得调查结果如 下,试测验杂草谱分布有无发生改变? 表6.1田间杂草谱分布适合性测验资料 杂草类别年生杂草年生阔叶宿根性杂草总次数 实测次数(O) 23 理论次数(E) 16.2 16.2 21.6 ①Ho:深翻后,杂草谱分布未发生改变:对HA:深翻后,杂草谱分布发生了改变, ②显著水平a=0.05 ③由(6.1)式计算x2值 (O-E)2(21-162)2(23-162)2(10-21.6)2 216=1051 ④推断:由于计算得x2=10.51>x2052=5.99故否定Ho而接受HA,即深翻后比之常 规耕作方法田间三种主要杂草分布比率发生了显著改变 对于上述测验,需作两点说明。 ①计算样本与理论分布适合性的x2分布自由度为该样本分类数减1。此来源于计算 各理论值E时,受到总次数确定的限制。 ②适合性测验的接受备择假设与统计上的x2>xa相联系,另,本假设测验为x2的 右尾一尾测验。书后附表4恰为x2分布的右尾概率临界值表,故通常无须标明有关一 尾的说明 、次数资料独立性的假设测验 当次数资料每一变数均具有两种不同的调查目标性状时,其原始资料成为二维数据 资料。其具有如表62的数据结构 此时,若欲对两类目标性状之间的独立性进行测验,即构成次数资料的独立性测验
2 以实例讲解。 〔例 6.1〕某地农田杂草谱调查表明,在常规耕作方法下,田间三种主要杂草分布 比率为,一年生杂草:一年生阔叶:宿根性杂草=30:30:40。今采用深翻后,得调查结果如 下,试测验杂草谱分布有无发生改变? 表 6.1 田间杂草谱分布适合性测验资料 杂 草 类 别 一年生杂草 一年生阔叶 宿根性杂草 总次数 实测次数(O) 理论次数(E) 21 16.2 23 16.2 10 21.6 54 54 ①HO:深翻后,杂草谱分布未发生改变;对 HA:深翻后,杂草谱分布发生了改变。 ②显著水平 = 0.05 ③由(6.1)式计算 2 值 10.51 21.6 (10 21.6) 16.2 (23 16.2) 16.2 ( ) (21 16.2) 3 2 2 2 1 2 2 = − + − + − = − = E O E ④推断:由于计算得 2 =10.51> 2 0.05,2 =5.99,故否定 HO 而接受 HA,即深翻后比之常 规耕作方法田间三种主要杂草分布比率发生了显著改变。 对于上述测验,需作两点说明。 ①计算样本与理论分布适合性的 2 分布自由度为该样本分类数减 1。此来源于计算 各理论值 E 时,受到总次数确定的限制。 ②适合性测验的接受备择假设与统计上的 2 > 2 相联系,另,本假设测验为 2 的 右尾一尾测验。书后附表 4 恰为 2 分布的右尾概率临界值表,故通常无须标明有关一 尾的说明。 二、次数资料独立性的假设测验 当次数资料每一变数均具有两种不同的调查目标性状时,其原始资料成为二维数据 资料。其具有如表 6.2 的数据结构。 此时,若欲对两类目标性状之间的独立性进行测验,即构成次数资料的独立性测验
表62次数资料独立性测验的数据结构 横向分类(A) 纵向分类(B) 总计R1 O1…O1…O1 RI O2…O21…O2c R Our Ri O2…On…One Rr 总计C1 C C2……C1…Cc 〔例6.2)测定不同密度下玉米每株穗数的分布,得结果于表63,试测验穗数分布 是否与密度大小有关? 表63不同密度下玉米每株穗数的分布 密度(万株/hm2) 空杆株 穗株 双穗及以上株 12(73.40) 224(219.60) 76(19.00) 3692 60(15221 49(45539) 39(3940) 246(21949) 659(65669) 28(56.82) 933 416(28890) 765(864.32) 47(74.78) 2196 3120 ①假设H:玉米每株穗数的分布与密度大小无关;对HA:玉米每株穗数的分布 与密度大小有关 ②显著水平a=0.05 ③计算 x2=∑∑ (O-E)=(12-7340)(60-152) (47-74.78) 3926 E 73.40 74.78 ④推断由于所得x2=39262>>x3056=12.59,故应否定Ho假设,而接受H,即 不同密度对玉米每株穗数分布有显著影响。 上面分析的几点说明 ①表63例中各变数实际观测值O与对应的理论值E并列给出,其中E列在实测 值On旁边的括号中。 ②E值的计算为两边缘总和的乘积与全部次数资料总和的商。即 Ei=(RixC)/n 如上例:E1=(312×734)/3120=7340
3 表 6.2 次数资料独立性测验的数据结构 横向分类(A) 纵向分类 (B) 总计 Ri 1 2 … j … C 1 2 ┆ i ┆ r O11 O21 ┆ Oi1 ┆ Or1 O12…O1j…O1c O22…O2j…O2c ┆ ┆ ┆ Oi2…Oij…Oic ┆ ┆ ┆ Or2…Orj…Orc R1 R2 ┆ Ri ┆ Rr 总计 Cj C1 C2… Cj …Cc = r c n Oij 1 1 〔例 6.2〕测定不同密度下玉米每株穗数的分布,得结果于表 6.3,试测验穗数分布 是否与密度大小有关? 表 6.3 不同密度下玉米每株穗数的分布 密度(万株/hm2) 空杆株 一穗株 双穗及以上株 总计 3 6 9 12 12(73.40) 60(152.21) 246(219.49) 416(288.90) 224(219.60) 549(455.39) 659(656.69) 765(864.32) 76(19.00) 39(39.40) 28(56.82) 47(74.78) 312 647 933 1228 总计 734 2196 190 3120 ①假设 H0: 玉米每株穗数的分布与密度大小无关; 对 HA:玉米每株穗数的分布 与密度大小有关。 ②显著水平 =0.05 ③计算 + − + − = − = r i c j i j i j i j E O E 152.21 (60 152.21) 73.40 (12 73.40) ( ) 2 2 2 2 … 392.62 74.78 (47 74.78) 2 = − + ④推断 由于所得 2 =392.62>> 2 0.05,6 =12.59,故应否定 HO 假设,而接受 HA,即 不同密度对玉米每株穗数分布有显著影响。 上面分析的几点说明 ①表 6.3 例中各变数实际观测值 Oij 与对应的理论值 Eij 并列给出,其中 Eij 列在实测 值 Oij 旁边的括号中。 ②Eij 值的计算为两边缘总和的乘积与全部次数资料总和的商。即 Eij=(Ri×Cj)/n 如上例:E11= (312×734)/3120=73.40
其计算依据来自于H二事件相互独立的假设和独立事件交事件的乘法定理。即 Ey=nx P(A,)xP(B,) R C =n×()×(→) R, C:/n ③独立性测验的接受备择假设与x2>x2相联系,与适合性测验相类似,也是x2分 布的右尾一尾测验。 ④由于独立性测验资料的两边缘总和均受到总和n的限制,故其每一向分类性状的 自由度均为其分类数减1。因此,独立性x2测验的自由度为两向分类自由度之乘积。即 v=(r-1)(c-1) 三、次数资料假设测验的连续性矫正 x2分布是连续性变数的分布,而次数资料属间断性变数资料,研究表明,当测验 资料的自由度等于1时,算得的x2值将有所偏大,因此应予以矫正,统计上称为连续 性矫正。既然次数资料连续性矫正的条件是自由度等于1,则仅有两种情况须作连续性 矫正,即适合性测验时资料分类数为二,独立性测验时两向分类数均为二的次数资料。 矫正的x2测验计算公式为 (-E-)2 适合性测验例 〔例6.3)以纯种的紫花豌豆与白花豌豆杂交,杂种F2代得到289株,其中紫花208 株,白花81株,试测验该结果是否符合3:1的理论比率? 表64豌豆花色遗传规律的适合性测验 表现型 实测株数(O) 里论株数 216.75 ①假设HoF2代紫花性状与白花性状分离符合3:1的遗传规律:对HA二性状分离 不符合3:1的比率。 ②显著水平 x=0.05
4 其计算依据来自于 HO 二事件相互独立的假设和独立事件交事件的乘法定理。即 R C n n C n R n E n P A P B i j j i ij i j / ( ) ( ) ( ) ( ) = = = ③独立性测验的接受备择假设与 2 > 2 相联系,与适合性测验相类似,也是 2 分 布的右尾一尾测验。 ④由于独立性测验资料的两边缘总和均受到总和 n 的限制,故其每一向分类性状的 自由度均为其分类数减 1。因此,独立性 2 测验的自由度为两向分类自由度之乘积。即 = (r −1)(c −1) 三、次数资料假设测验的连续性矫正 2 分布是连续性变数的分布,而次数资料属间断性变数资料,研究表明,当测验 资料的自由度等于 1 时,算得的 2 值将有所偏大,因此应予以矫正,统计上称为连续 性矫正。既然次数资料连续性矫正的条件是自由度等于 1,则仅有两种情况须作连续性 矫正,即适合性测验时资料分类数为二,独立性测验时两向分类数均为二的次数资料。 矫正的 2 测验计算公式为 = − − = k i i i i C E O E 1 2 2 ) 2 1 ( (6.2) 适合性测验例 〔例 6.3〕以纯种的紫花豌豆与白花豌豆杂交,杂种 F2 代得到 289 株,其中紫花 208 株,白花 81 株,试测验该结果是否符合 3:1 的理论比率? 表 6.4 豌豆花色遗传规律的适合性测验 表现型 紫 花 白 花 总 数 实测株数(O) 理论株数(E) 208 216.75 81 72.25 289 289 ①假设 HO:F2 代紫花性状与白花性状分离符合 3:1 的遗传规律;对 HA:二性状分离 不符合 3:1 的比率。 ②显著水平 =0.05
③统计计算,由于本资料为分类数为二的二项分布次数资料,应予连续性矫正 (0-E-)2(208-21675-5)2(81-722-)2 =1.2560 216.75 72.25 ④推断:由于计算结果x2=12560<x20s1=3.84,故应接受Ho,即认为此二性状符 合3:1的分离比率 独立性测验例 〔例6.4)病毒病会严重影响马铃薯的产量,有人曾硏究播种期早晚与马铃薯感染 病毒病的关系,得结果于表6.5,试予分析。 表65马铃薯播期与染病情况调査资料 播种期 8月1日 4(90.92) 57(6008) 8月15日 74(77.08) 4(5092) 128 总数 ①假设Ho:马铃薯染病情况与播期无关;对厶A:马铃薯染病情况与播期有关。 ②显著水平a=0.05 ③统计计算由于本独立性测验两向分类数均为二,应采用矫正方式 (-E-1 E 94-90.92-5)2(57-6008-5)2(74-7708-)2(54-5092-)2 90.92 60.08 7708 50.92 ④推断:由于计算得x=0.401x0=384,故应接受无效假设H,即上设计播期 的早晚与马铃薯发病情况无关。 应该注意到,在作次数资料的x2测验时,其测验的分辨能力是与观测总次数相关 的;也即,一般来讲较大的样本容量有较高的判断灵敏度。由于这一特性,所有次数调 査数据均不能简约成成数或百分数,而使其抽样容量成比例变小。同理,次数调查的某 项资料数小于5时,应将其与相邻组合并为一组,以避免过小 统计学家将上面讲述的测验方式进行整理,整理的公式与前面讲述的公式结果是同 的,但其优点是可直接用实测值进行计算,而无须计算各对应的理论值。这些整理公
5 ③统计计算,由于本资料为分类数为二的二项分布次数资料,应予连续性矫正。 1.2560 72.25 ) 2 1 ( 81 72.25 216.75 ) 2 1 ) ( 208 216.75 2 1 ( 2 2 2 2 = − − + − − = − − = E O E X C ④推断:由于计算结果 2 C =1.2560< 2 0.05,1 =3.84,故应接受 HO,即认为此二性状符 合 3:1 的分离比率。 独立性测验例 〔例 6.4〕 病毒病会严重影响马铃薯的产量,有人曾研究播种期早晚与马铃薯感染 病毒病的关系,得结果于表 6.5,试予分析。 表 6.5 马铃薯播期与染病情况调查资料 播 种 期 病 株 健 株 总 数 8 月 1 日 8 月 15 日 94(90.92) 74(77.08) 57(60.08) 54(50.92) 151 128 总 数 168 111 279 ①假设 HO: 马铃薯染病情况与播期无关;对 HA : 马铃薯染病情况与播期有关。 ②显著水平 = 0.05 ③统计计算 由于本独立性测验两向分类数均为二,应采用矫正方式。 0.401 50.92 ) 2 1 ( 54 50.92 77.08 ) 2 1 ( 74 77.08 60.08 ) 2 1 ( 57 60.08 90.92 ) 2 1 ( 94 90.92 ) 2 1 ( 2 2 2 2 2 2 = − − + − − + − − + − − = − − = E O E C ④推断:由于计算得 2 C =0.401< 2 0.01,1 =3.84,故应接受无效假设 HO,即上设计播期 的早晚与马铃薯发病情况无关。 应该注意到,在作次数资料的 2 测验时,其测验的分辨能力是与观测总次数相关 的;也即,一般来讲较大的样本容量有较高的判断灵敏度。由于这一特性,所有次数调 查数据均不能简约成成数或百分数,而使其抽样容量成比例变小。同理,次数调查的某 一项资料数小于 5 时,应将其与相邻组合并为一组,以避免过小。 统计学家将上面讲述的测验方式进行整理,整理的公式与前面讲述的公式结果是同 一的,但其优点是可直接用实测值进行计算,而无须计算各对应的理论值。这些整理公