即它不会有下侧拒绝域,永远只用上单侧检验。 Pearson统计量的应用主要有以下两个方面 、吻合度检验。用于检验总体是否服从某个指定分布。 方法为:设给定分布函数为F(x)。首先把x的值域分为r个不相重合的区间,并统计样 本含量为n的一次抽样中,观察值落入各区间的次数,把落入区间i的次数记为O,i=1,2, r;再算出在指定的分布下,x落入每一区间的概率p,i=1,2,…r。由于样本含量为n, 因此理论上落入每一区间的次数应为T=n·p;从而可用 Pearson统计量进行检验。 需要特别注意的是,在做吻合度检验时, Pearson统计量的自由度可能发生变化。一般 来说,如果给定的分布函数F(x)中不含有未知参数,则 Pearson统计量的自由度就是r-1 但如果F(x)中含有一个或几个未知参数,需要用从样本中计算出的估计量代替,则使用了几 个估计量自由度一般就应在r-1的基础上再减去几。如例3.19,观测值共分了9组,自由 度本应为9-1=8,但由于理论分布的μ和σ2未知,使用估计量代替,因此自由度应为8 例3.19调查了某地200名男孩身高,得x=139.5,S=7.42,分组数据见下表。男孩身 高是否符合正态分布? 表3.2男孩身高分布表 0.0344 6.88 0.1806 [126,130) 0.0658 13.16 0.0019 0.1291 3.0081 3812 138,142) 0.2120 42.40 3.7420 0.1776 0.1781 46.15 18 0.1120 0.8637 150,154) 0.0532 10.64 0.0380 154+∞) 0.0253 3.0506 表中前三列是观察数据,后三列是计算所得。计算公式为:设区间为x1,x1),则 P2=P(x1≤x<x)=Φ(-)-d( 其中Φ为N(0,1)的分布函数,可查表得到。 T;=200·P (O-7)2 11.0963 自由度df=9-1-2=6(:用x,S2作为μ,2的估计量,∴应再减去二个自由度)。查 x2分布表,得:x95(6)=12.592。由于x2<x095(6),故可认为男孩身高分布与正态分 布无明显差异 例3.20以红米非糯稻和白米襦稻杂交,子二代检测179株,数据如下: 属性(x)红米非糯(0)红米糯(1)白米非糯(2)白米糯(3) 31 179 问子二代分离是否符合9:3:3:1的规律? 解:若符合9:3:3:1的规律,则应有
即它不会有下侧拒绝域,永远只用上单侧检验。 Pearson 统计量的应用主要有以下两个方面: 一、吻合度检验。用于检验总体是否服从某个指定分布。 方法为:设给定分布函数为 F(x)。首先把 x 的值域分为 r 个不相重合的区间,并统计样 本含量为 n 的一次抽样中,观察值落入各区间的次数,把落入区间i 的次数记为 Oi,i=1, 2,… r;再算出在指定的分布下,x 落入每一区间的概率 pi ,i=1, 2,… r。由于样本含量为 n, 因此理论上落入每一区间的次数应为 Ti = n·pi;从而可用 Pearson 统计量进行检验。 需要特别注意的是,在做吻合度检验时,Pearson 统计量的自由度可能发生变化。一般 来说,如果给定的分布函数 F(x)中不含有未知参数,则 Pearson 统计量的自由度就是 r – 1; 但如果 F(x)中含有一个或几个未知参数,需要用从样本中计算出的估计量代替,则使用了几 个估计量自由度一般就应在 r – 1 的基础上再减去几。如例 3.19,观测值共分了 9 组,自由 度本应为 9 – 1 = 8,但由于理论分布的μ和σ2 未知,使用估计量代替,因此自由度应为 8 – 2 = 6。 例 3.19 调查了某地 200 名男孩身高,得 x =139.5, S = 7.42 ,分组数据见下表。男孩身 高是否符合正态分布? 表 3.2 男孩身高分布表 组号 区间 Oi Pi Ti (Oi - Ti) 2 /Ti 1 (-∞, 126) 8 0.0344 6.88 0.1806 2 [126, 130) 13 0.0658 13.16 0.0019 3 [130, 134) 17 0.1291 25.81 3.0081 4 [134, 138) 37 0.1906 38.12 0.0332 5 [138, 142) 55 0.2120 42.40 3.7420 6 [142, 146) 33 0.1776 35.51 0.1781 7 [146, 150) 18 0.1120 22.40 0.8637 8 [150, 154) 10 0.0532 10.64 0.0380 9 [154, +∞) 9 0.0253 5.07 3.0506 表中前三列是观察数据,后三列是计算所得。计算公式为:设区间为[xi-1, xi),则 ( ) ( ) ( ) 1 1 S x x S x x p P x x x i i i i i − − − = = − − , 其中Ф为 N(0,1)的分布函数,可查表得到。 T i = 200·Pi = = − = r i i i i T O T 1 2 2 11.0963 ( ) 自由度 df = 9-1-2 = 6 (∵用 x ,S 2 作为μ,σ2 的估计量,∴应再减去二个自由度)。查 χ 2 分布表,得: (6) 12.592 2 0.95 = 。由于χ2 < 2 0.95 (6),故可认为男孩身高分布与正态分 布无明显差异。 例 3.20 以红米非糯稻和白米糯稻杂交,子二代检测 179 株,数据如下: 属性(x) 红米非糯(0) 红米糯(1) 白米非糯(2) 白米糯(3) 合计 株数 96 37 31 15 179 问子二代分离是否符合 9 : 3 : 3 : 1 的规律? 解:若符合 9 : 3 : 3 : 1 的规律,则应有:
9 p(0) p(1)=p(2) p(3) 9+3+3+116 70=16×179=100095 T=2s、319=35625 16 T (96-1006875)2(37-335625)2(31-335625)2,(15-11.1875) 100.6875 33.5625 33.5625 11.1875 =0.2182+0.3521+0.1956+1.2992 =2.0651 查表,x295(3)=7.8147>x2,…∴差异不显著,接受H,子二代分离规律符合93:3l 本题理论分布中没有未知参数,因此ⅹ2统计量自由度仍为3。 例3.21用血球计数板计数每微升培养液中的酵母细胞,得数据如下表中的前两列: 细胞数i 出现次数O 概率p (O -T/T 213 0.5054 202.16 0.581 28 0.3449 137.96 0.719 0.1177 47.08 2.158 3 18 0.0268 10.7 0.0046 6.613 0.0006 0.24 合计 问此细胞计数数据是否符合 Poisson分布? 解: Poisson分布的概率函数:p(x=1)=-e-,i=0,2,…。其中只有唯一参数λ,既 是期望又是方差。∴可用x估计。 x=1S10D28+2×37+3×18+4×3+5)=06825 令λ=x=06825,代入概率函数可求出i=0,1,…5的概率p;,填入表中第三列。 令T=n·p=400·p,填入表中第四列。由于i=4,5时T值太小,所它们与i=3合并。 即令O3=18 3+1=22,T=10.72+1.84+0.24=12 计算O-7)2,填入第五列。将第五列各数字相加,得:x2=1071 由于计算理论分布时使用了一个估计量,因此自由度df=4-2=2 查表:x95(2)=5.9915,κ.9(2)=9.2103,x2>x09,∴差异极显著,拒绝H,观 测数据不符合 Poisson分布
16 1 , (3) 16 3 , (1) (2) 16 9 9 3 3 1 9 (0) = = = = + + + p = p p p 179 33.5625 16 3 179 100.6875, 16 9 1 2 0 = = = = = T T T 179 11.1875 16 1 T3 = = 2.0651 0.2182 0.3521 0.1956 1.2992 11.1875 (15 11.1875) 33.5625 (31 33.5625) 33.5625 (37 33.5625) 100.6875 (96 100.6875) ( ) 2 2 2 2 3 0 2 2 = = + + + − + − + − + − = − = i= i i i T O T 查表, 2 2 0.95 (3) = 7.8147 ,∴ 差异不显著,接受 H0,子二代分离规律符合 9:3:3:1。 本题理论分布中没有未知参数,因此χ2 统计量自由度仍为 3。 例 3.21 用血球计数板计数每微升培养液中的酵母细胞,得数据如下表中的前两列: 细胞数 i 出现次数 Oi 概率 pi Ti (Oi–Ti) 2 / Ti 0 213 0.5054 202.16 0.581 1 128 0.3449 137.96 0.719 2 37 0.1177 47.08 2.158 3 18 0.0268 10.72 4 3 0.0046 1.84 6.613 5 1 0.0006 0.24 合计 400 1 400 10.17 问此细胞计数数据是否符合 Poisson 分布? 解:Poisson 分布的概率函数: , 0,1,2, ! ( = ) = = − e i i p x i i 。其中只有唯一参数λ,既 是期望又是方差。∴可用 x 估计。 = = = + + + + = 5 1 (128 2 37 3 18 4 3 5) 0.6825 400 1 1 i Oi i n x 令 = x = 0.6825 ,代入概率函数可求出 i=0,1,…5 的概率 pi,填入表中第三列。 令 Ti= n·pi= 400·pi,填入表中第四列。由于 i=4,5 时 Ti 值太小,所它们与 i=3 合并。 即令 O3 = 18 + 3 + 1 = 22, T3 = 10.72 + 1.84 + 0.24 = 12.80 计算 i i i T O T 2 ( − ) ,填入第五列。将第五列各数字相加,得:χ2 = 10.71 由于计算理论分布时使用了一个估计量,因此自由度 df = 4 - 2 = 2。 查表: (2) 5.9915, (2) 9.2103, 2 0.99 2 0.95 = = 2 0.99 2 ,∴差异极显著,拒绝 H0,观 测数据不符合 Poisson 分布
般来说细胞计数应服从 Poisson分布,其前提条件就是各细胞之间既不能互相吸引, 也不能互相排斥,必须是互不影响。本例中差异主要表现在出现3个以上细胞的次数明显偏 多,也许说明细胞间有某种吸引力,有聚在一起的趋势 、列联表的独立性检验 列联表独立性检验是 Pearsson统计量的又一重要应用。它主要用于检验两个事件是否独 立,例如处理方法和效果是否独立。问题可以这样提出 设实验中可采用r种处理方法,可能得到C种不同的实验结果。一个常见的问题就是 这r种方法的效果是否相同?或改一种问法:方法与效果是否独立? 例3.22下表是对某种药的试验结果: 表3.3给药方式与药效试验结果 给药方式 有效(A) 无效(A) 总数 有效率 口服(B) 注射(B) 31 95 67.4% 问给药方式对药效果是否有影响? 分析:表中各行、各列总数分别为口服与注射、有效与无效的总数。若A代表有效,B代 表口服,则应有:P(A)=第一列总数总数;PB)=第一行总数总数。这样,若我们保持 表中各行各列总数不变,即保持口服与注射、有效与无效的总数不变,也就是保持了P(A)、 P(B)等概率不变。在这样的条件下,若再有H0成立,即药效与给药方式无关,A与B互 相独立,则有:P(AB)=P(A)·P(B)。此时总数XP(AB)就应是口服且有效的理论值。与此 类似,可用以下方法计算出各格的理论值T:T=(行总数×列总数)总数,从而可使用 Pearson统计量对Ho:O-T=0(或A与B独立)进行检验。这种方法就称为列联表独立性 检验。设表有r行c列,由于在这种方法中使用了各行、各列总数作为常数,自由度也应 相应减少。若各行总数都确定了,总数当然也就确定了:此时列总数只要确定c-1个即 可,最后一个可用解方程的方法算出来。因此实际使用的常数不是r+c个,而是r+c-1 个。这样一来,自由度应为: df=r·c-r-c+1=(r-1)·(c-1)=(行总数-1)×(列总数-1) 解:在保持各行、列总数不变,且A与B独立的条件下,计算各格理论值T: 有效(A) 无效(A) 行总数 口服(B) O1=58 7、98×122 98×71 =61.95 T =36.05 注射(B) 95×122 =6057 1933495 列总数 总数:193 Df=(2-1)×(2-1)=1 x258=61951-052+(40=3605-052+064-60-055 6195 36.05 60.05
一般来说细胞计数应服从 Poisson 分布,其前提条件就是各细胞之间既不能互相吸引, 也不能互相排斥,必须是互不影响。本例中差异主要表现在出现 3 个以上细胞的次数明显偏 多,也许说明细胞间有某种吸引力,有聚在一起的趋势。 二、列联表的独立性检验 列联表独立性检验是 Pearsson 统计量的又一重要应用。它主要用于检验两个事件是否独 立,例如处理方法和效果是否独立。问题可以这样提出: 设实验中可采用 r 种处理方法,可能得到 C 种不同的实验结果。一个常见的问题就是: 这 r 种方法的效果是否相同?或改一种问法:方法与效果是否独立? 例 3.22 下表是对某种药的试验结果: 表 3.3 给药方式与药效试验结果 给药方式 有效(A) 无效( A ) 总数 有效率 口服(B) 58 40 98 59.2% 注射( B ) 64 31 95 67.4% 总数 122 71 193 问给药方式对药效果是否有影响? 分析:表中各行、各列总数分别为口服与注射、有效与无效的总数。若 A 代表有效,B 代 表口服,则应有:P(A) = 第一列总数/总数;P(B) = 第一行总数/总数。这样,若我们保持 表中各行各列总数不变,即保持口服与注射、有效与无效的总数不变,也就是保持了 P(A)、 P(B)等概率不变。在这样的条件下,若再有 H0 成立,即药效与给药方式无关,A 与 B 互 相独立,则有:P(AB)= P(A)·P(B)。此时总数×P(AB)就应是口服且有效的理论值。与此 类似,可用以下方法计算出各格的理论值 Ti:Ti = (行总数×列总数)/总数,从而可使用 Pearson 统计量对 H0: O-T = 0 (或 A 与 B 独立)进行检验。这种方法就称为列联表独立性 检验。设表有 r 行 c 列,由于在这种方法中使用了各行、各列总数作为常数,自由度也应 相应减少。若各行总数都确定了,总数当然也就确定了;此时列总数只要确定 c-1 个即 可,最后一个可用解方程的方法算出来。因此实际使用的常数不是 r+c 个,而是 r+c-1 个。这样一来,自由度应为: df = r c − r − c +1 = (r −1)(c −1) = (行总数-1)×(列总数-1) 解:在保持各行、列总数不变,且 A 与 B 独立的条件下,计算各格理论值 Ti: 有效(A) 无效( A ) 行总数 口服(B) O1 = 58 61.95 193 98 122 1 = T = O2 = 40 36.05 193 98 71 2 = T = 98 注射( B ) O3 = 64 60.05 193 95 122 3 = T = O4 = 31 34.95 193 95 71 4 = T = 95 列总数 122 71 总数:193 Df=(2-1)×(2-1)=1 60.05 ( 64 60.05 0.5) 36.05 ( 40 36.05 0.5) 61.95 ( 58 61.95 0.5) 2 2 2 2 − − + − − + − − =