(4)配对检验:用于两总体间明显正相关时 令d=X1-X2,对Ho:d=0作单样本检验 2.方差检验方法:F检验,Ho:σ1=02;HA:σ1≠2 假设两组数据分别位于A1:A10,B1:B10 °在空格C1中输入: Ftest(Al: A10, Bl: B10)v 注意 Ftest返回的是F统计量的双尾概率,因此下一步可直接与q比较。 2°比较:Cl<a则拒绝H;C1>a则接受H。 3.均值检验方法:需区分几种情况: (1)两总体方差G,σ2已知:U检验 1°在空格D1中输入: (Average(Al: A10)-Average( B1: B10))/ sgrt(o,/count(Al: A10)+o/count(B1: B10))v 这一步计算统计量的值,用了以下几个函数: Average:计算平均数;sqrt:计算平方根 count:计算指定区域中数字的个数。σ2,G2应直接输入数值,或存贮该数值的位置。 2°在D2中输入 Normsdist(D1) 这一步计算统计量对应的分布函数概率值。它返回的是分布函数取值(即P(X<x),而 不是尾区概率(一般为P(X>x))。注意在 Excel中函数 Normsdist是计算标准正态分布 的取值,而 Normdist是计算一般正态分布的取值。这里由于D1计算过程中已进行了标准 化,因此应使用 Normsdist °将D2的数值与a比较: 双边检验:a/2<D<1-a/2时接受H,否则拒绝H 单边检验:上单尾:HA:l>μ2:当D2<1-α时接受H 下单尾:HA:μl<p2:当D2>a时接受H 注意:由于 Normsdist函数返回的是分布函数,而不是尾区概率,因此这里单边检验的接 受域与使用 Chidist和 Ztest函数时正好相反。使用时请特别注意所用函数返回的倒底是分 布函数还是尾区概率,否则单边检验时很容易出错误 (2)两总体方差未知:由于Test函数中已考虑了方差未知时的各种可能,因此使用中很方 便,只需改变一个参数的取值就可以了 1°在空格E1中输入 “=Test(A1:A10,B1:BlO, tails, type)” 这一函数中后两个参数的取值与意义为 tails=1:单尾检验; tails=2:双尾检验 type=1:配对检验;type=2:方差相等;type=3:方差不等 使用时直接把参数换为相应的数值即可。由于函数返回的数值为尾区概率,因此可直接与 相比。 2°把E1的数值与α比较,E1>α时,接受H,否则拒绝H
(4)配对检验:用于两总体间明显正相关时。 令 di = X1i – X2i, 对 H0:d = 0 作单样本检验。 2. 方差检验方法:F 检验,H0:1 = 2;HA:1 2 假设两组数据分别位于 A1:A10, B1:B10。 1 在空格 C1 中输入: “= Ftest (A1:A10, B1:B10) ↙” 注意 Ftest 返回的是 F 统计量的双尾概率,因此下一步可直接与α比较。 2°比较:C1<α则拒绝 H0;C1>α则接受 H0。 3. 均值检验方法:需区分几种情况: (1)两总体方差 2 1 , 2 2 已知:U 检验。 1°在空格 D1 中输入: “=(Average(A1:A10)-Average(B1:B10))/ sqrt( 2 1 /count(A1:A10)+ 2 2 /count(B1:B10)) ↙” 这一步计算统计量的值,用了以下几个函数:Average:计算平均数;sqrt:计算平方根; count:计算指定区域中数字的个数。 2 1 , 2 2 应直接输入数值,或存贮该数值的位置。 2°在 D2 中输入: “= Normsdist(D1) ↙” 这一步计算统计量对应的分布函数概率值。它返回的是分布函数取值(即 P(X < x)),而 不是尾区概率(一般为 P(X > x))。注意在 Excel 中函数 Normsdist 是计算标准正态分布 的取值,而 Normdist 是计算一般正态分布的取值。这里由于 D1 计算过程中已进行了标准 化,因此应使用 Normsdist。 3°将 D2 的数值与α比较: 双边检验:α/2 < D2 < 1-α/2 时接受 H0,否则拒绝 H0。 单边检验:上单尾:HA:1 > 2:当 D2 < 1 - 时接受 H0; 下单尾:HA: 1 < 2:当 D2 > 时接受 H0。 注意:由于 Normsdist 函数返回的是分布函数,而不是尾区概率,因此这里单边检验的接 受域与使用 Chidist 和 Ztest 函数时正好相反。使用时请特别注意所用函数返回的倒底是分 布函数还是尾区概率,否则单边检验时很容易出错误。 (2)两总体方差未知:由于 Ttest 函数中已考虑了方差未知时的各种可能,因此使用中很方 便,只需改变一个参数的取值就可以了。 1 在空格 E1 中输入: “= Ttest (A1:A10, B1:B10, tails, type) ↙” 这一函数中后两个参数的取值与意义为: tails = 1:单尾检验;tails = 2:双尾检验。 type = 1:配对检验;type = 2:方差相等;type = 3:方差不等。 使用时直接把参数换为相应的数值即可。由于函数返回的数值为尾区概率,因此可直接与 相比。 2 把 E1 的数值与比较,E1 > 时,接受 H0,否则拒绝 H0
注意:单尾检验中不管两个均值谁大 Ttest给出的概率都是相同的。因此在上单尾检验(H μ1>μ2)中第一个样本均值偏小或下单尾检验(H:μ<μ)中第一个样本均值偏大都有 错误拒绝Ho的可能,使用时需要特别注意 例2.(即本书例3.3)两发酵法生产青毒素的工厂,其产品收率的方差分别为 σ1=0.46,a2=0.37,现甲工厂测得25个数据,x=371g/,乙工厂测得30个数据, j=346g/l,问它们的收率是否相同? 解:由于两总体方差已知,可采用正态分布进行检验。在空格E3中输入: normsdist(3.71-346)/sqrt(0.46/25+0.37/30)” 回车后,显示数字0.923073。由于这一数字在0.025和0.975之间,因此接受H,认为 这两个工厂的收率相同。 例3.新旧两个小麦品系进行对比试验,旧品系共收获25个小区,新品系收获20个小区 产量(公斤)如下表。问新品系是否值得推广? 旧品系34.638.140.536.239.534.139.538.037.938.439.532.937.2 新品系37.138.939.136.239.840.841.238.740.341.540.337.740.9 旧品系30.838.138.339.334.931.834.535.938.239.733.936.0 新品系38.737.241.938.639.238.240.6 解:首先检验方差是否相等:在空格中输入 ftest(E3: E27, F3: F22)" 回车后,显示数字0.024704。由于这一数字小于0.05,因此拒绝H,认为方差不相等。 应采用近似检验。 检验均值是否相等:根据题意,应为单侧检验。在另一空格输入: “= ttest(E3:E27,F3:F22,1,3) 回车后,显示数字0.000095。由于这一数字小于0.01,因此拒绝H,认为新品系极显著 地优于旧品系,值得推广。 例4.(即本书例3.6)10名病人服药前后血红蛋白含量如下: 匚病人号 服药前(x)113150|150|13.5|128100110120130123 服药后(y)|140|13814013513.5120147114|138120 问该药是否引起血红蛋白含量变化? 解:根据题意,应采用配对检验。在空格输入 ttest(I3:I12,J3:J12,2,1)” 回车后,显示数字0.223742。由于这一数字大于0.05,因此接受H,认为服药前后血红 蛋白含量没有显著变化。 三、非参数检验:皮尔逊( Pearson)统计量。 1.统计知识复习: 皮尔逊定理:当P1,P2,……P为总体的真实概率分布时,统计量 随n增加而渐近于自由度为r-1的x2分布 若令O1=n,T=np,则上式变为:
注意:单尾检验中不管两个均值谁大 Ttest 给出的概率都是相同的。因此在上单尾检验(HA: 1 > 2)中第一个样本均值偏小或下单尾检验(HA:1 < 2)中第一个样本均值偏大都有 错误拒绝 H0 的可能,使用时需要特别注意。 例 2. (即本 书例 3.3) 两发酵法 生产青 毒素的 工厂,其 产品收 率的方差 分别为 0.46, 0.37 2 2 2 1 = = ,现甲工厂测得 25 个数据, x = 3.71g / l ,乙工厂测得 30 个数据, y = 3.46g / l ,问它们的收率是否相同? 解:由于两总体方差已知,可采用正态分布进行检验。在空格 E3 中输入: “= normsdist((3.71 – 3.46) / sqrt(0.46 / 25 + 0.37 / 30))” 回车后,显示数字 0.923073。由于这一数字在 0.025 和 0.975 之间,因此接受 H0,认为 这两个工厂的收率相同。 例 3. 新旧两个小麦品系进行对比试验,旧品系共收获 25 个小区,新品系收获 20 个小区, 产量(公斤)如下表。问新品系是否值得推广? 旧品系 34.6 38.1 40.5 36.2 39.5 34.1 39.5 38.0 37.9 38.4 39.5 32.9 37.2 新品系 37.1 38.9 39.1 36.2 39.8 40.8 41.2 38.7 40.3 41.5 40.3 37.7 40.9 旧品系 30.8 38.1 38.3 39.3 34.9 31.8 34.5 35.9 38.2 39.7 33.9 36.0 新品系 38.7 37.2 41.9 38.6 39.2 38.2 40.6 解:首先检验方差是否相等:在空格中输入: “= ftest(E3:E27,F3:F22)” 回车后,显示数字 0.024704。由于这一数字小于 0.05,因此拒绝 H0,认为方差不相等。 应采用近似检验。 检验均值是否相等:根据题意,应为单侧检验。在另一空格输入: “= ttest(E3:E27,F3:F22,1,3)” 回车后,显示数字 0.000095。由于这一数字小于 0.01,因此拒绝 H0,认为新品系极显著 地优于旧品系,值得推广。 例 4.(即本书例 3.6) 10 名病人服药前后血红蛋白含量如下: 病人号 1 2 3 4 5 6 7 8 9 10 服药前(x) 11.3 15.0 15.0 13.5 12.8 10.0 11.0 12.0 13.0 12.3 服药后(y) 14.0 13.8 14.0 13.5 13.5 12.0 14.7 11.4 13.8 12.0 问该药是否引起血红蛋白含量变化? 解:根据题意,应采用配对检验。在空格输入: “= ttest(I3:I12,J3:J12,2,1)” 回车后,显示数字 0.223742。由于这一数字大于 0.05,因此接受 H0,认为服药前后血红 蛋白含量没有显著变化。 三、非参数检验:皮尔逊(Pearson)统计量。 1. 统计知识复习: 皮尔逊定理:当 P1,P2,…… Pr为总体的真实概率分布时,统计量 = − = r i i i i np n np 1 2 2 ( ) 随 n 增加而渐近于自由度为 r – 1 的 2 分布。 若令 Oi = ni, Ti = npi,则上式变为:
(O-T)2 用途:吻合度检验,列联表独立性检验。 限制条件:各T≥5 2.列联表独立性检验 对列联表进行独立性检验首先应计算理论值。对列联表独立性检验来说,理论值计算公 式为: T i行总和×列总和 总和 下面结合例题,介绍计算过程。 例5.(即本书例3.22)下表是对某种药的试验结果: 口服 58 注射 31 问给药方式对药效果是否有影响? 解 表2.例5的计算结果 有效无效 口服 注射 23846 理论值61.9481936.05181 0.0518134.94819 如上表,原始数据在区域M3:N4。计算步骤为: 1°首先计算理论值:在空格M6输入: =SUM($M3:$N3)*SUM(M$3:M$4)/SUM(SM$3:8N$4)” 回车后,显示数字61.94819。把M6复制到M7和N6、N7,得到各理论值。请注意上式中 美元符号的位置,只有位置正确才能保证复制结果正确 2°进行统计检验:在P4单元格输入 “= CHITEST(M3:N4,M6:N7)” 回车后,显示数字0.238468。把P4的值与q相比:当P4>a时接受H,即列联表的行 与列相互独立:否则拒绝H,即行与列不独立。由于这一数字大于0.05,因此接受H, 认为给药方式与药效无关 此函数的第一个参数为观测值所在区域,第二个参数为理论值所在区域。这两个矩形区 域行列数必须相同。返回值为皮尔逊统计量对应的x2分布的尾区概率,其自由度为 (r-1)(c-1),其中r,c分别为数据区的行数和列数。如果数据区只有一行或一列,则自由 度为数据个数减1。这正是列联表独立性检验所需的自由度。 例6.(即本书例3.24)为检测不同灌溉方式对水稻叶片衰老的影响,收集如下资料: 灌溉方式绿叶数黄叶数 枯叶数 深水 浅水 152 14 16 问叶片衰老是否与灌溉方式有关?
= − = r i i i i T O T 1 2 2 ( ) 用途:吻合度检验,列联表独立性检验。 限制条件:各 Ti 5。 2. 列联表独立性检验: 对列联表进行独立性检验首先应计算理论值。对列联表独立性检验来说,理论值计算公 式为: 总和 i行总和 j列总和 Tij = 下面结合例题,介绍计算过程。 例 5.(即本书例 3. 22) 下表是对某种药的试验结果: 给药方式 有效 无效 口服 58 40 注射 64 31 问给药方式对药效果是否有影响? 解: 表 2. 例 5 的计算结果 有效 无效 口服 58 40 Chi-test 注射 64 31 0.238468 理论值 61.94819 36.05181 60.05181 34.94819 如上表,原始数据在区域 M3:N4。计算步骤为: 1 首先计算理论值:在空格 M6 输入: “=SUM($M3:$N3)*SUM(M$3:M$4)/SUM($M$3:$N$4)” 回车后,显示数字 61.94819。把 M6 复制到 M7 和 N6、N7,得到各理论值。请注意上式中 美元符号的位置,只有位置正确才能保证复制结果正确。 2 进行统计检验:在 P4 单元格输入: “= CHITEST(M3:N4,M6:N7)” 回车后,显示数字 0.238468。把 P4 的值与α相比:当 P4 >α时接受 H0,即列联表的行 与列相互独立;否则拒绝 H0,即行与列不独立。由于这一数字大于 0.05,因此接受 H0, 认为给药方式与药效无关。 此函数的第一个参数为观测值所在区域,第二个参数为理论值所在区域。这两个矩形区 域行列数必须相同。返回值为皮尔逊统计量对应的 2 分布的尾区概率,其自由度为 (r–1)(c–1),其中 r, c 分别为数据区的行数和列数。如果数据区只有一行或一列,则自由 度为数据个数减 1。这正是列联表独立性检验所需的自由度。 例 6.(即本书例 3. 24) 为检测不同灌溉方式对水稻叶片衰老的影响,收集如下资料: 灌溉方式 绿叶数 黄叶数 枯叶数 深水 浅水 湿润 146 183 152 7 9 14 7 13 16 问叶片衰老是否与灌溉方式有关?
表3.例6的计算结果 灌溉方式绿叶数黄叶数枯叶数 深水 7 Chi-test 浅水 9 0.229248 湿润 14 16 理论值140.69478.77513710.53016 180.2651112431413.49177 160040299817181197806 如表3,原始数据在区域Q3:S5。首先计算理论值:在空格Q7输入: =SUM($Q3:$S3)*SUM(Q$3:Q$5)/SUM($Q$3:$S5)” 回车后,显示数字140.6947。把q7复制到区域Q7:S9,得到各理论值。请注意上式中美元 符号的位置,只有位置正确才能保证复制结果正确。 在U4单元格输入: “= CHITEST(Q3:S5,Q7:S9)” 回车后,显示数字0.229248。由于这一数字大于0.05,因此接受H,认为叶片衰老与灌 溉方式无关。 3.吻合度检验: 对吻合度检验来说,理论值的计算显然与理论分布的类型有关,x2检验的自由度也可能 发生变化。例如对正态分布的吻合度检验,如果总体参数μ,σ2已知,则统计量自由度为 数据个数减1:但若总体参数未知,用样本均值ⅹ与方差S2代替,则统计量自由度也要再减 2。此时直接用 Whitest得到的尾区概率就不对了,需要再作一下变换(见例7)。现以正态 分布为例介绍吻合度检验计算步骤。 例7.(即本书例3.19)调查了某地200名男孩身高,得x=139.5,S=742,分组数据见 下表。男孩身高是否符合正态分布? 组号 区间 26) 126.13 130,134) 17 4,138) I138,142 55 142,146 6789 146,150) 18 解:计算结果如表4。计算过程为: 1°在C3至Cl中填入身高区间的上界。最后一个应为无穷大,填入足够大的数即可。 在D3格中输入: “= NORMDIST(C3,139.5,7.42,1)” 这一步是计算正态分布值。第一个参数为区间上限:第二个参数为均值;第三个参数为标 准差;第四个参数为0时计算密度函数,为1时计算分布函数。 把D3复制到D4:D1l 3°计算各区间的概率。在E3中输入“=D3”,在E4中输入“=D4-D3”,并复制E到E5:E1l。 4°计算理论值:在G3输入
解: 表 3. 例 6 的计算结果 灌溉方式 绿叶数 黄叶数 枯叶数 深水 146 7 7 Chi-test 浅水 183 9 13 0.229248 湿润 152 14 16 理论值 140.6947 8.775137 10.53016 180.2651 11.24314 13.49177 160.0402 9.981718 11.97806 如表 3,原始数据在区域 Q3:S5。首先计算理论值:在空格 Q7 输入: “=SUM($Q3:$S3)*SUM(Q$3:Q$5)/SUM($Q$3:$S$5)” 回车后,显示数字 140.6947。把 Q7 复制到区域 Q7:S9,得到各理论值。请注意上式中美元 符号的位置,只有位置正确才能保证复制结果正确。 在 U4 单元格输入: “=CHITEST(Q3:S5,Q7:S9)” 回车后,显示数字 0.229248。由于这一数字大于 0.05,因此接受 H0,认为叶片衰老与灌 溉方式无关。 3. 吻合度检验: 对吻合度检验来说,理论值的计算显然与理论分布的类型有关, 2 检验的自由度也可能 发生变化。例如对正态分布的吻合度检验,如果总体参数,σ2 已知,则统计量自由度为 数据个数减 1;但若总体参数未知,用样本均值 x 与方差 S 2 代替,则统计量自由度也要再减 2。此时直接用 Chitest 得到的尾区概率就不对了,需要再作一下变换(见例 7)。现以正态 分布为例介绍吻合度检验计算步骤。 例 7.(即本书例 3.19) 调查了某地 200 名男孩身高,得 x =139.5, S = 7.42 ,分组数据见 下表。男孩身高是否符合正态分布? 组号 区间 Oi 1 (-∞, 126) 8 2 [126, 130) 13 3 [130, 134) 17 4 [134, 138) 37 5 [138, 142) 55 6 [142, 146) 33 7 [146, 150) 18 8 [150, 154) 10 9 [154, +∞) 9 解:计算结果如表 4。计算过程为: 1°在 C3 至 C11 中填入身高区间的上界。最后一个应为无穷大,填入足够大的数即可。 2°在 D3 格中输入: “=NORMDIST(C3,139.5,7.42,1)” 这一步是计算正态分布值。第一个参数为区间上限;第二个参数为均值;第三个参数为标 准差;第四个参数为 0 时计算密度函数,为 1 时计算分布函数。 把 D3 复制到 D4:D11。 3°计算各区间的概率。在 E3 中输入“=D3”,在 E4 中输入“=D4-D3”,并复制 E4 到 E5:E11。 4°计算理论值:在 G3 输入
“=E3*200” 并复制G3到G4至G1 5°计算统计量:在B3输入 (F3-G3)A2/G 把H3复制到H4至H1,并在H2输入: Sum(H3: H11) 另一种计算统计量的方法为:在I3输入: “= Whitest(F3:F11,H3:H11)” 在I6输入 “= Chiinv(I3,8)” 可见I6的数值与H12是相同的 6°计算统计量对应的尾区概率:在I9输入 =chidist(16, 6) 7°将I9与a相比,当19>a时,接受H,所观察数据符合正态分布;当I9≤a时,拒 绝H,数据不符合正态分布。在本题中,I9的数值为0.085446>a,因此应接受H,可 认为男孩身高符合正态分布。计算结果如下表 表4.例7的计算结果 组号区间边界正态分布概率观察值理论值(Oi-Ti)2/ Ti Chi-test 1261260.0344250.03442586.8849240.1805970.196303 2[126,130)1300.1002160.0657911313.158230.001903 3[130,134)1340.2292740.1290581725.811633.008134统计量 4[134,138)1380.4198970.1906233738.124670.03317811.09629 5[138,142)1420.6319140.2120175542.403363.742049 6[142,146)1460.8094880.1775743335.514780.17807 7[146,150)1500.921480.1119921822.398320.8636890.085446 8[150,154)1540.974660.053181010.636090.038041 9>15410000010.0253495.0680043.050627 和 分位数12.59158 本来 Whitest函数返回的就是尾区概率,但它使用的自由度为数据个数减1,而现在应使 用数据个数减3为自由度,因此要使用函数Chinⅴ先把尾区概率变回统计量的值,然后再 用 Chidist求出正确自由度下的尾区概率 注意使用不同概率模型时,自由度的变化是不同的。一般来说,模型中使用几个统计量 代替未知参数,自由度就要在原来的基础上再减少几个。例如上面的例题用了样本期望和方 差代替未知参数,因此自由度比正常的 Pearson统计量少2:本书中例3.20,统计模型中没 有未知参数,因此自由度没有变化;例3.21有一个参数需用统计量代替,因此自由度需再 减 四、常用离散分布的统计计算: 离散分布统计计算中关键一点是正确建立尾区。尾区是从观察值开始,向对H成立不利 的方向求和。例如水质检验要求大肠杆菌不大于2个毫升,取2毫升检验,发现5个细菌, 问是否判断超标。此时H为:μ≤4,对H成立不利的方向应是细菌数增加,因此尾区概率 应为:∑P。其中p为2毫升水样中出现i个细菌的概率
“=E3*200” 并复制 G3 到 G4 至 G11。 5°计算统计量:在 H3 输入: “=(F3-G3)∧2/G3” 把 H3 复制到 H4 至 H11,并在 H12 输入: “=Sum(H3:H11)” 另一种计算统计量的方法为:在 I3 输入: “=Chitest(F3:F11, H3:H11)” 在 I6 输入: “=Chiinv(I3, 8)” 可见 I6 的数值与 H12 是相同的。 6°计算统计量对应的尾区概率:在 I9 输入: “=chidist(I6,6) ↙” 7°将 I9 与α相比,当 I9 > α时,接受 H0,所观察数据符合正态分布;当 I9 ≤ α时,拒 绝 H0,数据不符合正态分布。在本题中,I9 的数值为 0.085446 > α,因此应接受 H0,可 认为男孩身高符合正态分布。计算结果如下表。 表 4. 例 7 的计算结果 组号 区间 边界 正态分布 概率 观察值 理论值 (Oi-Ti)2/Ti Chi-test 1 <126 126 0.034425 0.034425 8 6.884924 0.180597 0.196303 2 [126,130) 130 0.100216 0.065791 13 13.15823 0.001903 3 [130,134) 134 0.229274 0.129058 17 25.81163 3.008134 统计量 4 [134,138) 138 0.419897 0.190623 37 38.12467 0.033178 11.09629 5 [138,142) 142 0.631914 0.212017 55 42.40336 3.742049 6 [142,146) 146 0.809488 0.177574 33 35.51478 0.17807 P 7 [146,150) 150 0.92148 0.111992 18 22.39832 0.863689 0.085446 8 [150,154) 154 0.97466 0.05318 10 10.63609 0.038041 9 >154 100000 1 0.02534 9 5.068004 3.050627 和 11.09629 分位数 12.59158 本来 Chitest 函数返回的就是尾区概率,但它使用的自由度为数据个数减 1,而现在应使 用数据个数减 3 为自由度,因此要使用函数 Chiinv 先把尾区概率变回统计量的值,然后再 用 Chidist 求出正确自由度下的尾区概率。 注意使用不同概率模型时,自由度的变化是不同的。一般来说,模型中使用几个统计量 代替未知参数,自由度就要在原来的基础上再减少几个。例如上面的例题用了样本期望和方 差代替未知参数,因此自由度比正常的 Pearson 统计量少 2;本书中例 3.20,统计模型中没 有未知参数,因此自由度没有变化;例 3.21 有一个参数需用统计量代替,因此自由度需再 减一。 四、常用离散分布的统计计算: 离散分布统计计算中关键一点是正确建立尾区。尾区是从观察值开始,向对 H0 成立不利 的方向求和。例如水质检验要求大肠杆菌不大于 2 个/毫升,取 2 毫升检验,发现 5 个细菌, 问是否判断超标。此时 H0 为:μ≤4,对 H0 成立不利的方向应是细菌数增加,因此尾区概率 应为: i=5 i p 。其中 pi 为 2 毫升水样中出现 i 个细菌的概率