第五章统计推断 所谓统计推断就是根据抽样分布率和概率理论,由样本结果(统计数)来推断总 体特征(参数)。试验实践中所获得的资料,通常都是样本的结果;而我们希望了解 的却是抽得样本的总体。 统计推断:统计假设测验 参数估计 统计假设测验是根据某种实际需要对未知的或不完全知道的统计总体提出一些 假设,然后由样本的实际结果,经过一定的计算,做出在概率意义上应当接受哪种假 设的测验。 例如在相同的栽培管理条件下种植了甲、乙两个玉米品种各15个小区,如果测 得甲品种平均亩产为x=650kg,乙品种平均亩产为x2=670kg,亩产相差20kg, 这究竟是由于甲品种的总体平均数m的确不同于乙品种的总体平均数呢?还是由 于随机抽样误差(A和并无不同)?这不能通过简单的比较来下结论,必须通过概 率计算做出选择,这就是统计假设测验要研究的问题。 参数估计是指由样本统计数对总体参数做出点估计和区间估计。点估计是指由样 本统计数估计相应参数。区间估计是指以一定的概率保证总体参数位于某两个数值之 间。 第一节统计假设测验的基本原理 统计假设测验的基本方法就是试验工作者提出有关某一总体参数的假 设。例如假设某批产品符合标准。但是如何确切地证实假设是正确的还是错误的呢? 当然可以把全部产品逐个检验,这种研究总体中全部个体的方法当然是很准确的,但 往往是行不通的。我们不得不采用另一种方法,即研究样本。也就是从全部产品中抽 取样本进行检验,然后推断这批产品是否合格。这种利用样本以测验假设是否正确或 错误的过程,称为一个假设正确性(或不正确性)的统计证明。如果通过测验证明假 与试验结果相符,则该假设就被接受:反之,如果假设与试验结果不相符,则该假 设就被否定。 对统计总体一般作两个假设,一个是假设总体参数与某一指定值相等或假设两个 总体参数相等,即假设其没有效应,这一假设称为无效假设,记作H:和无效假设 相对应的另一统计假设,叫对应假设或备择假设记作HA。Ho和HA应是对立的假设 即,如果接受H就否定HA,如果否定H就接受HA。例如:假设某一小麦新品种具 有原当地品种的产量,是指就产量性状而言,将新品种样本看成原当地品种总体的一 个随机样本,其总体平均产量μ等于指定值0(当地品种平均产量),故记作Ho:g 对应假设为 测验前提出无效假设的目的在于:可从假设的总体里推论随机抽样平均数的分 布,从而算出某一样本平均数指定值出现的概率,这样就可以研究样本与总体的关系, 作为假设测验的理论依据。无论是平均数,百分数,还是变异数的统计假设,均应在 试验前按研究目的提出。Ho的形式和内容可以多种多样,但必须遵循两个原则:① 有实际意义;②据之可以算出因抽样误差而获得样本结果的概率。下面通过例子来说
1 第五章 统计推断 所谓统计推断就是根据抽样分布率和概率理论,由样本结果(统计数)来推断总 体特征(参数)。试验实践中所获得的资料,通常都是样本的结果;而我们希望了解 的却是抽得样本的总体。 统计推断:统计假设测验 参 数 估 计 统计假设测验 是根据某种实际需要对未知的或不完全知道的统计总体提出一些 假设,然后由样本的实际结果,经过一定的计算,做出在概率意义上应当接受哪种假 设的测验。 例如在相同的栽培管理条件下种植了甲、乙两个玉米品种各 15 个小区,如果测 得甲品种平均亩产为 1 x =650 kg,乙品种平均亩产为 2 x =670 kg,亩产相差 20 kg, 这究竟是由于甲品种的总体平均数1 的确不同于乙品种的总体平均数2 呢?还是由 于随机抽样误差(1 和2 并无不同)?这不能通过简单的比较来下结论,必须通过概 率计算做出选择,这就是统计假设测验要研究的问题。 参数估计是指由样本统计数对总体参数做出点估计和区间估计。点估计是指由样 本统计数估计相应参数。区间估计是指以一定的概率保证总体参数位于某两个数值之 间。 第一节 统计假设测验的基本原理 一、统计假设测验的基本方法就是试验工作者提出有关某一总体参数的假 设。例如假设某批产品符合标准。但是如何确切地证实假设是正确的还是错误的呢? 当然可以把全部产品逐个检验,这种研究总体中全部个体的方法当然是很准确的,但 往往是行不通的。我们不得不采用另一种方法,即研究样本。也就是从全部产品中抽 取样本进行检验,然后推断这批产品是否合格。这种利用样本以测验假设是否正确或 错误的过程,称为一个假设正确性(或不正确性)的统计证明。如果通过测验证明假 设与试验结果相符,则该假设就被接受;反之,如果假设与试验结果不相符,则该假 设就被否定。 对统计总体一般作两个假设,一个是假设总体参数与某一指定值相等或假设两个 总体参数相等,即假设其没有效应,这一假设称为无效假设,记作 H0;和无效假设 相对应的另一统计假设,叫对应假设或备择假设,记作 HA。H0 和 HA 应是对立的假设, 即,如果接受 H0 就否定 HA,如果否定 H0 就接受 HA。例如:假设某一小麦新品种具 有原当地品种的产量,是指就产量性状而言,将新品种样本看成原当地品种总体的一 个随机样本,其总体平均产量等于指定值 0 (当地品种平均产量),故记作 H0: = 0,对应假设为 HA: ≠ 0。 测验前提出无效假设的目的在于:可从假设的总体里推论随机抽样平均数的分 布,从而算出某一样本平均数指定值出现的概率,这样就可以研究样本与总体的关系, 作为假设测验的理论依据。无论是平均数,百分数,还是变异数的统计假设,均应在 试验前按研究目的提出。H0 的形式和内容可以多种多样,但必须遵循两个原则:① 有实际意义;②据之可以算出因抽样误差而获得样本结果的概率。下面通过例子来说
明假设测验的基本方法 [例51设一水稻地方品种亩产u0=500kg,σ2=324kg 现一新品种平均亩产x=515kg,n=9(9个试验小区) 问 这样本是否从4=500kg的总体中随机抽出的,即该x的总体平均数是否不同于0 亦即x-0=15kg,这一差数究竟是抽样误差造成的?还是确实与0不同。 1、提出假设 这是测验单个平均数,则假该样本是从已知总体(总体平均数为指定值0)中随机 抽出的,即H0:=40。如上例,即假设新品种的总体平均数μ等于原当地品种总体 0=500kg,而样本平均数x40=515-500=15kg乃是随机误差;在Hb:H 0的假设下,我们就有一个具平均数n=10=500kg、2==324=36的 x分布,即M500,36);据之才能算得因抽样误差而获得一个与4o的相差≥15kg的x 的概率。如测验两个平均数,则假设两个样本的总体平均数相等,即Ho:A=42, 也就是假设两个样本平均数的差数x1-x2乃随机误差,而非真实差数 备择假设)HA是与Ho对立的假设,则HA:m≠2,即两个样本的总体平均数 不相等。 2、确定一个否定H的概率标准 这个标准叫显著水平,记作a。a是人为规定的小概率标准。在生物学研究中常 取α=0.05或α=001两个等级(水平)。也可选α=0.10或a=0.001等。显著水 平的选择,应根据试验要求或试验结论的重要性而定。 3、在“无效假设是正确的”假定下,研究样本平均数x的抽样分布 算出试验所得平均数x出现的概率有多大,即算出实得结果由抽样误差造成的概 率。或者划出接受区和否定区。二法选一即可。 (1)计算概率的方法 对例5.1,在H0:4=40的假设下可算得 515-50 2.5 查附表2,P(u1>25)=2×0.00621=0.01242。此即在y0=500的总体中, 如以n=9作随机抽样,抽得一个与500kg相差达15kg以上的x的概率为0.01242 (2)划接受区与否定区的方法 根据上章所述x和=x二的分布,我们知道 P(-1.96≤u≤1.96)=P(-1.96 ≤196)=0.95 196)=0.025,P( ≤-1.96)=0.025 因之可写为 x≥(4+1.96ax)]=0025和Px≤(-1.96a)]=0.025 因此,在x的抽样分布中落在(-196σx,+1.%ax)区间内的x有95%,落
2 明假设测验的基本方法。 [例 5.1]设一水稻地方品种亩产 0 = 500 kg, 2 = 324 kg 现一新品种平均亩产 x = 515 kg, n =9(9个试验小区) 问: 这样本是否从 = 500 kg 的总体中随机抽出的,即该 x 的总体平均数是否不同于 0, 亦即 x - 0 = 15 kg,这一差数究竟是抽样误差造成的?还是确实与 0 不同。 1、提出假设 这是测验单个平均数,则假该样本是从已知总体(总体平均数为指定值 0)中随机 抽出的,即 H0: = 。如上例,即假设新品种的总体平均数等于原当地品种总体 0 = 500 kg,而样本平均数 x - 0 = 515 - 500 = 15 kg 乃是随机误差;在 H0: = 0 的假设下,我们就有一个具平均数 = 0 = 500 kg、 2 x = n 2 = 9 324 = 36 的 x 分布,即 N(500,36);据之才能算得因抽样误差而获得一个与 0 的相差≥15 kg 的 x 的概率。如测验两个平均数,则假设两个样本的总体平均数相等,即 H0:1 = 2, 也就是假设两个样本平均数的差数 x 1- x 2 乃随机误差,而非真实差数。 备择假设)HA 是与 H0 对立的假设,则 HA:1 ≠ 2,即两个样本的总体平均数 不相等。 2、确定一个否定 H0 的概率标准 这个标准叫显著水平,记作。是人为规定的小概率标准。在生物学研究中常 取 = 0.05 或 = 0.01 两个等级(水平)。也可选 = 0.10 或 = 0.001 等。显著水 平的选择,应根据试验要求或试验结论的重要性而定。 3、在“无效假设是正确的”假定下,研究样本平均数 x 的抽样分布 算出试验所得平均数 x 出现的概率有多大,即算出实得结果由抽样误差造成的概 率。或者划出接受区和否定区。二法选一即可。 (1)计算概率的方法 对例 5.1,在 H0: = 0 的假设下可算得: u = x x − = 36 515 − 500 = 2.5 查附表 2,P(∣ u ∣> 2.5) = 2 × 0.00621 = 0.01242。此即在 0 = 500 的总体中, 如以 n = 9 作随机抽样,抽得一个与 500 kg 相差达 15 kg 以上的 x 的概率为 0.01242。 (2)划接受区与否定区的方法 根据上章所述 x 和 u = x x − 的分布,我们知道: P(-1.96 ≤ u ≤1.96) = P(-1.96 ≤ x x − ≤ 1.96) = 0.95 P( x x − ≥ 1.96) = 0.025, P( x x − ≤ -1.96) = 0.025 因之可写为: P[ x ≥ ( + 1.96 x )] = 0.025 和 P[ x ≤ ( - 1.96 x )] = 0.025 因此,在 x 的抽样分布中落在( - 1.96 x, + 1.96 x )区间内的 x 有 95%,落
在这一区间外(即X≤4-1.960和¥≥+1960x)的x只有5%。如果以5%概率 作为接受或否定Ho的界限,则前者为接受假设的区域,简称接受区域( region of acceptance);后者为否定假设的区域,简称否定区域( region of rejection)。在l 测验时,一般将接受区域和否定区域的两个临界值写作μ±1.%6σx,即当x在( 1.96σ,4+1.960)区间内为接受区域;而x≤(-1.960)和x≥(4+1960) 为两个否定H区域。所以在测验时先计算196,然后从加上和减去196σx,(计算 时μ用μ0=500代替),即得两个否定区域的临界值。同理,从平均数x离为258σ 的区间内,即从-258σ到μ+2.58σ区间为99%接受区域,任一样本平均数出现 于这一区间外的概率仅为001。它的两个否定区域则为x≤(-2580)和X≥(r 2.58σ)。例如5.1, √36=1176kg。因此,它的两 个5%概率的否定区域为x≥500+11.76,x≤500-1176,接受区域为500-11.76 ≤x≤500+1176,其划分的几何意义见图5.1。即≥511.76kg和x≤48824kg 的概率只有5%,48824kg≤x≤511.76kg的概率为95% 4.根据“小概率实际不可能性原理”接受或否定假设 “小概率实际不可能性原理”的基本内容为:概率很小的事件,在一次试验中几乎 不可能发生或可以认为不可能发生。如果我们假设了一些条件,并在假设的条件下能够 准确地算出事件A出现的概率很小,但在一次试验中,事件A竟出现了,那么,我们就 可以认为这个假设不正确,从而否定这个假设。 若在Ho:μ=4o的假设下,算出实得结果由抽样误差造成的概率P<a(a=0.05 或0.01),则否定H,接受HA;并分别称4和0的差异为显著( significant)或极 a=0.025 图在=60水平上接蔓各定面=的几商义 显著( very significant)。如果由误差造成的概率P≥α(α=005)则接受Ho,即μ 和山0的差异不显著。对例51已算得P(|u|>2.5)=001242<a=0.05,所以结 论是否定H,即该水稻新品种的亩产的总体平均数与原地方品种亩产的总体平均数 u0有显著差异。如果取a=001,P>a,则不应否定H,可见a的选择是很重要
3 在这一区间外(即 x ≤ - 1.96 x 和 x ≥ + 1.96 x )的 x 只有 5%。如果以 5%概率 作为接受或否定 H0 的界限,则前者为接受假设的区域,简称接受区域(region of acceptance);后者为否定假设的区域,简称否定区域(region of rejection)。在 u 测验时,一般将接受区域和否定区域的两个临界值写作 ± 1.96 x ,即当 x 在( - 1.96 x, + 1.96 x )区间内为接受区域;而 x ≤( - 1.96 x )和 x ≥ ( + 1.96 x ) 为两个否定 H0区域。所以在测验时先计算 1.96 x ,然后从加上和减去 1.96 x ,(计算 时用 0 = 500 代替),即得两个否定区域的临界值。同理,从平均数 x 离为 2.58 x 的区间内,即从 – 2.58 x 到 + 2.58 x 区间为 99%接受区域,任一样本平均数出现 于这一区间外的概率仅为 0.01。它的两个否定区域则为 x ≤( – 2.58 x )和 x ≥(+ 2.58 x )。例如 5.1,0 = 500 kg,1.96 x = 1.96× 36 = 11.76 kg。因此,它的两 个 5%概率的否定区域为 x ≥ 500 + 11.76,x ≤ 500 – 11.76,接受区域为 500 – 11.76 ≤ x ≤ 500 + 11.76,其划分的几何意义见图 5.1。即 x ≥ 511.76 kg 和 x ≤488.24 kg 的概率只有 5%,488.24 kg ≤ x ≤511.76 kg 的概率为 95%。 4. 根据“小概率实际不可能性原理”接受或否定假设 “小概率实际不可能性原理”的基本内容为:概率很小的事件,在一次试验中几乎 不可能发生或可以认为不可能发生。如果我们假设了一些条件,并在假设的条件下能够 准确地算出事件A 出现的概率很小,但在一次试验中,事件A 竟出现了,那么,我们就 可以认为这个假设不正确,从而否定这个假设。 若在 H0: = 0 的假设下,算出实得结果由抽样误差造成的概率 P < ( =0.05 或 0.01),则否定 H0,接受 HA;并分别称 和 0 的差异为显著 (significant)或极 显著(very significant)。如果由误差造成的概率P ≥ ( =0.05)则接受 H0,即 和 0 的差异不显著。对例5.1 已算得 P(∣u∣> 2.5) = 0.01242 < =0.05,所以结 论是否定 H0,即该水稻新品种的亩产的总体平均数与原地方品种亩产的总体平均数 0有显著差异。如果取 =0.01,P > ,则不应否定 H0,可见 的选择是很重要 的。 480 485 490 495 500 505 510 515 520 0.95 否定区 接受区 否定区 图 5.1 在 = 0.05 水平上接受或否定 H0: = 的几何意义 0.025 2 1 = 0.025 2 1 =
也可以根据接受区域和否定区域作出推断,例5.1得=515kg>51176kg,已 落入否定区域,所以我们冒5%以下的风险否定Ho 在实际测验时,计算可以简化。由于P(|u|>1.96)=005,P(|u|>258) 0.01。因此,在用u分布作假设测验时,实际算得的|u|>1.96就是在a=005水 平上差异显著,若丨u|>2.58就是在α=0.01水平上差异显著(或称极显著),不必 再计算所得u值的确切概率。综上所述,统计假设测验的步骤可总结如下 (1)提出无效假设H和备择假设HA (2)确定显著水平a (3)在H为正确的假定下,根据统计数的抽样分布规律,算出实得差异由误差 造成的概率:或划出否定区域 (4)将算得的概率和a相比较,或者将试验结果和否定区域相比较,从而作出接 受或否定假设的推断 二、两尾测验与一尾测验 1.两尾测验 如例51,无效假设为H:=40,即假设新品种亩产的总体平均数为500kg 对应假设为HA:4≠40,即假设平均亩产不是500kg,而是有大于500kg和小于500 kg两种可能性。因而在假设测验时所考虑的概率为正态曲线左边一尾概率(小于500 kg)和右边一尾概率(大于500kg)之和,这类测验称为两尾测验。 2.一尾测验 在某些情况下,两尾测验不一定符合实际需要。例如某种农药防治蚜虫的效果达 到90%才合格,如果进行抽样测验,则在x大于40=90%时,无论大多少都不需 要否定H:但如x小于40,却可能为一批不合格的药品。因此,假设测验应为Hop ≥90%(即该药品合格),HA:4<90%(药品不合格)。这样,否定区域就只有左 尾。由于P(u<-1645)=0.05故如以a=0.05作u测验,则所得u<-1.645就否定 Ho,于是不合格产品更易被发现。反之,如果x<H0是不需要否定Ho的(如农牧产 品中有毒物质的含量),而x>却可能有严重后果,则所有假设应为H:≤40 对HA:4>μ0。这时,否定区域就只有右尾,所得u>1.645就否定H 一般而论,如果凭借一定的知识和经验,推测山应当或可能是小于o的,为了测 验是否显著小于,我们的假设应是H:4≥0。对HA:H<0。这时左尾是否定 区域(图5.2a)反之,为了测验是否显著大于4o,我们的假设应是Ho:≤0 对HA:μ>μ0。这时右尾是否定区域(图5.2b) 三.统计假设测验的两类错误 统计假设测验是根据一定的概率标准(α),由样本的结果对总体的特征作出推 断。因此,不论是接受H或是否定Ho都没有100%的保证,也就是说,不能百分之 百地肯定不发生错误,这就意味着我们需要冒一定的风险。如果Ho是真实的,我们 通过测验却否定了它,就犯了一个否定真实假设的错误。这叫第一类错误( first kind error)或I型错误( type I error)。I型错误只有在否定Ho时才会发生。由于规定 显著水平为a,故H为真而被否定的概率最多为a:因而这类错误又叫a错误。如例
4 也可以根据接受区域和否定区域作出推断,例 5.1 得 x =515 kg > 511.76 kg,已 落入否定区域,所以我们冒 5%以下的风险否定 H0。 在实际测验时,计算可以简化。由于 P(∣u∣> 1.96) = 0.05,P(∣u∣> 2.58) = 0.01。因此,在用 u 分布作假设测验时,实际算得的∣u∣> 1.96 就是在 = 0.05 水 平上差异显著,若∣u∣> 2.58 就是在 =0.01 水平上差异显著(或称极显著),不必 再计算所得 u 值的确切概率。综上所述,统计假设测验的步骤可总结如下: (1)提出无效假设 H0 和备择假设 HA。 (2)确定显著水平。 (3)在 H0 为正确的假定下,根据统计数的抽样分布规律,算出实得差异由误差 造成的概率;或划出否定区域。 (4)将算得的概率和相比较,或者将试验结果和否定区域相比较,从而作出接 受或否定假设的推断。 二、两尾测验与一尾测验 1. 两尾测验 如例 5.1,无效假设为 H0: = 0,即假设新品种亩产的总体平均数为 500 kg。 对应假设为 HA: ≠ 0,即假设平均亩产不是 500 kg,而是有大于 500 kg 和小于 500 kg 两种可能性。因而在假设测验时所考虑的概率为正态曲线左边一尾概率(小于 500 kg)和右边一尾概率(大于 500 kg)之和,这类测验称为两尾测验。 2. 一尾测验 在某些情况下,两尾测验不一定符合实际需要。例如某种农药防治蚜虫的效果达 到 90%才合格,如果进行抽样测验,则在 x 大于 0 = 90%时,无论大多少都不需 要否定 H0;但如 x 小于 0,却可能为一批不合格的药品。因此,假设测验应为 H0 ≥ 90%(即该药品合格),HA: < 90%(药品不合格)。这样,否定区域就只有左 尾。由于 P (u < - 1.645) =0.05,故如以= 0.05 作 u 测验,则所得 u < - 1.645 就否定 H0,于是不合格产品更易被发现。反之,如果 x < 0 是不需要否定 H0 的(如农牧产 品中有毒物质的含量),而 x > 0 却可能有严重后果,则所有假设应为 H0: ≤ 0。 对 HA: > 0。这时,否定区域就只有右尾,所得 u > 1.645 就否定 H0。 一般而论,如果凭借一定的知识和经验,推测应当或可能是小于 0 的,为了测 验是否显著小于0,我们的假设应是 H0: ≥ 0。对 HA: < 0。这时左尾是否定 区域(图 5.2a)反之,为了测验是否显著大于 0,我们的假设应是 H0:≤ 0。 对 HA: > 0。这时右尾是否定区域(图 5.2b)。 三.统计假设测验的两类错误 统计假设测验是根据一定的概率标准(),由样本的结果对总体的特征作出推 断。因此,不论是接受 H0 或是否定 H0 都没有 100%的保证,也就是说,不能百分之 百地肯定不发生错误,这就意味着我们需要冒一定的风险。如果 H0 是真实的,我们 通过测验却否定了它,就犯了一个否定真实假设的错误。这叫第一类错误(first kind error)或 I 型错误(type I error)。I 型错误只有在否定 H0 时才会发生。由于规定 显著水平为,故 H0 为真而被否定的概率最多为;因而这类错误又叫 错误。如例
51,我们在a=005水平上否定了Ho,推断新品种平均亩产不同于原地方品种的亩 但该新品种即使与地方品种平均亩产相同:以n=9抽样,仍有5%以下的概率 使x和仙相差超过15kg。所以上述推断为错误的概率P<0.05。显然,规定a=0.05 为否定假设的概率标准,就是说我们假设测验结论仅有95%的把握,同时却冒着5 %的下错误结论的风险。而采用更高的显著水平(如a=0.01),则犯第一类错误的 概率就更小了。如果H是不真实的,我们通过测验却不能发现其不真实而接受了它 即犯了一个接受不真实的Ho的错误。这叫第二类错误( second kind error)或Ⅱ型错 误( type ll error)Ⅱ型错误只有在接受Ho时才会发生。通常把犯第二类错误的概率 记为β,所以这类错误又称作B错误。这两类错误的关系如表5.1 表51假设测验的两类错误 测验结果 如果Ho是正确的 如果Ho是错误的 设 如果Ho被否定 第一类错误 没有错误 如果Ho被接受 没有错误 第二类错误 犯第二类错误的概率β,可用例5.1水稻新品种产量为例说明如下: 例5.1中水稻地方品种亩产量服从0=500kg,a2=324kg的正态分布。当 以n=9抽样时,其服从ux=0=500kg、a2= =36的正态分布。当以 0.05为显著水平时,其接受区域下限为500-196×√36=48824kg,上限为500 +196×√36=51.76kg。现假设新品种是一个=505,而方差与地方品种亩产 量方差σ2相同的正态总体,则H:=uo显然是错误的,但是总体的x有相当 部分落在40分布的接受区域内(图53),其概率β可估计为 √6=-279,n=5116-505 488.2-505 79)=0.0026,P(u<1.13)=0.8708 B=0.8708-0.0026=0.8682 因此,尽管与0相差5kg,但是由于误差较大,我们不能发现Ho:4=0为 错误的概率却达到B=0.8682。这就是犯第二类错误的概率 如果将显著水平提高到a=0.01,则由于40分布接受区域的扩大,分布的x落 入该接受区域的将更多。因而更易接受H,犯β错误的概率更大。故显著水平定得 过高,虽然在否定Ho时减少了α错误,但在接受H时却可能增大β错误
5 5.1,我们在 = 0.05 水平上否定了 H0,推断新品种平均亩产不同于原地方品种的亩 产。但该新品种即使与地方品种平均亩产相同;以 n = 9 抽样,仍有 5%以下的概率 使 x 和0 相差超过 15 kg。所以上述推断为错误的概率 P < 0.05。显然,规定 =0.05 为否定假设的概率标准,就是说我们假设测验结论仅有 95%的把握,同时却冒着 5 %的下错误结论的风险。而采用更高的显著水平(如 =0.01),则犯第一类错误的 概率就更小了。如果 H0 是不真实的,我们通过测验却不能发现其不真实而接受了它, 即犯了一个接受不真实的 H0 的错误。这叫第二类错误(second kind error)或Ⅱ型错 误(type Ⅱerror) Ⅱ型错误只有在接受 H0 时才会发生。通常把犯第二类错误的概率 记为β,所以这类错误又称作β错误。这两类错误的关系如表 5.1。 表 5.1 假设测验的两类错误 犯第二类错误的概率β,可用例 5.1 水稻新品种产量为例说明如下: 例 5.1 中水稻地方品种亩产量服从 0 = 500 kg, 2 = 324 kg 的正态分布。当 以 n = 9 抽样时,其服从 x = 0=500 kg、 2 x = n 2 =36 的正态分布。当以 = 0.05 为显著水平时,其接受区域下限为 500 - 19.6 × 36 = 488.24 kg,上限为 500 + 19.6 × 36 = 511.76 kg。现假设新品种是一个=505,而方差与地方品种亩产 量方差 2 相同的正态总体,则 H0: = 0 显然是错误的,但是总体的 x 有相当一 部分落在 0 分布的接受区域内(图 5.3),其概率β可估计为: u1 = 36 488.2 − 505 = -2.79, u2 = 36 511.76 − 505 = 1.13 P(u < -2.79) = 0.0026, P(u < 1.13) = 0.8708 β = 0.8708 –0.0026 = 0.8682 因此,尽管与 0 相差 5 kg,但是由于误差较大,我们不能发现 H0: = 0 为 错误的概率却达到β = 0.8682。这就是犯第二类错误的概率。 如果将显著水平提高到 =0.01,则由于 0 分布接受区域的扩大,分布的 x 落 入该接受区域的将更多。因而更易接受 H0,犯β错误的概率更大。故显著水平定得 过高,虽然在否定 H0 时减少了错误,但在接受 H0 时却可能增大β错误。 如果 H0是正确的 如果 H0 是错误的 如果 H0 被否定 第一类错误 没有错误 如果 H0 被接受 没有错误 第二类错误 统 果 假 设 测 结 验 计