第五章t检验 前面讲了样本平均数抽样分布的问题。抽样研究的目的是用样本信息来推断总体特征。 所谓统计推断是根据样本和假定模型对总体作出的以概率形式表述的推断,它主要包括假 设检验( test of hypothesis)和参数估计( para metric estimation)二个内容。由一个样本 平均数可以对总体平均数作出估计,但样本平均数包含有抽样误差,用包含有抽样误差的 样本平均数来推断总体,其结论并不是绝对正确的。因而要对样本平均数进行统计假设检 假设检验又叫显著性检验( test of significance),是统计学中一个很重要的内容。显著 性检验的方法很多,常用的有检验、F检验和x2检验等。尽管这些检验方法的用途及使 用条件不同,但其检验的基本原理是相同的。本章以两个平均数的差异显著性检验为例来 阐明显著检验的原理,介绍几种t检验的方法,然后介绍总体参数的区间估计( interval estmation 第一节显著性检验的基本原理 、显著性检验的意义 为了便于理解,我们结合一个具体例子来说明显著性检验的意义。随机抽测10头长白 猪和10头大白猪经产母猪的产仔数,资料如下 长白:11,11,9,12,10,13,13,8,10,13 大白:8,11,12,10,9,8,8,9,10,7 经计算,得长白猪10头经产母猪产仔平均数x1=11头,标准差S1=1.76头;大白猪10 头经产母猪产仔平均数x2=92头,标准差S2=1.549头。能否仅凭这两个平均数的差值 1x2=18头,立即得出长白与大白两品种经产母猪产仔数不同的结论呢?统计学认为 这样得出的结论是不可靠的。这是因为如果我们再分别随机抽测10头长白猪和10头大白 猪经产母猪的产仔数,又可得到两个样本资料。由于抽样误差的随机性,两样本平均数就 不一定是11头和9.2头,其差值也不一定是1.8头。造成这种差异可能有两种原因,一是 品种造成的差异,即是长白猪与大白猪本质不同所致,另一可能是试验误差(或抽样误差) 对两个样本进行比较时,必须判断样本间差异是抽样误差造成的,还是本质不同引起的。 如何区分两类性质的差异?怎样通过样本来推断总体?这正是显著性检验要解决的问题。 两个总体间的差异如何比较?一种方法是研究整个总体,即由总体中的所有个体数据 计算出总体参数进行比较。这种研究整个总体的方法是很准确的,但常常是不可能进行的 因为总体往往是无限总体,或者是包含个体很多的有限总体。因此,不得不采用另一种方 法,即研究样本,通过样本研究其所代表的总体。例如,设长白猪经产母猪产仔数的总体 平均数为1,大白猪经产母猪产仔数的总体平均数为H2,试验研究的目的,就是要给41 2是否相同做出推断。由于总体平均数{1、H2未知,在进行显著性检验时只能以样本 平均数x1、x2作为检验对象,更确切地说,是以(x-x2)作为检验对象
54 第五章 t 检验 前面讲了样本平均数抽样分布的问题。抽样研究的目的是用样本信息来推断总体特征。 所谓统计推断是根据样本和假定模型对总体作出的以概率形式表述的推断,它主要包括假 设检验(test of hypothesis)和参数估计(parametric estimation)二个内容。由一个样本 平均数可以对总体平均数作出估计,但样本平均数包含有抽样误差,用包含有抽样误差的 样本平均数来推断总体,其结论并不是绝对正确的。因而要对样本平均数进行统计假设检 验。 假设检验又叫显著性检验(test of significance),是统计学中一个很重要的内容。显著 性检验的方法很多,常用的有 t 检验、F 检验和 2 检验等。尽管这些检验方法的用途及使 用条件不同,但其检验的基本原理是相同的。本章以两个平均数的差异显著性检验为例来 阐明显著检验的原理,介绍几种 t 检验的方法,然后介绍总体参数的区间估计(interval estimation)。 第一节 显著性检验的基本原理 一、显著性检验的意义 为了便于理解,我们结合一个具体例子来说明显著性检验的意义。随机抽测 10 头长白 猪和 10 头大白猪经产母猪的产仔数,资料如下: 长白:11,11,9,12,10,13,13,8,10,13 大白:8,11,12,10,9,8,8,9,10,7 经计算,得长白猪 10 头经产母猪产仔平均数 1 x =11 头,标准差 S1=1.76 头;大白猪 10 头经产母猪产仔平均数 2 x =9.2 头,标准差 S2=1.549 头。能否仅凭这两个平均数的差值 1 x - 2 x =1.8 头,立即得出长白与大白两品种经产母猪产仔数不同的结论呢?统计学认为, 这样得出的结论是不可靠的。这是因为如果我们再分别随机抽测 10 头长白猪和 10 头大白 猪经产母猪的产仔数,又可得到两个样本资料。由于抽样误差的随机性,两样本平均数就 不一定是 11 头和 9.2 头,其差值也不一定是 1.8 头。造成这种差异可能有两种原因,一是 品种造成的差异,即是长白猪与大白猪本质不同所致,另一可能是试验误差(或抽样误差)。 对两个样本进行比较时,必须判断样本间差异是抽样误差造成的,还是本质不同引起的。 如何区分两类性质的差异?怎样通过样本来推断总体?这正是显著性检验要解决的问题。 两个总体间的差异如何比较?一种方法是研究整个总体,即由总体中的所有个体数据 计算出总体参数进行比较。这种研究整个总体的方法是很准确的,但常常是不可能进行的, 因为总体往往是无限总体,或者是包含个体很多的有限总体。因此,不得不采用另一种方 法,即研究样本,通过样本研究其所代表的总体。例如,设长白猪经产母猪产仔数的总体 平均数为 1 ,大白猪经产母猪产仔数的总体平均数为 2 ,试验研究的目的,就是要给 1 、 2 是否相同做出推断。由于总体平均数 1 、 2 未知,在进行显著性检验时只能以样本 平均数 1 x 、 2 x 作为检验对象,更确切地说,是以( 1 x - 2 x )作为检验对象
为什么以样本平均数作为检验对象呢?这是因为样本平均数具有下述特征 1、离均差的平方和∑(x-x)2最小。说明样本平均数与样本各个观测值最接近,平 均数是资料的代表数。 2、样本平均数是总体平均数的无偏估计值,即E(x)=μ 3、根据统计学中心极限定理,样本平均数x服从或逼近正态分布。 所以,以样本平均数作为检验对象,由两个样本平均数差异的大小去推断样本所属总 体平均数是否相同是有其依据的 由上所述,一方面我们有依据由样本平均数x和x2的差异来推断总体平均数H1、H2 相同与否,另一方面又不能仅据样本平均数表面上的差异直接作出结论,其根本原因在于 试验误差(或抽样误差)的不可避免性。若对样本观测值的数据结构作一简单剖析,就可 更清楚地看到这一点 通过试验测定得到的每个观测值x,既由被测个体所属总体的特征决定,又受个体差 异和诸多无法控制的随机因素的影响。所以观测值x由两部分组成,即x1=H+E1。总体平 均数反映了总体特征,E表示误差。若样本含量为n,则可得到n个观测值:x1,x2,…, xn。于是样本平均数x=∑xn=∑(+6,)n=+E。说明样本平均数并非总体平均 数,它还包含试验误差的成分。 对于接受不同处理的两个样本来说,则有:x=41+E1,x2=42+E2 这说明两个样本平均数之差(x-x2)也包括了两部分:一部分是两个总体平均数的 差(142),叫做试验的处理效应( treatment effect.:另一部分是试验误差(E1-E2) 也就是说样本平均数的差(x1x2)包含有试验误差,它只是试验的表面效应。因此,仅 凭(x1x2)就对总体平均数H1、42是否相同下结论是不可靠的。只有通过显著性检验 才能从(x1-x2)中提取结论。对(x-x2)进行显著性检验就是要分析:试验的表面效 应(x1x2)主要由处理效应(H1-2)引起的,还是主要由试验误差所造成。虽然处理 效应(412)未知,但试验的表面效应是可以计算的,借助数理统计方法可以对试验误 差作出估计。所以,可从试验的表面效应与试验误差的权衡比较中间接地推断处理效应是 否存在,这就是显著性检验的基本思想。 为了通过样本对其所在的总体作出符合实际的推断,要求合理进行试验设计,准确地 进行试验与观察记载,尽量降低试验误差,避免系统误差,使样本尽可能代表总体。只有 从正确、完整而又足够的资料中才能获得可靠的结论。若资料中包含有较大的试验误差与 系统误差,有许多遗漏、缺失甚至错误,再好的统计方法也无济于事。因此,收集到正确、 完整而又足够的资料是通过显著性检验获得可靠结论的基本前提。 二、显著性检验的基本步骤 仍以前面所举实例说明显著性检验的基本步骤 )首先对试验样本所在的总体作假设这里假设=2或1-2=0,即假 设长白猪和大白猪两品种经产母猪产仔数的总体平均数相等,其意义是试验的表面效应 xx2=1.8头是试验误差,处理无效,这种假设称为无效假设( null hypothesis),记作Ha 1=μ2或A1-μ2=0。无效假设是被检验的假设,通过检验可能被接受,也可能被否定。提
55 为什么以样本平均数作为检验对象呢?这是因为样本平均数具有下述特征: 1、离均差的平方和∑( x - x ) 2 最小。说明样本平均数与样本各个观测值最接近,平 均数是资料的代表数。 2、样本平均数是总体平均数的无偏估计值,即 E( x )=μ。 3、根据统计学中心极限定理,样本平均数 x 服从或逼近正态分布。 所以,以样本平均数作为检验对象,由两个样本平均数差异的大小去推断样本所属总 体平均数是否相同是有其依据的。 由上所述,一方面我们有依据由样本平均数 1 x 和 2 x 的差异来推断总体平均数 1 、2 相同与否,另一方面又不能仅据样本平均数表面上的差异直接作出结论,其根本原因在于 试验误差(或抽样误差)的不可避免性。若对样本观测值的数据结构作一简单剖析,就可 更清楚地看到这一点。 通过试验测定得到的每个观测值 i x ,既由被测个体所属总体的特征决定,又受个体差 异和诸多无法控制的随机因素的影响。所以观测值 i x 由两部分组成,即 i x = + i 。总体平 均数 反映了总体特征, i 表示误差。若样本含量为 n ,则可得到 n 个观测值: 1 x , 2 x , , n x 。于是样本平均数 x =xi n =( + i ) n = + i 。说明样本平均数并非总体平均 数,它还包含试验误差的成分。 对于接受不同处理的两个样本来说,则有: 1 x = 1 + 1 , 2 x = 2 + 2 。 这说明两个样本平均数之差( 1 x - 2 x )也包括了两部分:一部分是两个总体平均数的 差( 1 - 2 ),叫做试验的处理效应(treatment effect);另一部分是试验误差( 1 - 2 )。 也就是说样本平均数的差( 1 x - 2 x )包含有试验误差,它只是试验的表面效应。因此,仅 凭( 1 x - 2 x )就对总体平均数 1、 2 是否相同下结论是不可靠的。只有通过显著性检验 才能从( 1 x - 2 x )中提取结论。对( 1 x - 2 x )进行显著性检验就是要分析:试验的表面效 应( 1 x - 2 x )主要由处理效应( 1 - 2 )引起的,还是主要由试验误差所造成。虽然处理 效应( 1 - 2 )未知,但试验的表面效应是可以计算的,借助数理统计方法可以对试验误 差作出估计。所以,可从试验的表面效应与试验误差的权衡比较中间接地推断处理效应是 否存在,这就是显著性检验的基本思想。 为了通过样本对其所在的总体作出符合实际的推断,要求合理进行试验设计,准确地 进行试验与观察记载,尽量降低试验误差,避免系统误差,使样本尽可能代表总体。只有 从正确、完整而又足够的资料中才能获得可靠的结论。若资料中包含有较大的试验误差与 系统误差,有许多遗漏、缺失甚至错误,再好的统计方法也无济于事。因此,收集到正确、 完整而又足够的资料是通过显著性检验获得可靠结论的基本前提。 二、显著性检验的基本步骤 仍以前面所举实例说明显著性检验的基本步骤。 (一)首先对试验样本所在的总体作假设 这里假设 1 = 2 或 1 - 2 =0,即假 设长白猪和大白猪两品种经产母猪产仔数的总体平均数相等,其意义是试验的表面效应: 1 x - 2 x =1.8 头是试验误差,处理无效,这种假设称为无效假设(null hypothesis), 记作 H0 : 1 = 2 或 1 - 2 =0。无效假设是被检验的假设,通过检验可能被接受,也可能被否定。提
出H0:=2或A2=0的同时,相应地提出一对应假设,称为备择假设( alternative hypothesis),记作H4。备择假设是在无效假设被否定时准备接受的假设。本例的备择假 设是H4:仙≠2或2≠0,即假设长白猪与大白猪两品种经产母猪产仔数的总体平 均数山1与2不相等或山与山2之差不等于零,亦即存在处理效应,其意义是指试验的表面 效应,除包含试验误差外,还含有处理效应在内 (二)在无效假设成立的前提下,构造合适的统计量,并研究试验所得统 计量的抽样分布,计算无效假设正确的概率对于上述例子,研究在无效假设H0: H1=2成立的前提下,统计量(x-x2)的抽样分布。经统计学研究,得到一个统计量t: x1-x2 其中 (n1-1)+(n2-1) Sx-叫做均数差异标准误:n1、n2为两样本的含量 所得的统计量服从自由度d=(n1-1)+(n2-1)的t分布。 根据两个样本的数据,计算得:x-x2=192=18 (x-x)2+2(x2-x2)2 (n1-1)+(m2-1) 3-2 l1-92 0.742 我们需进一步估计出|≥2.426的两尾概率,即估计P(|≥2.426)是多少?查附 表3,在4=(n1-1)+(n2-1)=(10-1)+(101)=18时,两尾概率为0.05的临界t值 to508=2.101,两尾概率为0.01的临界值:lo08=2.878,即 P(|l|>2.101)=P(D2.101)+P(t<-2.101)=0.05 P(|t|>2.878)=P(1>2.878)+P(-2.878)=0.01 由于根据两样本数据计算所得的t值为2.426,介于两个临界t值之间,即 所以,|l≥2.426的概率P介于0.01和0.05之间,即:0.01<P0.05
56 出 H0 : 1 = 2 或 1 - 2 =0 的同时,相应地提出一对应假设,称为备择假设(alternative hypothesis),记作 H A 。备择假设是在无效假设被否定时准备接受的假设。本例的备择假 设是 H A: 1 ≠ 2 或 1 - 2 ≠0,即假设长白猪与大白猪两品种经产母猪产仔数的总体平 均数 1 与 2 不相等或 1 与 2 之差不等于零,亦即存在处理效应,其意义是指试验的表面 效应,除包含试验误差外,还含有处理效应在内。 (二)在无效假设成立的前提下,构造合适的统计量,并研究试验所得统 计量的抽样分布,计算无效假设正确的概率 对于上述例子,研究在无效假设 H0 : 1 = 2 成立的前提下,统计量( 1 x - 2 x )的抽样分布。经统计学研究,得到一个统计量 t: 1 2 1 2 Sx x x x t − − = 其中 1 2 Sx −x = ) 1 1 ( ( 1) ( 1) ( ) ( ) 1 2 1 2 2 2 2 2 1 1 n n n n x x x x + − + − − + − 1 2 Sx −x 叫做均数差异标准误; 1 n 、 2 n 为两样本的含量。 所得的统计量 t 服从自由度 df =( 1 n -1)+( 2 n -1)的 t 分布。 根据两个样本的数据,计算得: 1 x - 2 x =11-9.2=1.8; 1 2 Sx −x = ) 1 1 ( ( 1) ( 1) ( ) ( ) 1 2 1 2 2 2 2 2 1 1 n n n n x x x x + − + − − + − = ) 10 1 10 1 ( (10 1) (10 1) 28 21.6 + − + − + =0.742 1 2 1 2 Sx x x x t − − = = 0.742 11 − 9.2 =2.426 我们需进一步估计出|t|≥2.426 的两尾概率,即估计 P(| t|≥2.426)是多少?查附 表 3,在 df =( 1 n -1)+( 2 n -1)=(10-1)+(10-1)=18 时,两尾概率为 0.05 的临界 t 值: 0.05(18) t =2.101,两尾概率为 0.01 的临界 t 值: 0.01(18) t =2.878,即: P(| t|>2.101)= P(t>2.101)+ P(t <-2.101)=0.05 P(| t|>2.878)= P(t>2.878)+ P(t<-2.878)=0.01 由于根据两样本数据计算所得的 t 值为 2.426,介于两个临界 t 值之间,即: t0.05<2.426<t0.01 所以,| t|≥2.426 的概率 P 介于 0.01 和 0.05 之间,即:0.01 <P< 0.05
f(t) 2.T 878-2.101 2.1012.878 2.426 2.426 图5-1|t|≥2.426的两尾概率 如图5-1所示,说明无效假设成立的可能性,即试验的表面效应为试验误差的可能性 在0.01—0.05之间。 (三)根据“小概率事件实际不可能性原理”否定或接受无效假设上章曾 论及:若随机事件的概率很小,例如小于0.05,0.01,0.001,称之为小概率事件;在统 计学上,把小概率事件在一次试验中看成是实际上不可能发生的事件,称为小概率事件实 际不可能原理。根据这一原理,当试验的表面效应是试验误差的概率小于0.05时,可以认 为在一次试验中试验表面效应是试验误差实际上是不可能的,因而否定原先所作的无效假 设H0:1=2,接受备择假设H4:≠2,即认为:试验的处理效应是存在的。当试 验的表面效应是试验误差的概率大于0.05时,则说明无效假设H0:p1=2成立的可能性 大,不能被否定,因而也就不能接受备择假设H4:≠μ2。 本例中,按所建立的H0:1=42,试验的表面效应是试验误差的概率在0.01-0.05 之间,小于0.05,故有理由否定H0:p1=2,从而接受H4:≠山2。可以认为长白猪 与大白猪两品种经产母猪产仔数总体平均数1和2不相同。 综上所述,显著性检验,从提出无效假设与备择假设到根据小概率事件实际不可能性 原理来否定或接受无效假设,这一过程实际上是应用所谓“概率性质的反证法”对试验样 本所属总体所作的无效假设的统计推断。对于各种显著性检验的方法,除明确其应用条件, 掌握有关统计运算方法外,正确的统计推断是不可忽视的。 三、显著水平与两种类型的错误 在显著性检验中,否定或接受无效假设的依据是“小概率事件实际不可能性原理” 用来确定否定或接受无效假设的概率标准叫显著水平( significance level),记作α。在生 物学研究中常取a=0.05或α=0.01。对于上述例子所用的检验方法(t检验)来说,若
57 如图 5-1 所示,说明无效假设成立的可能性,即试验的表面效应为试验误差的可能性 在 0.01─0.05 之间。 (三)根据“小概率事件实际不可能性原理”否定或接受无效假设 上章曾 论及:若随机事件的概率很小,例如小于 0.05,0.01,0.001,称之为小概率事件;在统 计学上,把小概率事件在一次试验中看成是实际上不可能发生的事件,称为小概率事件实 际不可能原理。根据这一原理,当试验的表面效应是试验误差的概率小于 0.05 时,可以认 为在一次试验中试验表面效应是试验误差实际上是不可能的,因而否定原先所作的无效假 设 H0 : 1 = 2 ,接受备择假设 H A: 1 ≠ 2 ,即认为:试验的处理效应是存在的。当试 验的表面效应是试验误差的概率大于 0.05 时,则说明无效假设 H0 :1 = 2 成立的可能性 大,不能被否定,因而也就不能接受备择假设 H A: 1 ≠ 2 。 本例中,按所建立的 H0 : 1 = 2 ,试验的表面效应是试验误差的概率在 0.01─0.05 之间,小于 0.05,故有理由否定 H0 : 1 = 2 ,从而接受 H A: 1 ≠ 2 。可以认为长白猪 与大白猪两品种经产母猪产仔数总体平均数 1 和 2 不相同。 综上所述,显著性检验,从提出无效假设与备择假设到根据小概率事件实际不可能性 原理来否定或接受无效假设,这一过程实际上是应用所谓“概率性质的反证法”对试验样 本所属总体所作的无效假设的统计推断。对于各种显著性检验的方法,除明确其应用条件, 掌握有关统计运算方法外,正确的统计推断是不可忽视的。 三、显著水平与两种类型的错误 在显著性检验中,否定或接受无效假设的依据是“小概率事件实际不可能性原理”。 用来确定否定或接受无效假设的概率标准叫显著水平(significance level),记作 。在生 物学研究中常取 =0.05 或 =0.01。对于上述例子所用的检验方法(t 检验)来说,若 图 5-1 | t|≥2.426 的两尾概率
l<n5,则说明试验的表面效应属于试验误差的概率P>0.05,即表面效应属于试验误差 的可能性大,不能否定H0:A1=2,统计学上把这一检验结果表述为:“两个总体平均数 1与n2差异不显著”在计算所得的r值的右上方标记“ns”或不标记符号:若tos≤ll to0,则说明试验的表面效应属于试验误差的概率P在0.01-0.05之间,即0.01<P<0.05, 表面效应属于试验误差的可能性较小,应否定H0:=2,接受H4:≠2,统计学 上把这一检验结果表述为:“两个总体平均数1与2差异显著”,在计算所得的t值的右上 方标记“*”若|l|≥to0,则说明试验的表面效应属于试验误差的概率P不超过0.01,即 P≤0.01,表面效应属于试验误差的可能性更小,应否定H0:A1=H2,接受H4:灿≠2 统计学上把这一检验结果表述为:“两个总体平均数山与2差异极显著”,在计算所得的t 值的右上方标记“**”。 这里可以看到,是否否定无效假设H0:A1=2,是用实际计算出的检验统计量t的 绝对值与显著水平a对应的临界t值L比较。若≥Ln,则在a水平上否定H0:A1=2 若ln(t,则不能在a水平上否定H0:A=2。区间(-a,l]和[n+)称为a水平上的 否定域,而区间(-ta,la)则称为a水平上的接受域c 假设检验时选用的显著水平,除a=0.05和0.01为常用外,也可选a=0.10或a=0.001 等等。到底选哪种显著水平,应根据试验的要求或试验结论的重要性而定。如果试验中难 以控制的因素较多,试验误差可能较大,则显著水平可选低些,即α值取大些。反之,如 试验耗费较大,对精确度的要求较高,不容许反复,或者试验结论的应用事关重大,则所 选显著水平应高些,即α值应该小些。显著水平α对假设检验的结论是有直接影响的,所 以它应在试验开始前即确定下来。 因为显著性检验是根据“小概率事件实际不可能性原理”来否定或接受无效假设的 所以不论是接受还是否定无效假设,都没有100%的把握。也就是说,在检验无效假设H0时 可能犯两类错误。第一类错误是真实情况为H成立,却否定了它,犯了“弃真”错误, 也叫Ⅰ型错误( type I error)。I型错误,就是把非真实差异错判为真实差异,即Ho: 1=2为真,却接受了H4:1≠2。第二类错误是H不成立,却接受了它,犯了“纳 伪”错误,也叫Ⅱ型错误(typeⅡeror)。Ⅱ型错误,就是把真实差异错判为非真实差 异,即H4:1≠2为真,却未能否定H0:1=2° 我们是基于“小概率事件实际不可能性原理”来否定H0,但在一次试验中小概率事件 并不是绝对不会发生的。如果我们抽得一个样本,它虽然来自与H0对应的抽样总体,但 计算所得的统计量t却落入了否定域中,因而否定了H,于是犯了Ⅰ型错误。但犯这类错 误的概率不会超过a。 Ⅱ型错误发生的原因可以用图5-2来说明。图中左边曲线是H0:1=12为真时 xx2)的分布密度曲线:右边曲线是HA:p1≠2为真时,(x-x2)的分布密度曲线 右边曲线是H4:灿≠2为真时,(x-x2)的分布密度曲线(>u2),它们构成的抽样
58 |t|< 0.05 t ,则说明试验的表面效应属于试验误差的概率 P>0.05,即表面效应属于试验误差 的可能性大,不能否定 H0 : 1 = 2 ,统计学上把这一检验结果表述为:“两个总体平均数 1 与 2 差异不显著”,在计算所得的 t 值的右上方标记“ ns ”或不标记符号;若 0.05 t ≤|t|< 0.01 t ,则说明试验的表面效应属于试验误差的概率 P 在 0.01—0.05 之间,即 0.01 <P 0.05, 表面效应属于试验误差的可能性较小,应否定 H0 : 1 = 2 ,接受 H A: 1 ≠ 2 ,统计学 上把这一检验结果表述为:“两个总体平均数 1 与 2 差异显著”,在计算所得的 t 值的右上 方标记“*”;若|t|≥ 0.01 t ,则说明试验的表面效应属于试验误差的概率 P 不超过 0.01,即 P ≤0.01,表面效应属于试验误差的可能性更小,应否定 H0 :1 = 2 ,接受 H A:1 ≠ 2 , 统计学上把这一检验结果表述为:“两个总体平均数 1 与 2 差异极显著”,在计算所得的 t 值的右上方标记“* *”。 这里可以看到,是否否定无效假设 H0 : 1 = 2 ,是用实际计算出的检验统计量 t 的 绝对值与显著水平 对应的临界 t 值 t 比较。若|t|≥ t ,则在 水平上否定 H0 :1 = 2 ; 若|t| < t ,则不能在 水平上否定 H0 : 1 = 2 。区间 ( − ,t 和 ,+) t 称为 水平上的 否定域,而区间(- t , t )则称为 水平上的接受域。 假设检验时选用的显著水平,除 =0.05 和 0.01 为常用外,也可选 =0.10 或 =0.001 等等。到底选哪种显著水平,应根据试验的要求或试验结论的重要性而定。如果试验中难 以控制的因素较多,试验误差可能较大,则显著水平可选低些,即 值取大些。反之,如 试验耗费较大,对精确度的要求较高,不容许反复,或者试验结论的应用事关重大,则所 选显著水平应高些,即 值应该小些。显著水平 对假设检验的结论是有直接影响的,所 以它应在试验开始前即确定下来。 因为显著性检验是根据“小概率事件实际不可能性原理”来否定或接受无效假设的, 所以不论是接受还是否定无效假设,都没有 100%的把握。也就是说,在检验无效假设 H0 时 可能犯两类错误。第一类错误是真实情况为 H0 成立,却否定了它,犯了“弃真”错误, 也叫Ⅰ型错误(type Ⅰ error)。Ⅰ型错误,就是把非真实差异错判为真实差异,即 H0 : 1 = 2 为真,却接受了 H A: 1 ≠ 2 。第二类错误是 H0 不成立,却接受了它,犯了“纳 伪”错误,也叫Ⅱ型错误(type Ⅱ error)。Ⅱ型错误,就是把真实差异错判为非真实差 异,即 H A: 1 ≠ 2 为真,却未能否定 H0 : 1 = 2 。 我们是基于“小概率事件实际不可能性原理”来否定 H0 ,但在一次试验中小概率事件 并不是绝对不会发生的。如果我们抽得一个样本,它虽然来自与 H0 对应的抽样总体,但 计算所得的统计量 t 却落入了否定域中,因而否定了 H0 ,于是犯了Ⅰ型错误。但犯这类错 误的概率不会超过 。 Ⅱ型错误发生的原因可以用图 5-2 来说明。图中左边曲线是 H0 : 1 =2 为真时, ( 1 x - 2 x )的分布密度曲线;右边曲线是 H A:1 ≠ 2 为真时,( 1 x - 2 x )的分布密度曲线; 右边曲线是 H A: 1 ≠ 2 为真时,( 1 x - 2 x )的分布密度曲线( 1 > 2 ),它们构成的抽样