x2分布的概率密度函数为 f(x)= 式中n是正整数,r(n/2)是(伽马)函数 ro)=e"tdt (y>0) 当y=n/2时的函数值。 x2分布的主要性质有:①f(y)恒为正;②x2分布呈右偏形态;③x2分布随n的不断增 大而逐渐趋于正态分布 可以证明,x2分布x2(n)的数学期望和方差分别为 EYEn. DY=2n. 2、t分布 若X~N(0,1),Y~x2(n),且X与Y相互独立,则称随机变量 X 服从自由度为n的t分布,记作:T~t(n)。 由此也可以推论出关于t分布的如下定义方式:若X~N(μ,o2),σ2未知,则 √n 服从自由度为n-1的t分布,记作:T~t(n-1),其中:S ∑(X1-X)2 t分布t(n)的概率密度函数为 n f(t)= (1 √nrT(=) t分布具有如下性质:①t分布对称于纵轴,与N(0,1)相似:②在n<30(小样本)时,t 分布的方差大于N(0,1)的方差;③在n≥30(大样本)时,t分布随n的增大而趋于N(0,1) 可以证明,t分布t(n)的数学期望与方差分别为 ET=0,DT=n/(n-2).(n>2) 3、F分布 若X~x2(m1),Y~x2(m2),且X与Y相互独立,则称随机变量 X/n, x F Y/ 服从第一自由度为n,第二自由度为m2的F分布,记作:F~F(n,n) 如果X~F(n,n2),则其概率密度函数为
χ 2 分布的概率密度函数为 = − − , 0 ) 2 2 ( 1 0, 0 ( ) 2 1 2 2 y e y n y f x n y n 式中 n 是正整数,Γ(n/2)是Γ(伽马)函数 + − − = 0 1 (y) e t dt (y 0) t y 当 y=n/2 时的函数值。 χ 2 分布的主要性质有:①f(y)恒为正;②χ2 分布呈右偏形态;③χ2 分布随 n 的不断增 大而逐渐趋于正态分布。 可以证明,χ2 分布χ2 (n)的数学期望和方差分别为 EY=n, DY=2n. 2、t 分布 若 X~N(0,1),Y~χ2 (n),且 X 与 Y 相互独立,则称随机变量 Y n X T / = 服从自由度为 n 的 t 分布,记作:T~t(n)。 由此也可以推论出关于 t 分布的如下定义方式:若 X~N(μ,σ2 ),σ2 未知,则 S n X T / − = 服从自由度为 n-1 的 t 分布,记作:T~t(n-1),其中: − − = 2 2 ( ) 1 1 X X n S i 。 t 分布 t(n)的概率密度函数为 2 2 1 (1 ) ) 2 ( ) 2 1 ( ( ) + − + + = n n t n n n f t t 分布具有如下性质:①t 分布对称于纵轴,与 N(0,1)相似;②在 n<30(小样本)时,t 分布的方差大于 N(0,1)的方差;③在 n≥30(大样本)时,t 分布随 n 的增大而趋于 N(0,1)。 可以证明,t 分布 t(n)的数学期望与方差分别为 ET=0,DT=n/(n-2).(n>2) 3、F 分布 若 X~χ2 (n1),Y~χ2 (n2),且 X 与 Y 相互独立,则称随机变量 1 2 2 1 / / n n Y X Y n X n F = = 服从第一自由度为 n1,第二自由度为 n2 的 F 分布,记作:F~F(n1,n2)。 如果 X~F(n1,n2),则其概率密度函数为
< (/2.xmx30、2,x0 n +n F分布的主要性质有:①F分布呈右偏态;②()恒为正:③在F="-2,。处 n, 取最大值(n>2,f。<1);④随n,n的不断增大,F分布的右偏程度逐渐减弱,但不会趋向 正态;⑤具有倒数性质,即若X~F(m,n),则1/X~F(n,n2):⑥若t~t(mn),则t2(n)~F(1,n)。 若X~F(n1,n2),则其数学期望和方差分别为 EX DH、2n2(n1+n2-2) n? n1(n2-2)(n2-4) 第三节抽样误差 、抽样调查中的误差来源 误差就是调査结果与现象的实际结果之间的偏差,它几乎在所有的统计调查中都或大或 小的存在着。在抽样调查中,按照形成原因的不同,一般可将误差分成抽样误差和非抽样误 差两大类。 抽样误差是用样本统计量推断总体参数时的误差,它属于一种代表性误差。抽样调查是 用样本来估计总体,对任何一种抽样方案,可能的样本会有许多,而实际抽到的只是其中的 个样本,在概率抽样中,哪个样本会被抽到完全是随机的,抽到的样本不同,则对总体的 估计就可能不同,这就是抽样误差产生的根本原因。因此,在抽样调查中抽样误差是不可避 免的。但同非抽样误差不同的是,抽样误差可以计算,并且可以被控制在任意小的范围内 抽样误差通常会随样本量的大小而增减。在某些情形下,抽样误差与样本量大小的平方 根成反比关系,即在开始阶段抽样误差随样本量的增加而迅速减少,但在一定阶段后,这种 趋势便趋于稳定。这表明,在经过一定阶段后,再努力减少抽样误差通常是不合算的。所以 过了这个阶段只要稍微降低一点精度,就可以省下可观的费用。普查的目的不过是想使抽样 误差降低为零,要是允许存在误差,当然就值得用抽样调査。 另外,影响抽样误差的因素还有:所研究现象总体变异程度的大小,一般而言,总体变 异程度越大,则抽样误差可能越大:抽样的方式方法,如放回抽样的误差大于不放回抽样, 各种不同的抽样组织方式也常会有不同的抽样误差。在实际工作中,样本量和抽样方式方法 的影响是可以控制的,总体变异程度虽不可以控制,但却可通过设计一些复杂的抽样技术而 将其影响加以控制 非抽样误差不是由于抽样引起的。它又包括调查误差、无回答误差、抽样框误差以及登 记性误差。它在各种统计调査中都可能会存在。调査误差是调查所得的观测值与被调查单元 真值不一致所造成的误差。造成这类误差的原因可能是测量手段(或仪器)不完善,也可能是 被调査者记忆不准确,或对所调査内容缺乏全面了解或不愿意如实回答等。无回答误差是因 样本中的一部分单元或一部分项目的资料没有调查到,致使实际样本较设计样本缩小而引起 的误差。其产生原因有被调查者拒绝回答问题,或者正好缺乏所需要的信息,或者找不到被 抽中的单元等。抽样框误差是由于抽样框不完善所造所的误差。抽样框不完善具体表现为存 在着抽样单元的重复或遗漏,这会破坏抽样的随机性。登记性误差是在观测数据的填写、计
+ + = + − − ( )( ) (1 ) , 0 ) 2 ) ( 2 ( ) 2 ( 0, 0 ( ) 2 2 1 1 2 2 1 2 1 1 2 1 2 1 1 2 x x n n x n n n n n n n n x f x n n n F 分布的主要性质有:①F 分布呈右偏态;②f(x)恒为正;③在 2 2 2 2 1 1 0 + − = n n n n F 处 取最大值(n1>2,f0<1);④随 n1,n2 的不断增大,F 分布的右偏程度逐渐减弱,但不会趋向 正态;⑤具有倒数性质,即若 X~F(n1,n2),则 1/X~F(n1,n2);⑥若 t~t(n),则 t 2 (n)~F(1,n)。 若 X~F(n1,n2),则其数学期望和方差分别为 . ( 4) ( 2) ( 4) 2 ( 2) , 2 2 2 2 1 2 1 2 2 2 2 2 − − + − = − = n n n n n n n DX n n EX 第三节 抽样误差 一、抽样调查中的误差来源 误差就是调查结果与现象的实际结果之间的偏差,它几乎在所有的统计调查中都或大或 小的存在着。在抽样调查中,按照形成原因的不同,一般可将误差分成抽样误差和非抽样误 差两大类。 抽样误差是用样本统计量推断总体参数时的误差,它属于一种代表性误差。抽样调查是 用样本来估计总体,对任何一种抽样方案,可能的样本会有许多,而实际抽到的只是其中的 一个样本,在概率抽样中,哪个样本会被抽到完全是随机的,抽到的样本不同,则对总体的 估计就可能不同,这就是抽样误差产生的根本原因。因此,在抽样调查中抽样误差是不可避 免的。但同非抽样误差不同的是,抽样误差可以计算,并且可以被控制在任意小的范围内。 抽样误差通常会随样本量的大小而增减。在某些情形下,抽样误差与样本量大小的平方 根成反比关系,即在开始阶段抽样误差随样本量的增加而迅速减少,但在一定阶段后,这种 趋势便趋于稳定。这表明,在经过一定阶段后,再努力减少抽样误差通常是不合算的。所以 过了这个阶段只要稍微降低一点精度,就可以省下可观的费用。普查的目的不过是想使抽样 误差降低为零,要是允许存在误差,当然就值得用抽样调查。 另外,影响抽样误差的因素还有:所研究现象总体变异程度的大小,一般而言,总体变 异程度越大,则抽样误差可能越大;抽样的方式方法,如放回抽样的误差大于不放回抽样, 各种不同的抽样组织方式也常会有不同的抽样误差。在实际工作中,样本量和抽样方式方法 的影响是可以控制的,总体变异程度虽不可以控制,但却可通过设计一些复杂的抽样技术而 将其影响加以控制。 非抽样误差不是由于抽样引起的。它又包括调查误差、无回答误差、抽样框误差以及登 记性误差。它在各种统计调查中都可能会存在。调查误差是调查所得的观测值与被调查单元 真值不一致所造成的误差。造成这类误差的原因可能是测量手段(或仪器)不完善,也可能是 被调查者记忆不准确,或对所调查内容缺乏全面了解或不愿意如实回答等。无回答误差是因 样本中的一部分单元或一部分项目的资料没有调查到,致使实际样本较设计样本缩小而引起 的误差。其产生原因有被调查者拒绝回答问题,或者正好缺乏所需要的信息,或者找不到被 抽中的单元等。抽样框误差是由于抽样框不完善所造所的误差。抽样框不完善具体表现为存 在着抽样单元的重复或遗漏,这会破坏抽样的随机性。登记性误差是在观测数据的填写、计
算机数据录入、传输、计算等环节的差错引起的误差。非抽样误差的控制,须经过改进抽査 表的设计或测试方式,严密组织调查,提高调查员的素质,以及加强调查整理等各环节的质 量检查监督,或设计特殊调査方式进行处理,才能见效。具体的论述见后面有关章节。 同抽样误差相反,非抽样误差是随着样本量的增加而增大的。由于抽样调査的访问和资 料整理都比普查更便于进行,因此非抽样误差也远远小于普查。有时,普查中的非抽样误差 甚至大于抽样调查中抽样误差与非抽样误差的总和。 抽样误差的计算 由于从一个总体中抽取容量为n的样本时,有多种可能的结果,所以样本指标是随机变 量,而总体指标是唯一确定的常量,故抽样误差也是一个随机变量。 设0为总体的某个待估参数,6是通过样本资料计算而得到的关于0的估计量,则估计 的实际误差为b-0,由于0是未知,故b-0是未知的。这表明根据某一个确定的样本,无 法确定抽样误差的大小,因此,关于抽样误差的计算,是建立在误差分布理论基础上,从统 计平均意义角度来考虑的。因为,对一个确定的总体按同一种抽样方法可能得到一系列不同 的样本,对每一个样本都会有一个估计的实际误差θ-0,因此,抽样误差可以用所有这些 可能的实际误差的均方误差表示。也即将抽样误差表示为 MSE(6)=E(6-0)2 其中MSE(b)为估计量θ的均方误差。由于θ未知,所以在通常情况下,MSE(O)仍然是未知 的。但MSE(0)可以分解成 NSE(6)=E(6-0)2=E[6-E(6)+E(6)-0 E[b-E(6)]+[E(6)-012+2[E(6)-0]E[6-E(⊙) =E[-E()]2+[E()-0]2 式中第一项是估计量的方差,记作V(b)。V(0)的平方根称为估计量O的标准误差或 标准差,记作S(b)。S()与E()之比称为估计量的变异系数,记为C()。式中第二项是 估计量6的偏倚B(6)的平方(即B(6)=E(6)-0)。 般情况下,均方误差说明了估计量的准确性,而估计量的方差则表明了其估计结果的 精确性。通常将精确度定义为估计量方差的倒数,而将准确度定义为估计量均方误差的倒数 当偏倚B()为零时,称为0的无偏估计量。此时,O的方差就等于它的均方误差,即 如果b随样本容量n的增大趋近于θ,则称b为θ的一致估计
算机数据录入、传输、计算等环节的差错引起的误差。非抽样误差的控制,须经过改进抽查 表的设计或测试方式,严密组织调查,提高调查员的素质,以及加强调查整理等各环节的质 量检查监督,或设计特殊调查方式进行处理,才能见效。具体的论述见后面有关章节。 同抽样误差相反,非抽样误差是随着样本量的增加而增大的。由于抽样调查的访问和资 料整理都比普查更便于进行,因此非抽样误差也远远小于普查。有时,普查中的非抽样误差 甚至大于抽样调查中抽样误差与非抽样误差的总和。 二、抽样误差的计算 由于从一个总体中抽取容量为 n 的样本时,有多种可能的结果,所以样本指标是随机变 量,而总体指标是唯一确定的常量,故抽样误差也是一个随机变量。 设θ为总体的某个待估参数, ˆ 是通过样本资料计算而得到的关于θ的估计量,则估计 的实际误差为 ˆ -θ,由于θ是未知,故 ˆ -θ是未知的。这表明根据某一个确定的样本,无 法确定抽样误差的大小,因此,关于抽样误差的计算,是建立在误差分布理论基础上,从统 计平均意义角度来考虑的。因为,对一个确定的总体按同一种抽样方法可能得到一系列不同 的样本,对每一个样本都会有一个估计的实际误差 ˆ i-θ,因此,抽样误差可以用所有这些 可能的实际误差的均方误差表示。也即将抽样误差表示为 MSE( ˆ )=E( ˆ -θ) 2 其中 MSE( ˆ )为估计量 ˆ 的均方误差。由于θ未知,所以在通常情况下,MSE( ˆ )仍然是未知 的。但 MSE( ˆ )可以分解成: MSE( ˆ )=E( ˆ -θ) 2 =E[ ˆ -E( ˆ )+E( ˆ )-θ]2 =E[ ˆ -E( ˆ )]2 +E[E( ˆ )-θ]2 +2[E( ˆ )-θ]E[ ˆ -E( ˆ )] =E[ ˆ -E( ˆ )]2 +[E( ˆ )-θ]2 式中第一项是估计量 ˆ 的方差,记作 V( ˆ )。V( ˆ )的平方根称为估计量 ˆ 的标准误差或 标准差,记作 S( ˆ )。S( ˆ )与 E( ˆ )之比称为估计量的变异系数,记为 C( ˆ )。式中第二项是 估计量 ˆ 的偏倚 B( ˆ )的平方(即 B( ˆ )=E( ˆ )-θ)。 一般情况下,均方误差说明了估计量的准确性,而估计量的方差则表明了其估计结果的 精确性。通常将精确度定义为估计量方差的倒数,而将准确度定义为估计量均方误差的倒数。 当偏倚 B( ˆ )为零时,称 ˆ 为θ的无偏估计量。此时, ˆ 的方差就等于它的均方误差,即 V( ˆ )=MSE( ˆ ) 如果 ˆ 随样本容量 n 的增大趋近于θ,则称 ˆ 为θ的一致估计
需要说明的是:①上面所给出的V()的计算公式仍然属于一个理论公式或叫作定义公 式,在实际中是无法直接应用的。因此,实际中计算V()是依据调查变量的总体方差σ2进 的,当02未知时,一般用样本方差s2代替,以对V(O)做出估计。②有偏的估计并非都是 不可用的,有时有偏估计量在某些方面反而比无偏估计量更好。有研究认为,在实践中当偏 倚小于标准误的十分之一时,偏倚对估计量准确度的影响可以忽略不计 第四节抽样估计 要达到对总体的正确认识,样本的充分代表性和样本资料的准确性都是必要的前提,然 从样本到总体的估计方法在这里却居于突出的重要地位。抽样估计就是以样本的实际资料 为依据,计算一定的样本统计量,并按照一定的方法对总体参数作出估计和推断。这也是抽 样调查的目的之所在。 抽样估计的特点 第一,抽样估计在逻辑上运用的是归纳推理而不是演绎推理 演绎推理是在封闭的系统中从一般性命题导出特殊结论的逻辑方法,其结论的正确性已 全部包含在前提的正确性之中。如在本章第二节中,我们从一个已知总体开始,讨论样本具 有怎么样的性质,样本统计量是如何接近总体参数的,这就是运用了演绎推理的方法 归纳推理与之正好相反,它是在开放的系统中,从研究个别命题达到一般性的结论。其 前提正确不一定就能得出正确的结论,结论的正确性还决定于前提以外的许多事实,所以结 论必须经过事实验证。统计的认识过程正是从对大量个别事件的认识上升到现象总体的认识。 本节将要讨论的抽样估计即是从抽取的一个已知样本出发,对被抽样未知总体推断出一般结 论,所采用的是归纳推理法 第二,抽样估计在方法上运用不确定的概率估计法而不是运用确定的数学分析法 虽然抽样估计也是利用一定的样本数据来推论总体的数量特征,但由于样本数据和总体 数量特征之间并不存在严格对应的自变量和因变量的关系,因此,不可能运用数学函数关系 建立一定的数学模型,用输入样本的具体观察值来推算总体特征值。抽样估计原则上把由样 本观察值所决定的统计量看作是随机事件。在实践中,抽取一个样本,并计算出相应的样本 指标,接着需研究的问题便是用这一样本指标来代表相应的总体指标的可靠程度究竟有多大, 这就是概率估计所要解决的。如果说归纳推理不保证从正确的前提一定得到正确的结论,只 肯定从正确的前提得到的结论有一定程度的可靠性,那么概率估计就是要具体确定这个一定 程度的可靠性是多大 第三,抽样估计的结论存在着一定程度的抽样误差 如前所述,抽样误差指是由随机抽样中偶然性因素的影响,使得样本指标和总体指标间 存在的某种程度的离差。这种误差是抽样估计所固有的,不可避免。抽样估计结论的可靠程 度总是和一定的抽样误差联系在一起的。通常情况下,总是指出样本指标和总体指标的误差 在一定范围内的概率保证程度。 抽样估计的方法 抽样估计的方法多种多样。如果以估计中所依据的资料不同来区分,一般可以有简单估 计、比估计和回归估计等三种方法。简单估计是单纯依靠样本调查变量的资料估计总体参数 其估计结果称为简单估计量:比估计和回归估计是同时依据样本调查变量以及已知的有关辅 助变量的资料来对总体参数做出估计,其结果分别称为比估计量和回归估计量。简单估计是 最简单、最基本的一种估计方法,在实际中应用也最为广泛。后面各章节所讨论的估计量若
需要说明的是:①上面所给出的 V( ˆ )的计算公式仍然属于一个理论公式或叫作定义公 式,在实际中是无法直接应用的。因此,实际中计算 V( ˆ )是依据调查变量的总体方差σ2 进 行的,当σ 2 未知时,一般用样本方差 s 2 代替,以对 V( ˆ )做出估计。②有偏的估计并非都是 不可用的,有时有偏估计量在某些方面反而比无偏估计量更好。有研究认为,在实践中当偏 倚小于标准误的十分之一时,偏倚对估计量准确度的影响可以忽略不计。 第四节 抽样估计 要达到对总体的正确认识,样本的充分代表性和样本资料的准确性都是必要的前提,然 而从样本到总体的估计方法在这里却居于突出的重要地位。抽样估计就是以样本的实际资料 为依据,计算一定的样本统计量,并按照一定的方法对总体参数作出估计和推断。这也是抽 样调查的目的之所在。 一、抽样估计的特点 第一,抽样估计在逻辑上运用的是归纳推理而不是演绎推理。 演绎推理是在封闭的系统中从一般性命题导出特殊结论的逻辑方法,其结论的正确性已 全部包含在前提的正确性之中。如在本章第二节中,我们从一个已知总体开始,讨论样本具 有怎么样的性质,样本统计量是如何接近总体参数的,这就是运用了演绎推理的方法。 归纳推理与之正好相反,它是在开放的系统中,从研究个别命题达到一般性的结论。其 前提正确不一定就能得出正确的结论,结论的正确性还决定于前提以外的许多事实,所以结 论必须经过事实验证。统计的认识过程正是从对大量个别事件的认识上升到现象总体的认识。 本节将要讨论的抽样估计即是从抽取的一个已知样本出发,对被抽样未知总体推断出一般结 论,所采用的是归纳推理法。 第二,抽样估计在方法上运用不确定的概率估计法而不是运用确定的数学分析法。 虽然抽样估计也是利用一定的样本数据来推论总体的数量特征,但由于样本数据和总体 数量特征之间并不存在严格对应的自变量和因变量的关系,因此,不可能运用数学函数关系 建立一定的数学模型,用输入样本的具体观察值来推算总体特征值。抽样估计原则上把由样 本观察值所决定的统计量看作是随机事件。在实践中,抽取一个样本,并计算出相应的样本 指标,接着需研究的问题便是用这一样本指标来代表相应的总体指标的可靠程度究竟有多大, 这就是概率估计所要解决的。如果说归纳推理不保证从正确的前提一定得到正确的结论,只 肯定从正确的前提得到的结论有一定程度的可靠性,那么概率估计就是要具体确定这个一定 程度的可靠性是多大。 第三,抽样估计的结论存在着一定程度的抽样误差。 如前所述,抽样误差指是由随机抽样中偶然性因素的影响,使得样本指标和总体指标间 存在的某种程度的离差。这种误差是抽样估计所固有的,不可避免。抽样估计结论的可靠程 度总是和一定的抽样误差联系在一起的。通常情况下,总是指出样本指标和总体指标的误差 在一定范围内的概率保证程度。 二、抽样估计的方法 抽样估计的方法多种多样。如果以估计中所依据的资料不同来区分,一般可以有简单估 计、比估计和回归估计等三种方法。简单估计是单纯依靠样本调查变量的资料估计总体参数, 其估计结果称为简单估计量;比估计和回归估计是同时依据样本调查变量以及已知的有关辅 助变量的资料来对总体参数做出估计,其结果分别称为比估计量和回归估计量。简单估计是 最简单、最基本的一种估计方法,在实际中应用也最为广泛。后面各章节所讨论的估计量若
没有特别的说明一般都是指简单估计量。同简单估计相比,比估计和回归估计比较复杂,但 在某些情况下,其估计的效果却比较好。关于比估计和回归估计将在第五章作进一步讨论 如果以估计结果的表示方式来区分,则抽样估计可以有两种形式,即定值估计和区间估 计。定值估计是指给所要估计的总体参数只给出一个明确的点估计值,同时确定出估计结果 的误差(一般用方差V(O)来表示)。区间估计则是在一定的概率保证程度(置信度)之下,根 据允许的最大绝对误差范围(一般称之为抽样极限误差,记作Δ,它常以抽样标准误差为标准 单位来计量,即Δ。=KS(0),其中K称之为概率度,其值同置信度的大小有关,可通过查相关 的概率积分表求得。),确定出一个以点估计值b为中心的区间作为总体待估参数0的估计区 间(也称为置信区间)。可见在区间估计中,不但要考虑抽样误差的可能范围有多大,而且还 必须考虑落到这一范围的概率是多少。前者是估计的准确性问题,后者是估计的可靠性问题 两者既相互矛盾又密不可分。计算可靠性的依据是样本统计量的抽样分布理论。在实际问题 的研究中常常需要在估计的准确性和可靠性之间进行协调,一般是先确定其中的一个,然后 再推算出另外一个 三、置信区间 在抽样估计中,是用样本统计量来推断对应的总体参数,根据前面第二节的分析,样本 统计量的极限分布呈正态,而在社会经济现象的抽样研究中,通常所使用的又是大样本,因 此,可以按照正态分布的理论,来构造总体参数估计量的置信区间 般地说,若估计量是无偏的,且呈正态分布,则参数0的置信度为1-a的置信区间 可以写成 6),6+Ks(6) 当调查变量的总体方差o2已知时,上述置信区间可表示为 ),b+Z.aS(6) 即取K=Z。,Z/的值可以通过查正态分布双侧临界值表加以确定。常用的几组置信度 同Z。2的对应值如下表 1-a0.800.900.950.95450.9973 当调查变量的总体方差σ2未知时,则用相应的样本方差s2代替。然而,这时有可能会使误 差产生一个增量,特别是当样本较小时,更容易影响估计的精度。因此,为了保持1-α的置 信度,就应该适当加宽置信区间,即用较大的t。a值来代替Za。此时,置信区间就可以表 示成 (6-t.nS(6),b+tS(6) 其中t的值可通过查t分布临界值表来确定,在这里自由度为dr=m-1:S(6)表示以 s2代替σ2后对抽样标准误S(θ)的估计量
没有特别的说明一般都是指简单估计量。同简单估计相比,比估计和回归估计比较复杂,但 在某些情况下,其估计的效果却比较好。关于比估计和回归估计将在第五章作进一步讨论。 如果以估计结果的表示方式来区分,则抽样估计可以有两种形式,即定值估计和区间估 计。定值估计是指给所要估计的总体参数只给出一个明确的点估计值,同时确定出估计结果 的误差(一般用方差 V( ˆ )来表示)。区间估计则是在一定的概率保证程度(置信度)之下,根 据允许的最大绝对误差范围(一般称之为抽样极限误差,记作Δ,它常以抽样标准误差为标准 单位来计量,即Δθ=KS( ˆ ),其中 K 称之为概率度,其值同置信度的大小有关,可通过查相关 的概率积分表求得。),确定出一个以点估计值 ˆ 为中心的区间作为总体待估参数θ的估计区 间(也称为置信区间)。可见在区间估计中,不但要考虑抽样误差的可能范围有多大,而且还 必须考虑落到这一范围的概率是多少。前者是估计的准确性问题,后者是估计的可靠性问题, 两者既相互矛盾又密不可分。计算可靠性的依据是样本统计量的抽样分布理论。在实际问题 的研究中常常需要在估计的准确性和可靠性之间进行协调,一般是先确定其中的一个,然后 再推算出另外一个。 三、置信区间 在抽样估计中,是用样本统计量来推断对应的总体参数,根据前面第二节的分析,样本 统计量的极限分布呈正态,而在社会经济现象的抽样研究中,通常所使用的又是大样本,因 此,可以按照正态分布的理论,来构造总体参数估计量的置信区间。 一般地说,若估计量 ˆ 是无偏的,且呈正态分布,则参数θ的置信度为 1-α的置信区间 可以写成 ( ˆ -KS( ˆ ), ˆ +KS( ˆ )) 当调查变量的总体方差σ 2 已知时,上述置信区间可表示为 ( ˆ -Zα/2S( ˆ ), ˆ + Zα/2S( ˆ )) 即取 K= Zα/2, Zα/2 的值可以通过查正态分布双侧临界值表加以确定。常用的几组置信度 同 Zα/2 的对应值如下表 1-α 0.80 0.90 0.95 0.9545 0.9973 Zα/2 1.28 1.64 1.96 2 3 当调查变量的总体方差σ2 未知时,则用相应的样本方差 s 2 代替。然而,这时有可能会使误 差产生一个增量,特别是当样本较小时,更容易影响估计的精度。因此,为了保持 1-α的置 信度,就应该适当加宽置信区间,即用较大的 tα/2 值来代替 Zα/2。此时,置信区间就可以表 示成 ( ˆ -tα/2 S ˆ ( ˆ ), ˆ +tα/2 S ˆ ( ˆ )) 其中 tα/2 的值可通过查 t 分布临界值表来确定,在这里自由度为 df=n-1; S ˆ ( ˆ )表示以 s 2 代替σ2 后对抽样标准误 S( ˆ )的估计量