第二章抽样调查基本原理 第一节有关基本概念 总体 总体也叫母体,它是所要认识对象的全体,是具有同一性质的许多单位的集合。组成总 体的每个个体叫做单位 总体可以是有限的,也可以是无限的。如果总体中所包含个体的数目为有限多个,则该 总体就是有限总体,反之是无限总体。总体也可区分成计量总体(由测量值组成的)和计数总 体(由品质特征组成的)。 在抽样以前,必须根据实际情况把总体划分成若干个互不重叠并且能组合成总体的部分, 每个部分称为一个抽样单元,不论总体是否有限,总体中的抽样单元数一定是有限的,而且 是已知的,因此说抽样调查的总体总是有限的。抽样单元又有大小之分,一个大的抽样单元 可以分成若干个小的抽样单元,最小的抽样单元就是每一个个体。如一项全国性的调查,如 果把省作为一级单元,则可以把县作为二级单元,乡作为三级单元,村作为四级单元等等 又如在流动人口抽样中,可以以居委会作为抽样单元,而在家计调查中,则以户为抽样单元。 总体应具备同质性、大量性和差异性的特征。在抽样调查中,通常将反映总体数量特征 的综合指标称为总体参数。常见的总体参数主要有: 1.总体总和Y:例如全国人口数。 Y=∑y=y1+y2+…+ 2.总体均值Y:例如职工平均工资 y=Y/N=∑y;/N 3.总体比率R:是总体中两个不同指标的总和或均值的比值。如总收入与总支出之比。 R=Y/X=Y/X 4.总体比例P:是总体中具有某种特性的单元数目所占比重。如产品的合格率 、样本 样本是由从总体中所抽选出来的若干个抽样单元组成的集合体。抽样前,样本是一个n 维随机变量,属样本空间:抽样后,样本是一个n元数组,是样本空间的一个点。 样本是总体的缩影,是总体的代表。抽样的效果好不好,依赖于样本对总体是否有充分 的代表性。样本的代表性愈强,用样本指标对总体全面特征的推断就愈精确,即推断的误差 就愈小:反之,如果样本的代表性愈弱,推断的误差就愈大,推断结果就愈不可靠 如何增强样本的代表性,使其能达到估计或推断的预期效果,就必须分析影响样本代表 性的因素,以便加强控制。一般情况下,影响样本代表性的因素有以下几个方面: (1)总体标志值分布的离散程度。若总体标志值的分布很集中,即平均离散程度(标准差) 很小,从中任抽部分单元做样本,样本特征很近似于总体特征,样本的代表性就强:反之 如果标志值的分布很分散,即平均离散程度很大,从中抽取样本单元的随机波动也很大,必 将影响样本的代表性 (2)抽样单元数的多少(或称样本容量的大小)。抽样单元数的多少,影响样本对总体的代 表性。一般说来,样本容量以大为好,但要根据实际情况,以掌握适度为宜,要在保证一定 可靠程度的情况下,尽可能满足及时性和经济性的要求,取得好的效益 (3)抽样方法。抽样方法一般分为放回抽样和不放回抽样。放回抽样也叫重置抽样,或重
第二章 抽样调查基本原理 第一节 有关基本概念 一、总体 总体也叫母体,它是所要认识对象的全体,是具有同一性质的许多单位的集合。组成总 体的每个个体叫做单位。 总体可以是有限的,也可以是无限的。如果总体中所包含个体的数目为有限多个,则该 总体就是有限总体,反之是无限总体。总体也可区分成计量总体(由测量值组成的)和计数总 体(由品质特征组成的)。 在抽样以前,必须根据实际情况把总体划分成若干个互不重叠并且能组合成总体的部分, 每个部分称为一个抽样单元,不论总体是否有限,总体中的抽样单元数一定是有限的,而且 是已知的,因此说抽样调查的总体总是有限的。抽样单元又有大小之分,一个大的抽样单元 可以分成若干个小的抽样单元,最小的抽样单元就是每一个个体。如一项全国性的调查,如 果把省作为一级单元,则可以把县作为二级单元,乡作为三级单元,村作为四级单元等等。 又如在流动人口抽样中,可以以居委会作为抽样单元,而在家计调查中,则以户为抽样单元。 总体应具备同质性、大量性和差异性的特征。在抽样调查中,通常将反映总体数量特征 的综合指标称为总体参数。常见的总体参数主要有: 1.总体总和 Y:例如全国人口数。 Y=∑yi=y1+y2+…+yN 2.总体均值 Y :例如职工平均工资。 Y =Y/N=∑yi /N 3.总体比率 R:是总体中两个不同指标的总和或均值的比值。如总收入与总支出之比。 R=Y/X=Y / X 4.总体比例 P:是总体中具有某种特性的单元数目所占比重。如产品的合格率。 二、样本 样本是由从总体中所抽选出来的若干个抽样单元组成的集合体。抽样前,样本是一个 n 维随机变量,属样本空间;抽样后,样本是一个 n 元数组,是样本空间的一个点。 样本是总体的缩影,是总体的代表。抽样的效果好不好,依赖于样本对总体是否有充分 的代表性。样本的代表性愈强,用样本指标对总体全面特征的推断就愈精确,即推断的误差 就愈小;反之,如果样本的代表性愈弱,推断的误差就愈大,推断结果就愈不可靠。 如何增强样本的代表性,使其能达到估计或推断的预期效果,就必须分析影响样本代表 性的因素,以便加强控制。一般情况下,影响样本代表性的因素有以下几个方面: (1)总体标志值分布的离散程度。若总体标志值的分布很集中,即平均离散程度(标准差) 很小,从中任抽部分单元做样本,样本特征很近似于总体特征,样本的代表性就强;反之, 如果标志值的分布很分散,即平均离散程度很大,从中抽取样本单元的随机波动也很大,必 将影响样本的代表性。 (2)抽样单元数的多少(或称样本容量的大小)。抽样单元数的多少,影响样本对总体的代 表性。一般说来,样本容量以大为好,但要根据实际情况,以掌握适度为宜,要在保证一定 可靠程度的情况下,尽可能满足及时性和经济性的要求,取得好的效益。 (3)抽样方法。抽样方法一般分为放回抽样和不放回抽样。放回抽样也叫重置抽样,或重
复抽样。它是在总体N个单元中随机抽取n个单元时,每次抽取一个单元进行记录后又放回 原来的总体,参加下一个单元的抽取,即下一个单元仍然在原来的全部抽样单元中抽取,依 此类推,直到抽足所需单元数为止,因而同一个抽样单元有被重复抽中的可能。不放回抽样 也叫不重置抽样,或不重复抽样。它是在每次抽取一个新的单元之前,将已抽中的单元不再 放回原来的总体,下一个单元的抽取在剩余的抽样单元中进行,依次类推,直到抽足所需单 元数为止,因而每个抽样单元最多只能被抽中一次,不可能重复被抽中 放回抽样与不放回抽样相比,不放回抽样的样本代表性优于放回抽样。因为放回抽样中, 有些单位有被重复抽取的可能,从而使样本单元数在总体中的散布面缩小,样本的代表性减 弱,故在实际工作中常采用不放回抽样。有鉴于此,在本书以后内容中,如没有特别的声明, 则一般只涉及不放回抽样。理解了不放回抽样的方法及有关内容,也就容易理解和掌握放回 抽样的方法 以上三种影响因素中,第一个因素即离散程度的大小,是由事物内部和外部联系决定的, 是客观性的因素,人们只能认识了解,不能调节控制。第二、三两因素是人们可以选择和控 制的,为主观因素,只要掌握和控制了这两个因素,在一定程度上,人们也就能控制样本的 代表性,以期达到抽样数目尽可能小,使估计和推断结论达到预定的精确程度和可靠程度的 要求。另外,等概率抽样与不等概率抽样相比,以不等概率抽样的样本代表性较等概率抽样 为好。 一般将反映样本数量特征的综合指标称之为统计量。统计量是n元样本的一个实值函数 是一个随机变量,统计量的一个具体取值即为统计值。主要的样本统计量有 1.样本总和y y=∑y;=yn+y2+…+ya 2.样本均值y y=y/n=∑y;/n 3.样本比率r: r=y/x=y/x 4.样本比例p:是样本中具有某种特性的单元数目所占比重。 三、必要样本容量和样本可能数目 样本中包含的抽样单元个数称为样本容量,又称样本含量或样本大小(后面还要进一步讨 论关于必要样本容量的问题)。总体中所含抽样单元个数称为总体容量,样本容量与总体容量 比为抽样比,用f表示,即f=n/N 样本可能数目则是在容量为N的总体中抽取容量为n的样本时,所有可能被抽中的不同 样本的个数。用A表示 当N和n一定时,A的多少与抽样方法有关,其计算方法列表如下: 「抽样方法 放回抽样 不放回抽样 考虑顺序 A (N-n) 不考虑顺序 n!(N-n)! 正确理解样本可能数目的概念,对于准确理解和把握抽样误差的计算、样本统计量的抽 样分布、抽样估计的优良标准等一系列理论和方法问题都有十分重要的帮助。 四、抽样框
复抽样。它是在总体 N 个单元中随机抽取 n 个单元时,每次抽取一个单元进行记录后又放回 原来的总体,参加下一个单元的抽取,即下一个单元仍然在原来的全部抽样单元中抽取,依 此类推,直到抽足所需单元数为止,因而同一个抽样单元有被重复抽中的可能。不放回抽样 也叫不重置抽样,或不重复抽样。它是在每次抽取一个新的单元之前,将已抽中的单元不再 放回原来的总体,下一个单元的抽取在剩余的抽样单元中进行,依次类推,直到抽足所需单 元数为止,因而每个抽样单元最多只能被抽中一次,不可能重复被抽中。 放回抽样与不放回抽样相比,不放回抽样的样本代表性优于放回抽样。因为放回抽样中, 有些单位有被重复抽取的可能,从而使样本单元数在总体中的散布面缩小,样本的代表性减 弱,故在实际工作中常采用不放回抽样。有鉴于此,在本书以后内容中,如没有特别的声明, 则一般只涉及不放回抽样。理解了不放回抽样的方法及有关内容,也就容易理解和掌握放回 抽样的方法。 以上三种影响因素中,第一个因素即离散程度的大小,是由事物内部和外部联系决定的, 是客观性的因素,人们只能认识了解,不能调节控制。第二、三两因素是人们可以选择和控 制的,为主观因素,只要掌握和控制了这两个因素,在一定程度上,人们也就能控制样本的 代表性,以期达到抽样数目尽可能小,使估计和推断结论达到预定的精确程度和可靠程度的 要求。另外,等概率抽样与不等概率抽样相比,以不等概率抽样的样本代表性较等概率抽样 为好。 一般将反映样本数量特征的综合指标称之为统计量。统计量是 n 元样本的一个实值函数, 是一个随机变量,统计量的一个具体取值即为统计值。主要的样本统计量有: 1.样本总和 y: y=∑yi=y1+y2+…+yn 2.样本均值 y : y =y/n=∑yi /n 3.样本比率 r: r=y/x= y / x 4.样本比例 p:是样本中具有某种特性的单元数目所占比重。 三、必要样本容量和样本可能数目 样本中包含的抽样单元个数称为样本容量,又称样本含量或样本大小(后面还要进一步讨 论关于必要样本容量的问题)。总体中所含抽样单元个数称为总体容量,样本容量与总体容量 之比为抽样比,用 f 表示,即 f=n/N。 样本可能数目则是在容量为 N 的总体中抽取容量为 n 的样本时,所有可能被抽中的不同 样本的个数。用 A 表示。 当 N 和 n 一定时,A 的多少与抽样方法有关,其计算方法列表如下: 抽样方法 放回抽样 不放回抽样 考虑顺序 n A = N ( )! ! N n N A P n N − = = 不考虑顺序 n A = CN+n−1 !( )! ! n N n N A C n N − = = 正确理解样本可能数目的概念,对于准确理解和把握抽样误差的计算、样本统计量的抽 样分布、抽样估计的优良标准等一系列理论和方法问题都有十分重要的帮助。 四、抽样框
抽样框是在抽样前,为便于抽样工作的组织,在可能条件下编制的用来进行抽样的、记 录或表明总体所有抽样单元的框架,在抽样框中,每个抽样单元都被编上号码。 抽样框可以是一份清单(名单抽样框)、一张地图(区域抽样框)。在与时间有关的调査中, 也可以按时间先后顺序排列总体中的单元,这样得到的抽样框称为时序抽样框。抽样框是设 计实施一个抽样方案所必备的基础资料,一旦某个单元被抽中,也需依抽样框在实际中找到 这个单元,从而实施调查。 编制抽样框是一个实际的、重要的问题,因此必须要认真对待。一般而言,如果总体中 的每个元素在清单上分别只出现一次,且清单上又没有总体以外的其他元素出现,则该清单 就是一个完备的抽样框。在完备的抽样框中,每个元素必须且只能同一个号码对应。但是, 在实际中,完备的抽样框是很少见的,我们常常可能必须使用一些有严重缺陷的抽样框,而 又必须发现这些缺陷并加以补救,在这一过程中,可以充分体现出抽样的艺术性。 常见的抽样框问题可以概括为四种基本类型:(1)缺失一些元素,即抽样框涵盖不完全; (2)多个元素对应一个号码:(3)空白(一些号码没有与之对应的元素)或存在异类元素:(4) 重复号码,即一个元素对应多个号码 抽样框存在缺陷时,我们首先想到的是如何去避免上述问题:①如果已知由这此问题引 起的误差比其他原因产生的误差小,并且纠正起来又花费太大的话,可以忽略不管,但在描 述样本时,应对此加以说明:②重新定义总体以适应抽样框;③改正整个总体清单,也即找 出全部缺失元素、分开每一个群、清除所有的空白和异类元素、删掉重复号码。当上述方法 不能有效利用时,就应该采取其它一些补救措施来抵消抽样框中存在的缺陷。对此问题的进 步讨论将在第十一章进行。 第二节样本统计量的抽样分布 标准的统计问题为:总体未知,故需从总体中抽取一个较小的、花费不多的随机样本, 然后构造样本统计量,并以其估计总体。问题是用样本指标估计总体指标的可靠程度如何? 为此要研究样本统计量的抽样分布。在此之前,有必要先回顾一下有关正态分布的知识 、正态分布 如果总体各个体的标志值以总体平均数为中心,形成钟型对称分布,其分布曲线向两侧 扩展,逐渐向横轴逼近,无限延伸出去,但不接触横轴,则这种分布就叫做正态分布,或高 斯分布、常态分布。服从正态分布的总体称为正态总体。 正态分布是由德国数学家高斯( Carl friedrich gauss177~1855)首先发现的,故此得 一个正态分布完全由总体的理论平均数和理论方差这两个参数所决定。其数学特征为: 如果一个随机变量X服从正态分布,则其分布的密度函数(分布曲线方程)为: f(x)= ,(-∞<x<∞) 式中:μ和2分别为随机变量X的数学期望和方差,π≈3.1416,e为自然对数的底,e≈ 当μ=0,o2=1时,称该分布为标准正态分布。标准正态分布的密度函数为 -∞<x<∞) 我们知道,全部可能事件发生的概率之和等于1。代表各个体事物分布的正态曲线内面 积表明着全部可能的事件,因此,分布曲线下x轴以上的面积总保持为1,也即
抽样框是在抽样前,为便于抽样工作的组织,在可能条件下编制的用来进行抽样的、记 录或表明总体所有抽样单元的框架,在抽样框中,每个抽样单元都被编上号码。 抽样框可以是一份清单(名单抽样框)、一张地图(区域抽样框)。在与时间有关的调查中, 也可以按时间先后顺序排列总体中的单元,这样得到的抽样框称为时序抽样框。抽样框是设 计实施一个抽样方案所必备的基础资料,一旦某个单元被抽中,也需依抽样框在实际中找到 这个单元,从而实施调查。 编制抽样框是一个实际的、重要的问题,因此必须要认真对待。一般而言,如果总体中 的每个元素在清单上分别只出现一次,且清单上又没有总体以外的其他元素出现,则该清单 就是一个完备的抽样框。在完备的抽样框中,每个元素必须且只能同一个号码对应。但是, 在实际中,完备的抽样框是很少见的,我们常常可能必须使用一些有严重缺陷的抽样框,而 又必须发现这些缺陷并加以补救,在这一过程中,可以充分体现出抽样的艺术性。 常见的抽样框问题可以概括为四种基本类型:(1)缺失一些元素,即抽样框涵盖不完全; (2)多个元素对应一个号码;(3)空白(一些号码没有与之对应的元素)或存在异类元素;(4) 重复号码,即一个元素对应多个号码。 抽样框存在缺陷时,我们首先想到的是如何去避免上述问题:①如果已知由这此问题引 起的误差比其他原因产生的误差小,并且纠正起来又花费太大的话,可以忽略不管,但在描 述样本时,应对此加以说明;②重新定义总体以适应抽样框;③改正整个总体清单,也即找 出全部缺失元素、分开每一个群、清除所有的空白和异类元素、删掉重复号码。当上述方法 不能有效利用时,就应该采取其它一些补救措施来抵消抽样框中存在的缺陷。对此问题的进 一步讨论将在第十一章进行。 第二节 样本统计量的抽样分布 标准的统计问题为:总体未知,故需从总体中抽取一个较小的、花费不多的随机样本, 然后构造样本统计量,并以其估计总体。问题是用样本指标估计总体指标的可靠程度如何? 为此要研究样本统计量的抽样分布。在此之前,有必要先回顾一下有关正态分布的知识。 一、正态分布 如果总体各个体的标志值以总体平均数为中心,形成钟型对称分布,其分布曲线向两侧 扩展,逐渐向横轴逼近,无限延伸出去,但不接触横轴,则这种分布就叫做正态分布,或高 斯分布、常态分布。服从正态分布的总体称为正态总体。 正态分布是由德国数学家高斯(Carl Friedrich Gauss 1777~1855)首先发现的,故此得 名。 一个正态分布完全由总体的理论平均数和理论方差这两个参数所决定。其数学特征为: 如果一个随机变量 X 服从正态分布,则其分布的密度函数(分布曲线方程)为: 2 ( ) 2 1 2 1 ( ) − − = x f x e ,( - <x< ) 式中:μ和σ2 分别为随机变量 X 的数学期望和方差,π≈3.1416,e 为自然对数的底,e≈ 2.7183。 当μ=0,σ2 =1 时,称该分布为标准正态分布。标准正态分布的密度函数为 2 2 1 2 1 ( ) x f x e − = ,( - <x< ) 我们知道,全部可能事件发生的概率之和等于 1。代表各个体事物分布的正态曲线内面 积表明着全部可能的事件,因此,分布曲线下 x 轴以上的面积总保持为 1,也即
f(x)x=l 因此,当0不相同时,f(x)的形状也不相同,σ愈小,分布就愈集中在X附近,0愈大,分 布就愈平坦。 利用正态曲线的数学性质,依平均数与标准差,可以计算出平均数与某一数值之间的面 积,如图2.1中由a到b的面积为: F(x)= f(x)du 任何正态分布,它的样本落在任意区间(a,b)内的概率等于直线x=a,x=b,横坐标和曲 线f(x)所夹的面积(可由正态分布概率积分表查得)。经计算,正态总体的样本落在: (X-0,X+0)概率是68.27%; (X-20,X+2σ)概率是95.45 (X-30,X+30)概率是99.73% (X-1.96σ,X+1.960)概率是95% 正态分布的应用范围很广,是最常见、最重要的分布,居于基础的地位。在生产实践和 科学研究中,凡是处于控制状态的数据和测定随机误差的分布,大多是近似地服从正态分布 的。所以正态分布的理论对开展社会经济调查和科学研究具有十分重大的意义 、抽样分布 如前所述,在容量为N的总体中,抽取容量为n的样本时,可能抽到的样本不止一个 对每一个可能的样本,都可获得统计量j、p和s等的一个具体数值。可见,样本统计量是 个随机变量。 我们把根据所有可能样本计算出来的某一统计量的数值分布,称为抽样分布。抽样分布 理论是理解抽样调査基本原理的基础。常见的抽样分布有极限分布和精确分布两类。极限分 布也叫做大样本分布,它只有正态分布一种形式:精确分布又叫做小样本分布,其前提是总 体服从正态分布,它是正态分布的导出分布,包括有t分布、F分布和x2分布等形式 (一)样本统计量的极限分布 样本统计量有很多,这里只考察关于样本均值和样本比例的抽样分布。 例2.1:现从正态分布总体Y~N(100,625)中抽取容量为n=5的所有可能样本,经计算得 知样本平均数的分布为j~N(100,125)。当n=20时,样本平均数的分布为j~ N(100,31.25)。 一般地,可以证明如果总体服从正态分布,且总体均值和方差均为已知,即Y~N(μ o2),则不论样本量大小如何,样本均值均围绕总体均值而服从正态分布,并且其抽样分布 的方差等于总体方差的n分之一,即j~N(μ,o2/n)。 而对于非正态总体,若均值μ和σ2有限,则根据中心极限定理,当样本量n充分大时 样本均值仍然围绕着总体均值而近似地服从正态分布,即j~N(p,o2/mn) 例2.2:总体N=5,Y={40,50,60,70,80},则其次数分布为 Y|4050607080 1 用图形表示则为
− f (x)dx =1 因此,当σ不相同时,f(x)的形状也不相同,σ愈小,分布就愈集中在 X 附近,σ愈大,分 布就愈平坦。 利用正态曲线的数学性质,依平均数与标准差,可以计算出平均数与某一数值之间的面 积,如图 2.1 中由 a 到 b 的面积为: = b a F(x) f (x)dx 任何正态分布,它的样本落在任意区间(a,b)内的概率等于直线 x=a,x=b,横坐标和曲 线 f(x)所夹的面积(可由正态分布概率积分表查得)。经计算,正态总体的样本落在: ( X -σ, X +σ)概率是 68.27%; ( X -2σ, X +2σ)概率是 95.45%; ( X -3σ, X +3σ)概率是 99.73%; ( X -1.96σ, X +1.96σ)概率是 95%; 正态分布的应用范围很广,是最常见、最重要的分布,居于基础的地位。在生产实践和 科学研究中,凡是处于控制状态的数据和测定随机误差的分布,大多是近似地服从正态分布 的。所以正态分布的理论对开展社会经济调查和科学研究具有十分重大的意义。 二、抽样分布 如前所述,在容量为 N 的总体中,抽取容量为 n 的样本时,可能抽到的样本不止一个。 对每一个可能的样本,都可获得统计量 y 、p 和 s 等的一个具体数值。可见,样本统计量是 个随机变量。 我们把根据所有可能样本计算出来的某一统计量的数值分布,称为抽样分布。抽样分布 理论是理解抽样调查基本原理的基础。常见的抽样分布有极限分布和精确分布两类。极限分 布也叫做大样本分布,它只有正态分布一种形式;精确分布又叫做小样本分布,其前提是总 体服从正态分布,它是正态分布的导出分布,包括有 t 分布、F 分布和χ2 分布等形式。 (一)样本统计量的极限分布 样本统计量有很多,这里只考察关于样本均值和样本比例的抽样分布。 例 2.1:现从正态分布总体 Y~N(100,625)中抽取容量为 n=5 的所有可能样本,经计算得 知样本平均数的分布为 y ~N(100,125)。当 n=20 时,样本平均数的分布为 y ~ N(100,31.25)。 一般地,可以证明如果总体服从正态分布,且总体均值和方差均为已知,即 Y~N(μ, σ 2 ),则不论样本量大小如何,样本均值均围绕总体均值而服从正态分布,并且其抽样分布 的方差等于总体方差的 n 分之一,即 y ~N(μ,σ 2 /n)。 而对于非正态总体,若均值μ和σ2 有限,则根据中心极限定理,当样本量 n 充分大时, 样本均值仍然围绕着总体均值而近似地服从正态分布,即 y ~N(μ,σ 2 /n)。 例 2.2:总体 N=5,Y={40,50,60,70,80},则其次数分布为: Y 40 50 60 70 80 f 1 1 1 1 1 用图形表示则为:
1.5 0 (EY==60,DY=02=200) 若取n=2,用放回抽样则可抽N=52=25个简单随机样本,其样本均值如下: 4050607080 40 4045505560 50 1550556065 5560657075 6065707580 进一步整理后,即可得出关于样本均值y的次数分布情况为 y|404550556065707580 123454321 用图形表示,则为 (Ey=60,Dy=100,可见y~N(60,100)) 如果总体容量较大,则当样本容量逐步扩大时,样本平均数的分布趋于正态分布的趋势 更加明显 上面的结论在样本比例的抽样分布中同样成立。即对任意一个成数为p的二项分布总体, 当n足够大(mp>5,n(1-p)>5)时,则样本成数P趋于服从正态分布,其平均数为p,方差为 h。因此,标准随机变量2=P-P=趋于服从标准正态分布。 p(1-p) p(1-p) n (二)样本统计量的精确分布 1、x2分布 设随机变量Y~N(0,1)(i=1,2,…,n),且相互独立,则Y=∑Y服从自由度为n的x2分 布,记作Y~x2(n)
0 0.5 1 1.5 0 2 0 4 0 6 0 8 0 100 (EY=μ=60,DY=σ2 =200) 若取 n=2,用放回抽样则可抽 N n =52 =25 个简单随机样本,其样本均值如下: y2 y1 40 50 60 70 80 40 50 60 70 80 40 45 50 55 60 45 50 55 60 65 50 55 60 65 70 55 60 65 70 75 60 65 70 75 80 进一步整理后,即可得出关于样本均值 y 的次数分布情况为: y 40 45 50 55 60 65 70 75 80 f 1 2 3 4 5 4 3 2 1 用图形表示,则为: 0 1 2 3 4 5 6 0 2 0 4 0 6 0 8 0 100 (E y =60,D y =100,可见 y ~N(60,100)) 如果总体容量较大,则当样本容量逐步扩大时,样本平均数的分布趋于正态分布的趋势 更加明显。 上面的结论在样本比例的抽样分布中同样成立。即对任意一个成数为 p 的二项分布总体, 当 n 足够大(np>5,n(1-p)>5)时,则样本成数 P 趋于服从正态分布,其平均数为 p,方差为 n p(1− p) 。因此,标准随机变量 n p p P p Z (1− ) − = 趋于服从标准正态分布。 (二)样本统计量的精确分布 1、χ2 分布 设随机变量 Yi~N(0,1)(i=1,2,…,n),且相互独立,则 Y=∑Y 2 i 服从自由度为 n 的χ2分 布,记作 Y~χ2 (n)