第七章抽样调查 教学目的与要求:了解抽样调查的概念、特点、及应用范围等基本内容,掌握抽样平均 误差、极限误差,根据平均误差进行总体的区间估计:理解简单随机抽样、类型抽样、整群 抽样、机械抽样等不同随机抽样的特点,并会进行相应的总体区间估计 教学重点:抽样的平均误差,极限误差、全及指标的推断、必要样本数目的确定 教学难点:抽样的平均误差,极限误差、全及指标的推断、必要样本数目的确定 第一节抽样调查的基本问题 一、抽样调查的概念 在统计调查 ,为了取得某一社会经济现象总体的综合特征,除了运用全面调查方法外 是杏能只对总体的部分单位进行调查,从而掌握总体的综合特征呢?特别是当总体的单位数 众多而不便于采用全面调查,或者当某些现象总体的综合特征是要经过皲坏性的测试才能取 得的情况下,能否只对总体的一部分单位进调查,即可推断总体呢?答案是肯定的。这种统 计调查方法,就是科学的抽样调查。事实上,在我们山常生活中,都自觉或不自觉运用者抽 样调查方法比要对 批生 的零部件 进石 ,质 员不可能对所有产品进行 而往往是抽取一定批次即可掌程全部产品的基本情况,这种方法就是抽样调查方法。当然习 格意义上的抽样调查是要根据一定的科学原理为指导,推断的计算方法是有严格的理论依据 的。 抽样固杏的概今可以有广义狭义之分。按照广义的甲解.凡是抽取一部分单位讲行观 察,并根据观察结果来推断全体的都是抽样调查,其中又分为非随机抽样和随机抽样。 非 机调查是有意识地选择单位,即根据对总体全面了解和具体分析的情况下,有意识地选样 些方面具有代表性的单位进行调查,前面我们在统计调查方法甲所讲的重点调查和典型调查 即是非随机抽样。随机抽样则是根据大数定律的要求,在抽取调查单位时,应保证总体中各 个单位都有同样的机会被抽中。一般所讲的抽样调查,均指获义的抽样调查。所以,严格意 义上的抽样调查是指:按照随机原则从全部对象中抽取一部分单位进行观察,并依据所获得 的样本的指 数值对 对象的数最特征作出具 一定把程度的估: 而达到对 部研究对象的正确认识的一种统计方法。 二、抽样调查的特点 (一)按纯随机的原则从全部总体中由选调查单位。调查单位的确定既不受调查者主观 愿望的影响,也不受被调查者意愿的影响,六全排除了主观意识的作用。呢个单位被抽选或 不被抽选,完全是偶然的事件 点与其他非全面调查,有者显著的区别。随机抽取单位 也不是指随便或任意抽取,而是要保证总体的每 个单位都有同等的抽取或不被抽取的村 会。随机原则也可称为同等可能性原则。按随机原则抽取调查单位,是抽样推断的基本要求 它同抽样推断的日的足密切相关的。抽样调查的日的足推断总体,那么抽取的部分单位就应 具有充分的代表性,这样就有较大的可能性使抽到的这部分单位保持和总体相同的结构,或 者说有相同的分布,从而保证它们对总体的代表性 )从数量特征上山部分推断总体。即根据被抽取的一部分调查单位的资料,对总 的数量特征作出科学的估计与推断。抽样调查是非全面调查,日的在于对总体的规模、水平 结构等指标作出估计,以达到对被研究总体数量特征的认识。例,抽取一定比例的产品, 检验共质量状况来推断整批产品的质量状况:抽取灰林甲一定区域、一定比例的树木,来了
解整个森林甲树木的病虫害。其他非全面调查,一般不能在数量上推算总体,达到对总体数 最特征的认以 (三)抽样推断必然有误差,但是误差是事先可以计算并加以控制的 抽样推断是以一部分单位的资料士推算总体,必然会产生一定的误差。但是这种误差可 事先按一定的资料加以计算出来,并且可以采取一定的组织设计来控制这个误差范围,保证 抽样达到一定的可靠度。也就是说,轴样调查是根据事先给定的误差允许范围进行设计的, 而抽样推断则是且有一定的可靠程度的世计和断, 三、抽样调查的作用 也正是山于抽样调查有以上特点,它较之其它的统计调查则有以下独特的作用: 〔一)有些现象不可能进行全面调查 一方面,对无限总体不能采用全面调查,必须用抽样调查的方法。例如,调查某大河用 面的鱼苗数量、调查某市的空气污染状况。另一方面,有些产品的质量检验具有破坏性。例 如,轮胎的使用寿命、炮弹的杀伤力。这些调查所用的测试手段对产品具有破坏性,不可能 进行全面调查 只能采用抽样调查 (二)有些现象里可以进行全面调查,但不必要或很难进行的,可以采用抽样调 有些现象从理论上讲可以进行全面调查,但实际上山于总体范围过大,单位分布散,没 有必要或很难进行的。例如要了解居民家庭生活状况,虽然可以进行全面调查,但调查的范 太广,单位太多,做全面调查花费人、财、物力太多,因此实际上很难小到,也没有此必 要,通过抽样调查的方式也可 以推算出总体指标数值。另外,抽样调查可以节省时间, 调查的时效性,有助于人们及时采用相应措随或决策。如农产品产量的全面调查,需花费相 当长的时间,能得到有关资料,而抽样调查可及时扶得有关资料,这对于有关部门及时安 排农产品收购、储运、出口等都有很大的好处。 〔一)对全面调查的弥料讲行检哈和修正 全面调查涉及的面很 参与人员很多 工作量很大,容易发生登记性的误。因此 在全面调查,特别是在各种普查后 非常有必要进行抽样复查 根据复查结果计算差错率 并以此为依据来检查和缘正全面调查的结果,从而提高全面调查的质量, (四)可以用于工业生产过程的控制 抽样调查不但泛地用于生产结果的质量检查和估计,而目也可以有效地应用于对成批 或大量连续生产的工业产品在生产过程中的质量控制,检查生产过程是杏正常,及时提供有 关信息,以便采取措施 保证生产过程的正常运转和产品质量的稳定 四、抽样调查的理论依据 就数量关系来说,抽样调查是建立在概率论的大数法则基础上,大数法则的一系列定理 为抽样推断提供了数学依据。 大数法测总关于大量的饰机理象其有稳定件质的法测。它说明!果被研究的总体是山大 量的相对独立的随机因素所构成,而月每个因素对总体的影响都相对的小,那么,对这些大 因素加以综合半均的结果,因素的个别影利将相互抵消,而显现出它们共同作用的倾向,使 总体具有稳定的性质。 具体地说,大数法则的意义可以归纳1下四方面: 1、现象的某种总体规律性,只有当且有这种现象的足够多数的单位综合汇总在一一起的时 候,才能显示出来。因此,只有从大量现象的总体中,才能研究这些现象的规律性 现象的总体性规律 通带是以斗 均数的形 表现出来 3、当所研究的现象总体包含的单位越多,平均数也就越能够正确地反映出这些现象的规 律性 4、各单位的共同倾向决定者半均数的水平,而各单位对平均数的离差则会山于足够多数
单位的综合汇总的结果,而相互抵消,趋于消失。 独立同分布序列的切比雪夫大数定律具体内容为:设独立随机变量序列 X,XA,X,A服从相同分布,E(X)=4,D(X)=G2(1=1,2,A)则对于任意正数 s,有imP啡2x-4<e}I 这一定律表明,当n充分大时,“试验平均值=∑X,与期望的绝对偏差小于任 n后 意给定正数ε”这一事件的概率可以任意接近于1:或者从实际推断原理而言,当n充分大, “试验平均值又与期望“的绝对偏差小于任意给定正数£”几乎必然会发生。即抽样平均 数大概率上收敛于总体Ψ均数 大数定律认证了抽样平均数趋近于总体平均数的趋势,这为抽样推断提供了重要的依据, 但是,抽样半均数和总体半均数的离差究竞有多大?离差不超过一定范围的橱率究竞有多 少?这个离差的分布怎样?大数法则并没有给出具体信息。这个问题要用另一重要的定理, 即中心极限定甲来研究 独立同分布序列的中心极限定理的内容:设相互独立的随机变量序列X1,X,AX。,A 报从相同的概率分布,月E(X)=4,D(X:)=G2,记: ∑(x,)-n4 Z=四 √no 设Z的分布函数为: F.(x)=P2sx 则有:1imE国-2eh=6w 这一定理证明,当n充分大时,独立同分的随机变量之和乙。=之X,的分布近似于 F态分布N(n4,no2) 以上结论证实:如果总体变量存在有限的平均数和方差,那么,不论这个总体变量的分 如,的若抽样单位数n的增.抽样均数的分便格所于正分石,这个结论付于抽 样推断是引分重要的,因为在经济现象中变量和的分布是普遍存在的。例如,全班成绩是每 个学生成绩的总和,所以全班成绩分布可以视为各个学生成绩总和的分布。又,产品标准 规格的偏差是山许多因素综合形成的,所以产品规格离差的分布可以视为许多独立因素之和 的分布。根据中心极限定,我们有理山相信,这些分布都趋于正态。也就是说,在现实生活
中,一个随机变量服从于正念分布未必多,但多个随机变量和的分布趋近于正态分布则是普 遍布存在的。抽样平均数也是一种随机变量和的分布,因此,在抽样单位数n充分大的条件 下,抽样半均也趋近于正态分,这为抽样误差的概率计提供了 个极为有效而且方 的条件。 五、抽样调查的基本概念 (一)全及总体及抽样总体 1、会及总体简称为总体,是指所需认识对象的全体。它是由且有某种共同性质的许多单 位所组成的集合体。根据总体范围大小的不同,总体可分为无限总体和有限总体。在抽样拍 断中,我们研究的一般为有限总体,其单位数通常用N表示。 根据总体单位标志的性质不同,总体可分为变量总体和属性总体,反映数量标志的总体 称为变量总体,如反映居民收入水平的总体,反映企业职工工资水平的总体等。反映品质标 志的总体称为属性总体,如反映质量等级的产品总体等。总体不同,表明总体特征和认识总 体的方法也就不同。同一个总体,有时是变量总体,有时是属性总体,有时两者都是。 2、抽样总体,又称为样本总体,简称样本 子样等,它是指从全及总体中随机抽取出来 用于调查或者观察的那部分单位的集合体。样本总体的单位数称为样本容量,通常用小写 文字母n表示。一般来说,样本单位达到或超过30个称为大样本,而在30个以下称为小样 本。社会经济现象的抽查推数断多取大样本,而自然实验室观察则往往取小样本,以很小的 样本来推断很大的总体,这是抽样推断的特点。 定的 而月是惟一的。但用于观察对象的样本戴不是这样。从一个总体中 可以抽取很多样本,全部样本的可能数目和每一样本容量及随机取样的方法有关。因此样本 不是确定的,也不是唯一的。 (一》全及指标和抽样指标 1、全及指标。全及指标也称总体参数,它是根据全及总体冬个单位的标志值或标志特征 计算的反映全及总体某种属性的综合指标。山于全及总体是唯一确定的,根据全及总体计算 的全及指标也是唯 定的 通常全及指标有总体半均数和总体标准差 对于变量总体,总体平均数是指全及总体的标志总量和总体单位数对比得到的平均数。 ∑x 或者灭= ∑x 相应地总体标准差为:。=、 ∑(x- ∑x-X) 或者0= 对于屈性总休,山于各个单位的标志值不能用数值表示,只能用文字来加以表述。当 个总体可以按某一标志划分为两个组成部分,其中一部分总体单位具有某一标志,可以用 “是”“有”等概念来表 :而另一部分总体单位不具备这一标志时 以用“杏”“无” 来表示,具有这种特性的表志称为交替标志,也称为是非标志。总体中具有某种标志表现的 单位数占总体单位数的比重,称为成数,它是一种特殊的相对数,通常用大定的英文宁母P 来表示。而总体中不具有某种标志表现的单位数占总体单位数的比重用Q来表示。设总体 单位数为N,具有某种标志表现的单位数为N,不具有某种标志表现的单位数为N。,则: N,+N。=N P=0Q=0P+Q=1 交替标志表现了现象质的差别,其标志表现为文宁,若想计算其半均数,首先必须对
其标志进行量化处理。山于交替标志只有两种表现,所以可以用“1”代表“是”或者“有”, 表示总体单位具有某种表现:用“0”代表“公”或者“无”,表示总体单不且有某种表现 经过量化处理以后,就可以对交替标志进行平均数和标准差的运算 半均数X=1+0xN==P N,+N。 N 标准差。= X-x五则。=、 1-P)2N1+(0-P)2N。 ∑f N,+W。 -Qp+p2Q-√PQP+@-√P0=√P1-P) 2、样木指标。样木指标也称样杰统计量,它是想根样木点体各单位的标志值或标志结 征计算的反映样本总体某种属性的综合指标。山于一个总体可以有多个不同的样本,因此样 本指标是不唯一的,随样本的不同而变化,是随机变量。但对于某 个具体的样本而言,该 样本指标是确定的,可以计算的,并月可用它来对未知的全及指标作出估计和推断。 与全及总体相对应,样本指标也有样本平均数和样本标准差。对于变量总体,样本平均 数是指抽样总体各单位标志值的平均数文。 >xf n 其相应的样本标准差计算公式为:3 ∑x-) 或5= ∑x-)f n ∑f 对于属性总体,样本成数是指样本中具有某种标志表现的单位数占总体单位数的比重 其计算式与总体指标的元全一致 (三)重复抽样与不重复抽样 1、重复抽样。重复抽样也称重置抽样或放回抽样。它是指从全及总体中抽取样本时, 随机抽取一个样太单位,得记其¥号或标志值之后,又将它放回全及总中去重新抽样。耳从 全及总体中又随机抽取第二个单位,同样登记后,又把它放回全及总体中去,如此反复抽样 反复回放,直到抽完n个样本单位为止 重复抽样的特点:(1)在抽样过程中,各次抽样相互独立,总体单位数始终不变,都 为N:(2)总体各单位被抽中的概率在每次抽样中都一样,都为1N:(3)可构成的样本个 数N“个,每个样本被抽取的概率都相同 2、不重复抽样。不重复抽样也称为不重置抽样或非回置抽样。它是指从全及总体的 个单位中随机抽取一个容量为n的样本,但每次从总体中抽取一个单位登记其序号或标志值 之后,不丹放回总体中去重新抽样,此连续抽个单位组成样本。因此,不重复抽样实际 上是一次同时从总体中抽取n个单位组成样本。 八承复抽样的特点县:(1)在样的时积中,各次抽样不是相万独立的.每一次抽 的结果都影响下 一次抽样,每抽一次总体单位数就减少 个:(2)总体各单位被抽中的概率 在各次抽样中是不同的:(3)可构成的样本个数为C、,每个样本被抽取的概率是相同的 第二节抽样误差