1981年9月,经国务院批准组建了农村抽样调査队和城市抽样调查队。 1982年4月起建立了城市物价抽样调査,用直接抽样调査的资料来编制物价指数。 1982年5月,经国务院批准,恢复农产量抽样调查。 1983年起,形成了每年一次的全国人口变动抽样调查制度。1987年以后又进一步过渡为 每年一次的全国1%人口抽样调查。 1994年,经国务院批准又组建了企业调查队,对全国二、三次产业中各种经济类型、各 种经济规模的企业进行抽样调查。 经过多年的艰苦努力,我国政府统计系统抽样调查工作的开展终于有了统一的组织、统 的编制、统一的专项经费、统一的抽样方案和统一的调查网点,走上了专业化、正规化的 轨道。此外,抽样调查方法在工业、商业、交通运输等生产管理中也得到了广泛应用。另据 998年的一项调查,目前国内专业从事市场调查业务的机构有一百多家,其所用方法主要是 抽样法 但总体来看,目前抽样调查在我国的应用仍呈“四多四少”,即:宏观领域多,微观领域 少:政府统计中多,企业统计中少:经济现象研究中多,社会现象研究中少:管理过程中多 科研过程中少等等。因此,抽样调查在我国的普及应用还有大量工作要做 第三节抽样调查的分类与设计 抽样调查中,如何根据所研究现象总体的不同特征,合理地设计抽样方案,有效地抽取 样本?为此,需要进一步研究抽样调查的分类与设计 、抽样调查的分类 抽样调查可以按不同的标准进行分类。常见的分类有以下几种: 按抽样调查的目的不同,可将其分成叙述型抽样调査和分析型抽样调查。 叙述型抽样调査的目的是获得有关总体大组信息的简单数字资料等:而分析型抽样调查 则要对总体的不同分组间作出比较,以便发现各组间是否存在差异,或者进一步证实之所以 发生差异的原因等。 按抽选样本的具体原则不同,可以分为概率抽样和非概率抽样 概率抽样也称随机抽样,即在抽选样本的过程中,完全按随机原则进行,使抽样过程不 受主观干扰,每个总体单位被选中与否与其概率大小有关。因此,概率抽样是一种科学的抽 样方法。使用概率抽样所得到的样本叫做随机样本。 在概率抽样中,如果总体中每个单元被抽中的概率都相等,则为等概率抽样:如果每个 单元被抽中的概率不完全相等,则为不等概率抽样。例如:在一个盒中放入红、黄、蓝色球 各一个,随机从中取一个,则各色球被取到的概率均为三分之一,这就是等概率抽样;而如 果在盒中放入红、黄色求各一个、蓝色球两个,从中随机抽一个,则抽到红、黄色球的概率 各为四分之一,而抽到蓝色球的概率为四分之二,这就是不等概率。 概率抽样按其组织方式不同,可分成:简单随机抽样:分层抽样:整群抽样:等距抽样 多阶抽样;二重抽样等不同类型。本书从第三章开始将对各种常见的抽样组织方式分别加以 详细的介绍。 有些时候,概率抽样在实际中难以实现,如从海水中抽样,通常只限于一部分:从运煤 货车中抽样,一般是从顶部进行等。此时,只能采用非概率抽样。非概率抽样也就是非随 机抽样,在抽样过程中不完全按随机原则进行,带有一定的主观随意性,所以无法估计抽样 误差,也不能控制抽样误差。用非概率抽样取得的样本叫做非随机样本。 非概率抽样主要包括:①随意抽样:按抽样者的方便,随意地抽取样本。②定额抽样: 依一定的标志将总体分成若干层,并按各层在总体中所占的比例分配样本总量在各层的数额, 以抽到各层所需定额为止。定额抽样是美国的盖洛普(G.H. Gallup)创立的,它是非概率抽样
1981 年 9 月,经国务院批准组建了农村抽样调查队和城市抽样调查队。 1982 年 4 月起建立了城市物价抽样调查,用直接抽样调查的资料来编制物价指数。 1982 年 5 月,经国务院批准,恢复农产量抽样调查。 1983 年起,形成了每年一次的全国人口变动抽样调查制度。1987 年以后又进一步过渡为 每年一次的全国 1%人口抽样调查。 1994 年,经国务院批准又组建了企业调查队,对全国二、三次产业中各种经济类型、各 种经济规模的企业进行抽样调查。 经过多年的艰苦努力,我国政府统计系统抽样调查工作的开展终于有了统一的组织、统 一的编制、统一的专项经费、统一的抽样方案和统一的调查网点,走上了专业化、正规化的 轨道。此外,抽样调查方法在工业、商业、交通运输等生产管理中也得到了广泛应用。另据 1998 年的一项调查,目前国内专业从事市场调查业务的机构有一百多家,其所用方法主要是 抽样法。 但总体来看,目前抽样调查在我国的应用仍呈“四多四少”,即:宏观领域多,微观领域 少;政府统计中多,企业统计中少;经济现象研究中多,社会现象研究中少;管理过程中多, 科研过程中少等等。因此,抽样调查在我国的普及应用还有大量工作要做。 第三节 抽样调查的分类与设计 抽样调查中,如何根据所研究现象总体的不同特征,合理地设计抽样方案,有效地抽取 样本?为此,需要进一步研究抽样调查的分类与设计。 一、抽样调查的分类 抽样调查可以按不同的标准进行分类。常见的分类有以下几种: 按抽样调查的目的不同,可将其分成叙述型抽样调查和分析型抽样调查。 叙述型抽样调查的目的是获得有关总体大组信息的简单数字资料等;而分析型抽样调查 则要对总体的不同分组间作出比较,以便发现各组间是否存在差异,或者进一步证实之所以 发生差异的原因等。 按抽选样本的具体原则不同,可以分为概率抽样和非概率抽样。 概率抽样也称随机抽样,即在抽选样本的过程中,完全按随机原则进行,使抽样过程不 受主观干扰,每个总体单位被选中与否与其概率大小有关。因此,概率抽样是一种科学的抽 样方法。使用概率抽样所得到的样本叫做随机样本。 在概率抽样中,如果总体中每个单元被抽中的概率都相等,则为等概率抽样;如果每个 单元被抽中的概率不完全相等,则为不等概率抽样。例如:在一个盒中放入红、黄、蓝色球 各一个,随机从中取一个,则各色球被取到的概率均为三分之一,这就是等概率抽样;而如 果在盒中放入红、黄色求各一个、蓝色球两个,从中随机抽一个,则抽到红、黄色球的概率 各为四分之一,而抽到蓝色球的概率为四分之二,这就是不等概率。 概率抽样按其组织方式不同,可分成:简单随机抽样;分层抽样;整群抽样;等距抽样; 多阶抽样;二重抽样等不同类型。本书从第三章开始将对各种常见的抽样组织方式分别加以 详细的介绍。 有些时候,概率抽样在实际中难以实现,如从海水中抽样,通常只限于一部分;从运煤 货车中抽样,一般是从顶部进行等。此时,只能采用非概率抽样。 非概率抽样也就是非随 机抽样,在抽样过程中不完全按随机原则进行,带有一定的主观随意性,所以无法估计抽样 误差,也不能控制抽样误差。用非概率抽样取得的样本叫做非随机样本。 非概率抽样主要包括:①随意抽样:按抽样者的方便,随意地抽取样本。②定额抽样: 依一定的标志将总体分成若干层,并按各层在总体中所占的比例分配样本总量在各层的数额, 以抽到各层所需定额为止。定额抽样是美国的盖洛普(G.H.Gallup)创立的,它是非概率抽样
中比较科学的一种抽样方式。③判断抽样:抽样者依照自己的经验抽取具有平均水平的典型 单位作为样本,因此也叫做典型抽样。④滚雪球抽样:先从总体中找出少数个体,通过这些 个体了解其它个体,再由已了解到的个体去发现更多的个体,以此类推,了解到的个体越来 越多,最后接近于总体。 、抽样调查方案的设计 抽样调查是一项理论性和方法性都很强的统计工作,因此必须精心设计,认真组织,以 确保调查工作的质量和时效性, 抽样调査方案的设计就是在实际进行抽样调査之前,对整个抽样调查工作过程所作出的 通盘考虑和合理安排。在抽样调查方案的设计中,一般应遵循以下两条基本原则 其一,保证抽样的随机性原则。随机原则是抽样调査所必须坚持的根本原则,是抽样推 断的基本前提,按随机原则取样也是抽样调查有别于其它非全面调查的最根本标志,是抽样 调查科学性的基本保证。但在实践中,如何保证实现抽样的随机性,并非容易之事,为此要 注意解决好几个问题:首先,要排除人为的主观因素的干扰,使得总体中的每个单元都有一 定的入选机会。当然,这需要做出很多的努力,并有较为严格的控制措施,因为,抽样中人 为因素的干扰有时是很隐蔽的。其次,要确定合适的抽样框。抽样框是赖以进行抽样的基础。 个好的抽样框应该能够覆盖总体中的所有单元,并且没有重复。抽样框不完备常常会导致 产生系统性偏差。最后,要选择合适的抽样实施方法及抽样的组织形式,并为其执行提供 切必要的条件。 其二,保证实现最大的抽样效果原则。即在一定的调査费用条件下使抽样误差最小(等 价于使估计精度最高),或在给定的精度要求下使调査费用最省。通常,提高精度的要求和节 省费用的要求往往是矛盾的,因为提高精度意味着降低抽样误差,而抽样误差愈小,则样本 量就要扩大,费用相应增加。因此,在实际的抽样调査中,抽样误差最小的方案,常常可能 并不是最好的方案,许多情况是允许一定的误差范围,就能够满足分析的需要,误差过小会 使费用超过限制;另一方面,费用最小的方案也不一定就是最优方案,因为过少的调查费用 会限制调査的单元数目,进而使抽样误差超过允许的最大范围,并最终使抽样调查本身失去 意义。所以,设计抽样调査方案时,要综合考虑精度和费用两方面的限制条件,在多种抽样 组织形式间精心选择,或将多种抽样组织形式结合起来加以应用。 此外,一个好的抽样调查方案还必须服从目的性和实践性的要求。前者强调无论是抽样 还是估计推断的设计,都要紧紧围绕研究的目的:后者是指所设计的方案要能够在实践中得 到切实的执行 由于所研究现象总体的具体特点和调查的问题不同,抽样调查方案所应包括的内容也不 尽相同。但在一般情况下,应具有以下几个部分: 第一,有关抽样调査要求方面的内容设计。一是要明确调査目的,即通过抽样调査要解 决什么问题,并且要将调查目的进一步具体化为所要进行推断的各种变量。这样,才能恰当 地确定调查方案的其他内容。二是要明确调査对象和调查单位,即确定什么是总体,什么是 总体单位,也就是在什么范围内进行抽样调查,以什么为基本单位进行调查以取得数据资料。 这是搞好抽样调査的基础。三是要明确规定对于主要目标量的抽样推断精度要求或者误差控 制要求。它既是对抽样调査工作的基本要求,同时也是衡量抽样调查工作质量好坏的标准。 第二,有关抽样推断工作方面的内容设计。具体包括:①确定抽样框。在抽样调査中 抽样框是否合适,对于所抽样本的代表性影响很大。因此,抽样前要尽可能多地收集和利用 与调查变量相关的各种资料,编制出符合实际情况的抽样框。②确定抽样的组织方式及方法。 不同的抽样方法、不同的抽样方式有着各自不同的特点和适应性,因此,要根据所要研究现 象的基本特点合理地加以选择,以求获得最好的抽样效果。③确定样本容量的大小,这是抽 样设计的主要内容之一。样本容量的确定要综合考虑两方面的因素:一是调查费用的多少
中比较科学的一种抽样方式。③判断抽样:抽样者依照自己的经验抽取具有平均水平的典型 单位作为样本,因此也叫做典型抽样。④滚雪球抽样:先从总体中找出少数个体,通过这些 个体了解其它个体,再由已了解到的个体去发现更多的个体,以此类推,了解到的个体越来 越多,最后接近于总体。 二、抽样调查方案的设计 抽样调查是一项理论性和方法性都很强的统计工作,因此必须精心设计,认真组织,以 确保调查工作的质量和时效性。 抽样调查方案的设计就是在实际进行抽样调查之前,对整个抽样调查工作过程所作出的 通盘考虑和合理安排。在抽样调查方案的设计中,一般应遵循以下两条基本原则: 其一,保证抽样的随机性原则。随机原则是抽样调查所必须坚持的根本原则,是抽样推 断的基本前提,按随机原则取样也是抽样调查有别于其它非全面调查的最根本标志,是抽样 调查科学性的基本保证。但在实践中,如何保证实现抽样的随机性,并非容易之事,为此要 注意解决好几个问题:首先,要排除人为的主观因素的干扰,使得总体中的每个单元都有一 定的入选机会。当然,这需要做出很多的努力,并有较为严格的控制措施,因为,抽样中人 为因素的干扰有时是很隐蔽的。其次,要确定合适的抽样框。抽样框是赖以进行抽样的基础。 一个好的抽样框应该能够覆盖总体中的所有单元,并且没有重复。抽样框不完备常常会导致 产生系统性偏差。最后,要选择合适的抽样实施方法及抽样的组织形式,并为其执行提供一 切必要的条件。 其二,保证实现最大的抽样效果原则。即在一定的调查费用条件下使抽样误差最小(等 价于使估计精度最高),或在给定的精度要求下使调查费用最省。通常,提高精度的要求和节 省费用的要求往往是矛盾的,因为提高精度意味着降低抽样误差,而抽样误差愈小,则样本 量就要扩大,费用相应增加。因此,在实际的抽样调查中,抽样误差最小的方案,常常可能 并不是最好的方案,许多情况是允许一定的误差范围,就能够满足分析的需要,误差过小会 使费用超过限制;另一方面,费用最小的方案也不一定就是最优方案,因为过少的调查费用 会限制调查的单元数目,进而使抽样误差超过允许的最大范围,并最终使抽样调查本身失去 意义。所以,设计抽样调查方案时,要综合考虑精度和费用两方面的限制条件,在多种抽样 组织形式间精心选择,或将多种抽样组织形式结合起来加以应用。 此外,一个好的抽样调查方案还必须服从目的性和实践性的要求。前者强调无论是抽样 还是估计推断的设计,都要紧紧围绕研究的目的;后者是指所设计的方案要能够在实践中得 到切实的执行。 由于所研究现象总体的具体特点和调查的问题不同,抽样调查方案所应包括的内容也不 尽相同。但在一般情况下,应具有以下几个部分: 第一,有关抽样调查要求方面的内容设计。一是要明确调查目的,即通过抽样调查要解 决什么问题,并且要将调查目的进一步具体化为所要进行推断的各种变量。这样,才能恰当 地确定调查方案的其他内容。二是要明确调查对象和调查单位,即确定什么是总体,什么是 总体单位,也就是在什么范围内进行抽样调查,以什么为基本单位进行调查以取得数据资料。 这是搞好抽样调查的基础。三是要明确规定对于主要目标量的抽样推断精度要求或者误差控 制要求。它既是对抽样调查工作的基本要求,同时也是衡量抽样调查工作质量好坏的标准。 第二,有关抽样推断工作方面的内容设计。具体包括:①确定抽样框。在抽样调查中, 抽样框是否合适,对于所抽样本的代表性影响很大。因此,抽样前要尽可能多地收集和利用 与调查变量相关的各种资料,编制出符合实际情况的抽样框。②确定抽样的组织方式及方法。 不同的抽样方法、不同的抽样方式有着各自不同的特点和适应性,因此,要根据所要研究现 象的基本特点合理地加以选择,以求获得最好的抽样效果。③确定样本容量的大小,这是抽 样设计的主要内容之一。样本容量的确定要综合考虑两方面的因素:一是调查费用的多少
它通常限制了所能调査的最多单元数目;二是精度要求的高低,它通常是规定了所必须调査 的最少单元数目。④确定数据处理方式。包括数据整理方法、整理技术、资料审核检验方法 等。⑤确定推断方式。在取得了样本资料后,运用什么样的方式来推断总体资料,如何计算 并控制误差等就成了关键问题,应依照调查研究的具体目的及所选用抽样方式的特点,结合 现象总体的情况加以选择。 第三,有关调查内容方面的设计。调查内容就是所要调查的项目或问题,它是抽样调查 方案的核心所在。确定选择哪些项目进行调查,对于能否圆满地实现调查目的是至关重要的, 具体内容在后面有关章节做系统介绍 第四,有关组织工作方面的内容设计。包括:①调査人员、组织领导机构的确定以及调 査费用的筹措等。②调査人员的培训。要使调査人员在明确调査目的、熟悉调査项目的基础 上,根据分工去掌握有关的抽样技术、现场调査方法、编码、审核、数据录入汇总等基本技 能。③确定搜集资料的具体方法和调査问卷的回收方法等。④制定控制回答质量,减少回答 误差的方案。 三、抽样调查方案的检查 抽样方案设计好之后,便可以组织实施,指导抽样调查的实践。但在实际中,由于情况 发生变化,据以设计抽样方案的历史资料或许已经过时,或者因当初考虑不周,在设计时发 生失误又未被发现等原因,都可能造成抽样方案的缺陷,从而影响调査的结果。因此,在设 计好的方案正式实施之前都必须进行检査,用试点的调查数据对方案进行验证,然后才能正 式实施调查。抽样调查方案的检查主要包括两个方面: 是准确性检查。即以方案所要求的允许误差范围为标准,用已掌握的资料(试点资料) 来检查其在一定概率保证下,实际的极限误差是否超过方案所允许的误差范围。如果实际的 误差范围没有超过规定,则认为方案的设计符合准确性的要求,可以实施;否则,就说明设 计方案的准确性不符合要求,这时就应对所设计的抽样调查方案进行认真的分析和检查,如 果方案中不存在技术性的错误,就要考虑增加样本量,对方案做必要的修订 二是代表性检查。即以方案中的样本指标与过去已掌握的总体同一指标进行对比,视其 比率是否超过规定的要求来判断方案是否满足代表性要求。例如,在我国的农产量抽样调查 和居民家计调查中分别规定,农产量的比率不超过±2%,居民收入的比率不超过±3%,即: 98%≤样本平均单产÷总体平均单产≤102% 97%≤样本平均收入÷总体平均收入≤103% 如果比率超过规定范围,则要对方案进行多方面的检查、修正,如果修正后的代表性仍不符 合要求,就要通过增加样本量来获得满意的代表性 四、抽样调查的基本步骤 按照抽样调査的工作实际,结合抽样调查方案的内容,抽样调查一般可概括为以下八个 基本步骤,依次为(1)明确调査目的要求,安排调査计划,进行经费预算;(2)编制抽样框: (3)设计调査问卷;(4)设计抽样方案,确定抽样的方式方法和样本容量,随机抽取样本 (5)培训调査员,组织开展调查,搜集所需资料;(6)检查调查结果,进行数据处理;(7)分析 调査结果,撰写调査报告:(⑧)积累调査信息,总结调査经验,硏究探讨新的调査方式方法或 开拓现有调查方式方法应用的新领域 第四节抽样调查的基础理论 大数定律 大数定律又称平均数定律或大数法则,它所描述的是当样本充分大时,样本统计量的极 限行为。即是说在充分大规模的抽样下抽样平均数和总体平均数间的离差可以为任意小这 可能性的概率可以尽量接近于1,即接近完全的精确性。大数定律可以用契比雪夫定理加以
它通常限制了所能调查的最多单元数目;二是精度要求的高低,它通常是规定了所必须调查 的最少单元数目。④确定数据处理方式。包括数据整理方法、整理技术、资料审核检验方法 等。⑤确定推断方式。在取得了样本资料后,运用什么样的方式来推断总体资料,如何计算 并控制误差等就成了关键问题,应依照调查研究的具体目的及所选用抽样方式的特点,结合 现象总体的情况加以选择。 第三,有关调查内容方面的设计。调查内容就是所要调查的项目或问题,它是抽样调查 方案的核心所在。确定选择哪些项目进行调查,对于能否圆满地实现调查目的是至关重要的, 具体内容在后面有关章节做系统介绍。 第四,有关组织工作方面的内容设计。包括:①调查人员、组织领导机构的确定以及调 查费用的筹措等。②调查人员的培训。要使调查人员在明确调查目的、熟悉调查项目的基础 上,根据分工去掌握有关的抽样技术、现场调查方法、编码、审核、数据录入汇总等基本技 能。③确定搜集资料的具体方法和调查问卷的回收方法等。④制定控制回答质量,减少回答 误差的方案。 三、抽样调查方案的检查 抽样方案设计好之后,便可以组织实施,指导抽样调查的实践。但在实际中,由于情况 发生变化,据以设计抽样方案的历史资料或许已经过时,或者因当初考虑不周,在设计时发 生失误又未被发现等原因,都可能造成抽样方案的缺陷,从而影响调查的结果。因此,在设 计好的方案正式实施之前都必须进行检查,用试点的调查数据对方案进行验证,然后才能正 式实施调查。抽样调查方案的检查主要包括两个方面: 一是准确性检查。即以方案所要求的允许误差范围为标准,用已掌握的资料(试点资料) 来检查其在一定概率保证下,实际的极限误差是否超过方案所允许的误差范围。如果实际的 误差范围没有超过规定,则认为方案的设计符合准确性的要求,可以实施;否则,就说明设 计方案的准确性不符合要求,这时就应对所设计的抽样调查方案进行认真的分析和检查,如 果方案中不存在技术性的错误,就要考虑增加样本量,对方案做必要的修订。 二是代表性检查。即以方案中的样本指标与过去已掌握的总体同一指标进行对比,视其 比率是否超过规定的要求来判断方案是否满足代表性要求。例如,在我国的农产量抽样调查 和居民家计调查中分别规定,农产量的比率不超过±2%,居民收入的比率不超过±3%,即: 98%≤样本平均单产÷总体平均单产≤102% 97%≤样本平均收入÷总体平均收入≤103% 如果比率超过规定范围,则要对方案进行多方面的检查、修正,如果修正后的代表性仍不符 合要求,就要通过增加样本量来获得满意的代表性。 四、抽样调查的基本步骤 按照抽样调查的工作实际,结合抽样调查方案的内容,抽样调查一般可概括为以下八个 基本步骤,依次为(1)明确调查目的要求,安排调查计划,进行经费预算;(2) 编制抽样框; (3) 设计调查问卷; (4)设计抽样方案,确定抽样的方式方法和样本容量,随机抽取样本; (5)培训调查员,组织开展调查,搜集所需资料;(6)检查调查结果,进行数据处理;(7)分析 调查结果,撰写调查报告;(8)积累调查信息,总结调查经验,研究探讨新的调查方式方法或 开拓现有调查方式方法应用的新领域。 第四节 抽样调查的基础理论 一、大数定律 大数定律又称平均数定律或大数法则,它所描述的是当样本充分大时,样本统计量的极 限行为。即是说在充分大规模的抽样下抽样平均数和总体平均数间的离差可以为任意小这一 可能性的概率可以尽量接近于 1,即接近完全的精确性。大数定律可以用契比雪夫定理加以
证明。若从逻辑意义、哲学意义来阐明的话,它是大量现象和过程的规律性,而且一般只 有在充分大量观察时,才会显露出现象和过程在某种具体历史环境中具有代表性的主要特征 大数定律的具体表现 (1)只有掌握足够多的单位数目或足够多的情况时,大量现象的规律性及大量过程的倾向 性才能很好地显示出来。也就是说,只有在掌握足够多单位数目或足够多的情况时,对这些 大量现象和过程,才能很好地进行研究 (2)只有在平均数形式上,这些规律性与倾向性才能被表现出来。正因为如此,大数定律 又称为平均数定律。 (3)研究大量现象和过程时,如果抽取更多的单位,那么从这些单位的标志值所计算出来 的平均数越能够正确地表现出这种现象或过程的规律性。 (4)如果我们研究足够多的单位数目或足够多的情况,以平均数为中心,各个单位或情况 向正反两方向的离差往往互相均衡化起来,或者互相抵消。对大量现象或过程来说,这些离 差当然不是由于本质的差异所引起,而是由于偶然的状态所发生的 大数定律的理论和方法,对科学地安排统计试验和制定抽样调查方案是十分重要的。它 使抽样法的应用获得充分的数学依据,同时为抽样结果的精确推断,提供了充分的可能性 所以说,大数定律是统计抽样调查的数理基础,也给统计中的大量观察法提供了理论和数学 方面的根据。 因此它要求在运用抽样调査时,必须注意:(1)遵循随机原则,只有在随机原则下进行抽 样,样本中各单位才能均匀分布在总体中,使样本具有代表性。这样,样本指标才可以用来 对总体指标作出估计和推断。(2)抽样必须注意观察现象的大量性。在同一总体中进行随机抽 样,每个被抽中的样本单位的标志值或偏大或偏小,纯属偶然,并不代表总体的数量特征 而通过大量观察,根据大数定律的原理,消除偶然因素的影响,用抽出的单位组成样本综合 的结果,才能把总体的数量特征接近准确地反映出来 二、中心极限定理 中心极限定理的基本内涵是:一组独立同分布的变量的和或平均值当n充分大时近似地 具有正态分布。它分别由德莫佛尔一拉普拉斯和林德伯格一勒维所证明。以下仅对德莫佛尔 拉普拉斯中心极限定理做一简单介绍 设随机变量Y1,Y2,…,Yn相互独立,服从同一分布,且有有限的数学期望值μ和方差 2,又使Y:=(Y+Y2+…+Y)/m,则随机变量Hn= 的分布函数F2(y)对于任意y,就 imF2(y)=如P{) 通过这个定理,可以知道不论总体服从什么分布,当n很大时,样本的平均数Y近似于 具有参数u和/的正态分布(即极限正态分布)。这个定理是大样本统计推断的理论基础 中心极限定理,并非证明正态分布的存在,而是用来说明近似地遵从正态分布的概率变量的 现象,说明样本平均值的分布接近于正态分布。中心极限定理表明:样本平均值分布的平均 值等于总体平均值,即E(Y)=μ:样本分布的标准差为 中心极限定理说明,用样本
证明。 若从逻辑意义、哲学意义来阐明的话,它是大量现象和过程的规律性,而且一般只 有在充分大量观察时,才会显露出现象和过程在某种具体历史环境中具有代表性的主要特征。 大数定律的具体表现: (1)只有掌握足够多的单位数目或足够多的情况时,大量现象的规律性及大量过程的倾向 性才能很好地显示出来。也就是说,只有在掌握足够多单位数目或足够多的情况时,对这些 大量现象和过程,才能很好地进行研究。 (2)只有在平均数形式上,这些规律性与倾向性才能被表现出来。正因为如此,大数定律 又称为平均数定律。 (3)研究大量现象和过程时,如果抽取更多的单位,那么从这些单位的标志值所计算出来 的平均数越能够正确地表现出这种现象或过程的规律性。 (4)如果我们研究足够多的单位数目或足够多的情况,以平均数为中心,各个单位或情况 向正反两方向的离差往往互相均衡化起来,或者互相抵消。对大量现象或过程来说,这些离 差当然不是由于本质的差异所引起,而是由于偶然的状态所发生的。 大数定律的理论和方法,对科学地安排统计试验和制定抽样调查方案是十分重要的。它 使抽样法的应用获得充分的数学依据,同时为抽样结果的精确推断,提供了充分的可能性。 所以说,大数定律是统计抽样调查的数理基础,也给统计中的大量观察法提供了理论和数学 方面的根据。 因此它要求在运用抽样调查时,必须注意:(1)遵循随机原则,只有在随机原则下进行抽 样,样本中各单位才能均匀分布在总体中,使样本具有代表性。这样,样本指标才可以用来 对总体指标作出估计和推断。(2)抽样必须注意观察现象的大量性。在同一总体中进行随机抽 样,每个被抽中的样本单位的标志值或偏大或偏小,纯属偶然,并不代表总体的数量特征。 而通过大量观察,根据大数定律的原理,消除偶然因素的影响,用抽出的单位组成样本综合 的结果,才能把总体的数量特征接近准确地反映出来。 二、中心极限定理 中心极限定理的基本内涵是:一组独立同分布的变量的和或平均值当 n 充分大时近似地 具有正态分布。它分别由德莫佛尔-拉普拉斯和林德伯格-勒维所证明。以下仅对德莫佛尔 -拉普拉斯中心极限定理做一简单介绍。 设随机变量 Y1,Y2,…,Yn 相互独立,服从同一分布,且有有限的数学期望值μ和方差 σ2,又使 Y i=(Y1+Y2+…+Yn)/n,则随机变量 n Y Y i n ( − ) = 的分布函数 Fn(y)对于任意 y,就 有: dt t y i n n n e n Y F y P 2 2 2 1 } ( ) lim ( ) lim { − → → − = − = 通过这个定理,可以知道不论总体服从什么分布,当 n 很大时,样本的平均数 Y 近似于 具有参数μ和 n 的正态分布(即极限正态分布)。这个定理是大样本统计推断的理论基础。 中心极限定理,并非证明正态分布的存在,而是用来说明近似地遵从正态分布的概率变量的 现象,说明样本平均值的分布接近于正态分布。中心极限定理表明:样本平均值分布的平均 值等于总体平均值,即 E( Y )=μ;样本分布的标准差为 n 。中心极限定理说明,用样本
平均值产生的概率来代替从总体中直接抽出来样本计算的抽取样本的概率,为抽样推断奠定 了科学的理论基础 三、误差分布理论 抽样调查的目的是把对总体中有限的部分单位的调查结果作为普遍适用于总体的估计和 推断。但是,样本是随机抽出的,不同的随机样本就会得出不同的估计量。在同一总体中往 往可以抽出多个样本,可以得到同样多的估计量,基于总体指标都存在或大或小或正或负的 偏误,因此,用样本指标来推断总体指标,就存在抽样误差。承认这一点,不是证明抽样调 查不准确,不能用来推断总体,而相反,正是利用可能发生的抽样误差,加上样本指标,来 推断在多大的概率度下总体指标在一个怎样的范围之内 18世纪末,法国数学家拉普拉斯与德国数学家高斯,研究误差分布,建立了误差分布理 论。 在一个既定的总体中,抽选一定含量的样本,可能抽选到的样本有多个,因此可以取得 多个可能的样本指标(主要指平均数和成数)。如果将所有可能的样本指标组成频率分布,可 发现样本指标歹愈接近总体指标】的可能样本数愈多,即频率愈大;偏离愈远的可能样本 个数愈少,即频率愈小,形成两端小中间大的j可能值的分布,同时也就是抽样误差的分布。 按正态分布的基本条件,可能样本指标的分布从理论上说是遵循正态分布的。样本指标的分 布,通常又叫抽样分布,数理统计已证明,可能样本指标是否严格遵循正态分布,由两个主 要条件所决定:一是抽样总体的分布形态,二是抽样数目的大小。如果样本是抽自正态总体 无论抽样数目是大是小,可能样本指标都是遵循正态分布的;如果样本抽自非正态总体,只 要抽样数目较大ωn>30),可能样本指标也是接近或遵循正态分布的。 我们认识抽样误差及其分布的目的,就是希望所设计的抽样方案所取得的绝大部分的估 计量能较好地集中在总体指标的附近,通过计算抽样误差的界限,使抽样误差处于被控制的 状态。 四、概率理论的广泛应用 从上面介绍中可以看到,由于发展和论证了大数定律,中心极限定理和误差分布理论等, 使抽样方法有了科学的依据。同时,我们也看到抽样调查中也广泛应用了概率理论 概率也称或然率,就是指某一事件可能发生的机会,也就是某个事件可能发生的次数与 所有可能发生事件总次数之比。等概率就是机会均等,不等概率就是机会不均等。概率通常 有古典的和统计的两个意义 古典意义:就是事物有有限个均等的可能结果。如掷一粒骰子,有六个有限的均等可能 的结果,如预定可能结果为任意一个点数,则实现任一点数的机会均为1/6。古典概率由于 受“结果有限”和“均等可能”的限制,在实践中有很大的局限性。 统计意义:就是用统计的频率作概率的近似度量,如在某产品总体中,合格品m占被抽 检品n的频率为m/n,于是就可用频率m/n作为任意抽检一件产品结果为合格品的概率的近 似值,是为统计意义的概率 由此可见:数学主要从纯理论的观点进行研究,统计学是从应用的观点进行研究,概率 论作为数学的一个分支而引进统计学中,是统计学发展史上的重要事件
平均值产生的概率来代替从总体中直接抽出来样本计算的抽取样本的概率,为抽样推断奠定 了科学的理论基础。 三、误差分布理论 抽样调查的目的是把对总体中有限的部分单位的调查结果作为普遍适用于总体的估计和 推断。但是,样本是随机抽出的,不同的随机样本就会得出不同的估计量。在同一总体中往 往可以抽出多个样本,可以得到同样多的估计量,基于总体指标都存在或大或小或正或负的 偏误,因此,用样本指标来推断总体指标,就存在抽样误差。承认这一点,不是证明抽样调 查不准确,不能用来推断总体,而相反,正是利用可能发生的抽样误差,加上样本指标,来 推断在多大的概率度下总体指标在一个怎样的范围之内。 18 世纪末,法国数学家拉普拉斯与德国数学家高斯,研究误差分布,建立了误差分布理 论。 在一个既定的总体中,抽选一定含量的样本,可能抽选到的样本有多个,因此可以取得 多个可能的样本指标(主要指平均数和成数)。如果将所有可能的样本指标组成频率分布,可 发现样本指标 y 愈接近总体指标 Y 的可能样本数愈多,即频率愈大;偏离 Y 愈远的可能样本 个数愈少,即频率愈小,形成两端小中间大的 y 可能值的分布,同时也就是抽样误差的分布。 按正态分布的基本条件,可能样本指标的分布从理论上说是遵循正态分布的。样本指标的分 布,通常又叫抽样分布,数理统计已证明,可能样本指标是否严格遵循正态分布,由两个主 要条件所决定;一是抽样总体的分布形态,二是抽样数目的大小。如果样本是抽自正态总体, 无论抽样数目是大是小,可能样本指标都是遵循正态分布的;如果样本抽自非正态总体,只 要抽样数目较大(n>30),可能样本指标也是接近或遵循正态分布的。 我们认识抽样误差及其分布的目的,就是希望所设计的抽样方案所取得的绝大部分的估 计量能较好地集中在总体指标的附近,通过计算抽样误差的界限,使抽样误差处于被控制的 状态。 四、概率理论的广泛应用 从上面介绍中可以看到,由于发展和论证了大数定律,中心极限定理和误差分布理论等, 使抽样方法有了科学的依据。同时,我们也看到抽样调查中也广泛应用了概率理论。 概率也称或然率,就是指某一事件可能发生的机会,也就是某个事件可能发生的次数与 所有可能发生事件总次数之比。等概率就是机会均等,不等概率就是机会不均等。概率通常 有古典的和统计的两个意义: 古典意义:就是事物有有限个均等的可能结果。如掷一粒骰子,有六个有限的均等可能 的结果,如预定可能结果为任意一个点数,则实现任一点数的机会均为 1/6。古典概率由于 受“结果有限”和“均等可能”的限制,在实践中有很大的局限性。 统计意义:就是用统计的频率作概率的近似度量,如在某产品总体中,合格品 m 占被抽 检品 n 的频率为 m/n,于是就可用频率 m/n 作为任意抽检一件产品结果为合格品的概率的近 似值,是为统计意义的概率。 由此可见:数学主要从纯理论的观点进行研究,统计学是从应用的观点进行研究,概率 论作为数学的一个分支而引进统计学中,是统计学发展史上的重要事件