18 统计学(第六版) (5)多阶段抽样 采用类似整群抽样的方法,首先抽取群,但并不是调查群内的所有单位,而是再 进一步抽样,从选中的群中抽取出若干个单位进行调查。因为取得这些接受调查的单 位需要两个步骤,所以将这种抽样方式称为二阶段抽样。这里,群是初级抽样单位, 第二阶段抽取的是最终抽样单位。将这种方法推广,使抽样的段数增多,就称为多阶 段抽样(multi--stage sampling).。例如第一阶段抽取初级单位,第二阶段抽取二级单 位,第三阶段抽取接受调查的最终单位就是三阶段抽样,同样的方法还可以定义四 阶段抽样。不过,即便是大规模的抽样调查,抽取样本的阶段也应当尽可能少。因 为每增加一个抽样阶段,就会增添一份估计误差,用样本对总体进行估计也就更加 复杂。 多阶段抽样具有整群抽样的优点,它保证了样本相对集中,从而节约了调查费 用;不需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位 在更广的范围内展开。在较大规模的抽样调查中,多阶段抽样是经常采用的方法」 以上介绍了几种常见的概率抽样方式。概率抽样最主要的优点是,可以依据调查 结果,计算估计量误差,从而得到对总体目标量进行推断的可靠程度。从另一个方面 讲,也可以按照要求的精确度,计算必要的样本单位数目。所有这些都为统计估计结 果的评估提供了有力的依据,所以,统计分析的样本主要是概率样本,即样本是采用 概率抽样方式得到的。 2非概率抽样 非概率抽样(non-probability sampling)是相对于概率抽样而言的,指抽取样本 时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出 部分单位对其实施调查。非概率抽样的方式有许多种,可以归为以下几种类型。 (1)方便抽样。 调查过程中由调查员依据方便的原则,自行确定入抽样本的单位。例如,调查员 在街头、公园、商店等公共场所进行拦截式的调查;厂家在出售产品的柜台前对路过 的顾客进行调查,等等。方便抽样的最大特点是容易实施,调查的成本低,但这种抽 样方式也有明显的弱点。例如,样本单位的确定带有随意性,因此、方便样本无法代 表有明确定义的总体,将方便样本的调查结果推广到总体是没有任何意义的。因此 如果研究的目的是对总体有关的参数进行推断,使用方便样本是不合适的。但在科学 研究中,使用方便样本可以产生一些想法以及对研究内容的初步认识,或建立假设。 (2)判断抽样 判断抽样是另一种比较方便的抽样方式,是指研究人员根据经验、判断和对研究 对象的了解,有目的地选择一些单位作为样本,实施时根据不同的目的有重点抽样 典型抽样、代表抽样等方式。重点抽样是从调查对象的全部单位中选择少数重点单 位,对其实施调查。这些重点单位的数量虽然不多,但在总体中占有重要地位。例 如,要了解全国钢铁企业的生产状况,可以选择产量较大的几个钢铁企业,如宝钢 鞍钢、首钢等,对这些重点单位进行调查,就可以了解钢铁产量的大致情况及产量变 化的基本走势。典型抽样是从总体中选择若干个典型的单位进行深人的调研、目的是
第2章数据的接集)1日 通过典型单位来描述或揭示所研究问题的本质和规律,因此,选择的典型单位应该具 有研究问题的本质或特征。例如,研究青少年犯罪问题,可以选择一些典型的犯人, 对其做深入细致的调查,掌握大量一手资料,进而分析青少年犯罪的一般规律。代表 抽样是通过分析,选择具有代表性的单位作为样本,在某种程度上,也具有典型抽样 的含义。例如,某奶粉生产企业欲了解消费者对奶粉成分的需求,可以调查一些年轻 的母亲,因为她们购买奶粉的数量较大,对奶粉的成分有更高的要求,通过她们可以 了解消费者购买奶粉时的选择意向。判断抽样是主观的,样本选择的好坏取决于调研 者的判断、经验、专业程度和创造性。这种方式的抽样成本比较低,也容易操作,但 由于样本是人为确定的,没有依据随机的原则,因而调查结果不能用于对总体有关参 数进行估计 (3)自愿样本。 自愿样本指被调查者自愿参加,成为样本中的一分子,向调查人员提供有关信 息。例如,参与报刊上和互联网上刊登的调查问卷活动,向某类节目拨打热线电话 等,都属于自愿样本。自愿样本与抽样的随机性无关,样本的组成往往集中于某类特 定的人群,尤其集中于对该调查活动感兴趣的人群,因此,这种样本是有偏的。我们 不能依据样本的信息对总体的状况进行估计,但自愿样本仍可以给研究人员提供许多 有价值的信息,它可以反映某类群体的一般看法。 (4)滚雪球抽样 滚雪球抽样往往用于对稀少群体的调查。在滚雪球抽样中,首先选择一组调查单 位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员 根据所提供的线索,进行此后的调查。这个过程持续下去,就会形成滚雪球效应。例 如,欲对冬泳爱好者进行某项调查,调查人员首先找到若干名冬泳爱好者,然后通过 他们找到更多的冬泳爱好者。滚雪球抽样也属于非概率抽样,因为与随机抽取的被调 查者相比,被推荐的被调查者在许多方面与推荐他们的那些人更为相似。滚雪球抽样 的主要优点是容易找到那些属于特定群体的被调查者,调查的成本也比较低。它适合 对特定群体进行研究的资料搜集。 (5)配额抽样。 配额抽样类似于概率抽样中的分层抽样,在市场调查中有广泛的应用。它是首先 将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽 样或判断抽样的方式选取样本单位。这种抽样方式操作比较简单,而且可以保证总体 中不同类别的单位都能包括在所抽的样本中,使得样本的结构和总体的结构类似。但 因为在抽取具体样本单位时并不是依据随机原则,所以它属于非概率抽样。 在配额抽样中,可以按单一变量控制,也可以按交叉变量控制。表2一1是单一 变量控制的例子。在一个城市中采用配额抽样抽出一个n=500的样本。控制变量有 年龄和性别,配额是按单个变量分别分配的,如各个年龄段上的配额和性别的配额。 这种配额抽样操作比较简便,但有可能出现偏斜,如年龄低的均为女性,年龄高的均 为男性。表2一2是交叉变量控制的例子
20 统计学(第六版) 表2一1 单一变量控制配额分配表 年龄 人数 性别 人数 20-30岁 150 男 250 3040岁 150 250 1050若 100 合计 500 50岁以上 100 合计 500 表2-2 交叉变量控制配额分配表 性别 年龄 男 女 合计 2030岁 70 80 150 30一40岁 150 40~50岁 45 100 50岁以上 50 50 100 合计 250 250 500 交叉变量配额控制可以保证样本的分布更为均匀,但现场调查中为了保证配额的 实现,尤其是在调查接近结束时,所选的样本单位要同时满足特定的配额,操作的滩 度可能要大一些。 3概套抽样与非概率柚样的比较 概率抽样与非概率抽样是性质不同的两种抽样类型,在调查中采用何种抽样类 型,取决于多种因素,包括研究问题的性质、使用数据要说明的问题、调查对象的特 征、调查费用、时间等。 由于非概率抽样不是依据随机原则抽选样本,样本统计量的分布是不确切的、因 而无法使用样本的结果对总体相应的参数进行推断。如果调查的目标是用样本的调查 结果对总体相应的参数进行估计,并计算估计的误差,得到总体参数的置信区间,这 时就不适合采用非概率抽样。非概率抽样的特点是操作简便、时效快、成本低,而且 对于抽样中的统计学专业技术要求不是很高。非概率抽样适合探索性的研究,调查的 结果用于发现问题,为更深入的数量分析做好准备。非概率抽样也适合市场调查中的 概念测试,如产品包装测试、广告测试等。 概率抽样是依据随机原则抽选样本,这时样本统计量的理论分布是存在的,因此 可以根据调查的结果对总体的有关参数进行估计,计算估计误差,得到总体参数的置 信区间,并且在进行抽样设计时,对估计的精度提出要求,计算为满足特定精度要求 所需要的样本量。所以,如果调查的目的在于掌握研究对象总体的数量特征,得到总 体参数的置信区间,就应当使用概率抽样的方法。当然,概率抽样的技术含量更高, 无论是抽选样本还是对调查数据进行分析,都要求有较高的统计学专业知识,调查的 成本也比非概率抽样高。 有时在一项研究项目中,也可以把概率抽样和非概率抽样相结合,发挥各自的特 点,满足研究中的不同需求
■第2室数据的设集21 鉴于概率抽样对统计学专业知识的要求,在本书后面对统计方法的讨论中,若没 有特殊说明,均假定数据取自概率样本。 同样需要说明,由于概率抽样又有抽取样本的不同方式(参见前面对概率抽样的 讨论),而本书并不是论述抽样技术的专门图书,所以在本书后面的讨论中均假定样 本是采用简单随机抽样的方式抽选出的,这样有助于我们集中把握推断统计的基本原 理。对其他抽样方式感兴趣的读者,请参阅抽样技术专门的图书。 2.2.2搜集数据的基本方法 样本单位确定之后,对这些单位实施调查,即从样本单位那里得到所需要的数 据,可以采用不同的方法。搜集数据的基本方法有以下几种 1.自填式 自填式是指在没有调查员协助的情况下由被调查者自己填写,完成调查问卷。把 问卷递送给被调查者的方法有很多,如调查员分发,通过邮寄方式,通过网络方式, 或把问卷刊登在报刊上,等等。由于被调查者在填答问卷时调查员一般不在现场,对 于问卷中的疑问无人解答,所以这种方法要求调查问卷结构严谨,有清楚的说明,让 被调查者一看就知道如何完成问卷。与其他调查方式相比,自填式问卷应有制作详 细、形象友好的说明,必要时可在问卷上提供调查人员的联系电话,以便被调查者遇 到疑问时与调查员联络。 自填式方法通常要求被调查者具有一定的文化素养,可以读懂问卷,能正确理解 调查问卷中的问题并进行回答。与其他搜集数据的方式相比,调查组织者对自填式方 法的管理相对容易,只要把问卷正确地送到被调查者手中即可。自填式的调查成本也 是最低的,增大样本量对调查费用的影响很小,所以可以进行大范围的调查。这种方 式也有利于被调查者,他们可以选择方便的时间填答问卷,可以参考有关记录而不必 依靠记忆进行回答。由于填写问卷时调查员不在场,因而自填式方法也可以在一定程 度上减少被调查者回答敏感问题的压力。 自填式方法的弱点也是明显的。首先,问卷的回收率比较低,因为被调查者往往 不够重视,在完成问卷方面没有压力,所以把问卷放弃不答。同时,由于不重视,被 调查者也容易把问卷丢失和遗忘。所以采用自填式方法时,通常需要做很多跟踪回访 工作以取得较高的回收率。其次,自填式方法不适合结构复杂的问卷,因为许多被调 查者不会去认真阅读填写问卷的指南,如果问卷中出现跳答、转答这样的问题,被调 查者往往出现回答错误,而如果问卷中不使用跳答、转答这样的技术手段,研究人员 可能就无法搜集到最合适的所需信息。因此,自填式方法对调查的内容会有所局限 此外,自填式方法的调查周期通常都比较长,调查人员也需要对问卷的递送和回收方 法进行仔细的研究和选择。最后,对于在数据搜集过程中出现的问题,一般难以及时 采取调改措施。 2.面访式 面访式是指现场调查中调查员与被调查者面对面,调查员提问、被调查者回答这
22←门统计学(第六版) 种调查方式。面访式的主要优点是,由于是面对面的交流,调查人员可以激发被调查 者的参与意识,对不愿意参与的被访者进行说服工作,由此提高调查的回答率。调查 员可以在现场解释问卷,回答被调查者的问题,同时,对被调查者的回答进行鉴别和 澄清,提高调查数据的质量,并且可以对识字率低的群体实施调查。由于调查问卷是 由经过培训的调查员所控制的,所以在问卷设计中可以采用更多的技术手段,使得调 查问题的组合更为科学、合理。而且,在面访调查中,还可以借助其他调查工具(图 片、照片、卡片、实物等)以丰富调查内容。面访式的数据搜集方法还有一个优点, 即它能对数据搜集所花费的时间进行调节,如果数据搜集进展太慢,需要加快速度, 就可以雇用更多的调查员,而这在使用自填式方法时是不可能的。 面访式方法的弱点主要有:首先,调查的成本比较高,因为要有调查员的培训费 用、调查员的工资、面访调查中送给被调查者的小礼品和调查员的交通费用等,而目 调查费用与样本量关系十分密切,所以,在大样本调查中,研究人员面临着调查成本 的巨大压力。其次,面访这种搜集数据的方式在对调查过程的质量控制方面有一定难 度,调查的数据质量与调查员的工作态度、责任心有直接关系,当大量调查员参与调 查时,如何保证高质量的现场操作就是一个很重要的问题。此外,对于敏感问题,除 非对调查员进行角色筛选,对调查员的访谈技巧进行专门的技术培训,否则,在面对 面的条件下,被调查者通常不会像在自填式方法下那样放松。 3.电话式 电话式是指调查人员通过打电话的方式向被调查者实施调查。电话调查的最大特 点是速度快,能够在很短的时间内完成调查。电话调查特别适合样本单位十分分散的 情况,由于不需要支付调查员的交通费,数据搜集的成本大大下降。电话调查对调查 员也是安全的,他们不必在晚上走访偏僻的居民区,而在面访调查中,这些都是不可 避免的。在电话调查中,对访问过程的控制也比较容易,因为调查员的工作地点都在 一起,调查中遇到的问题可以得到及时处理和解决,调查督导对访问实施监听也很容 易。目前,这方面的技术正在朝计算机辅助电话调查(computer assisted telephone nterview,CATI)方向发展。CATI系统把计算机与电话访问连接起来,调查的问 卷被输入计算机,调查员在计算机屏幕前操作,随机样本的抽选由计算机完成,由计 算机进行自动拨号,调查员将调查结果(用鼠标点击选项)输入计算机,设计的程序 可以对录入的结果进行逻辑审核,从而保证了数据的合理性。可以在调查过程中随时 得到即时的调查结果统计,从而发现样本结构、样本分布等有关问题,并及时采取相 应措施,使得样本的组成更为合理。对于无人接听,或对方因为忙而无法接受调查等 特殊情况,CATI系统可以自动记录下来,并在适当的时候向调查人员做出提示,对 这些样本单位进行重新调查。目前在发达国家,使用CAT1系统已经成为数据搜集的 最主要方法。我国电话拥有率增长很快,使用电话调查的方式搜集数据有广阔的发展 空间。 电话调查也有一定的局限性。因为电话调查的工具是电话,如果被调查者没有电 话,调查将无法实施,所以在电话拥有率不高的地区,电话调查这种方式就受到限 制。另外,使用电话进行访问的时间不能太长,人们不愿意通过电话进行冗长的交