第2康数据的骏集-→1日 调查,却只有20%的比较富裕的阶层出错。 给予回答,而那些忙于生计的一般家庭 《文学文摘》的这次调查被称为美 大多以拒绝回应。实际投票中,在芝加 国历史上最失败的一次调查,作为数据 哥市罗斯福以压倒性多数票胜过兰登。 收集失败的案例,多次被写入各类调查 这说明,当回答者和无回答者有显著差 图书。《文学文摘》最终也因此破产 异时,忽略缺失数据进行推断一定会倒闭。 人们购买住房是喜欢大户型还是喜欢小户型?对父母的孝敬程度与子女的性别有 关系吗?国民在购买保险的时候,是选择国内的保险公司,还是选择国外的保险公 司?这些都是我们感兴趣却又不知道答案的问题。为了回答这些问题,需要搜集相关 的数据进行分析。这就是说,当研究的问题确定之后,我们就要考虑为进行研究所需 要的数据,这里包括:我们从哪里获得数据?如果需要调查,有那么多的潜在被调查 者,我们应当向谁进行调查?选中被调查者以后,我们怎样实施调查?有些研究问题 可能需要通过实验的方法获得数据,那么怎样使用实验方法获得数据呢?我们所得到 的这些数据都很准确吗?如果不准确,误差是怎么产生的?应当怎样控制误差以便获 得较高质量的数据?这些工作都是一项统计研究活动所不可缺少的环节。本章将对上 述有关问题加以讨论。 2.1。数据的来源 所有统计数据追踪其初始来源,都是来自调查或实验。但是,从使用者的角度 看,统计数据主要来自两条渠道:一个是数据的间接来源,即数据是由别人通过调查 或实验的方式搜集的,使用者只是找到它们并加以使用,对此我们称为数据的间接来 源。另一个是通过自己的调查或实验活动,直接获得第一手数据,对此我们称为数据 的直接来源。本节将对获取数据的这两条渠道分别加以介绍。 2.1.1数据的间接来源 如果与研究内容有关的原信息已经存在,我们只是对这些原信息重新加工、整 理,使之成为我们进行统计分析可以使用的数据,则把它们称为间接来源的数据。从 搜集的范围看,这些数据可以取自系统外部,也可以取自系统内部。数据取自系统外 部的主要渠道有:统计部门和各级政府部门公布的有关资料,如定期发布的统计公 报,定期出版的各类统计年鉴;各类经济信息中心、信息咨询机构、专业调查机构 各行业协会和联合会提供的市场信息和行业发展的数据情报;各类专业期刊、报纸 图书所提供的文献资料,各种会议,如博览会、展销会、交易会及专业性、学术性研 讨会上交流的有关资料;从互联网或图书馆查阅到的相关资料,等等。取自系统内部
14《统计学(第六版) 的资料,如果就经济活动而言,则主要包括业务资料,如与业务经营活动有关的各种 单据、记录;经营活动过程中的各种统计报表;各种财务、会计核算和分析资料等。 相对而言,这种二手资料的搜集比较容易,采集数据的成本低,并且能很快得 到。二手资料的作用也非常广泛,除了分析所要研究的问题,这些资料还可以提供研 究问题的背景,帮助研究者更好地定义问题,检验和回答某些疑问和假设,寻找研究 问题的思路和途径。因此,搜集二手资料是研究者首先考虑并采用的。分析也应该首 先从对二手资料的分析开始 但是,二手资料也有很大的局限性,研究者在使用二手资料时要保特谨慎的态 度。因为二手资料并不是为特定的研究问题而产生的,所以在回答所研究的问题方面 可能是有欠缺的,如资料的相关性不够,口径可能不一致,数据也许不准确,也许过 时了,等等。因此,在使用二手资料前,对二手资料进行评估是必要的。 对二手资料进行评估可以考虑如下一些内容: (1)资料是谁搜集的?这主要是考察数据搜集者的实力和社会信誉度。例如,对 于全国性的宏观数据,与某个专业性的调查机构相比,政府有关部门公布的数据可信 度更高。 (2)为什么目的而搜集?为了某个集团的利益而搜集的数据是值得怀疑的 (3)数据是怎样搜集的?搜集数据可以有多种方法,不同方法所采集到的数据, 其解释力和说服力都是不同的。如果不了解搜集数据所用的方法,则很难对数据的质 量做出客观的评价。数据的质量来源于数据的产生过程 (4)什么时候搜集的?过时的数据,其说服力自然受到质疑。 使用二手数据,要注意数据的定义、含义、计算口径和计算方法,避免错用、误 用、滥用。在引用二手数据时,应注明数据的来源,以尊重他人的劳动成果。 2.1.2数据的直接来源 虽然二手数据具有搜集方便、数据采集快、采集成本低等优点,但对一个特定的 研究问题而言,二手资料的主要弱点是针对性不够,所以仅仅靠二手资料还不能回答 研究所提出的问题,这时就要通过调查和实验的方法直接获得一手资料。我们把通过 调查方法获得的数据称为调查数据,把通过实验方法得到的数据称为实验数据。 调查通常是对社会现象而言的。例如,经济学家通过搜集经济现象的数据来分析 经济形势、某种经济现象的发展趋势、经济现象之间的相互联系和影响。社会学家通 过搜集有关人的数据以了解人类行为。管理学家通过搜集生产、经营活动的有关数据 以分析生产过程的协调性和效率。调查数据通常取自有限总体,即总体所包含的个体 单位是有限的。如果调查针对总体中的所有个体单位进行,就把这种调查称为普查 普查数据具有信息全面、完整的特点,对普查数据的全面分析和深入挖掘是统计分析 的重要内容。但是,当总体较大时,进行普查将是一项很大的工程,由于普查涉及的 范围广,接受调查的单位多,所以耗时、费力,调查的成本也非常高,因此普查不可 能经常进行。事实上,统计学家所面临的经常是样本的数据,如何从总体中抽取出
■第2意数据的搬集一15 个有效的样本,就成为统计学家需要考虑的一个问题。对于调查数据将在2.2节中专 门讨论 实验大多是对自然现象而言的。例如,化学家通过实验了解不同元素结合后产生 的变化,农学家通过实验了解水分、温度对农作物产量的影响,医学家通过实验验证 新药的疗效。但实验作为搜集数据的一种科学的方法也广泛运用到社会科学中。心理 学、教育学的研究中大量地使用实验的方法获取所需要的数据,社会学、经济学、管 理学中也有许多使用实验方法获得研究数据的案例。关于实验数据,我们将在2.3节 中专门讨论。 2.2调查数据 2.2.1概率抽样和非概率抽样 在数据采集阶段,统计学家面临的一个关键问题是如何抽选出一个好的样本。好 的样本都是相对而言的,相对包括两方面的含义:一个含义是针对研究的问题而言 的。不同的研究问题,对样本的要求会有所差别,对某一个研究问题,这可能是一个 不错的样本,对另一个研究问题,这个样本可能就是糟糕的。例如,如果研究顾客的 满意度,样本应当来自该产品的用户,而如果要了解消费者对该产品的购买意愿,样 本就应当取自所有潜在的购买者。所以,进行什么样的抽样设计首先取决于研究目 的。另一个含义是针对调查费用与估计精度的关系而言的。进行数据搜集总要投入 定的调查费用,调查中也希望获得更多的高质量的数据。但两者往往是有矛盾的, 个好的样本应具有最好的性能价格比,即在相同调查费用的条件下,获得数据的估计 精度最高,或在相同估计精度的条件下,调查成本最低。在研究中,我们对估计结果 的精度要求是可以有差别的,有些问题很重要,我们希望估计的精度高一些,有些数 据相对而言不太重要,放松估计精度而节省大量调查费用也是一个不错的选择,正如 对航天器中精密仪器主轴加工精度的要求和制作一根香肠时所要求的精度不能相提并 论一样,对投资股票收益率的估计和对电视节目收视率的估计的精度要求也可以有所 不同,因为它们意味着不同的后果。 使用抽样采集数据的具体方式有许多种,可以将这些不同的方式分为两类:概率 抽样和非概率抽样 1.概率抽样 概率抽样(probability sampling)也称随机抽样,是指遵循随机原则进行的抽 样,总体中每个单位都有一定的机会被选人样本。它具有下面几个特点: 首先,抽样时是按一定的概率以随机原则抽取样本。所谓随机原则就是在抽取样 本时排除主观上有意识地抽取调查单位,使每个单位都有一定的机会被抽中。需要注 意的是,随机不等于随便,随机有严格的科学含义,可以用概率来描述,而随便则带
16 ■统计学(第六版) 有人为的主观的因素。例如,要在一栋楼内抽取10位居民作为样本,若采用随机原 则,就需要事先将居住在该楼的居民按某种顺序编上号,通过一定的随机化程序,如 使用随机数字表,抽取出样本,这样可以保证居住在该楼的每位居民都有一定的机会 被选中。而如果调查人员站在楼前,将最先走到楼外的10位居民选人入样本,这就是 随便而不是随机,这种方法不能使居住在该楼内的所有居民都有一定的机会被选中, 已经在楼外的人不可能被选中,在调查时段不外出的人也没有机会被选中。随机与随 便的本质区别就在于,是否按照给定的入样概率,通过一定的随机化程序抽取样本 单元 其次,每个单位被抽中的概率是已知的,或是可以计算出来的。 最后,当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概 率。这就是说,估计量不仅与样本单位的观测值(也称为观察值)有关,也与其入样 概率有关」 需要提及的是,概率抽样与等概率抽样是两个不同的概念。当我们谈到概率抽 样时,是指总体中的每个单位都有一定的非零概率被抽中,单位之间被抽中的概率 可以相等,也可以不等。若是前者,称为等概率抽样;若是后者,称为不等概率 抽样 调查的实践中经常采用的概率抽样方式有以下几种: (1)简单随机抽样 进行概率抽样需要抽样框,抽样框(sampling frame)通常包括所有总体单位的 信息,如企业名录(抽选企业)、学生名册(抽选学生)或住户门牌号码(抽选住户)》 等。抽样框的作用不仅在于提供备选单位的名单以供抽选,它还是计算各个单位人样 概率的依据。简单随机抽样(simple random sampling)就是从包括总体N个单位的 抽样框中随机地、一个个地抽取个单位作为样本,每个单位的入样概率是相等的。 抽样的随机性是通过抽样的随机化程序体现的,实施随机化程序可以使用随机数字 表,也可以使用能产生符合要求的随机数序列的计算机程序 本书最后的附录部分,有一份截取的随机数字表。随机数字表是由数字0, 1,…,9组成的表,每个数字都有同样的机会被抽中。用随机数字表抽取简单随机 样本时,可用下面两种方法。 方法一:根据总体单位个数N的位数决定在随机数字表中随机抽取几列,如N 678,要抽取n=5的样本,这时N为3位数,则在随机数字表中随机抽取3列,顺序 往下,选出头5个001~678之间互不相同的数,如果这3列随机数字不够,可另选 其他3列继续,直到抽满n个单元为止。 方法二:有时方法一的执行效率可能不高,通常是首位数比较小的时候。假设 N=327,首位数是3,比较小。如果按方法一,在随机数字表中001~327的范围内 抽选,有许多数就会大于327,例如在随机数字表中抽到486,在001~327范围之 外,只好遗弃,比较可惜。这时可采用余数人样的方法,即486÷327,商为1,余数 为159,则第159个单位被抽中。如果在随机数字表中抽到999,则999÷327,商为 3,余数为18,则第18个单位被抽中,依此类推
一第2章数据的接集-)7 在使用随机数字表时,为克服可能的个人习惯,增加随机性,使用随机数字表的 页号及起始点应该由随机数产生,如随意翻开一页,闭上眼睛,将火柴随意扔到页面 上,将火柴头所指的数字作为页号,同样的方法产生起始行号和起始列号。 简单随机抽样是一种最基本的抽样方法,是其他抽样方法的基础。这种方法的突 出特点是简单、直观,在抽样框完整时,可以直接从中抽取样本,由于抽选的概率相 同,用样本统计量对目标量进行估计及计算估计量误差都比较方便。但简单随机抽样 在实际应用中也有一些局限性:首先,它要求将包含所有总体单位的名单作为抽样 框,当N很大时,构造这样的抽样框并不容易:其次,根据这种方法抽出的单位很 分散,给实施调查增加了困难:最后,这种方法没有利用其他辅助信息以提高估计的 效率。所以,在规模较大的调查中,很少直接采用简单随机抽样,一般是把这种方法 和其他抽样方法结合起来使用。 (2)分层抽样 分层抽样(stratified sampling)是将抽样单位按某种特征或某种规则划分为不同 的层,然后从不同的层中独立、随机地抽取样本。将各层的样本结合起来,对总体的 目标量进行估计。分层抽样有许多优点,例如,这种抽样方法保证了样本中包含有各 种特征的抽样单位,样本的结构与总体的结构比较相近,从而可以有效地提高估计的 精度:分层抽样在一定条件下为组织实施调查提供了方便(当层是按行业或行政区划 进行划分时);分层抽样既可以对总体参数进行估计,也可以对各层的目标量进行估 计,等等。这些优点使分层抽样在实践中得到了广泛的应用。 (3)整群抽样。 将总体中若干个单位合并为组,这样的组称为群。抽样时直接抽取群,然后对中 选群中的所有单位全部实施调查,这样的抽样方法称为整群抽样(cluster sampling) 与简单随机抽样相比,整群抽样的特点在于:抽取样本时只需要群的抽样框,而 不必要求包括所有单位的抽样框,这就大大简化了编制抽样框的工作量。其次,由于 群通常是由那些地理位置邻近的或隶属于同一系统的单位所构成,因此调查的地点相 对集中,从而节省了调查费用,方便了调查的实施。整群抽样的主要弱点是估计的精 度较差,因为同一群内的单位或多或少有些相似,在样本量相同的条件下,整群抽样 的抽样误差通常比较大。一般说来,要得到与简单随机抽样相同的精度,采用整群抽 样需要增加基本调查单位。 (4)系统抽样。 将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取 个单位作为初始单位,然后按事先规定好的规则确定其他样本单位,这种抽样方法 称为系统抽样(systematic sampling)。典型的系统抽样是先从数字1~k之间随机抽 取一个数字r作为初始单位,以后依次取r十k,r十2k,·。所以可以把系统抽样看 成是将总体内的单位按顺序分成k群,用相同的概率抽取出一群的方法 系统抽样的主要优点是操作简便,如果有辅助信息,对总体内的单位进行有组织 的排列,可以有效地提高估计的精度。系统抽样的缺点是对估计量方差的估计比较困 难。系统抽样方法在调查实践中有广泛的应用