■第2童数据的授集一)8 谈,被访者对调查的内容不感兴趣时就更是如此。同时,电话调查所使用的问卷要简 单,如果问卷答案的选项过长、过多,被调查者听了后面,忘了前面,不仅造成调查 进度的延缓,被调查者还很容易挂断电话。最后,与面访式相比,电话调查由于不是 面对面的交流,在被访者不愿意接受调查时,要说服他们就更为困难。 此外,搜集数据的方法还有观察式,即调查人员通过直接观测的方法获取信息 如利用安置在超市中的录像设备观察顾客挑选商品时的表情;在十字路口通过计数的 方法估算车流量等。 4.数据搜集方法的选择 搜集数据的不同方法各有特点,在选择数据搜集方法时,需要考虑以下几个 问题 (1)抽样框中的有关信息。 抽样框中的有关信息是影响方法选择的一个因素。如果抽样框中没有通信地址, 就不能将自填式问卷寄给被调查者;如果没有计算机随机数字拨号系统,又没有电话 号码的抽样框,电话调查的概率样本就难以产生,这时,电话访问方式就无法使用。 (2)目标总体的特征 目标总体的特征也影响数据搜集方法。目标总体的特征表现在多个方面。例如, 如果总体的识字率很低,对问卷的理解有困难,就不宜使用自填式方法。样本的地理 分布也很重要,如果样本单位分布很广,地域跨度大,进行面访调查的交通费用就会 很高,而且调查过程的管理和质量监控实施起来也不容易。 (3)调查问题的内容。 调查间题的内容也会影响数据搜集。对于比较复杂的问颖,面访调查比较话合 因为调查员可以在现场对模糊的问题进行解释和澄清,并判断被访者对问题是否真正 理解,调查问卷的设计也可以采用更多技术,如跳答、转答等,使搜集的数据满足研 究的要求。而如果调查的问题涉及一些敏感问题,那么使用匿名的数据搜集方法,如 自填式或电话调查可能更合适」 (4)有形辅助物的使用。 有形轴助物的使用对调查常常是有帮助或是必要的,例如在调查期间显示产品 产品的样本、广告等,在一些市场调查中,有时还需要被调查者试用产品,然后接受 调查。在这些情况下,面访是最合适的方法。采用邮寄问卷的自填式调查方法也可以 有一些效果,因为可以随问卷同时邮寄有关调查内容的图片。但电话调查对有形辅助 物的使用就受到限制 (5)实施调查的资源。 实施调查的资源会对搜集数据的方法产生重大影响。这些资源包括经费预算、人 员、调查设备和调查所需时间。面访调查的费用是最高的,需要支付调查员的劳务 费、调查交通费、被访者的礼品费等,还要找到能够满足调查需要的一定数量的调查 员。如果使用计算机辅助电话调查,就需要有计算机设备和CATI操作系统。 (6)管理与控制 有些数据搜集方法比另一些方法更容易管理。例如,在电话调查中,调查员通常
24 《统计学(第六版) 集中在调查中心一起工作,因此,管理和控制相对简单。而面访调查中调查员是分 散、独立地进行工作,对他们的管理与控制就有一定难度 (7)质量要求 质量要求也是确定数据搜集方法的一个重要因素。如果调查员是经过考核选拔出 来的,有较好的素质和责任心,并经过专门的培训,这时面访调查就能够有效地减少 被访者的回答误差。例如,对于调查中所使用的概念,调查员能够给出清晰无误的解 释;有经验的调查员还可以对被访者回答的真实性做出判断,并使用调查询问中的相 关技术进行澄清,以保证高质量的数据。回答率也是影响数据质量的一个重要方面。 由于面访具有面对面交流的有利条件,所以一般而言,面访式的回答率最高,而自填 式的回答率最低。但面访式的调查成本也是最高的,而自填式的调查成本最低。 三种搜集数据方法的特点如表2一3所示。 表2一3 搜集数据不同方法的特点 项目 自填式 面访式 电话式 调春时间 中等 快 调查费用 低 间卷难度 要求容易 可以复杂 要求容易 有形辅助物的使用 中等利用 充分利用 无法利用 调查过程控制 简单 复杂 容易 调查员作用的发挥 无法发挥 充分发挥 般发挥 回答率 最低 较高 一 由此可知,没有哪一种方法在所有方面都是最好的,因此,在数据搜集使用方法 的选择中要根据调查所需信息的性质、调查对象的特点、对数据质量和回答率的要 求,以及预算费用和时间要求等多方面因素综合而定。也许没有一种方法是适用的 这时就要考虑研究人员对数据需求的最主要方面。需要说明的是,客种方法并不是相 互排斥的:相反,在许多方面恰恰是相互补充的,因此,在一项调研活动中将各种方 法结合起来使用也许是不错的选择。例如,对被选中的调查单位首先采用邮寄问卷 让受访者自填的方式,对没有返回问卷的受访者,再进行电话追访或面访。 2.3实验数据 搜集数据的另一类方法是通过实验,在实验中控制一个或多个变量,在有控制的 条件下得到观测结果。所以,实验数据(experiment data)是指在实验中控制实验对 象而搜集到的变量的数据。例如,对在一起饲养的一群牲畜,分别喂给不同的饲料 以检验不同饲料对牲畜增重的影响。实验是检验变量间因果关系的一种方法。在实验 中,研究人员要控制某一情形的所有相关方面,操纵少数感兴趣的变量,然后观察实 验的结果
第2章数据的搜集一25 2.3.1实验组和对照组 实验不仅是搜集数据的一种方式,而且是一种研究方法。实验法的基本逻辑是 有意识地改变某个变量的情况(不妨设为A项),然后看另一个变量变化的情况(不 妨设为B项)。如果B项随着A项的变化而变化,就说明A项对B项有影响。为此, 需要将研究对象分为两组,一个为实验组,一个为对照组。实验组(experimen group)是指随机抽选的实验对象的子集。在这个子集中,每个单位接受某种特别的 处理。而在对照组(control group)中,每个单位不接受实验组成员所接受的某种特 别的处理。 早在17世纪初,英国海军就试图运用实验法找到坏血病的起因。当时,在海上 长期航行的水手们面临坏血病的威胁,皮肤上有青灰斑点,牙龈大量出血,英国海军 部怀疑这是由于缺乏柑橘类水果所导致的。当这个想法被提出时,恰好有四艘海军军 舰正要离开英国本土做长期航行,为调查是否是因为缺乏柑橘类水果而导致这种疾 病,海军部安排其中一艘军舰上的水手每天喝柑橘汁,而其他三艘军舰上的水手则没 有柑橘汁供应。航行还未结束,没有喝柑橘汁的水手们开始成批地生病,以至于不得 不把每天喝柑橘汁的水手分配到这三艘军舰上以帮助这些军舰进港, 在这项实验中,喝柑橘汁的水手们构成了实验组,没有喝柑橘汁的水手们构成了 对照组,需要对照组的原因是,若没有对照组,就无法判定A项是否对B项产生影 响。设想,如果四艘军舰上的水手们都喝柑橘汁,那么,没有得坏血病的原因是什么 就无法验证。一个好的实验设计都有一个实验组和一个或多个对照组。 但英国海军的实验还是有欠缺的,主要表现在两点:首先,实验组和对照组所处 的外部环境应该相同,在这个原则下,每艘船上都应该有喝柑橘汁和不喝柑橘汁的实 验者,这样就排除了船的因素的影响。其次,实验者在哪个组应该随机产生,否则 喜欢喝柑橘汁的人跑到了实验组,而喜欢喝酒的人在对照组,在研究开始之前两组的 人员身体状况就存在差异,这样就无法说明问题。如果实验对象是随机安排的,那么 健康和不健康的水手在每一组中的数目差不多,身体状况对导致坏血病的影响就被抵 消了,实验数据才有更高的可信度。 一个好的实验,对照组和实验组的产生不仅应该是随机的,而且应该是匹配的。 所谓匹配,是指对实验单位的背景材料进行分析比较,将情况类似的每对单位分别随 机地分配到实验组和对照组。例如,在实验新药或新的疗法时,将接受实验的患者按 照年龄、性别、病情等变量匹配后分到实验组和对照组。这样,不同组的患者有大致 相同的背景。同时,分组的结果不让患者知道,最好主持评价的医生也不知道,这可 以称为双盲法。双盲法也是在实验设计中应采用的。 2.3.2实验中的若千问题 实验法的逻辑严密,可以较好地证明假设,分析事物因果关系,但在实验过程中
26←统计学(第六版) 也会遇到一些问题! 1.人的意原 根据前面的讨论,我们知道,在划分实验组和对照组时,应该采用随机原则,但 在实施过程中会遇到挑战。如果研究的对象是人,这种挑战就更为明显。人们都有自 已的生活方式和处世原则,都有自己的爱好和兴趣,他们未必会按照研究者的要求和 布置行事。他们不会让自己的行为拘泥于一定的控制条件下。 2.心理问题 在实验研究中,人们对被研究非常敏感,这使得他们更加注意自我,从而走向另 一个极端。记录这种影响的例子之一是1924一1933年间,对通用电气公司的工人生 产率的系列调查。在一次调查中,一组社会学家和公司人事部门的成员想要研究车间 照明度对工人劳动生产率的影响。研究者增大照明度,发现产量增加。今人奇怪的 是,当他们减少照明度,产量也增加。看来无论做什么,工人的产量都会增加。后来 发现,增加产量的原因不在于照明度,而是工人意识到有人在注意他们的行为,从而 表现出一种容易被社会认可和接受的行为,尽管这种行为并不是他们愿意的。 3.道德问题 道德问题使得对人和动物做的实验复杂化了。当某种实验涉及道德问题时,人们 会处于进退两难的尴尬境地。例如,有一种理论认为,人口密度大会导致犯罪率的上 升。研究人员通过动物实验,观察作为实验对象的小白鼠的行为变化。随着被关在 起的小白鼠的密度不断增加,老鼠变得越来越烦躁,最后导致相互攻击、自相残杀。 显然,对人做这种实验是不道德的,那么对老鼠做这种实验就道德吗?又比如,在做 药物实验时,如何看待实验组和对照组的结果呢?例如,发明了一种有望治疗艾滋病 的新药,实验组的患者服用这种药、而对照组的患者不能服用这种药。如果新药是有 数的,对照组的人得不到新药就会面临死亡的威胁。然而,如果发现这种药有副作 用,从而导致服用该药的人在两年以后有更高的死亡率,那么,没有服用这种药的对 照组患者则可能避免这种风险。这中间确实存在道德的困境。 2.3.3实验中的统计 统计在实验的过程中发挥着重要的作用。这些作用主要表现在:确定进行实验所 需要的单位的个数,以保证实验可以达到统计显著的结果;将统计的思想融入实验设 计,使实验设计符合统计分析的标准:提供尽可能最有效地同时研究几个变量影响的 方法。 确定进行实验所需要的单位的个数,以便得到对实验精度预期的结果,这需要统 计学的专业知识。一般来说,实验数据越多越好。但进行大规模的实验,搜集数据的 成本将非常高,所需要的时间也更长。统计分析能够为在精度与费用的平衡中做出决 断提供可以参考的信息。 进行实验设计,也离不开统计学知识。实验设计本身就是一个统计问题。实验设 计是探索如何根据研究问题的需要,科学地安排实验,使我们能用尽可能少的实验获
第2童数据的焦 27 得尽可能多的信息。实验设计的有关问题将在后续章节中介绍。 在对实验数据进行分析时,根据研究的需要,统计可以提供最恰当的分析方法 一个好的实验,应该在两个方面都有效。一个方面是内部的有效性,内部的有效性意 味着实验测量的准确性。实验的目的是要考察自变量和因变量之间的因果关系,而如 果实验观察结果受到其他无关变量的影响,就很难推断自变量与因变量之间的因果关 系。另一个方面是外部的有效性,外部的有效性决定是否可以将实验中发现的因果关 系进行推广,即能否将结果推广到实验环境以外的情况?如果可以,结果可以推广到 什么样的总体、什么样的环境、什么样的自变量和因变量?与实验情况完全相同的纯 环境在社会现实中是很难复制的,那么,实验结果是否还有效?对这些问题给出分析 和解释,需要利用统计方法。例如,多元回归分析可以近似地将各个变量的影响区分 开,在满足一定条件下,定量地比较各个自变量对因变量产生的影响。协方差分析可 以通过调整每组内因变量的平均值,达到将无关变量的影响剔除的目的。此外,多元 统计分析的方法在实验数据的分析中也发挥着重要的作用。 2.3.4实验法案例 通过实验得到的数据称为实验数据,实验数据可以作为研究者判断假设的依据。 下面的两个案例或许可以使读者对实验数据的作用有更多的体会。 》案例2.1现场实验帮助A公司胜诉《 美国的A公司生产著名的运动包,该公司发现B公司(一个大型的商业集团) 引进一条生产线,生产的运动包与A公司生产的运动包形状几乎完全一样,消费者 很难区分。A公司指控B公司,说B公司误导消费者,让消费者觉得自己买的是A 公司的产品,而实际买的却是B公司的产品。为了证实这一点,由第三方进行了一 次现场实验。实验中选择了两组妇女,给第一组妇女看的是A公司生产的包,包面 上的所有标签都去掉,所有的标识、说明都印在包的里层。给第二组妇女看的是B 公司生产的包,包上的商标明显可见,所有的标签和悬挂物都按出售现场的样子保 留。这样做的目的是希望通过这种实验了解妇女们购买包时的选择标准。例如,她 们能否区分出包的不同来源或品牌,她们依据什么进行识别或辨认,如果靠某些东 西来辨认,那么这样做的理由是什么 每组样本都是200人,实验分别在芝加哥、洛杉矶和纽约的大商场进行。调查 采用拦戴式面访,被调查者是配额样本,即按妇女不同的年龄比例分配样本单位。 实验结果表明,大多数消费者无法区分两种包的不同来源,她们购买包时的依 据主要是包的款式,而A公司生产的包是名牌商品,这种包的款式是人们所熟悉 的。这个结果支持了A公司的立场。调查数据帮助A公司在法庭上胜诉,B公司 同意停止销售自己所生产的包