癌症的早期发现能否挽救生命?也许吧。但通常用于证明这一点的数据却更适合支撑相反 的结论。这要追溯到1935年,根据康涅狄格肿瘤研究所挂号处(The Connecticut Tumor Reqistry)的记录,从1935年到1941年,手术后5年的存活率大量上升。但实际上这些记录 是从1941年才开始登记的, 在此之前的数据则是通过跟踪的形式得到的。许多病人离开了康 涅狄格州,其生死与否无从得知。 正如医务记者雷纳得·恩格尔(Leonard Engel)所说,所存 在的内在偏差已足以“解释存活率上升的真相”。 一个以抽样为基础的报告如果要有价值,就必须使用具有代表性的样本,这种样本排除了 各种误差。这就是耶鲁毕业生的收入数据失真的原因,也是许多你在报纸或杂志上读到的报道 毫无意义的原因。 “位心理医生曾经报道:实际上所有的人都是神经质的。暂且不去管这种提法是否破坏了 “神经质”一词的含义,我们来看看这个医生的样本。也就是说,他观察了哪些人?结果证实, 他是在对他的病人进行研究后得到了这个发人深省的结论,这和代表全体人的样本可差得太远, 太远了。如果一个人心理健全,他永远不可能接受心理医生治疗。 对你所读到的东西多思考一下,你将避免接受许多似是而非的结论。 记住下面这点是有益的:无形的误差与有形的误差一样容易破坏样本的可信度。也就是说, 即使你找不到任何破坏性的误差来源,但只要有产生误差的可能性,你就有必要对结果保留 一定的怀疑。如果你还有一丝的疑惑,想想1948年和1952年的总统大选,它们已足够证明这 早上好! 直再不懂他 婆是什么孝思 更远的例子可以追溯到1936年《文学文摘》(Literary Di1gest)的惨败。曾经准确顶测了 1932年美 选的1000万个《文学文摘》的订阅 对1936年的 他们向这个创的来志细辑信口且地保,兰oO0将在洗迷中脱出:并出 进行 斯福(Roosevelt)所得的票数比是370:161。这样一个久经考验的调查群体怎么可能产生误 差呢?但的确有误差,正如后来许多大学论文和报社评论员发现的,1936年就有能力购买电 话和订阅杂志的人并不能真正代表选民:至少在经济上,他们是极特殊的,是有偏的,后来证 实他们中许多人是共和党的选民。该样本选择了兰登,而选民心里却想着罗斯福。 -11
- 11 - 癌症的早期发现能否挽救生命?也许吧。但通常用于证明这一点的数据却更适合支撑相反 的结论。这要追溯到1935年,根据康涅狄格肿瘤研究所挂号处(The Connecticut Tumor Registry)的记录,从1935年到1941年,手术后5年的存活率大量上升。但实际上这些记录 是从1941年才开始登记的,在此之前的数据则是通过跟踪的形式得到的。许多病人离开了康 涅狄格州,其生死与否无从得知。正如医务记者雷纳得·恩格尔(Leonard Engel)所说,所存 在的内在偏差已足以“解释存活率上升的真相”。 一个以抽样为基础的报告如果要有价值,就必须使用具有代表性的样本,这种样本排除了 各种误差。这就是耶鲁毕业生的收入数据失真的原因,也是许多你在报纸或杂志上读到的报道 毫无意义的原因。 一位心理医生曾经报道:实际上所有的人都是神经质的。暂且不去管这种提法是否破坏了 “神经质”一词的含义,我们来看看这个医生的样本。也就是说,他观察了哪些人?结果证实, 他是在对他的病人进行研究后得到了这个发人深省的结论,这和代表全体人的样本可差得太远, 太远了。如果一个人心理健全,他永远不可能接受心理医生治疗。 对你所读到的东西多思考一下,你将避免接受许多似是而非的结论。 记住下面这点是有益的:无形的误差与有形的误差一样容易破坏样本的可信度。也就是说, 即使你找不到任何破坏性的误差来源,但只要有产生误差的可能性, 你就有必要对结果保留 一定的怀疑。如果你还有一丝的疑惑,想想1948年和1952年的总统大选,它们已足够证明这 一点。 更远的例子可以追溯到1936年《文学文摘》(Literary Digest)的惨败。曾经准确顶测了 1932年美国大选的1000万个《文学文摘》的订阅者对1936年的大选进行了预测,通过电话, 他们向这个倒霉的杂志编辑信誓旦旦地保证,兰登(London)将在竞选中脱颖而出,并且与罗 斯福(Roosevelt)所得的票数比是370:161。这样一个久经考验的调查群体怎么可能产生误 差呢?但的确有误差,正如后来许多大学论文和报社评论员发现的,1936年就有能力购买电 话和订阅杂志的人并不能真正代表选民;至少在经济上,他们是极特殊的,是有偏的,后来证 实他们中许多人是共和党的选民。该样本选择了兰登,而选民心里却想着罗斯福
毒个人都 选至查 最基本的样本是随机样本,它是指完全遵循随机的原则从总体中选出样本。总体即形成样 本的母体。从索引卡片档案中将每隔10个的名字抽出来, 从许多纸张中任意抽出50张:在马 克特街上每遇见的第20个人作为访问的对象。(但需要注意的是,在最后一个例子中,总 并不是全世界的人,也不是全美国人或者全旧金山人,而只是当时在马克特街上的人。一个进 行民意调查的访问员说。她选择在火车站进行调查的原因是“那儿能遇到所有类型的人”。但 应该向她指出的是,有些人比如婴儿母亲的代表性不足) 随机样本的检验标准是:总体中的每个名字或事物是否具有相同的几率被选进样本? 纯随机抽样是唯一一种能有足够把握利用统计理论进行检验的抽样方法。但它同样存在着 缺陷。在许多情况下,获得这种样本难度很大,并且十分昂贵,以至于单纯的经济考虑就会剔 除这种方法。一个更经济的替代品是分层抽样,它在市场研究和民意调查等领域中得到了广泛 的应用。 为了获得分层抽样下的样本,你需要将总体按照事先已知的优势比例划分成不同的组。这 时你就可能遇上麻烦:关于分组比例的信息可能并不正确。你对访问员进行指导,以确保他们 调查到一定比例的黑人,按照这样或那样的比例调查属于不同收入阶层的人,一定数量的农民, 等等。而且,每一组人都要确保40岁以下和40岁以上的人数相同。 这听上去很不错,但实际上呢?在黑人还是白人的问题上,大部分时候访问员能准确判断 但在收人 分组时,他 出很多错。至于农民,你如何划分 个在城镇上班又有部分时间种地的 人?甚至连岁数的问题也会引起差错,为了确保准确性,访问员会挑选那些看上去明显小于 40岁或大于40岁的人进行调查。在这种情况下,由于缺少40岁左右的人而导致样本有偏。你 不可能获胜! 除此之外,如何在各层内部获得随机样本呢?最有效的办法是准备好每一层中所有单位的 名单,并以随机抽中的名单构成样本。当然,这耗资不菲。于是又转为街头调查,但由于遗源 了呆在家中的人而变得有偏:白天挨家挨户上门调查,又遗漏了上班族:转而改为晚上访问, 但又不能包括那些看电影和去夜总会的人。 民章周查最终将演恋为一场与误差的遭满战。所有信誉良好的调查公司将不可可避免地投入 到这场战斗中。调查报告的读者应谨记这点:这场战斗永远不会取得胜利。在看到“67%的 -12
- 12 - 最基本的样本是随机样本,它是指完全遵循随机的原则从总体中选出样本。总体即形成样 本的母体。从索引卡片档案中将每隔10个的名字抽出来,从许多纸张中任意抽出50张;在马 克特街上每遇见的第20个人作为访问的对象。(但需要注意的是,在最后一个例子中,总体 并不是全世界的人,也不是全美国人或者全旧金山人,而只是当时在马克特街上的人。一个进 行民意调查的访问员说。她选择在火车站进行调查的原因是“那儿能遇到所有类型的人”。但 应该向她指出的是,有些人比如婴儿母亲的代表性不足) 随机样本的检验标准是:总体中的每个名字或事物是否具有相同的几率被选进样本? 纯随机抽样是唯一一种能有足够把握利用统计理论进行检验的抽样方法。但它同样存在着 缺陷。在许多情况下,获得这种样本难度很大,并且十分昂贵,以至于单纯的经济考虑就会剔 除这种方法。一个更经济的替代品是分层抽样,它在市场研究和民意调查等领域中得到了广泛 的应用。 为了获得分层抽样下的样本,你需要将总体按照事先已知的优势比例划分成不同的组。这 时你就可能遇上麻烦:关于分组比例的信息可能并不正确。你对访问员进行指导,以确保他们 调查到一定比例的黑人,按照这样或那样的比例调查属于不同收入阶层的人,一定数量的农民, 等等。而且,每一组人都要确保40岁以下和40岁以上的人数相同。 这听上去很不错,但实际上呢?在黑人还是白人的问题上,大部分时候访问员能准确判断。 但在收人分组时,他会出很多错。至于农民,你如何划分一个在城镇上班又有部分时间种地的 人?甚至连岁数的问题也会引起差错,为了确保准确性,访问员会挑选那些看上去明显小于 40岁或大于40岁的人进行调查。在这种情况下,由于缺少40岁左右的人而导致样本有偏。你 不可能获胜! 除此之外,如何在各层内部获得随机样本呢?最有效的办法是准备好每一层中所有单位的 名单,并以随机抽中的名单构成样本。当然,这耗资不菲。于是又转为街头调查,但由于遗漏 了呆在家中的人而变得有偏;白天挨家挨户上门调查,又遗漏了上班族;转而改为晚上访问, 但又不能包括那些看电影和去夜总会的人。 民意调查最终将演变为一场与误差的遭遇战。所有信誉良好的调查公司将不可避免地投入 到这场战斗中。调查报告的读者应谨记这点:这场战斗永远不会取得胜利。在看到“67%的
美国人反对”或其他类似的字眼时,应保留这样一个问题:67%的哪些美国人? 阿尔弗雷德·C·金西(Alfred C.Kinsey)博士的《妇女卷》(Female Volume)也和任 何建立在抽样基础之上的读物一样,关键是如何阅读这本书(或其通俗读本),才能避免学习 很多不必要的东西。这里至少包括了3次抽样:金西博士从全部妇女中抽出的样本(第 一次抽样 远不能称为随机样本,不具有显著的代表性:但与该领域以前所做的任何工作相比,这个样本 的容量较大,他的数据虽然不一定是最好的,但该数据比较重要并存一定启发意义。重要的是 任何一个调查问卷都只不过是所有相关问题的样本(第二次抽样)。而女士们给的答案也只是她 们对于这个问题看法和态度的样本(第三次抽样)。 由谁组成调查人员也会对调查结果产生微妙的影响。第二次世界大战期间,国家民意调查 中心(The National 程阳,人ee成,牙一是人:要一共3 Opinior Center)派出两组调查人员对 个南方城市的500 其中一个问题是:“如果日本占领美国,你认为黑人的境况会得到改善还是变得更糟?” 黑人调查组中,9%的被调查者回答“变好”,而白人调查组该比例只有2%。回答“变坏” 的比例也不相同,黑人调查组是25%,而白人调查组则是45%。 第二个问题是用“纳粹分子”替代“日本”,两组的结果大体相同。 第三个问题试图探寻被调查者对前两个问题的真正态度。“你认为目前致力于打败轴心国 比在本国内进一步推进民主更重要吗?”黑人调查组中,选择“打败轴心国”的比例是39%, 而白人调查组则是62%。 这是由莫名因素造成的误差,它至少告诉我们,人们在接受调查时有迎合对方说好话的明 显倾向。当战争时期回答一个暗含是否忠诚的问题时, 个南方黑人对白人说了一些听起来不 错但并不代表他真实意愿的话不是很正常吗?当然,区别的起因也可能在于不同的调查人员选 择了不同的调查对象进行交谈。 -13
- 13 - 美国人反对”或其他类似的字眼时,应保留这样一个问题:67%的哪些美国人? 阿尔弗雷德·C·金西(Alfred C. Kinsey) 博士的《妇女卷》(Female Volume)也和任 何建立在抽样基础之上的读物一样,关键是如何阅读这本书(或其通俗读本),才能避免学习 很多不必要的东西。这里至少包括了3次抽样:金西博士从全部妇女中抽出的样本(第一次抽样) 远不能称为随机样本,不具有显著的代表性;但与该领域以前所做的任何工作相比,这个样本 的容量较大,他的数据虽然不一定是最好的,但该数据比较重要并存一定启发意义。重要的是 任何一个调查问卷都只不过是所有相关问题的样本(第二次抽样)。而女士们给的答案也只是她 们对于这个问题看法和态度的样本(第三次抽样)。 由谁组成调查人员也会对调查结果产生微妙的影响。第二次世界大战期间,国家民意调查 中心(The National Opinion Research Center)派出两组调查人员对一个南方城市的500 名黑人进行提问,一组调查人员由白人组成,另一组是黑人。问题一共有3个。 其中一个问题是:“如果日本占领美国,你认为黑人的境况会得到改善还是变得更糟?” 黑人调查组中,9%的被调查者回答“变好”,而白人调查组该比例只有2%。回答“变坏” 的比例也不相同,黑人调查组是25%,而白人调查组则是45%。 第二个问题是用“纳粹分子”替代“日本”,两组的结果大体相同。 第三个问题试图探寻被调查者对前两个问题的真正态度。“你认为目前致力于打败轴心国 比在本国内进一步推进民主更重要吗?”黑人调查组中,选择“打败轴心国”的比例是39%, 而白人调查组则是62%。 这是由莫名因素造成的误差,它至少告诉我们,人们在接受调查时有迎合对方说好话的明 显倾向。当战争时期回答一个暗含是否忠诚的问题时,一个南方黑人对白人说了一些听起来不 错但并不代表他真实意愿的话不是很正常吗?当然,区别的起因也可能在于不同的调查人员选 择了不同的调查对象进行交谈
在上述例子中,任何结果都是如此明显有偏从而导致其失去价值。你可以试着自己分析还 有多少民意调查的结论,虽然并无有效的检验方法来揭露它们,但却同样有偏,同样无价值。 一般而言,民意调查都带有一定方向的偏差,就像《文学文摘》一例的偏差一样,如果你 对此表 你还可以找到许多合】 子来证明。在《文学 信堂在 与一般人相比,具有收入高、受过良好教育、信息来源广、灵敏度高、举止优雅、行为保守 更多固定习惯等特点的群体。 为什么会这样呢?下面的例子将有助于理解这一点。假设你是一个被分配到街道某个角落 行调杏的人品 有两个看上去符合调查要求 大40岁.农民 -的人向你走来 衣着干净整之 而早 个显得肮脏、粗暴。毫无疑问,你会向后者走去,而遍布城市其他角落的 同事也会进行同样的抉择。 在自由主义者或是左翼集团中可以强烈地感受到反对民意调查的情绪。他们认为这些调查 都是人为操纵的。因为结果往往不能与观念和想法相对开放的人取得一致。他们以1936年总 统选举的民意调查为例,指出调查的结果选择了共和党人,但不久投票者就做了相反的选择 但实际上,正如我们前面所看到的,民意调查并不一定被操纵了。也就是说,并不一定要 为了制造假相而恶意扭曲结果。样本有偏的趋势可以自动地操纵结果,使其变得扭曲。 -14
- 14 - 在上述例子中,任何结果都是如此明显有偏从而导致其失去价值。你可以试着自己分析还 有多少民意调查的结论,虽然并无有效的检验方法来揭露它们,但却同样有偏,同样无价值。 一般而言,民意调查都带有一定方向的偏差,就像《文学文摘》一例的偏差一样,如果你 对此表示怀疑,你还可以找到许多合适的例子来证明。在《文学文摘》一例中偏差在于偏向了 与一般人相比,具有收入高、受过良好教育、信息来源广、灵敏度高、举止优雅、行为保守、 更多固定习惯等特点的群体。 为什么会这样呢?下面的例子将有助于理解这一点。假设你是一个被分配到街道某个角落 进行调查的人员,有两个看上去符合调查要求——大于40岁,农民——的人向你走来,一个 衣着干净整齐而另一个显得肮脏、粗暴。毫无疑问,你会向后者走去,而遍布城市其他角落的 同事也会进行同样的抉择。 在自由主义者或是左翼集团中可以强烈地感受到反对民意调查的情绪。他们认为这些调查 都是人为操纵的。因为结果往往不能与观念和想法相对开放的人取得一致。他们以1936年总 统选举的民意调查为例,指出调查的结果选择了共和党人,但不久投票者就做了相反的选择。 但实际上,正如我们前面所看到的,民意调查并不一定被操纵了。也就是说,并不一定要 为了制造假相而恶意扭曲结果。样本有偏的趋势可以自动地操纵结果,使其变得扭曲
第二章 精心挑选的平均数 -15
- 15 - 第二章 精心挑选的平均数