《概率论与数理统计》课程参考资料：《统计陷阱 How to Lie with Statistics》书籍PDF电子书（上海财经大学出版社，达莱尔·哈夫）.pdf_P11-P15

癌症的早期发现能否挽救生命？也许吧。但通常用于证明这一点的数据却更适合支撑相反的结论。这要追溯到1935年，根据康涅狄格肿瘤研究所挂号处(The Connecticut Tumor Reqistry)的记录，从1935年到1941年，手术后5年的存活率大量上升。但实际上这些记录是从1941年才开始登记的，在此之前的数据则是通过跟踪的形式得到的。许多病人离开了康涅狄格州，其生死与否无从得知。正如医务记者雷纳得·恩格尔(Leonard Engel)所说，所存在的内在偏差已足以“解释存活率上升的真相”。一个以抽样为基础的报告如果要有价值，就必须使用具有代表性的样本，这种样本排除了各种误差。这就是耶鲁毕业生的收入数据失真的原因，也是许多你在报纸或杂志上读到的报道毫无意义的原因。 “位心理医生曾经报道：实际上所有的人都是神经质的。暂且不去管这种提法是否破坏了 “神经质”一词的含义，我们来看看这个医生的样本。也就是说，他观察了哪些人？结果证实，他是在对他的病人进行研究后得到了这个发人深省的结论，这和代表全体人的样本可差得太远，太远了。如果一个人心理健全，他永远不可能接受心理医生治疗。对你所读到的东西多思考一下，你将避免接受许多似是而非的结论。记住下面这点是有益的：无形的误差与有形的误差一样容易破坏样本的可信度。也就是说，即使你找不到任何破坏性的误差来源，但只要有产生误差的可能性，你就有必要对结果保留一定的怀疑。如果你还有一丝的疑惑，想想1948年和1952年的总统大选，它们已足够证明这早上好！直再不懂他婆是什么孝思更远的例子可以追溯到1936年《文学文摘》(Literary Di1gest)的惨败。曾经准确顶测了 1932年美选的1000万个《文学文摘》的订阅对1936年的他们向这个创的来志细辑信口且地保，兰oO0将在洗迷中脱出：并出进行斯福(Roosevelt)所得的票数比是370：161。这样一个久经考验的调查群体怎么可能产生误差呢？但的确有误差，正如后来许多大学论文和报社评论员发现的，1936年就有能力购买电话和订阅杂志的人并不能真正代表选民：至少在经济上，他们是极特殊的，是有偏的，后来证实他们中许多人是共和党的选民。该样本选择了兰登，而选民心里却想着罗斯福。 -11

- 11 - 癌症的早期发现能否挽救生命？也许吧。但通常用于证明这一点的数据却更适合支撑相反的结论。这要追溯到1935年，根据康涅狄格肿瘤研究所挂号处(The Connecticut Tumor Registry)的记录，从1935年到1941年，手术后5年的存活率大量上升。但实际上这些记录是从1941年才开始登记的，在此之前的数据则是通过跟踪的形式得到的。许多病人离开了康涅狄格州，其生死与否无从得知。正如医务记者雷纳得·恩格尔(Leonard Engel)所说，所存在的内在偏差已足以“解释存活率上升的真相”。一个以抽样为基础的报告如果要有价值，就必须使用具有代表性的样本，这种样本排除了各种误差。这就是耶鲁毕业生的收入数据失真的原因，也是许多你在报纸或杂志上读到的报道毫无意义的原因。一位心理医生曾经报道：实际上所有的人都是神经质的。暂且不去管这种提法是否破坏了 “神经质”一词的含义，我们来看看这个医生的样本。也就是说，他观察了哪些人？结果证实，他是在对他的病人进行研究后得到了这个发人深省的结论，这和代表全体人的样本可差得太远，太远了。如果一个人心理健全，他永远不可能接受心理医生治疗。对你所读到的东西多思考一下，你将避免接受许多似是而非的结论。记住下面这点是有益的：无形的误差与有形的误差一样容易破坏样本的可信度。也就是说，即使你找不到任何破坏性的误差来源，但只要有产生误差的可能性，你就有必要对结果保留一定的怀疑。如果你还有一丝的疑惑，想想1948年和1952年的总统大选，它们已足够证明这一点。更远的例子可以追溯到1936年《文学文摘》(Literary Digest)的惨败。曾经准确顶测了 1932年美国大选的1000万个《文学文摘》的订阅者对1936年的大选进行了预测，通过电话，他们向这个倒霉的杂志编辑信誓旦旦地保证，兰登(London)将在竞选中脱颖而出，并且与罗斯福(Roosevelt)所得的票数比是370：161。这样一个久经考验的调查群体怎么可能产生误差呢？但的确有误差，正如后来许多大学论文和报社评论员发现的，1936年就有能力购买电话和订阅杂志的人并不能真正代表选民；至少在经济上，他们是极特殊的，是有偏的，后来证实他们中许多人是共和党的选民。该样本选择了兰登，而选民心里却想着罗斯福

毒个人都选至查最基本的样本是随机样本，它是指完全遵循随机的原则从总体中选出样本。总体即形成样本的母体。从索引卡片档案中将每隔10个的名字抽出来，从许多纸张中任意抽出50张：在马克特街上每遇见的第20个人作为访问的对象。（但需要注意的是，在最后一个例子中，总并不是全世界的人，也不是全美国人或者全旧金山人，而只是当时在马克特街上的人。一个进行民意调查的访问员说。她选择在火车站进行调查的原因是“那儿能遇到所有类型的人”。但应该向她指出的是，有些人比如婴儿母亲的代表性不足) 随机样本的检验标准是：总体中的每个名字或事物是否具有相同的几率被选进样本？纯随机抽样是唯一一种能有足够把握利用统计理论进行检验的抽样方法。但它同样存在着缺陷。在许多情况下，获得这种样本难度很大，并且十分昂贵，以至于单纯的经济考虑就会剔除这种方法。一个更经济的替代品是分层抽样，它在市场研究和民意调查等领域中得到了广泛的应用。为了获得分层抽样下的样本，你需要将总体按照事先已知的优势比例划分成不同的组。这时你就可能遇上麻烦：关于分组比例的信息可能并不正确。你对访问员进行指导，以确保他们调查到一定比例的黑人，按照这样或那样的比例调查属于不同收入阶层的人，一定数量的农民，等等。而且，每一组人都要确保40岁以下和40岁以上的人数相同。这听上去很不错，但实际上呢？在黑人还是白人的问题上，大部分时候访问员能准确判断但在收人分组时，他出很多错。至于农民，你如何划分个在城镇上班又有部分时间种地的人？甚至连岁数的问题也会引起差错，为了确保准确性，访问员会挑选那些看上去明显小于 40岁或大于40岁的人进行调查。在这种情况下，由于缺少40岁左右的人而导致样本有偏。你不可能获胜！除此之外，如何在各层内部获得随机样本呢？最有效的办法是准备好每一层中所有单位的名单，并以随机抽中的名单构成样本。当然，这耗资不菲。于是又转为街头调查，但由于遗源了呆在家中的人而变得有偏：白天挨家挨户上门调查，又遗漏了上班族：转而改为晚上访问，但又不能包括那些看电影和去夜总会的人。民章周查最终将演恋为一场与误差的遭满战。所有信誉良好的调查公司将不可可避免地投入到这场战斗中。调查报告的读者应谨记这点：这场战斗永远不会取得胜利。在看到“67%的 -12

- 12 - 最基本的样本是随机样本，它是指完全遵循随机的原则从总体中选出样本。总体即形成样本的母体。从索引卡片档案中将每隔10个的名字抽出来，从许多纸张中任意抽出50张；在马克特街上每遇见的第20个人作为访问的对象。（但需要注意的是，在最后一个例子中，总体并不是全世界的人，也不是全美国人或者全旧金山人，而只是当时在马克特街上的人。一个进行民意调查的访问员说。她选择在火车站进行调查的原因是“那儿能遇到所有类型的人”。但应该向她指出的是，有些人比如婴儿母亲的代表性不足）随机样本的检验标准是：总体中的每个名字或事物是否具有相同的几率被选进样本？纯随机抽样是唯一一种能有足够把握利用统计理论进行检验的抽样方法。但它同样存在着缺陷。在许多情况下，获得这种样本难度很大，并且十分昂贵，以至于单纯的经济考虑就会剔除这种方法。一个更经济的替代品是分层抽样，它在市场研究和民意调查等领域中得到了广泛的应用。为了获得分层抽样下的样本，你需要将总体按照事先已知的优势比例划分成不同的组。这时你就可能遇上麻烦：关于分组比例的信息可能并不正确。你对访问员进行指导，以确保他们调查到一定比例的黑人，按照这样或那样的比例调查属于不同收入阶层的人，一定数量的农民，等等。而且，每一组人都要确保40岁以下和40岁以上的人数相同。这听上去很不错，但实际上呢？在黑人还是白人的问题上，大部分时候访问员能准确判断。但在收人分组时，他会出很多错。至于农民，你如何划分一个在城镇上班又有部分时间种地的人？甚至连岁数的问题也会引起差错，为了确保准确性，访问员会挑选那些看上去明显小于 40岁或大于40岁的人进行调查。在这种情况下，由于缺少40岁左右的人而导致样本有偏。你不可能获胜！除此之外，如何在各层内部获得随机样本呢？最有效的办法是准备好每一层中所有单位的名单，并以随机抽中的名单构成样本。当然，这耗资不菲。于是又转为街头调查，但由于遗漏了呆在家中的人而变得有偏；白天挨家挨户上门调查，又遗漏了上班族；转而改为晚上访问，但又不能包括那些看电影和去夜总会的人。民意调查最终将演变为一场与误差的遭遇战。所有信誉良好的调查公司将不可避免地投入到这场战斗中。调查报告的读者应谨记这点：这场战斗永远不会取得胜利。在看到“67%的

美国人反对”或其他类似的字眼时，应保留这样一个问题：67%的哪些美国人？阿尔弗雷德·C·金西(Alfred C.Kinsey)博士的《妇女卷》(Female Volume)也和任何建立在抽样基础之上的读物一样，关键是如何阅读这本书（或其通俗读本），才能避免学习很多不必要的东西。这里至少包括了3次抽样：金西博士从全部妇女中抽出的样本（第一次抽样远不能称为随机样本，不具有显著的代表性：但与该领域以前所做的任何工作相比，这个样本的容量较大，他的数据虽然不一定是最好的，但该数据比较重要并存一定启发意义。重要的是任何一个调查问卷都只不过是所有相关问题的样本（第二次抽样）。而女士们给的答案也只是她们对于这个问题看法和态度的样本（第三次抽样）。由谁组成调查人员也会对调查结果产生微妙的影响。第二次世界大战期间，国家民意调查中心(The National 程阳，人ee成，牙一是人：要一共3 Opinior Center)派出两组调查人员对个南方城市的500 其中一个问题是：“如果日本占领美国，你认为黑人的境况会得到改善还是变得更糟？” 黑人调查组中，9%的被调查者回答“变好”，而白人调查组该比例只有2%。回答“变坏” 的比例也不相同，黑人调查组是25%，而白人调查组则是45%。第二个问题是用“纳粹分子”替代“日本”，两组的结果大体相同。第三个问题试图探寻被调查者对前两个问题的真正态度。“你认为目前致力于打败轴心国比在本国内进一步推进民主更重要吗？”黑人调查组中，选择“打败轴心国”的比例是39%，而白人调查组则是62%。这是由莫名因素造成的误差，它至少告诉我们，人们在接受调查时有迎合对方说好话的明显倾向。当战争时期回答一个暗含是否忠诚的问题时，个南方黑人对白人说了一些听起来不错但并不代表他真实意愿的话不是很正常吗？当然，区别的起因也可能在于不同的调查人员选择了不同的调查对象进行交谈。 -13

- 13 - 美国人反对”或其他类似的字眼时，应保留这样一个问题：67%的哪些美国人？阿尔弗雷德·C·金西(Alfred C. Kinsey) 博士的《妇女卷》(Female Volume)也和任何建立在抽样基础之上的读物一样，关键是如何阅读这本书（或其通俗读本），才能避免学习很多不必要的东西。这里至少包括了3次抽样：金西博士从全部妇女中抽出的样本(第一次抽样) 远不能称为随机样本，不具有显著的代表性；但与该领域以前所做的任何工作相比，这个样本的容量较大，他的数据虽然不一定是最好的，但该数据比较重要并存一定启发意义。重要的是任何一个调查问卷都只不过是所有相关问题的样本(第二次抽样)。而女士们给的答案也只是她们对于这个问题看法和态度的样本(第三次抽样)。由谁组成调查人员也会对调查结果产生微妙的影响。第二次世界大战期间，国家民意调查中心(The National Opinion Research Center)派出两组调查人员对一个南方城市的500 名黑人进行提问，一组调查人员由白人组成，另一组是黑人。问题一共有3个。其中一个问题是：“如果日本占领美国，你认为黑人的境况会得到改善还是变得更糟？” 黑人调查组中，9%的被调查者回答“变好”，而白人调查组该比例只有2%。回答“变坏” 的比例也不相同，黑人调查组是25%，而白人调查组则是45%。第二个问题是用“纳粹分子”替代“日本”，两组的结果大体相同。第三个问题试图探寻被调查者对前两个问题的真正态度。“你认为目前致力于打败轴心国比在本国内进一步推进民主更重要吗？”黑人调查组中，选择“打败轴心国”的比例是39%，而白人调查组则是62%。这是由莫名因素造成的误差，它至少告诉我们，人们在接受调查时有迎合对方说好话的明显倾向。当战争时期回答一个暗含是否忠诚的问题时，一个南方黑人对白人说了一些听起来不错但并不代表他真实意愿的话不是很正常吗？当然，区别的起因也可能在于不同的调查人员选择了不同的调查对象进行交谈