案例一:内在有偏的样本 、内在有偏的样本案例 有一个装着红、白两色豆子的桶,如果你想要准确知道这个桶中两种豆子的 数量,你惟一能做的只有一颗一颗地数豆子 用一种更简单的方法也可以揣测红豆的数量:抓一把豆子,假定手中红豆的 比例与桶中红豆的比例相同,只要数一数手中的豆子即可。如果你的样本足够大, 并且选择方法正确,在大多数情况下它能够很好地代表整体。但是,如果以上两 个条件不满足,这样的样本比一个臆想好不到哪儿去,除了能够营造科学精确的 假象之外,其他则根本不值一提。不幸的是,我们所看到的,或者我们自以为了 解的许多事物,往往都是根据类似样本所得出的结论,这种样本可能变得有偏, 由于选择方式的不合理或者容量过小,抑或两种情况同时存在。 通过一个极端的例子可以马上看到如何形成有偏的样本。假设你向同胞发放 问卷,问卷中包含这样一个问题:“你乐意回答调査问卷吗?”整理所有的答案 你很有可能得到下面的结论:“一个选自总体、典型的横截面”中,压倒多数的 人选择了“乐意”。为了具有说服力,你还可以详细列出这个比例,直至最后 位小数。事实上,大多数持否定意见的人,已经随手将你的问卷丢进最近的纸篓 中,从样本中自动除名了。哪怕最初的样本中,10个里面有9个会当这种“投 手”,在宣布你的结果时,你仍然会遵从惯例,忽略他们。 现实生活中,样本会按照上述方式变得有偏吗?相信我,一定会 不久前,报纸和新闻杂志上报道:近10年来美国大约有400万名天主教徒 变成了基督教徒。资料来源于由丹尼尔·A.波林( Daniel a. Poling)牧师主 导的调查,丹尼尔·A·波林是教派组织《基督教先驱报》( Christian herald) 的编辑。《时代》(Time)杂志描述了整个故事的梗概: 通过对全美基督教牧师的横截面展开调査,《先驱报》得到了调查结果。调 查共发出25000份问卷,其中2219名牧师反馈回了问卷,回收的问卷显示:在 过去10年里共有51361名原罗马天主教徒变成了基督教徒。根据样本推算,波 林得到了全国范围的估计:近10年来全美共有4144366名天主教徒改变信仰 变成了基督教徒。主教威尔·奧斯勒( Will oursler)写道:“即便考虑到误差
1 案例一:内在有偏的样本 一、内在有偏的样本案例 有一个装着红、白两色豆子的桶,如果你想要准确知道这个桶中两种豆子的 数量,你惟一能做的只有一颗一颗地数豆子。 用一种更简单的方法也可以揣测红豆的数量:抓一把豆子,假定手中红豆的 比例与桶中红豆的比例相同,只要数一数手中的豆子即可。如果你的样本足够大, 并且选择方法正确,在大多数情况下它能够很好地代表整体。但是,如果以上两 个条件不满足,这样的样本比一个臆想好不到哪儿去,除了能够营造科学精确的 假象之外,其他则根本不值一提。不幸的是,我们所看到的,或者我们自以为了 解的许多事物,往往都是根据类似样本所得出的结论,这种样本可能变得有偏, 由于选择方式的不合理或者容量过小,抑或两种情况同时存在。 通过一个极端的例子可以马上看到如何形成有偏的样本。假设你向同胞发放 问卷,问卷中包含这样一个问题:“你乐意回答调查问卷吗?”整理所有的答案, 你很有可能得到下面的结论:“一个选自总体、典型的横截面”中,压倒多数的 人选择了“乐意”。为了具有说服力,你还可以详细列出这个比例,直至最后一 位小数。事实上,大多数持否定意见的人,已经随手将你的问卷丢进最近的纸篓 中,从样本中自动除名了。哪怕最初的样本中,10 个里面有 9 个会当这种“投 手”,在宣布你的结果时,你仍然会遵从惯例,忽略他们。 现实生活中,样本会按照上述方式变得有偏吗?相信我,一定会。 不久前,报纸和新闻杂志上报道:近 10 年来美国大约有 400 万名天主教徒 变成了基督教徒。资料来源于由丹尼尔·A. 波林(Daniel A. Poling)牧师主 导的调查,丹尼尔·A·波林是教派组织《基督教先驱报》(Christian Herald) 的编辑。《时代》(Time)杂志描述了整个故事的梗概: 通过对全美基督教牧师的横截面展开调查,《先驱报》得到了调查结果。调 查共发出 25000 份问卷,其中 2219 名牧师反馈回了问卷,回收的问卷显示:在 过去 10 年里共有 51361 名原罗马天主教徒变成了基督教徒。根据样本推算,波 林得到了全国范围的估计:近 10 年来全美共有 4144366 名天主教徒改变信仰, 变成了基督教徒。主教威尔·奥斯勒(Will Oursler)写道:“即便考虑到误差
全美范围内这一数据也不可能少于200万或者300万,而且很有可能接近500 虽然《时代》没能指出真相的关键之处,但是它却使我们了解到被调查的牧 师中超过90%的人没有回答,这已经值得我们向它鞠躬表示敬意了。为了彻底破 坏调查结果的可信度,我们只需要指出:这个“500万”是不可靠的,因为调查 中有高达90%的牧师没有发表看法,或许他们中大多数都早己将调查问卷投进了 纸篓 根据以上判断,我们利用管辖范围内所有牧师人数,即181000人一该数据 就是波林博士计算时所采用的数据一-进行自己的推算。由于从181000名牧师中 抽取了25000人接受调查,得到了改变信仰的教徒为51361人,如果调查全部牧 师,转变信仰的总人数应该约为370000人 我们这种粗糙的方法产生了一个十分可疑的数据,但是它至少与那个在全国 范围发布的数据一样“可靠”,而后者却是前者的11倍,是的,300万看上去 更加令人欢欣鼓舞些。 至于奥斯勒先生充满自信的那句话“考虑到误差”,好吧,如果他发现了 种方法足以弥补未知量所带来的误差,那么整个统计界都将会为之感激涕零。 在上述背景下,让我们来研究一则以前的新闻报道:"1924级的耶鲁毕业生 平均年收入为25111美元”,要知道几年前的钱是更值钱的 好家伙,他们干得真不赖! 可是,等一等,这个令人印象深刻的数字到底意味着什么?是否像表面看到 的那样,足以证明如果你把你的男孩送进耶鲁大学,或者牛津大学,那么在年老 时,你就不需要辛苦地上班,甚至他将来年老时也不用上班? 在充满怀疑的惊鸿一瞥后,关于该数字的两个疑点凸现出来:它惊人的精确; 它大得令人难以置信。 寸一群相隔千山万水的人,了解他们的平均收入,而且竟然精确到以元为单 位,这几乎不太可能。就算是自己去年的收入,除非全部来自薪水,否则也很难 知道得如此准确。但是对于年收入25000美元的阶层来说,投资渠道更广,因此 他们的收入不可能完全来自于薪水
2 全美范围内这一数据也不可能少于 200 万或者 300 万,而且很有可能接近 500 万。” 虽然《时代》没能指出真相的关键之处,但是它却使我们了解到被调查的牧 师中超过 90%的人没有回答,这已经值得我们向它鞠躬表示敬意了。为了彻底破 坏调查结果的可信度,我们只需要指出:这个“500 万”是不可靠的,因为调查 中有高达 90%的牧师没有发表看法,或许他们中大多数都早已将调查问卷投进了 纸篓。 根据以上判断,我们利用管辖范围内所有牧师人数,即 181000 人--该数据 就是波林博士计算时所采用的数据--进行自己的推算。由于从 181000 名牧师中 抽取了 25000 人接受调查,得到了改变信仰的教徒为 51361 人,如果调查全部牧 师,转变信仰的总人数应该约为 370000 人。 我们这种粗糙的方法产生了一个十分可疑的数据,但是它至少与那个在全国 范围发布的数据一样“可靠”,而后者却是前者的 11 倍,是的,300 万看上去 更加令人欢欣鼓舞些。 至于奥斯勒先生充满自信的那句话“考虑到误差”,好吧,如果他发现了一 种方法足以弥补未知量所带来的误差,那么整个统计界都将会为之感激涕零。 在上述背景下,让我们来研究一则以前的新闻报道:"1924 级的耶鲁毕业生 平均年收入为 25111 美元",要知道几年前的钱是更值钱的。 好家伙,他们干得真不赖! 可是,等一等,这个令人印象深刻的数字到底意味着什么?是否像表面看到 的那样,足以证明如果你把你的男孩送进耶鲁大学,或者牛津大学,那么在年老 时,你就不需要辛苦地上班,甚至他将来年老时也不用上班? 在充满怀疑的惊鸿一瞥后,关于该数字的两个疑点凸现出来:它惊人的精确; 它大得令人难以置信。 对一群相隔千山万水的人,了解他们的平均收入,而且竟然精确到以元为单 位,这几乎不太可能。就算是自己去年的收入,除非全部来自薪水,否则也很难 知道得如此准确。但是对于年收入 25000 美元的阶层来说,投资渠道更广,因此 他们的收入不可能完全来自于薪水
而且毫无疑问,这个可爱的平均数出自耶鲁人之口。即使1924年他们在纽 海文译者注:纽海文是美国东北部康涅狄格州的一个城市,耶鲁大学就坐落在这 个城市。接受过优良的教育,也很难保证四分之一个世纪后,他们还能坚持说真 话。当问及收入时,有些人出于虚荣或者天生乐观而夸大数据:有些人却故意缩 小数字,特别当涉及征所得税问题时,往往会犹豫不决,生怕与其他文件填报的 数据不符,谁知道税务员又看到了什么?这两种趋势一夸大与缩小,也许将相互 抵消,但这种可能性很小。一般而言,一种趋势总会强于另一种,但我们很难猜 测哪种趋势将胜出。 我们试着来解释这个数字,单凭常识就知道这个数字与现实出入很大。现在, 让我们找找最大误差的可能来源。是什么使那些实际上收入也许只有25111美元 一半的人们最终会拥有如此丰厚的平均收入?让我们来揭开这神秘的面纱。 可以肯定的是:耶鲁毕业生的报道基于对某个样本的分析,因为常识告诉 我们,没有人能够掌握所有仍在世的1924级学生的情况,25年后,他们中的许 多人已经消失在茫茫人海中。 并且,在那些能够取得联系的人中,许多人根本不会回答问卷,特别是一 个涉及隐私的问卷。一般情况下,邮寄问卷的回收率达到5%~10%就已经相当可 观了。也许这个调查的回收率会高些,但也不可能达到100% 因此,这个收入数据建立在一个样本之上:由能够取得联系并愿意回答问 卷的耶鲁学生组成。那么,这个样本的代表性强吗?也就是说,能否假设样本与 未被样本包括的那些人一无法联系的人或者不愿意回答的人一具有同等的收入 水平? 那些在耶鲁大学毕业生通讯录上被注明″地址不详"的迷路小羊羔是谁呢? 他们是高收入阶层吗?华尔街的金融家、公司领导层,亦或是制造企业或公用事 业的总裁?不,要找到富人的地址根本不难。这个班级最显赫的人,即使忽略了 与校友办公室联系,他们的地址也可以通过查《美国名人录》或其他参考资料找 到。因此,我们可以较合理地推测,那些被遗漏的人在获取耶鲁文学学士以后的 25年间,他们没能实现自己光辉梦想,他们是小职员、技工、流浪汉、失业的 酒鬼、仅仅得以糊口的作家或艺术家……将六七个甚至更多这种人的收入相加才
3 而且毫无疑问,这个可爱的平均数出自耶鲁人之口。即使 1924 年他们在纽 海文译者注:纽海文是美国东北部康涅狄格州的一个城市,耶鲁大学就坐落在这 个城市。接受过优良的教育,也很难保证四分之一个世纪后,他们还能坚持说真 话。当问及收入时,有些人出于虚荣或者天生乐观而夸大数据;有些人却故意缩 小数字,特别当涉及征所得税问题时,往往会犹豫不决,生怕与其他文件填报的 数据不符,谁知道税务员又看到了什么?这两种趋势--夸大与缩小,也许将相互 抵消,但这种可能性很小。一般而言,一种趋势总会强于另一种,但我们很难猜 测哪种趋势将胜出。 我们试着来解释这个数字,单凭常识就知道这个数字与现实出入很大。现在, 让我们找找最大误差的可能来源。是什么使那些实际上收入也许只有 25111 美元 一半的人们最终会拥有如此丰厚的平均收入?让我们来揭开这神秘的面纱。 可以肯定的是:耶鲁毕业生的报道基于对某个样本的分析,因为常识告诉 我们,没有人能够掌握所有仍在世的 1924 级学生的情况,25 年后,他们中的许 多人已经消失在茫茫人海中。 并且,在那些能够取得联系的人中,许多人根本不会回答问卷,特别是一 个涉及隐私的问卷。一般情况下,邮寄问卷的回收率达到 5%~10%就已经相当可 观了。也许这个调查的回收率会高些,但也不可能达到 100%。 因此,这个收入数据建立在一个样本之上:由能够取得联系并愿意回答问 卷的耶鲁学生组成。那么,这个样本的代表性强吗?也就是说,能否假设样本与 未被样本包括的那些人--无法联系的人或者不愿意回答的人--具有同等的收入 水平? 那些在耶鲁大学毕业生通讯录上被注明"地址不详"的迷路小羊羔是谁呢? 他们是高收入阶层吗?华尔街的金融家、公司领导层,亦或是制造企业或公用事 业的总裁?不,要找到富人的地址根本不难。这个班级最显赫的人,即使忽略了 与校友办公室联系,他们的地址也可以通过查《美国名人录》或其他参考资料找 到。因此,我们可以较合理地推测,那些被遗漏的人在获取耶鲁文学学士以后的 25 年间,他们没能实现自己光辉梦想,他们是小职员、技工、流浪汉、失业的 酒鬼、仅仅得以糊口的作家或艺术家……将六七个甚至更多这种人的收入相加才
可能达到25111美元。他们不会在班级的联谊会上注册,仅仅是因为他们支付不 起路费。 又是谁会将调査问卷丢进最近的废纸篓?我们不太肯定,但是猜想他们中大 部分人并没有赚到足以炫耀的数目。他们的心态有些类似于第一次拿到工资的小 职员,当他发现工资支票上粘着一张小纸条,建议保密工资并不要将工资作为与 同事的谈资时,“别担心”他对老板说,“我与你一样,对这么低的工资感到羞 很明显,样本遗漏了可能降低平均收入的两类人。让我们见识一下25111 美元的庐山真面目:如果它是一个真实的数据,它也仅仅代表了1924级耶鲁学 生中能够联系上的,并愿意站出来说出收入的一个特殊群体。当然,它的真实性 还需要满足这个假定:这些绅士们说的都是真话。 、内在有偏样本的危害 我们能否过于轻率地做出这样的假定呢?来自抽样理论的一个分支,即市场 研究的经验告诉我们,人们会说真话的假定往往是不可靠的。以前曾经做过一项 了解杂志读者阅读量的上门调查,其中的一个主要问题是:“你和你的家人阅读 什么杂志?”当将调査结果制表并分析后发现:喜欢《哈泼斯》( Harper's)杂 志的人相当多,这本杂志如果不能说是曲高和寡,但至少也是品位不俗:而喜欢 《真实故事》( True Story)—本定位大众化杂志的人就不多了。但是几乎 同时期的、由出版商提供的数据很明显地显示出相反的结果:《哈泼斯》杂志的 发行量只有几十万份,而《真实故事》杂志的发行量却多出了百万份。正如这项 调查的设计者所疑惑的,也许他们问错了对象,但这又并不可能,因为上门调查 走访了美国范围内各式各样的居民区。惟一合理的解释是许多被调查者,即那些 调查中回答问题的人没有说实话,几乎所有的调查都无法阻止人们往自己脸上贴 金的做法。 最后你将发现,当你想知道到底什么人在读某本杂志时,询问是无济于事的 直接上门去告诉他们你想收购旧杂志好了,看看他们能提供什么,这样你才能掌 握更多的信息。你只需要清点一下《耶鲁评论》( Yale reviews)和《爱情罗曼
4 可能达到 25111 美元。他们不会在班级的联谊会上注册,仅仅是因为他们支付不 起路费。 又是谁会将调查问卷丢进最近的废纸篓?我们不太肯定,但是猜想他们中大 部分人并没有赚到足以炫耀的数目。他们的心态有些类似于第一次拿到工资的小 职员,当他发现工资支票上粘着一张小纸条,建议保密工资并不要将工资作为与 同事的谈资时,“别担心”他对老板说,“我与你一样,对这么低的工资感到羞 愧。” 很明显,样本遗漏了可能降低平均收入的两类人。让我们见识一下 25111 美元的庐山真面目:如果它是一个真实的数据,它也仅仅代表了 1924 级耶鲁学 生中能够联系上的,并愿意站出来说出收入的一个特殊群体。当然,它的真实性 还需要满足这个假定:这些绅士们说的都是真话。 二、内在有偏样本的危害 我们能否过于轻率地做出这样的假定呢?来自抽样理论的一个分支,即市场 研究的经验告诉我们,人们会说真话的假定往往是不可靠的。以前曾经做过一项 了解杂志读者阅读量的上门调查,其中的一个主要问题是:“你和你的家人阅读 什么杂志?”当将调查结果制表并分析后发现:喜欢《哈泼斯》(Harper's)杂 志的人相当多,这本杂志如果不能说是曲高和寡,但至少也是品位不俗;而喜欢 《真实故事》(True Story)——一本定位大众化杂志的人就不多了。但是几乎 同时期的、由出版商提供的数据很明显地显示出相反的结果:《哈泼斯》杂志的 发行量只有几十万份,而《真实故事》杂志的发行量却多出了百万份。正如这项 调查的设计者所疑惑的,也许他们问错了对象,但这又并不可能,因为上门调查 走访了美国范围内各式各样的居民区。惟一合理的解释是许多被调查者,即那些 调查中回答问题的人没有说实话,几乎所有的调查都无法阻止人们往自己脸上贴 金的做法。 最后你将发现,当你想知道到底什么人在读某本杂志时,询问是无济于事的。 直接上门去告诉他们你想收购旧杂志好了,看看他们能提供什么,这样你才能掌 握更多的信息。你只需要清点一下《耶鲁评论》(Yale Reviews)和《爱情罗曼
史》( Love romances)各自的份数就够了。当然,即便采用这种方法也只能说 明人们曾经买了什么,而不能确定人们读过些什么 同样,当你下次看到普通美国人(最近,这个词频繁出现,但大多数情况下 却是不现实的)每天刷牙1.02次时,虽然这个数据是我瞎编的,但它与别人的 数据一样好用。请问自己一个问题:不管是谁,他怎样才能发现这个事实呢?在 看了铺天盖地的、宣传不刷牙是对社会冒犯的广告之后,一名妇女还会向陌生人 承认自己不经常刷牙吗?这个统计资料只能对那些希望了解人们如何看待刷牙 的人才有价值,却根本不能反映牙刷接触牙齿的频率。 我们知道,除非在某处安装了泵站,否则一条河流永远不可能高于它的源头 同样的,根据样本得到的结论不会比样本更精确。当数据经过层层统计处理,最 后简化为一个带小数点的平均数时,结论似乎闪耀着精确的光芒,但只要再仔细 留心整个抽样过程,这个光芒就会消逝 为了确保结论有价值,根据抽样得出的结论一定要采用具有代表性的样本, 这种样本才能排除各种误差。这就是耶鲁的收入数据失真的原因,它也是你在报 纸和杂志中读到的许多资料根本不值一提的原因。 位心理医生曾经写道:实际上每个人都有点神经质。暂且不去管这种提法 是否破坏了"神经质″一词的含义,我们来看看这个医生的样本,也就是说,他观 察了哪些人才得到了上述结论?事实上,他是在对他的病人进行研究后才得到了 这个发人深省的结论,这和代表全体人的样本可差的是十万八千里。想想看,如 果一个人心理健全,他是永远都不会接受心理医生的治疗的。 对你所读到的东西多思考一下,你将避免接受许多似是而非的结论。 记住下面这点是有益的:无形的误差与有形的误差一样容易破坏样本的可信 度。也就是说,即使你找不到任何破坏性的误差来源,但只要有产生误差的可能 性,你就有必要对结果保留一定的怀疑。事实上误差总是存在,如果你仍旧半信 半疑,想想1948年和1952年的美国总统大选,它们已足够证明这一点。(1948 年美国选举时,所有民调都显示民主党的杜威会获胜,结果却是杜威败给了共和 党人杜鲁门,这是美国历史上至今最大的"选举惊奇"。1952年美国大选,新闻 传媒普遍看好民主党竞选人史蒂文森,最终共和党候选人艾森豪威尔以绝对优势 嬴得这场选举。)
5 史》(Love Romances)各自的份数就够了。当然,即便采用这种方法也只能说 明人们曾经买了什么,而不能确定人们读过些什么。 同样,当你下次看到普通美国人(最近,这个词频繁出现,但大多数情况下 却是不现实的)每天刷牙 1.02 次时,虽然这个数据是我瞎编的,但它与别人的 数据一样好用。请问自己一个问题:不管是谁,他怎样才能发现这个事实呢?在 看了铺天盖地的、宣传不刷牙是对社会冒犯的广告之后,一名妇女还会向陌生人 承认自己不经常刷牙吗?这个统计资料只能对那些希望了解人们如何看待刷牙 的人才有价值,却根本不能反映牙刷接触牙齿的频率。 我们知道,除非在某处安装了泵站,否则一条河流永远不可能高于它的源头。 同样的,根据样本得到的结论不会比样本更精确。当数据经过层层统计处理,最 后简化为一个带小数点的平均数时,结论似乎闪耀着精确的光芒,但只要再仔细 留心整个抽样过程,这个光芒就会消逝。 为了确保结论有价值,根据抽样得出的结论一定要采用具有代表性的样本, 这种样本才能排除各种误差。这就是耶鲁的收入数据失真的原因,它也是你在报 纸和杂志中读到的许多资料根本不值一提的原因。 一位心理医生曾经写道:实际上每个人都有点神经质。暂且不去管这种提法 是否破坏了"神经质"一词的含义,我们来看看这个医生的样本,也就是说,他观 察了哪些人才得到了上述结论?事实上,他是在对他的病人进行研究后才得到了 这个发人深省的结论,这和代表全体人的样本可差的是十万八千里。想想看,如 果一个人心理健全,他是永远都不会接受心理医生的治疗的。 对你所读到的东西多思考一下,你将避免接受许多似是而非的结论。 记住下面这点是有益的:无形的误差与有形的误差一样容易破坏样本的可信 度。也就是说,即使你找不到任何破坏性的误差来源,但只要有产生误差的可能 性,你就有必要对结果保留一定的怀疑。事实上误差总是存在,如果你仍旧半信 半疑,想想 1948 年和 1952 年的美国总统大选,它们已足够证明这一点。(1948 年美国选举时,所有民调都显示民主党的杜威会获胜,结果却是杜威败给了共和 党人杜鲁门,这是美国历史上至今最大的"选举惊奇"。1952 年美国大选,新闻 传媒普遍看好民主党竞选人史蒂文森,最终共和党候选人艾森豪威尔以绝对优势 赢得这场选举。)