我相信你不是一个势利小人,而我也并不从事房地产生意。但请让我们作这样的假定,并 且假设,现在你正离我所住的加利福尼亚山谷不远处的一条街上寻找想买的房子。 为了抓住这笔生意,我巧舌如簧,费尽心思地让你相信附近居民的年收入大约有15000 美元。也许这增强了你居住于此的兴趣,不管怎样,买卖最终成交。那美妙的数字也深深刻在 你的脑海。而且,既然我们已经达成协议一一你有那么一点势利,在与朋友聊天时,你总会看 似不经意地告诉他们现在你住哪儿。 一年左右我们又见而了。作为某纳税者委员会的成员。我正在四处奔走.为降低税率,降 低财产估价, 或降低公共交通费用而呼吁。我的理由是:我们支付不起各种上涨的费用,毕 附近居民的平均年收人只有3500美元。也许你会参与到我们的工作中来 这说明你不仅势 利,而且还挺吝啬。但是,当听到那可怜的3500美元时,你也禁不住大为吃惊。到底是我现 在撒谎了呢?还是一年前撒了谎? 其实两次你都不能怪罪于我,这便是利用统计撒谎的奥妙所在。两个数字都是合法的平均 有着合 :的曾 去。两 数 同的数据、 ,相同的收入。所有都 我的诡计是每次使用了不同的平均数。“平均数”这个词有很广泛的涵义。当一个家伙希 望影响公共观念时,或者是向其他人推销广告版面时,平均数便是一个经常被使用的诡计,有 时出于无心,但更多的时候是明知故犯。当被告知某个数是平均数时,除非你能很明确地说出 它具体的种类 一均值、中位数还是众数, 否则对它你仍知之甚少 当希望数据较大时,我使用的是算术平均数,即15000美元。将所有家庭的收入加起来 再除以家庭总数便能得到。小一些的是中位数,它能告诉你一半家庭的收人超过3500美元。 而另一半家庭的收入低于3500美元。我还可以利用众数,它是在所有家庭收入序列中出现次 数最多的那个收入。例如,如果这个居民区中,年收入5000美元的家庭数远大于其他收人的 家庭数,则众数就是5000美元 一个没有加以限定的“平均数”,就像这个例子里的收入数据,最终是无意义的。一个可 能加深混乱的因素是,有些资料的平均数落在十分接近的范围内,出于一般的目的没有必要区 分它们。 当看到某些人平均身高为5英尺时,你便能对这些人的外形有大概的了解,而根本不需过 问这个平均数到底是均值 立数还 众数,因为它们没有过多的区别。(当然,如果你从事 服装生意,并且需要为这些人赶制制服,那你就需要更多的信息,包括全距和离差,这些我将 在下一章进行介绍。) -16
- 16 - 我相信你不是一个势利小人,而我也并不从事房地产生意。但请让我们作这样的假定,并 且假设,现在你正离我所住的加利福尼亚山谷不远处的一条街上寻找想买的房子。 为了抓住这笔生意,我巧舌如簧,费尽心思地让你相信附近居民的年收入大约有15000 美元。也许这增强了你居住于此的兴趣,不管怎样,买卖最终成交。那美妙的数字也深深刻在 你的脑海。而且,既然我们已经达成协议——你有那么一点势利,在与朋友聊天时,你总会看 似不经意地告诉他们现在你住哪儿。 一年左右我们又见而了。作为某纳税者委员会的成员。我正在四处奔走.为降低税率,降 低财产估价,或降低公共交通费用而呼吁。我的理由是:我们支付不起各种上涨的费用,毕竟, 附近居民的平均年收人只有3500美元。也许你会参与到我们的工作中来——这说明你不仅势 利,而且还挺吝啬。但是,当听到那可怜的3500美元时,你也禁不住大为吃惊。到底是我现 在撒谎了呢?还是一年前撒了谎? 其实两次你都不能怪罪于我,这便是利用统计撒谎的奥妙所在。两个数字都是合法的平均 数,有着合法的计算方法。两个数字都代表着相同的数据、相同的居民、相同的收入。所有都 是相同的,但显然至少有一个数据令人误解,足以与弥天大谎相媲美。 我的诡计是每次使用了不同的平均数。“平均数”这个词有很广泛的涵义。当一个家伙希 望影响公共观念时,或者是向其他人推销广告版面时,平均数便是一个经常被使用的诡计,有 时出于无心,但更多的时候是明知故犯。当被告知某个数是平均数时,除非你能很明确地说出 它具体的种类——均值、中位数还是众数,否则对它你仍知之甚少。 当希望数据较大时,我使用的是算术平均数,即15000美元。将所有家庭的收入加起来 再除以家庭总数便能得到。小一些的是中位数,它能告诉你一半家庭的收人超过3500美元。 而另一半家庭的收入低于3500美元。我还可以利用众数,它是在所有家庭收入序列中出现次 数最多的那个收入。例如,如果这个居民区中,年收入5000美元的家庭数远大于其他收人的 家庭数,则众数就是5000美元。 一个没有加以限定的“平均数”,就像这个例子里的收入数据,最终是无意义的。一个可 能加深混乱的因素是,有些资料的平均数落在十分接近的范围内,出于一般的目的没有必要区 分它们。 当看到某些人平均身高为5英尺时,你便能对这些人的外形有大概的了解,而根本不需过 问这个平均数到底是均值、中位数还是众数,因为它们没有过多的区别。(当然,如果你从事 服装生意,并且需要为这些人赶制制服,那你就需要更多的信息,包括全距和离差,这些我将 在下一章进行介绍。)
当你在处理诸如上述人类特征的数据时,不同的平均数将大体相等,因为这些数据的分布 十分接近正态分布。如果用曲线来描绘正态分布,你将获得一条类似于一口钟的曲线,它的均 值、中位数以及众数都落在同一点上。 虽然在描述人体身高时,一种平均数与其他任何平均数一样具有相同的作用,但在描述他 们的经济收入时,却不是那么回事了。将 ·个城市所有家庭的年收入列出来,你将发现这些数 据会从极小的值变动到大概50000美元,甚至还能发现一些极大的值。多于95%的收入低于 10000美元,聚集在分布的左侧。在这种情况下,分布将不再对称,也不会像一口钟,而是 有偏的。它的形状类似于孩子玩的滑梯,梯子急剧升到顶点.而滑道一侧则是缓慢向下倾斜 的估与由离得很元 。这样一来 将去年的“平均数”(均值)与今年的“平均数”(中位 数)进行比较的有效性就可想而知了 在你所买房子的居民区里,这两个平均数相差甚远,因为收入是显著偏斜的。你的大多数 邻居是小农、在附近山谷工作的工薪阶层或是靠养老金为生的退休老人,但有三家邻居却是来 度周末的百万富翁,就是这三家的收入提高了总收入,相应地提高了算术平均数。这样一来, 一个玩笑或者文学修辞,但实 我是来发周来鸭百方省萄 这就是当你听到公司执行总裁或企业所有者宣告,在他的企业中所有员工的平均收入是多 少时。你应该好好思考一下的原因。如果这个数是中位数,你可以获得有用的信息:一半员工 赚得比它多,一半比它少。但如果是均值(请相信我,如果没有确切指出它的种类时,多半 是均值),它仅仅是企业主的45000美元的收入与职员低水平收入的平均数,则根本没有什 么意义 收入为5700美元”既隐瞒了2000美元的低收入,又隐瞒了所有者以巨额薪金 的形式抽取的利润 让我们进行更深入的研究。下图显示了有多少人获得了不同的收入。老板也许愿意用具有 欺骗性的均值来进行描述:“平均收入为5700美元”。然而,众数更能说明问题:获得2000 美元的职工人数最多。同样,中位数能对公司情况作进一步的阐述: 一半职工收入大于3000 美元,另一半少于3000美元。 这类似于双人拉锯,现实情况越糟,公司的声明却看起来越好。让我们试若用个简单的例 子来说明。 17
- 17 - 当你在处理诸如上述人类特征的数据时,不同的平均数将大体相等,因为这些数据的分布 十分接近正态分布。如果用曲线来描绘正态分布,你将获得一条类似于一口钟的曲线,它的均 值、中位数以及众数都落在同一点上。 虽然在描述人体身高时,一种平均数与其他任何平均数一样具有相同的作用,但在描述他 们的经济收入时,却不是那么回事了。将一个城市所有家庭的年收入列出来,你将发现这些数 据会从极小的值变动到大概50000美元,甚至还能发现一些极大的值。多于95%的收入低于 10000美元,聚集在分布的左侧。在这种情况下,分布将不再对称,也不会像一口钟,而是 有偏的.它的形状类似于孩子玩的滑梯,梯子急剧升到顶点.而滑道一侧则是缓慢向下倾斜, 均值与中位数离得很远。这样一来,将去年的“平均数”(均值)与今年的“平均数”(中位 数)进行比较的有效性就可想而知了。 在你所买房子的居民区里,这两个平均数相差甚远,因为收入是显著偏斜的。你的大多数 邻居是小农、在附近山谷工作的工薪阶层或是靠养老金为生的退休老人,但有三家邻居却是来 度周末的百万富翁,就是这三家的收入提高了总收入,相应地提高了算术平均数。这样一来, 均值被提升到一个绝大多数家庭根本达不到的水平。这听起来像一个玩笑或者文学修辞,但实 际上,几乎所有家庭收入都低于这个均值。 这就是当你听到公司执行总裁或企业所有者宣告,在他的企业中所有员工的平均收入是多 少时。你应该好好思考一下的原因。如果这个数是中位数,你可以获得有用的信息:一半员工 赚得比它多, 一半比它少。但如果是均值(请相信我,如果没有确切指出它的种类时,多半 是均值),它仅仅是企业主的45000美元的收入与职员低水平收入的平均数,则根本没有什 么意义。“平均收入为5700美元”既隐瞒了2000美元的低收入,又隐瞒了所有者以巨额薪金 的形式抽取的利润。 让我们进行更深入的研究。下图显示了有多少人获得了不同的收入。老板也许愿意用具有 欺骗性的均值来进行描述:“平均收入为5700美元”。然而,众数更能说明问题:获得2000 美元的职工人数最多。同样,中位数能对公司情况作进一步的阐述:一半职工收入大于3000 美元,另一半少于3000美元。 这类似于双人拉锯,现实情况越糟,公司的声明却看起来越好。让我们试着用个简单的例 子来说明
5000美元 ● 10000美元 星+样吸 5700美元 闪nN 5000美元 3700头元 花←中位数[侠老园祭整.] 1000头元 N设N数N室数究 [餐] ?000头元 假设你是某个制造企业的3个合伙人之一。这是一个收入颇丰的一年,到了年底你给本企 业的90个职工 一他们制造并且运输椅子(或者任何你所经营的东西) -共发了198000 美元的工资,给自己与合伙人各发11000美元。最后,还有45000美元的利润可供3人平分 你将如何说明这种情况 为了便于 理解 你打算采用平均数的形式。既然所有的职工从事相 同的工作,获得同样的收入,用均值还是中位数没有区别。说明如下: 职工的平均工资一一2200美元 所有者平均工资及利润一一26000美元 看上去太不公平了,不是吗,来试试另一种形式:从利润中拿出30000美元以奖金的形 式平分给3位合伙人,再将包括了所有者和职工的所有工资进行平均,的确又是平均数,结果 却变成: 所有人员的平均工资或薪水一一2806.45美元 -18
- 18 - 假设你是某个制造企业的3个合伙人之一。这是一个收入颇丰的一年,到了年底你给本企 业的90个职工——他们制造并且运输椅子(或者任何你所经营的东西)——共发了198000 美元的工资,给自己与合伙人各发11000美元。最后,还有45000美元的利润可供3人平分。 你将如何说明这种情况呢?为了便于理解,你打算采用平均数的形式。既然所有的职工从事相 同的工作,获得同样的收入,用均值还是中位数没有区别。说明如下: 职工的平均工资——2200 美元 所有者平均工资及利润——26000 美元 看上去太不公平了,不是吗,来试试另一种形式:从利润中拿出30000美元以奖金的形 式平分给3位合伙人,再将包括了所有者和职工的所有工资进行平均,的确又是平均数,结果 却变成: 所有人员的平均工资或薪水——2806.45 美元
所有者平均利润一一5000美元 哈,看上去不错了吧。虽然还能进一步改善,但这已经有了长足的进步,全部资金中只有 少于6%的部分形成了利润。你还可以继续如法炮制,但不管怎样,现在的结果已经足以作为 公布的内容,张贴在公告栏中,或者作为与职工谈判的依据】 因为简化,这个例子是十分粗糙的。与以会计名义所做的手脚相比,它简直是小儿科。对 于一个等级森严、职员的范围从打字员到领取儿十万美元薪金的总裁的复杂公司而言,所有情 况都可用类似的方法进行掩盖。 利润 工资 5.04% 器 9496% 因此,当你看到一个平均收入时,首先问问:是什么的平均?包括了什么?美因钢铁公司 (The United States Steel Corporation)曾经指出:从1940年到1948年间,该公司职工 的平均周收入攀升了107%。确实如此,但是,当你注意到1940年包括更多的兼职职工时, 奇妙的增长比率会大打折 如果你某年只工作了半年,而第二年全年工作, 你的收入毫无 问会翻番,但这与你工资率的变动无关。 你也许曾在报纸上看到,1949年美国家庭的平均收入是3100美元。别太在意这个数字, 除非你知道这个数字包括了哪些家庭,以及使用了哪种平均数。(甚至谁测算了数据,他如何 获得这个信息以及这个数据的正确性。) 该数据正好来自普查局(The Bureau of the Census))。如果有普查局的那份报告,那么 你就可以不费吹灰之力地弄清楚其余的信息。这是个中位数,“家庭”指两个或更多具有亲属 关系的人住在一起所构成的“家庭”。(如果独居也包括在内的话,中位数也许将降为2700 美元,这又不同。)如果再同过头来读表中的数据,你还会发现这个数据建立在一个抽样调查 出之上 该调查以19/20的概率保证真实的数据会落在3107美元加减59美元的范围之内 对3107美元取整后得到3100美元。 类似的概率和误差范围构成了一个很好的估计。普查工作者一般都具有足够的统计知识、 技术以及调查费用以确保抽样的精确度。他们并非居心叵测之徒。但并不是所有能见到的数据 都产生于这样良好的环境,也并不是所有的数据会附有类似的精确度说明。在下一章,我们还 将进行详细的描述。 同样,你会对《时代》杂志“编者的话 ”栏目中的某些项目表示怀疑。关于该杂志的新订 阅者,有如下描述:“他们的平均年龄(中位数)为34岁,家庭平均年收人为7270美元。 早期对旧时代”读者的调查发现,“平均年龄(中位数)为41岁.平均收入为9535美元.” 很自然的问题是:为什么两次谈到年龄时都指出是中位数,而关于收入却不明确平均数的类型? 19
- 19 - 所有者平均利润——5000 美元 哈,看上去不错了吧。虽然还能进一步改善,但这已经有了长足的进步,全部资金中只有 少于6%的部分形成了利润。你还可以继续如法炮制,但不管怎样,现在的结果已经足以作为 公布的内容,张贴在公告栏中,或者作为与职工谈判的依据。 因为简化,这个例子是十分粗糙的。与以会计名义所做的手脚相比,它简直是小儿科。对 于一个等级森严、职员的范围从打字员到领取儿十万美元薪金的总裁的复杂公司而言,所有情 况都可用类似的方法进行掩盖。 因此,当你看到一个平均收入时,首先问问:是什么的平均?包括了什么?美国钢铁公司 (The United States Steel Corporation)曾经指出:从1940年到1948年间,该公司职工 的平均周收入攀升了107%。确实如此,但是,当你注意到1940年包括更多的兼职职工时, 奇妙的增长比率会大打折扣。如果你某年只工作了半年,而第二年全年工作,你的收入毫无疑 问会翻番,但这与你工资率的变动无关。 你也许曾在报纸上看到,1949年美国家庭的平均收入是3100美元。别太在意这个数字, 除非你知道这个数字包括了哪些家庭,以及使用了哪种平均数。(甚至谁测算了数据,他如何 获得这个信息以及这个数据的正确性。) 该数据正好来自普查局(The Bureau of the Census)。如果有普查局的那份报告,那么 你就可以不费吹灰之力地弄清楚其余的信息。这是个中位数,“家庭”指两个或更多具有亲属 关系的人住在一起所构成的“家庭”。(如果独居也包括在内的话,中位数也许将降为2700 美元,这又不同。)如果再同过头来读表中的数据,你还会发现这个数据建立在一个抽样调查 基础之上,该调查以19/20的概率保证真实的数据会落在3107美元加减59美元的范围之内。 对3107美元取整后得到3100美元。 类似的概率和误差范围构成了一个很好的估计。普查工作者一般都具有足够的统计知识、 技术以及调查费用以确保抽样的精确度。他们并非居心叵测之徒。但并不是所有能见到的数据 都产生于这样良好的环境,也并不是所有的数据会附有类似的精确度说明。在下一章,我们还 将进行详细的描述。 同样,你会对《时代》杂志“编者的话”栏目中的某些项目表示怀疑。关于该杂志的新订 阅者,有如下描述:“他们的平均年龄(中位数)为34岁,家庭平均年收人为7270美元。” 早期对“旧时代”读者的调查发现,“平均年龄(中位数)为41岁.平均收入为9535美元.” 很自然的问题是:为什么两次谈到年龄时都指出是中位数,而关于收入却不明确平均数的类型?
也许这里使用的是均值,以便利用高收入读者群来达到吸引广告商的目的。 你同样可以对第一章中1924级耶鲁学生的平均收人提这样一个问题:这里用的是哪种平 均数 -20
- 20 - 也许这里使用的是均值,以便利用高收入读者群来达到吸引广告商的目的。 你同样可以对第一章中1924级耶鲁学生的平均收人提这样一个问题:这里用的是哪种平 均数?