统计,让数据说话的科学与艺术 我们在生活中为了证明某个结论,寻求问题的解答,做 出决策,常常需要摆事实讲道理。什么是事实?事实就是信 息和资讯。在近代社会中它们广泛地存在,并以各种形式发 布。由于计算机技术的发展,人类社会生活定量化程度的提 高,大部份的信息以各种形式的数据出现,它们被保存在你 的电脑,电子邮箱,纲络,文件之中。什么叫讲道理?讲道 理就是让这些数据说话,回答我们心中的问题。统计学就是 门教我们学会如何用数据来说清事实,讲出道理的学问 高三学生准备高考志愿填报时,我们要依据平时的考试成绩 和过去的录取情况,判定被北大,清华,复旦录取的可能性, 这时,你遇到了统计。明天上海股市是否会大跌?统计学将 给出一个合理的回答。我们要组织一次社团活动,应该运用 统计的方法作调查,然后取得共识。手机的过度使用是否会 影响健康?肯徳基的油炸鸡块还受中学女生喜爱吗?这些 问题都可利用统计学的方法解答。另一方面,在新闻媒体, 网络,各种公告中,大量的统计数据,图表,看上去非常权 威和令人信服的结论到处都是,应该相信它们吗?可以说, 统计无处不在。它是人类社会文明进步的标志之一,也是数 学教育的不可或缺的一环 统计工作从数据开始,让我们将它作为这次统计之旅的 起点
统计,让数据说话的科学与艺术 我们在生活中为了证明某个结论,寻求问题的解答,做 出决策,常常需要摆事实讲道理。什么是事实?事实就是信 息和资讯。在近代社会中它们广泛地存在,并以各种形式发 布。由于计算机技术的发展,人类社会生活定量化程度的提 高,大部份的信息以各种形式的数据出现,它们被保存在你 的电脑,电子邮箱,纲络,文件之中。什么叫讲道理?讲道 理就是让这些数据说话,回答我们心中的问题。统计学就是 一门教我们学会如何用数据来说清事实,讲出道理的学问。 高三学生准备高考志愿填报时,我们要依据平时的考试成绩 和过去的录取情况,判定被北大,清华,复旦录取的可能性, 这时,你遇到了统计。明天上海股市是否会大跌?统计学将 给出一个合理的回答。我们要组织一次社团活动,应该运用 统计的方法作调查,然后取得共识。手机的过度使用是否会 影响健康?肯德基的油炸鸡块还受中学女生喜爱吗?这些 问题都可利用统计学的方法解答。另一方面,在新闻媒体, 网络,各种公告中,大量的统计数据,图表,看上去非常权 威和令人信服的结论到处都是,应该相信它们吗?可以说, 统计无处不在。它是人类社会文明进步的标志之一,也是数 学教育的不可或缺的一环。 统计工作从数据开始,让我们将它作为这次统计之旅的 起点。 1
数据的基本形式一“表” 计算机的广泛应用,使得数据的保存,传输,查询成了 很方便的事情。日常的各类业务活动都在电脑系统中留下大 量记录,即数据。学生的考试成绩被完整地保存在学校的教 学系统中。当你到银行的取款时,交易记录一一地保存在银 行的交易数据库中。我们可在网络上进行民意调查,所有的 结果也被保存在服务器中。数据的来源千差万别,它们可能 是财务报表,或者是超市购物的收银条,甚至是刘德华演唱 会的门票销售记录,但是当我们要对它们分析之前,都要将 它们表达为表。表是数据存在的基本形式。我们首先建立关 于它的概念。表的基本形式如下, Ⅹ 1 m 1,1 X1,2 X1,3 Xn.1 n,2 n3 n 4 例如, hone Exercise Bookcost Sex ale 60 400 Male 10240150Male 150 400 Female 25120500Male 240250Mal 450 320 Female 300 Male 150 360343Male
·数据的基本形式—“表” 计算机的广泛应用,使得数据的保存,传输,查询成了 很方便的事情。日常的各类业务活动都在电脑系统中留下大 量记录,即数据。学生的考试成绩被完整地保存在学校的教 学系统中。当你到银行的取款时,交易记录一一地保存在银 行的交易数据库中。我们可在网络上进行民意调查,所有的 结果也被保存在服务器中。数据的来源千差万别,它们可能 是财务报表,或者是超市购物的收银条,甚至是刘德华演唱 会的门票销售记录,但是当我们要对它们分析之前,都要将 它们表达为表。表是数据存在的基本形式。我们首先建立关 于它的概念。表的基本形式如下, Xଵ Xଶ Xଷ Xସ ڮ ڮ X୫ xଵ,ଵ xଵ,ଶ xଵ,ଷ xଵ,ସ ڮ ڮ xଵ,୫ ڮ ڮ ڮ ڮ ڮ ڮ ڮ x୬,ଵ x୬,ଶ x୬,ଷ x୬,ସ ڮ ڮ x୬,୫ 例如, Phone Exercise BookCost Sex 90 0 404 Mal 60 400 Male 240 150 Male 180 150 400 Female 25 120 500 Male 30 240 250 Male 420 450 320 Female 120 30 300 Male 150 360 343 Male e 60 10 2
这张表中m=4,n=227,是向社会学系的227位同学进行调查后 得到的数据。表中的变量是, Phone:平均每周打电话的时间,单位是分 Exercise:平均每周花在体育运动上的时间,单位是分 Bookcos t:本学期在教材上的支出,单位是美金 Sex:性别,男=Male,女= Fema le 注该数据来自美国 Pennsylvania大学。 男孩比女孩更喜欢运动吗?打电话与买书是否有关系?诸 如此类的问题都可利用这个数据集作出回答 分析表应抓住二个角度。从它的第二行开始每一行代表 我们观察的对象,在统计中称为个体。上面表中的个体是被 调查的学生。每一列代表一个变量,变量即是关于个体的某 个特征。上面表中的变量是 Phone, Exercise, Book Cos t,Sex, 对每个个体可通过观察,记录,询问等获得它们的数据.每一 列从第二行开始记录了该变量在各个个体上的观察值。在上 表中变量 Phone与Sex有何不同呢?前者的数据均是有大小 的数字,这类变量称为数值变量。后者的数据是用文字,符 号组成的,这类变量称为定性变量 数据分析的基本任务可分为二大类,一是有关变量的 其次是有关对象的。 上面的表包含了一个数据的集合,简称为数据集。 数据集举例
这张表中 m=4,n=227,是向社会学系的 227位同学进行调查后 得到的数据。表中的变量是, Phone :平均每周打电话的时间,单位是分。 Exercise:平均每周花在体育运动上的时间,单位是分。 BookCost:本学期在教材上的支出,单位是美金。 Sex:性别,男=Male,女=Female。 注 该数据来自美国 Pennsylvania 大学。 男孩比女孩更喜欢运动吗?打电话与买书是否有关系?诸 如此类的问题都可利用这个数据集作出回答。 分析表应抓住二个角度。从它的第二行开始每一行代表 我们观察的对象,在统计中称为个体。上面表中的个体是被 调查的学生。每一列代表一个变量,变量即是关于个体的某 个特征。上面表中的变量是 Phone,Exercise,BookCost,Sex, 对每个个体可通过观察,记录,询问等获得它们的数据.每一 列从第二行开始记录了该变量在各个个体上的观察值。在上 表中变量 Phone 与 Sex 有何不同呢?前者的数据均是有大小 的数字,这类变量称为数值变量。后者的数据是用文字,符 号组成的,这类变量称为定性变量。 数据分析的基本任务可分为二大类,一是有关变量的, 其次是有关对象的。 上面的表包含了一个数据的集合,简称为数据集。 • 数据集举例 3
数据分析从熟悉数据集开始,我们下面给出一些数据集的 实例 实例1谁喜欢开快车? 在美国某所大学中曾进行一次调查以确定是男生还是女 生更喜欢开快车?下面是对87位男生和102位女生的调查 结果,其中的数字是他们开车的平均时速,单位是英里/小 时。同学们将结果记录在纸上,它们是 男生:110109901401051501201101109011595 14514011010585951001151249510012514085120 11510512510285120110120115941258085140 1209213012511090110110959511010580100 1001301051051209010010510012010010080100 120105601251201001159511010180112120110 1151255590 女生:807583801001009075958590859090 1208510012075858070851108575105957570 9070828510090759011080801101109575130 95110110809010590110751009011085908080 8550801008080809510090100958080508890 908570903085858785908575901028010095 1108095908090 面对这一长串的数字我们能得出男生与女生在开车速
数 ൣ 学中曾进行一次调查以确定是男生还是女 中的数字是他们开车的平均时速,单位是英里/小 男生:110 109 90 140 105 150 120 110 110 90 115 95 145 140 110 105 85 95 100 115 124 95 100 125 140 85 120 115 105 125 102 85 120 110 120 115 94 125 80 85 140 120 92 130 125 110 90 110 110 95 95 110 105 80 100 100 130 105 105 120 90 100 105 100 120 100 100 80 100 120 105 60 125 120 100 115 95 110 101 80 112 120 110 115 125 55 90 。 女生:80 75 83 80 100 100 90 75 95 85 90 85 90 90 120 85 100 120 75 85 80 70 85 110 85 75 105 95 75 70 90 70 82 85 100 90 75 90 110 80 80 110 110 95 75 130 95 110 110 80 90 105 90 110 75 100 90 110 85 90 80 80 85 50 80 100 80 80 80 95 100 90 100 95 80 80 50 88 90 90 85 70 90 30 85 85 87 85 90 85 75 90 102 80 100 95 110 80 95 90 80 90 。 面对这一长串的数字我们能得出男生与女生在开车速 据分析从熟悉数据集开始,我们下面给出一些数据集的 实例。 实例 1൧ 谁喜欢开快车? 在美国某所大 生更喜欢开快车?下面是对 87 位男生和 102 位女生的调查 结果,其 时。同学们将结果记录在纸上,它们是 4
度的差异吗?为什么说男生更倾向于开快车?它们之间的 差别有多少?为了让数据回答这些问题我们首先要将它们 变成一张表,它的变量是 sex:性别,m=男生,f=女生。 mph:车速,单位=英里/小时 对象是被调查的学生,共计189位 要让数据说话是要借助于工具的,我们采用 Excel作为 基本工具,因此,要做的第一件事就是将我们的表变成一张 Excel表。它是 sex mph 110 mmmmmmm 150 我们面对一大难似乎杂乱无章的数据时,会感到不知所 措。这时应做的第一件事情可能是要设法对这堆数据的主要 特征进行分析,设法将它们用图形表达出来,从而获得对数 据的初步,然而却是正确的感觉。这种方法在统计学上称为 描述性分析。今后将说明如何利用直方图和分位数来合理地 回答究竟是男生还是女生喜欢开快车! [实例2]提问方式的影响 王老师要确定春游的目的地,她在班会上提出,请大家 在S和Q中选择一个,来决定今年春游去何地。当时有92位
度的差异吗?为什么说男生更倾向于开快车?它们之间的 差别有多少?为了让数据回答这些问题我们首先要将它们 变成一张表,它的变量是 sex:性别,m=男生 ,f=女生。 mph:车速,单位=英里/小时。 对象是被调查的学生,共计 189 位。 要让数据说话是要借助于工具的,我们采用 Excel 作为 基本 是将我们的表变成一张 Exce 工具,因此,要做的第一件事就 l 表。它是 sex mph m 110 m 109 m 90 m 105 m m 140 m 150 120 m 110 m 110 我们面对一大难似乎杂乱无章的数据时,会感到不知所 措。这时应做的第一件事情可能是要设法对这堆数据的主要 特征进行分析,设法将它们用图形表达出来,从而获得对数 据的初步,然而却是正确的感 。这种方法在统计学上称为 觉 描述性分析。今后将说明如何利用直方图和分位数来合理地 回答究竟是男生还是女生喜欢开快车! ൣ实例 2൧ 提问方式的影响。 王老师要确定春游的目的地,她在班会上提出,请大家 在 S 和 Q 中选择一个,来决定今年春游去何地。当时有 92 位 5