同学参加投票,其结果如下,选择S地的有61个,选Q地的 有31位。看来应该选S。但有的同学提出了疑问,王老师的 老家在S,她的提问是不是有导向性?为什么不请大家在Q 与S中选择一个呢?王老师进行了第二次投票,要求大家在Q 与S中选择一个,这次有98位同学参加。综合二次结果得到 下面的表, 先取S 选取Q 在S和Q中选61(60 31(34%) 92 在Q和S中选45(46%) 53(54%) 总计 106(56% 84(44%) 190 从这张表出发,我们能得出提问方式对结果确有影响的 结论吗?上面形式表在统计学中称为列联表,它表达了二个 分类变量Ⅹ与Y的关系,在这里,X=提问方式,Y=选择结果 我们的问题可归结为,如何利用列联表对X与Y的独立性进 行捡验的问题。这个方法有非常广泛的应用,例如判定吸烟 与肺癌的关系 实例3性别与职称的关系 我们将美国普度大学1621位教授依性别和职称分类后 得到一个数据集,它们组成一张表
同学参加投票,其结果如下,选择 S 地的有 61 个,选 Q 地的 位。看来应该选 王老师的 老家在 S,她的提问是不是有导向性?为什么不请大家在 Q 与 S中选择一个呢?王老师进行了第二次投票,要求大家在 Q 与 S 中选择一个,这次有 98 位同学参加。综合二次结果得到 下面的表, 选取 S 选取 Q 总计 有 31 S。但有的同学提出了疑问, 在 S 和 Q 中选 61(66%) 31(34%) 92 在 Q 和 S 中选 45(46%) 53(54%) 98 总计 106(56%) 84(44%) 190 从这张表出发,我们能得出提问方式对结果确有影响的 结论吗?上面形式表在统计学中称为列联表,它表达了二个 分类变量 X 与 Y 的关系,在这里,X=提问方式,Y=选择结果。 我们的问题可归结为,如何利用列联表对 X 与 Y 的独立性进 行捡验的问题。这个方法有非常广泛的应用,例如判定吸烟 与肺癌的关系。 ൣ实例 3൧ 性别与职称的关系。 我们将美国普度大学 1621 位教授依性别和职称分类后 得到一个数据集,它们组成一张表 6
女性 男性 总数 助教 126 213 339 副教授 149 411 560 正教授 60 662 722 总数 335 1286 1621 这里涉及二个定性变量Ⅹ与Y,X=性别,Y=职称。上面 的表格中的数字只是事实的汇总,从这堆数字中你能说出女 性在教授群中的地位吗?表可进一步进行加工,以帮助我们 看到数据背后的信息 [实例4]吸烟会造成离婚吗 为了研究吸烟与离婚的关系,社会工作者对1669个已 婚的人进行调查,得到涉及二个定性变量X与Y的数据表, X=吸烟状态,Y=婚史。该表如下 曾离婚 未曾离婚 总数 吸烟 238 247 485 不吸烟 374 810 1184 总数 612 1957 1669 在表的每一格给出了有固定属性的对象个数,例如在第 行第二列的238表示了吸烟并曾离婚的被调查的人数。我 们将从这张表出发,计算出一些百分数,它们将展示吸烟带 给婚姻的风险
女性 男性 总数 助教 126 213 339 副教授 149 411 560 正教授 60 662 722 总数 335 1286 1621 这里涉及二个定性变量 X 与 Y,X=性别,Y=职称。上面 的表格中的数字只是事实的汇总,从这堆数字中你能说出女 性在教授群中的地位吗?表可进一步进行加工,以帮助我们 看到数据背后的信息。 ൣ实例 4൧ 吸烟会造成离婚吗? 为了研究吸烟与离婚的关系,社会工作者对 1669 个已 婚的人进行调查,得到涉及二个定性变量 X 与 Y 的数据表, X=吸烟状态,Y=婚史。该表如下 曾离婚 未曾离婚 总数 吸烟 238 247 485 不吸烟 374 810 1184 总数 612 1957 1669 在表的每一格给出了有固定属性的对象个数,例如在第 行第二列的 2 吸烟并 被调 数。我 这张表出 计算出一些百分数,它们将展示吸烟带 风险。 二 38 表示了 曾离婚的 查的人 们将从 发, 给婚姻的 7
[实例5]身高与手大的关系 日常生活中充满了各种有趣的数据,它们揭示出的各种 关系能给我们提供帮助。下面的数据集来自于对课堂上的 167名同学,每个人写出它的性别,身高,右手掌的宽度。 我们记, Sex:性别,男生=male,女生= female Height:身高,单位=英寸 Hands pan:右手掌的宽度,从大姆指尖到小姆指尖的距 离,单位=cm。 将数据集以 Excel表的形式保存,以便在它的帮助下进 行深入的分析。这张表是 Sex Height Handspan enable 68 21.5 Male 73 22.5 male 64 18.0 59 20.0 Male 75 Female 6521.0 设想你在百货公司想为你的朋友买一付手套,但不知道 他的手有多大,当然他是一位身高一米八十的师哥。从上面 的表中找出的公式将可解决你的难题,因为我们能用他的身 高大致地估算出他的手掌大小! [实例6]设计高速公路的标识时,请注意老年驾驶员! 现在老年人驾车日益增加,这成为高速公路标识设计时 必需重视的因素之一。为此,收集了30个驾驶员的数据
ൣ实例 5൧ 身高与手大的关系。 常生活中充满了各种有趣的数据,它们揭示出的各种 关系 生=male,女生=female。 Height: 身高,单位=英寸。 Handspan: 右手掌的宽度,从大姆指尖到小姆指尖的距 离,单位=cm。 将数据集以 Excel 表的形式保存,以便在它的帮助下进 行深入的分析。这张表是 日 能给我们提供帮助。下面的数据集来自于对课堂上的 167 名同学,每个人写出它的性别,身高,右手掌的宽度。 我们记, Sex:性别,男 Sex He ight HandSpan Female 68 21.5 Male Male 73 22.5 Female Male 68 23.5 Female Male 73 23.0 Male 75 2 Female 65 2 71 23.5 64 18.0 59 20.0 4.5 1.0 位身高一米八十的师哥。从上面 的表中找出的公式将可解决你的难题,因为我们能用他的身 高大致地估算出他的手掌大小! ൣ实例 6൧ 设计高速公路的标识时,请注意老年驾驶员! 现在老年人驾车日益增加,这成为高速公路标识设计时 必需重视的因素之一。为此,收集了 30 个驾驶员的数据, 设想你在百货公司想为你的朋友买一付手套,但不知道 他的手有多大,当然他是一 8
记下他们的年龄和最大的可视距离。下表中的二个数量型的 变量是,年龄=Age,距离= Distance。 A Distance 20 22 560 510 25 490 460 从常理来考虑,当年龄增大时,可视最大距离会减小 这种变化的规律能找到吗?我们以后要学的线性回归就是 一种常用的分析二个定量变量之间关系的方法 [实例7多元数据分析 我们在日常的工作和研究中通常碰到的数据集都涉及 很多个变量。分析一些变量与另一些变量之间的关系,将研 究的对象按其在一组变量上的表现来进行分类,寻找新的更 有效的变量等组成统计学中非常重要的一个领域,多元统计 分析。现给出一个多元数据集的例子,它来自对173位同学 的调查。表中涉及的变量是 Sex:性别,Male, Female。 Tv:每周平均花在看电视上的小时数。 Computer:每周平均上网小时数 Sleep:平均晚上的睡眠小时数 Seat:在教室里经常坐的位置,前排= Front,中间。 = Middle,后排=Back
记下他们的年龄和最大的可视距离。下表中的二个数量型的 变量是,年龄=Age,距离=Distance。 Age Distance 18 510 20 580 22 560 23 510 23 480 25 27 560 490 28 510 29 460 从常理来考虑,当年龄增大时,可视最大距离会减小。 这种变化的规律能找到吗?我们以后要学的线性回归就是 一种常用的分析二个定量变量之间关系的方法。 ൣ实例 7൧ 多元数据分析 我们在日常的工作和研究中通常碰到的数据集都涉及 很多个变量。分析一些变量与另一些变量之间的关系,将研 究的对象按其在一组变量上的表现来进行分类,寻找新的更 有效的变量等组成统计学中非常重要的一个领域,多元统计 分析。现给出一个多元数据集的例子,它来自对 173 位同学 的调查。表中涉及的变量是 Sex:性别,Male,Female。 TV 均花在看电视上 :每周平 的小时数。 Computer:每周平均上网小时数。 Sleep:平均晚上的睡眠小时数。 Seat: 在教室里经常坐的位置,前排=Front,中间。 =Middle,后排=Back。 9
Alcohol:每周饮用含酒精饮料的数量 Height:身高,英寸 Monheight:母亲的身高,英寸 Dadheight:父亲的身高,英寸。 Exercise:每周运动的小时数 GPA:大学生的学业成积积分 Class:班级分类, Liberal art=文科班, Non liberal Arts=非文科班。 下面给出这个数据集 Sex TV computer Sleep Seat alcohol Height Female 13 10 3.5 Back 66.0 Female 5 4.0 Back Male 79.0 Back 2000 64.0 72.0 156.bAck 68.0 Male 8 20 6.mIddle 68.0 Femal 5.0 Front 5 64 9.0 Middle 068.5 8. 5 Front 69.0 Female 7.0 Middle 4.5 66.0 这类数据集广泛地存在你们学校的电脑之中,只要使用 合适的统计方法和统计软件,大家就可得到很多有意思的结 论 上面以表的形式给出的数据集均是原始数据,它们是我 们研究的出发点,但是这些没有处理和整合的数据看上去十 分杂乱无章,令人不得要领。如何对数据形成概括性的正确 理解,在此基础上作进一步的分析呢?变量的分布是一个合 适的切入点 数值变量的分布及其呈现
Alcohol:每周饮用含酒精饮料的数量。 Height:身高,英寸。 Monheight:母亲的身高,英寸。 l Dadheight:父亲的身高,英寸。 Exercise:每周运动的小时数。 GPA:大学生的学业成积积分。 Class:班级分类,Liberal Art=文科班,Non Libera Arts=非文科班。 下面给出这个数据集。 Sex T V compute r Female 13 10 Sleep Seat alcohol Height 3.5 Back 12 66.0 Female 2 5 4.0 Back 0 64.0 0 72.0 Male 15 15 6.0 Back 0 68.0 0 68.0 Female 2.5 10 5.0 Front 5 64.0 e 0 68.5 Female 4 28 8.5 Front 1.5 69.0 Female 8 10 7.0 Middle 4.5 66.0 Male 20 7 9.0 Back Male 8 20 6.0 Middle Male 2 14 9.0 Middl 这类数据集广泛地存在你们学校的电脑之中,只要使用 合适的统计方法和统计软件,大家就可得到很多有意思的结 论。 上面以表的形式给出的数据集均是原始数据,它们是我 们研究的出发点,但是这些没有处理和整合的数据看上去十 分杂乱无章,令人不得要领。如何对数据形成概括性的正确 理解,在此基础上作进一步的分析呢?变量的分布是一个合 适的切入点。 • 数值变量的分布及其呈现 10