第一章统计案例 第一章 习题1.1 1.我国1993年至2002年的国内生产总值(GDP)的数据如下: 年份 GDP/亿元 1993 34634.4 1994 46759.4 1995 58478.1 1996 67884.6 1997 74462.6 1998 78345.2 1999 82067.5 2000 89468.1 2001 97314.8 2002 104790.6 (1)作GDP和年份的散点图,根据该图猜想它们之间的关系应是什么 (2)建立年份为解释变量,GDP为预报变量的回归模型,并计算残差 (3)根据你得到的模型,预报2003年的GDP,看看你的预报与实际GDP(117251.9亿元) 的误差是多少 (4)你认为这个模型能较好地刻画GDP和年份的关系吗?请说明理由 2.收集本班的某一学期的期中和期末数学考试的成绩,二者之间可以用线性模型来描述吗?如果 可以,期中成绩能够在多大程度上解释期末的成绩?进一步发现数据中的异常点,分析其形成 的原因 3.如下表所示,某地区一段时间内观察到的大于或等于某震级x的地震数为N,试建立回归方程 表述二者之间的关系 震级x3.03.23.43.63.84.04.24.44.64.85.0 地震数N28381203801479510695764155023842269819191356973 震级x5.2545.65.86.06.26.46.66.87.0 地震数N746604435274206148 57 41 9
6 000 不正 20 1N)0 吸 12 独立性检验的基本思想及其初步应用 对于性别变量,其取值为男和女两种.这种变量的不同“值”表示个体所属的不 同类别,像这样的变量称为分类变量.在现实生活中,分类变量是大量存在的,例如 是否吸烟,宗教信仰,国籍,等等. 在日常生活中,我们常常关心两个分类变量之间是否有关系.例如,吸烟与患肺 癌是否有关系?性别是否对喜欢数学课程有影响?等等 究 d 为研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了 9965人,得到如下结果(单位:人): 表17吸烟与患肺癌列联表 不患肺癌 患肺癌总计 不吸烟 7775 7817 吸烟 2099 49 2148 总计 9874 91 9965 那么吸烟是否对患肺癌有影响? 像表1-7这样列出的两个分类变量的频数表,称为列联表( contingency table). 由吸烟和悲肺癌列联表可以粗略估计出:在不吸烟样本中,有0.54%悲肺癌;在吸烟 样本中,有2.28%患肺癌.因此,直观上可以得到结论:吸烟群体和不吸烟群体患肺 癌的可能性存在差异. 与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条 形图展示列联表数据的频率特征.图1.2-1就是一个等高条形图,其中两个浅色条的 高分别表示吸烟和不吸烟样本中不患肺癌的频率;两个深色条的高分别表示吸烟与不 吸烟样本中患肺癌的频率.比较图中两个深色条的高可以发现,在吸烟样本中患肺癌 的频率要高一些,因此直观上可以认为吸烟更容易引发肺癌
第一章统计案例 第一章 不忠肺癌 患肺癌 000000000 9876543 .2 不吸烟 吸烟 图1.2-1 通过数据和图形分析,我们得到的直观判断是“吸烟和患肺癌有关”那么这种判断 是否可靠呢?我们可以通过统计分析回答这个问题 为了回答上述问题,我们先假设 H:吸烟与患肺癌没有关系, 看看能够推出什么样的结论 把表1-7中的数字用字母代替,得到如下用字母表示的列联表(表1-8): 表18吸烟与患肺癌列联表 不患肺癌患肺癌 总计 烟烟 吸 b a+b c+d 总计 ate b+d a+b+c+d 如果“吸烟与患肺癌没有关系”,那么吸烟样本中不患肺癌的比例应该与不吸烟样本中相 应的比例差不多,即 +b c+d c+d)≈c(a+b) d-bc≈0. 因此ad-bc越小,说明吸烟与患肺癌之间关系越弱;lad-bc越大,说明吸烟与患肺癌 之间关系越强 为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量 n(ad-bc +b)(c+d)(a+c)(b+d) 其中n=a+b+c+d为样本容量. 若H成立,即“吸烟与患肺癌没有关系”,则K2应该很小.根据表17中的数据
CHAPTER 菩通高中课程标准实验教科书数学逃修12 利用公式(1)计算得到K2的观测值为 不。9965×(775×49-42×2099)2≈56.632 7817×2148×9874×91 这个值到底能告诉我们什么呢? 统计学家经过研究发现,在H成立的情况下, P(K≥6.635)≈0.010. 即在H。成立的情况下,K的观测值大于6.635的概率非常小,近似为0.010,是一个小 概率事件. 现在K2的观测值k≈56.632,远远大于6.635,所以有理由断定H。不成立,即认为 吸烟与患肺癌有关系”但这种判断会犯错误,犯错误的概率不会超过0.010. 在上述过程中,实际上是借助于随机变量K2的观测值k,建立 了一个判断H。是否成立的规则: 随机变量是 如果k≥6.635,就判断H不成立,即认为“吸烟与患肺癌有随试验结果变化 关系”;否则,就判断H成立,即认为“吸烟与患肺癌没有关系”而变化的变量 在该规则下,把结论“H。成立”错判成“H。不成立”的概率 不会超过 P(K2≥6.635)≈0.010, 这里概率计算的前提是H。成立 上面解决问题的想法类似于反证法.要判断“两个分类变量有 K≥6.635 关系”首先假设该结论不成立,即 是一个随机事件 H:两个分类变量没有关系 成立.在该假设下我们所构造的随机变量K应该很小.如果由观测 数据计算得到的K2的观测值k很大,则断言H不成立,即认为“两个分类变量有关系”; 如果观测值k很小,则说明在样本数据中没有发现足够证据拒绝H。 怎样判断K的观测值k是大还是小呢?这仅需确定一个正数k,当k≥k。时就认为 K的观测值k大.此时相应于k的判断规则为:如果k≥k。,就认为“两个分类变量有关 系”;否则就认为“两个分类变量没有关系”.我们称这样的k为一个判断规则的临界值. 按照上述规则,把“两个分类变量没有关系”错误地判断为“两个分类变量有关系”的概 率为P(K2≥k。) 上:面这种利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验 (test of independence) 長1-9给出了反证法原理与独立性检验原理的比较,这种比较能帮助我们更好地理解 独立性检验原理. 表1-9反证法原理与独立性检验原理的比较 反证法原理在假设H。下,如果推出一个矛盾,就证明了H。不成立 独立性检验原理 在假设H。下,如果出现一个与H。相矛盾的小概率事件,就推断H。不成 立,且该推断犯错误的概率不超过这个小概率 12
第一章统计案例 第一章 考 你能从上述探究过程中总结出一种直观判断两个分类变量有关系的思 路吗?直观判断有何不足? 般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y,y2},其样 本频数列联表(称为2×2列联表)为: 表1-102×2列联表 JI 总计 cI b a+b d c-+d 总计 a+c b+d a+b+c+d 若要推断的论述为 H1:X与Y有关系, 如果通过直接计算或观察等高条形图发现b和十乙相差很大,就判断两个分关变量之间 有关系 上面这种直观判断的不足之处在于不能给出推断“两个分类变量有关系”犯错误的概 率,而独立性检验则可以弥补这个不足,独立性检验的具体做法是: (1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界a 然后查表1-11确定临界值k 表1-11 P(K2≥k)0.500.400.250.150.100.050.0250.0100.0050.001 k0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828 (2)利用公式(1),计算随机变量K2的观测值k (3)如果k≥k,就推断“X与Y有关系”,这种推断犯错误的概率不超过a;否则, 就认为在犯错误的概率不超过a的前提下不能推断“X与Y有关系”,或者在样本数据中 没有发现足够证据支持结论“X与Y有关系” 例1在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外 772名不是因为患心脏病而住院的男性病人中,有175人秃顶.利用图形判断秃顶与患心 脏病是否有关系,能否在犯错误的概率不超过0.010的前提下认为秃顶与患心脏病有 关系? 解:根据题目所给数据得到如下列联表: