上海交通大学 数学系 LOGO 第16章 数据从何而来 肖柳青主讲
LOGO 第16章 数据从何而来 上海交通大学 数学系 肖柳青 主讲
目 录 16.1数据从何而来?如何善用资讯? 16.2样本告诉我们什么? 16.3好样本与坏样本 16.4怎样可取得坏样本? 16.5有偏抽样法 16.6简单随机样本 16.7谈谈实验
目 录 16.1数据从何而来?如何善用资讯? 16.2 样本告诉我们什么? 16.3 好样本与坏样本 16.4怎样可取得坏样本? 16.5有偏抽样法 16.6 简单随机样本 16.7谈谈实验
这砦数据是打哪来的呢?为什么我们应该相信? 或者我们也许并不该相信。我们如何善用资讯? 你可能读了几个月报纸、看了几个月电视新闻,都没有遇到过任 何数学公式,难怪你会觉得数学好像和实际生活无关。不过 也许无论何时何地,没有任何一天,你会完全没有接触到数 据和统计研究。 你听说上个月的失业率是4.5%;报纸上报道说,年龄介于18-29 岁之间的人,有达59%声称他们经常网购, 而65岁以上的人只 有21%这么说;还有一篇更长些的报道中说,低收入儿童若有 良好的日间照顾,读大学的概率比较大,也有比较好的工作。 也许是像一位统计学家曾说过的:“你只要肯看,就可以观 察到许多事。 但是你怎么办也不可能看出,年轻人的网购率有59%; 者良好的日间照顾,会使儿童在15年之后进入大学就读 好数据是人们智慧及努力的产物。坏数据的来源,则是 懒惰,不了解甚至存心误导。 每当有人丢个数字给你,你第一个该问的问题就是:“这数 字是打哪儿来的?这里我们来讲讲“样本“这一概念
这些数据是打哪来的呢?为什么我们应该相信? 或者我们也许并不该相信。我们如何善用资讯? 你可能读了几个月报纸、看了几个月电视新闻,都没有遇到过任 何数学公式,难怪你会觉得数学好像和实际生活无关。不过 也许无论何时何地,没有任何一天,你会完全没有接触到数 据和统计研究。 你听说上个月的失业率是4.5%;报纸上报道说,年龄介于18-29 岁之间的人,有达59%声称他们经常网购,而65岁以上的人只 有21%这么说;还有一篇更长些的报道中说,低收入儿童若有 良好的日间照顾,读大学的概率比较大,也有比较好的工作。 也许是像一位统计学家曾说过的:“你只要肯看,就可以观 察到许多事。” 但是你怎么办也不可能看出,年轻人的网购率有59%;或 者良好的日间照顾,会使儿童在15年之后进入大学就读。 好数据是人们智慧及努力的产物。坏数据的来源,则是 懒惰,不了解甚至存心误导。 每当有人丢个数字给你,你第一个该问的问题就是:“这数 字是打哪儿来的?”这里我们来讲讲“样本”这一概念
16.2样本告诉我们什么? 16.2.1 你是“彩民玩彩票吗? 你知道福利彩券在国内很受欢迎,不过到底有 多么受欢迎呢?某晚报记者的报告中说:福 利可能累积出高额奖金,而且奖券在你附近的 店里就买得到,一张又只花2元人民币。对许 多中国人来说,买张彩券己变成例行公事,尽 管中奖概率微乎其微。最近一项以赌博为主题 的社会调查指出,过去12个月当中,有57% 的中国人曾经购买过福利彩券,这使得彩票成 了当今赌博大众的最爱
16.2 样本告诉我们什么? 16.2.1 你是“彩民”玩彩票吗? 你知道福利彩券在国内很受欢迎,不过到底有 多么受欢迎呢?某晚报记者的报告中说:“福 利可能累积出高额奖金,而且奖券在你附近的 店里就买得到,一张又只花2元人民币。对许 多中国人来说,买张彩券已变成例行公事,尽 管中奖概率微乎其微。最近一项以赌博为主题 的社会调查指出,过去12个月当中,有57% 的中国人曾经购买过福利彩券,这使得彩票成 了当今赌博大众的最爱
16.3好样本与坏样本 冬我们先来讲亡个案例,我校评选“最受欢迎优秀教 师校长奖,要求对全校师生做民意调查,现在有 一个环节采用的是网上投票”,要求全校师生以 网上投票的形式回应,来表达他们是否赞成让某 位教师成为优秀 0 冬这类网上投票”回应通常采用自动化处理:赞成 就打某个号码,不赞成则打另外一个。网投组织 机构通常对“网上投票”的人不收费。 样本的取得过程合乎规范吗?邀请大家打电话 (一打再打,打了又打),可不是个合适的抽样 设计
16.3 好样本与坏样本 我们先来讲一个案例,我校评选“最受欢迎优秀教 师校长奖”,要求对全校师生做民意调查,现在有 一个环节采用的是“网上投票”,要求全校师生以 网上投票的形式回应,来表达他们是否赞成让某 位教师成为优秀。 这类“网上投票”回应通常采用自动化处理:赞成 就打某个号码,不赞成则打另外一个。网投组织 机构通常对“网上投票”的人不收费。 样本的取得过程合乎规范吗?邀请大家打电话 (一打再打,打了又打),可不是个合适的抽样 设计