《统计学(第六版) 1.3.2参数和统计量 1.参数 参数(parameter)是用来描述总体特征的概括性数字度量,它是研究者想要了 解的总体的某种特征值。研究者所关心的参数通常有总体平均数、总体标准差、总体 比例等。在统计中,总体参数通常用希腊字母表示。比如,总体平均数用4(u)表 示,总体标准差用。(sigma)表示,总体比例用π(pi)表示,等等。 由于总体数据通常是不知道的,所以参数是一个未知的常数。比如,我们不知道 某一地区所有人口的平均年龄,不知道一个城市所有家庭的收入的差异,不知道一批 产品的合格率,等等。正因为如此,所以才进行抽样,根据样本计算出某些值去估计 总体参数。 2.统计量 统计量(statistic)是用来描述样本特征的概括性数字度量。它是根据样本数据 计算出来的一个量,由于抽样是随机的,因此统计量是样本的函数。研究者所关心的 统计量主要有样本平均数、样本标准差、样本比例等。样本统计量通常用英文字母来 表示。比如,样本平均数用x(读作xbar)表示,样本标准差用s表示,样本比例用 p表示,等等。 由于样本是已经抽出来的,所以统计量总是知道的。抽样的目的就是要根据样本 统计量去估计总体参数。比如,用样本平均数(x)去估计总体平均数(),用样本 标准差(s)去估计总体标准差(),用样本比例(p)去估计总体比例(π),等等。 有关总体、样本、参数、统计量的概念可以用图1一2来表示 总体 样本 参数 统计量 平均数 标准差 比例 p 图1一2总体和样本、参数和统计量 除了样本均值、样本比例、样本方差这类统计量,还有一些是为统计分析的需要 而构造出来的统计量,比如用于统计检验的之统计量、1统计量、X统计量、F统计 量,等等,它们的含义将在后面相关的章节中再作介绍
■第1导论 1.3.3变量 变量(variable)是说明现象某种特征的概念,其特点是从一次观察到下一次观 察结果会呈现出差别或变化。如“商品销售额”、“受教育程度”、“产品的质量等级 等都是变量。变量的具体取值称为变量值。比如商品销售额可以是20万元、30万元 50万元等,这些数字就是变量值。统计数据就是统计变量的某些取值。变量可以分 为以下几种类型。 1.分类变量 分类变量(categorical variable)是说明事物类别的一个名称,其取值是分类数 据。如“性别”就是一个分类变量,其变量值为“男”或“女”;“行业”也是一个分 类变量,其变量值可以为“零售业”、“旅游业”、“汽车制造业”等。 2.顺序变量 顺序变量(rank variable)是说明事物有序类别的一个名称,其取值是顺序数据。 如“产品等级”就是一个顺序变量,其变量值可以为“一等品”、“二等品”、“三等 品”、“次品”等:“受教育程度”也是一个顺序变量,其变量值可以为“小学”、“初 中”、“高中”、“大学”等;一个人对某种事物的看法也是一个顺序变量,其变量值可 以为“同意”、“保持中立”、“反对”等。 3.数值型变量 数值型变量(metric variable)是说明事物数字特征的一个名称,其取值是数值 型数据。如“产品产量”、“商品销售额”、“零件尺寸”、“年龄”、“时间”等都是数 值型变量,这些变量可以取不同的数值。数值型变量根据其取值的不同,又可以分 为离散型变量和连续型变量。离散型变量(discrete variable)是只能取可数值的变 量,它只能取有限个值,而且其取值都以整位数断开,可以一一列举,如“企业 数”、“产品数量”等就是离散型变量。连续型变量(continuous variable)是可以在 一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举,如 “年龄”、“温度”、“零件尺寸的误差”等都是连续型变量。在对社会和经济问题的 研究中,当离散型变量的取值很多时,也可以将离散型变量当做连续型变量来 处理 变量这一概念以后经常要用到,但多数情况下所说的变量主要是指数值型变量, 大多数统计方法所处理的也都是数值型变量。当然,也可以从其他角度对变量进行分 类,比如随机变量和非随机变量、经验变量(empirical variable)和理论变量(theo retical variable)等。经验变量所描述的是周围环境中可以观察到的事物。理论变量 则是由统计学家用数学方法所构造出来的一些变量,比如后面的有些章节中将要用到 的x统计量、t统计量、X统计量、F统计量等都是理论变量
←统计学(第六版】 10 口思考与练习 一、思考题 1.1什么是统计学? 1.2解释描述统计和推断统计。 1.3统计数据可分为哪几种类型?不同类型的数据各有什么特点? 1.4解释分类数据、顺序数据和数值型数据的含义。 1.5举例说明总体、样本、参数、统计量、变量这几个概念。 1.6变量可分为哪几类? 1.7举例说明离散型变量和连续型变量 1.8请举出统计应用的几个例子。 1.9请举出应用统计的几个领域。 二、练习题 1.1指出下面变量的类型: (1)年龄 (2)性别。 (3)汽车产量。 (4)员工对企业某项改革措施的态度(赞成、中立、反对) (5)购买商品时的支付方式(现金、信用卡、支票)。 1.2某研究部门准备抽取2000个职工家庭推断该城市所有职工家庭的年人均 收入 要求: (1)描述总体和样本。 (2)指出参数和统计量 1.3一家研究机构从1T从业者中随机抽取1000人作为样本进行调查,其中 60%的人回答他们的月收入在5000元以上,50%的人回答他们的消费支付方式是用 信用卡。 回答以下问题: (1)这一研究的总体是什么? (2)月收入是分类变量、顺序变量还是数值型变量? (3)消费支付方式是分类变量、顺序变量还是数值型变量? (4)这一研究涉及截面数据还是时间序列数据? 1.4一项调查表明,消费者每月在网上购物的平均花费是200元,他们选择在 网上购物的主要原因是“价格便宜”。 回答以下问题:
■第1室导论-→n (1)这一研究的总体是什么? (2)“消费者在网上购物的原因”是分类变量、顺序变量还是数值型变量? (3)研究者所关心的参数是什么? (4)“消费者每月在网上购物的平均花费是200元”是参数还是统计量? (⑤)研究者所使用的主要是描述统计方法还是推断统计方法?
第2章 Chapter 2 数据的搜集 ■ 一个反例的启示:《文学文摘》预测罗斯福竞选落败① 在美国1936年的总统选举中,两 1.样本抽选有偏。兰登的支持者 位竞争者分别为民主党的罗斯福和共和 主要是富裕阶层、大资产阶级,而罗斯 党的兰登。一般民意测验认为罗斯福将 福的支持者主要是一般工薪阶层、中下 获胜,例如盖洛普公司基于对5万选 层平民。《文学文摘》调查的对象集中 民的抽样调查,预测罗斯福的得票率 在富人围,因为《文学文摘》是通过电 为56%。但是美国著名杂志《文学文 话薄和俱乐部进行调查的,而在1936 摘》(Literary Digest)宣布,根据他 年,美国约有1100万户家庭拥有电 们对240万人的调查,兰登将获得 话,大多是富裕家庭,支持兰登。而俱 57%的选票。最后的投票结果是,罗 乐部成员(如高尔夫球俱乐部等)则是 斯福赢得2770万张选票,而兰登只 更富裕的阶层,他们也支持兰登。美国 得到1600万张选票,罗斯福以绝对 当时有900多万失业人口,按《文学文 优势胜出 摘》的调查方案,这些失业人口难以被 值得思考的问题是,为什么《文学 纳入样本中,而这些人中的绝大多数都 文摘》调查的样本量如此之大,结果却 是支持罗斯福的。 那样离谱。细分析起来,他们预测失败 2.没有考虑缺失数据的影响。《文 的根本原因在于调查方案存在严重失 学文摘》在进行调查时发放了1000万 误,违背了统计学规律,主要反映在以 份问卷,但只收回了近240万份。例 下两个方面: 如,他们当年对1/3的芝加哥选民进行 ①参见韦博成:《漫话信息时代的统计学》,北京,中国统计出版社,2011