第5章数据分布特征的描述 【学习目标】 本章主要介绍了数据分布特征的描述的基本理论,包括平均指标 和变异指标的基本概念、种类以及各种计算方法,计算和应用平均指 标应注意的问题等。通过学习,使学习者能够掌握数据分布的集中趋 势和离散特征,为经济管理服务。 【学习要求】 通过本章的学习,要求理解并掌握平均指标和变异指标的基本概 念,熟练掌握各种计算方法,明确计算和运用平均指标应注意的问题 等等。 【学习内容】 统计数据分布的特征,可以从三个方面进行测度和描述:一是分 布的集中趋势,反映各数据向其中心值靠拢或聚集的程度,如算术平 均数:二是分布的离中趋势,反映各数据远离其中心值的程度,如标 准差:三是分布的偏态和峰度,反映数据分布的形状。这三个方面分 别反映了数据分布特征的不同侧面,第一、二方面是主要的。本章重 点讨论第一、第二两方面代表值的计算方法、特点及其应用场合 51集中趋势——数值平均数 集中趋势是指一组数据向其中心值靠拢的倾向,测度集中趋势也 就是寻找数据一般水平的代表值或中心值。取得集中趋势代表值的方 法通常有两种:一是从总体各单位变量值中抽象出具有一般水平的量, 这个量不是各个单位的具体变量值,但又要反映总体各单位的一般水 平,这种平均数称为数值平均数。数值平均数有算术平均数、调和平 均数、几何平均数等形式。二是先将总体各单位的变量值按一定顺序 排列,然后取某一位置的变量值来反映总体各单位的一般水平,把这
第 5 章 数据分布特征的描述 【学习目标】 本章主要介绍了数据分布特征的描述的基本理论,包括平均指标 和变异指标的基本概念、种类以及各种计算方法,计算和应用平均指 标应注意的问题等。通过学习,使学习者能够掌握数据分布的集中趋 势和离散特征,为经济管理服务。 【学习要求】 通过本章的学习,要求理解并掌握平均指标和变异指标的基本概 念,熟练掌握各种计算方法,明确计算和运用平均指标应注意的问题 等等。 【学习内容】 统计数据分布的特征,可以从三个方面进行测度和描述:一是分 布的集中趋势,反映各数据向其中心值靠拢或聚集的程度,如算术平 均数;二是分布的离中趋势,反映各数据远离其中心值的程度,如标 准差;三是分布的偏态和峰度,反映数据分布的形状。这三个方面分 别反映了数据分布特征的不同侧面,第一、二方面是主要的。本章重 点讨论第一、第二两方面代表值的计算方法、特点及其应用场合。 5.1 集中趋势——数值平均数 集中趋势是指一组数据向其中心值靠拢的倾向,测度集中趋势也 就是寻找数据一般水平的代表值或中心值。取得集中趋势代表值的方 法通常有两种:一是从总体各单位变量值中抽象出具有一般水平的量, 这个量不是各个单位的具体变量值,但又要反映总体各单位的一般水 平,这种平均数称为数值平均数。数值平均数有算术平均数、调和平 均数、几何平均数等形式。二是先将总体各单位的变量值按一定顺序 排列,然后取某一位置的变量值来反映总体各单位的一般水平,把这
个特殊位置上的数值看作是平均数,称作位置平均数。位置平均数有 众数、中位数、四分位数等形式 51.1算术平均数 算术平均数,是集中趋势测度中最重要的一种,它是所有平均数 中应用最广泛的平均数。因为它的计算方法是与许多社会经济现象中 个别现象与总体现象之间存在的客观数量关系相符合的。 例如,企业职工的工资总额就是各个职工工资额的总和,职工的 平均工资必等于职工的工资总额与职工总人数之比。所以,算术平均 数的基本公式应该是 算术平均数= 总体标志总量(变量值总量) 总体单位总量(变量值个数) 算术平均数一般就称为平均数(mean)。其定义是:观察值的总和 除以观察值个数的商。在已知研究对象的总体标志总量及总体单位总 量时,可直接利用上式计算。例如,某企业某月的工资总额为680000 元,职工总数为1000人,则: 该企业职工月平均工资=8009680(元) 1000 利用上式计算时,要求各变量值必须是同质的,分子与分母必须 属于同一总体,即公式的分子是分母具有的标志值,分母是分子的承 担者。在实际工作中,就手工计算而言,由于所掌握的统计资料的不 同,利用上述公式进行计算时,可分为简单算术平均数和加权算术平 均数两种 1.简单算术平均数( Simple Arithmetic Mean) 根据未经分组整理的原始数据计算的均值。设一组数据为 xn,则简单算术平均数的计算公式如下 Fx1+x2+…+xn_∑x (5-1) 例5-1据南方人才服务中心调查,从事IT行业的从业人员年薪 在400005000元之间,表5-1的数据是IT从业人员年薪的一个样本 表5-1 24名∏从业人员年薪资料表 00486004995048800 499005135054600
个特殊位置上的数值看作是平均数,称作位置平均数。位置平均数有 众数、中位数、四分位数等形式。 5.1.1 算术平均数 算术平均数,是集中趋势测度中最重要的一种,它是所有平均数 中应用最广泛的平均数。因为它的计算方法是与许多社会经济现象中 个别现象与总体现象之间存在的客观数量关系相符合的。 例如,企业职工的工资总额就是各个职工工资额的总和,职工的 平均工资必等于职工的工资总额与职工总人数之比。所以,算术平均 数的基本公式应该是: 算术平均数= ( ) ( ) 总体单位总量 变量值个数 总体标志总量 变量值总量 算术平均数一般就称为平均数(mean)。其定义是:观察值的总和 除以观察值个数的商。在已知研究对象的总体标志总量及总体单位总 量时,可直接利用上式计算。例如,某企业某月的工资总额为 680000 元,职工总数为 1000 人,则: 该企业职工月平均工资= 1000 680000 =680(元) 利用上式计算时,要求各变量值必须是同质的,分子与分母必须 属于同一总体,即公式的分子是分母具有的标志值,分母是分子的承 担者。在实际工作中,就手工计算而言,由于所掌握的统计资料的不 同,利用上述公式进行计算时,可分为简单算术平均数和加权算术平 均数两种。 1. 简单算术平均数(Simple Arithmetic Mean) 根据未经分组整理的原始数据计算的均值。设一组数据为 x1,x1,… xn,则简单算术平均数的计算公式如下: n x n x x x x n = + + + = 1 2 (5–1) 例 5–1 据南方人才服务中心调查,从事 IT 行业的从业人员年薪 在 40000-55000 元之间,表 5–1 的数据是 IT 从业人员年薪的一个样本: 表 5–1 24 名 IT 从业人员年薪资料表 49100 48600 49950 48800 47200 49900 51350 54600
49300512005100 51400518004960053400 4870050300490 48900486505130051900 计算IT从业人员的平均年薪。 根据公式计算如下: x 平均年薪x=2 49100+49300+…+53400+51900 =5021458(元) 2.加权算术平均数( Weighted Arithmetic Mean) 根据分组整理的数据计算的算术平均数。其计算公式为: x=x+x2/2+…+xn/=2可 (5-2) f1+/2 A 式中:∫代表各组变量值出现的频数 例5-2以表5-2为例,计算人均日产量。计算表见表5-2 解: 表5-2某企业50名工人加工零件均值计算表 频数∫ 105~110 322.5 12.5 115~120 117.5 940.0 120~125 17150 1275 12750 132.5 795.0 135~140 137.5 550.0 平均日产量∑x_6160 ∑50=1232件) 这种根据已分组整理的数据计算的算术平均数就称为加权算术平 均数。这时,算术平均数的大小,不仅取决于研究对象的变量值,而 且受各变量值重复出现的频数(f)或频率(f/∑f)大小的影响,如 果某一组的频数或频率较大,说明该组的数据较多,那么该组数据的 大小对算术平均数的影响就大,反之则小。可见各组频数的多少(或
49300 48700 51200 50300 51000 49000 49400 49800 51400 48900 51800 48650 49600 51300 53400 51900 计算 IT 从业人员的平均年薪。 根据公式计算如下: 50214.58( ) 24 1 49100 49300 53400 51900 平均年薪 = 元 + + + + = = = n x n i i x 2. 加权算术平均数(Weighted Arithmetic Mean) 根据分组整理的数据计算的算术平均数。其计算公式为: f xf f f f x f x f x f x n n n = + + + + + + 1 2 = 1 1 2 2 (5–2) 式中:f 代表各组变量值出现的频数。 例 5–2 以表 5–2 为例,计算人均日产量。计算表见表 5–2。 解: 表 5–2 某企业 50 名工人加工零件均值计算表 按零件数分组 组中值 x 频数 f xf 105~110 110~115 115~120 120~125 125~130 130~135 135~140 107.5 112.5 117.5 122.5 127.5 132.5 137.5 3 5 8 14 10 6 4 322.5 562.5 940.0 1715.0 1275.0 795.0 550.0 合 计 –– 50 6160.0 平均日产量= = =123.(件) 2 50 6160 f xf 这种根据已分组整理的数据计算的算术平均数就称为加权算术平 均数。这时,算术平均数的大小,不仅取决于研究对象的变量值,而 且受各变量值重复出现的频数(f)或频率(f/∑f)大小的影响,如 果某一组的频数或频率较大,说明该组的数据较多,那么该组数据的 大小对算术平均数的影响就大,反之则小。可见各组频数的多少(或
频率的高低)对平均的结果起着一种权衡轻重的作用,因而这一衡量 变量值相对重要性的数值称为权数。这里所谓权数的大小,并不是以 权数本身值的大小而言的,而是指各组单位数占总体单位数的比重 即权数系数(f/∑f)。权数系数亦称为频率,是一种结构相对数 当然,利用组中值作为本组平均值计算算术平均数,是在各组内 的标志值分布均匀的假定下。计算结果与未分组数列的相应结果可能 会有一些偏差,应用时应予以注意。在统计分析过程中,如果搜集到 的是经过初步整理的次级数据,或数据要求不很精确的原始数据资料 可用此法计算均值。如果要求结果十分精确,那么需用原始数据的全 部实际信息,如果计算量很大,可借助计算机的统计功能。 如果是计算相对数的平均数,则应符合所求的相对数本身的公式, 将分子视为总体标志总量,分母视为总体单位总量 例5-3某季度某工业公司18个工业企业产值计划完成程序资料 如表5-3,计算平均产值计划完成程度。 平均产值计划完成程度实际完成产值∑x 计划产值∑f 26175 =10512% 24900 表5-3某工业公司产值完成情况表 组中值 计划产值实际产值 值计划完成程度 (%)企业数(个(万元)(万元) 2 2500 110~120 115 5060 合计 24900 26175 计划完成相对数的计算公式是实际完成数与计划任务数之比,因 此,平均计划完成程度的计算只能是所有企业的实际完成数与其计划 任务数之比,不能把各个企业的计划完成百分数简单平均 3.算术平均数性质 算术平均数在统计学中具有重要的地位,它是进行统计分析和统 计推断的基础。首先,从统计思想上看,它是一组数据的重心所在
频率的高低)对平均的结果起着一种权衡轻重的作用,因而这一衡量 变量值相对重要性的数值称为权数。这里所谓权数的大小,并不是以 权数本身值的大小而言的,而是指各组单位数占总体单位数的比重, 即权数系数(f/∑f)。权数系数亦称为频率,是一种结构相对数。 当然,利用组中值作为本组平均值计算算术平均数,是在各组内 的标志值分布均匀的假定下。计算结果与未分组数列的相应结果可能 会有一些偏差,应用时应予以注意。在统计分析过程中,如果搜集到 的是经过初步整理的次级数据,或数据要求不很精确的原始数据资料 可用此法计算均值。如果要求结果十分精确,那么需用原始数据的全 部实际信息,如果计算量很大,可借助计算机的统计功能。 如果是计算相对数的平均数,则应符合所求的相对数本身的公式, 将分子视为总体标志总量,分母视为总体单位总量。 例5–3 某季度某工业公司18个工业企业产值计划完成程序资料 如表 5–3,计算平均产值计划完成程度。 = = % = 计划产值 实际完成产值 平均产值计划完成程度= 105.12 24900 26175 f xf 表 5–3 某工业公司产值完成情况表 产值计划完成程度 (%) 组中值 (%) x 企业数(个) 计划产值 (万元) f 实际产值 (万元) xf 80~90 90~100 100~110 110~120 85 95 105 115 2 3 10 3 800 2500 17200 4400 680 2375 18060 5060 合计 - 18 24900 26175 计划完成相对数的计算公式是实际完成数与计划任务数之比,因 此,平均计划完成程度的计算只能是所有企业的实际完成数与其计划 任务数之比,不能把各个企业的计划完成百分数简单平均。 3. 算术平均数性质 算术平均数在统计学中具有重要的地位,它是进行统计分析和统 计推断的基础。首先,从统计思想上看,它是一组数据的重心所在
是数据误差相互抵消后的必然性结果。比如对同一事物进行多次测量, 若所得结果不一致,可能是由于测量误差所致,也可能是其他因素的 偶然影响,利用算术平均数作为其代表值,则可以使误差相互抵消, 反映出事物必然性的数量特征。其次,它具有下面一些重要的数学性 质,这些数学性质在实际工作中有着广泛的应用(如在相关性分析和 方差分析及建立回归方程中),同时也体现了算术平均数的统计思想 1.各变量值与其算术平均数的离差之和等于零,即∑(x-x)f=0 2.各变量值与其算术平均数的离差平方和最小,即∑ -min 4.利用计算工具求算术平均数 (1).利用计算器计算 对于未整理的原始数据或已整理分组的数列,均可利用计算器的 统计功能计算算术平均数。需要特别注意的是,当资料为变量数列时 定要遵循以下输入顺序:先输入变量值,然后输入乘号键,接下来 输入频数值,绝对不能颠倒次序 (2).利用计算机计算 运用计算机技术,不但能使人们从大量繁杂的手工处理数据的工 作中解脱出来,而且还可能大大提高对统计数据的利用率。虽然功能 强大的统计软件包在一般人使用的电脑上没有安装,但使用“ofce 软件的用户超过90%,而用“offe”软件中的“ excel”组件足可以及 时、准确、完整地将有关统计常用的基本统计量(如本章的算术平均 数)等迅速提供给人们 下面举一个简单的例子说明利用“ excel”计算算术平均数的步骤。 如,计算某班上学期期末考试各科平均成绩。 方法 第一步打开“ excel”,输入全班每位同学各科考试成绩(一般以 每行记录一名学生的各科成绩,也可以每列记录一名学生的各科成 绩) 第二步选择(单击)“工具”下拉菜单; 第三步选择(单击)“数据分析”选项 第四步从弹出的“分析工具”中选择(单击)“描述统计”并单 击“确定 第五步在对话框中的“输入区域”框内键入要计算的单元格区
是数据误差相互抵消后的必然性结果。比如对同一事物进行多次测量, 若所得结果不一致,可能是由于测量误差所致,也可能是其他因素的 偶然影响,利用算术平均数作为其代表值,则可以使误差相互抵消, 反映出事物必然性的数量特征。其次,它具有下面一些重要的数学性 质,这些数学性质在实际工作中有着广泛的应用(如在相关性分析和 方差分析及建立回归方程中),同时也体现了算术平均数的统计思想。 1.各变量值与其算术平均数的离差之和等于零,即∑ (x − x) f =0; 2 .各变量值与其算术平均数的离差平方和最小,即∑ x x f 2 ( − ) =min。 4. 利用计算工具求算术平均数 (1).利用计算器计算 对于未整理的原始数据或已整理分组的数列,均可利用计算器的 统计功能计算算术平均数。需要特别注意的是,当资料为变量数列时, 一定要遵循以下输入顺序:先输入变量值,然后输入乘号键,接下来 输入频数值,绝对不能颠倒次序。 (2).利用计算机计算 运用计算机技术,不但能使人们从大量繁杂的手工处理数据的工 作中解脱出来,而且还可能大大提高对统计数据的利用率。虽然功能 强大的统计软件包在一般人使用的电脑上没有安装,但使用“office” 软件的用户超过 90%,而用“office”软件中的“excel”组件足可以及 时、准确、完整地将有关统计常用的基本统计量(如本章的算术平均 数)等迅速提供给人们。 下面举一个简单的例子说明利用“excel”计算算术平均数的步骤。 如,计算某班上学期期末考试各科平均成绩。 方法一: 第一步 打开“excel”,输入全班每位同学各科考试成绩(一般以 每行记录一名学生的各科成绩,也可以每列记录一名学生的各科成 绩); 第二步 选择(单击)“工具”下拉菜单; 第三步 选择(单击)“数据分析”选项; 第四步 从弹出的“分析工具”中选择(单击)“描述统计”并单 击“确定”; 第五步 在对话框中的“输入区域”框内键入要计算的单元格区