统计分组有两方面含义:①对总体而言“分”,即将总体区分为性质相异的若干部 分。②对个体而言“合”,即将性质相同的个体组合起来。总体的这些组成部分称为“组”。 通过统计分组,同组的总体单位之间具有相同之处,不同组的总体单位之间则具有 相异之处,所以,统计分组主要就是在统计总体内部进行的一种定性分类 (二)统计分组的作用 1.划分性质不同的各种类型,研究其特点和规律性。将社会经济现象总体划分为性 质不同的类型,它是统计工作中应用最广泛、最主要的分组 2.分析总体中各个组成部分的结构情况。将社会经济现象总体按照某个标志分成若 干组成部分,并计算其总体内部各组成部分占总体的比重,揭示总体内部的构成,表明 部分与总体、部分与部分之间的关系 3.可以揭示现象之间的依存关系。一切社会现象都不是孤立的,而是处于互相联系 互相依存、互相制约之中。通过统计分组,可以揭示这种关系及其在数量上的表现。 (三)统计分组的方法 统计分组的关键问题是正确地选择分组标志与划分各组界限。 1.分组标志选择的原则 选择分组标志的原则为 应根据研究的目的与任务选择分组标志 要选择能够反映事物本质或主要特征的标志。 要根据现象的历史条件及经济条件来选择。 2.分组方法 ①按品质标志分组或按数量标志分组,或用两种标志结合分组。按品质标志分组就 是用反映事物的属性、性质的标志分组,它可以将总体单位划分为若干性质不同的组成 部分。 这种分组在许多情况下概念明确,但有些情况下也会产生不容易划分的时候,每个 总体单位应当划归哪一类的问题。例如:城镇居民和乡村居民按其居住地划分,就会产 生不易划分的情况,为了使这些复杂的分类在全国统一执行,国家统计局及中央有关部 门,统一制订有各种分类目录与规定标准。 按数量标志分组就是用事物数量的多少作为分组标志的分组。数量标志可以是绝对 数,也可以是相对数,这种分组,是按照具体数值界限划分的,一般不会产生困难,其 关键在于如何划分它们的界限
15 统计分组有两方面含义:①对总体而言“分”,即将总体区分为性质相异的若干部 分。②对个体而言“合”,即将性质相同的个体组合起来。总体的这些组成部分称为“组”。 通过统计分组,同组的总体单位之间具有相同之处,不同组的总体单位之间则具有 相异之处,所以,统计分组主要就是在统计总体内部进行的一种定性分类。 (二)统计分组的作用 1.划分性质不同的各种类型,研究其特点和规律性。将社会经济现象总体划分为性 质不同的类型,它是统计工作中应用最广泛、最主要的分组。 2.分析总体中各个组成部分的结构情况。将社会经济现象总体按照某个标志分成若 干组成部分,并计算其总体内部各组成部分占总体的比重,揭示总体内部的构成,表明 部分与总体、部分与部分之间的关系。 3.可以揭示现象之间的依存关系。一切社会现象都不是孤立的,而是处于互相联系、 互相依存、互相制约之中。通过统计分组,可以揭示这种关系及其在数量上的表现。 (三)统计分组的方法 统计分组的关键问题是正确地选择分组标志与划分各组界限。 1.分组标志选择的原则。 选择分组标志的原则为: 应根据研究的目的与任务选择分组标志。 要选择能够反映事物本质或主要特征的标志。 要根据现象的历史条件及经济条件来选择。 2.分组方法。 ①按品质标志分组或按数量标志分组,或用两种标志结合分组。按品质标志分组就 是用反映事物的属性、性质的标志分组,它可以将总体单位划分为若干性质不同的组成 部分。 这种分组在许多情况下概念明确,但有些情况下也会产生不容易划分的时候,每个 总体单位应当划归哪一类的问题。例如:城镇居民和乡村居民按其居住地划分,就会产 生不易划分的情况,为了使这些复杂的分类在全国统一执行,国家统计局及中央有关部 门,统一制订有各种分类目录与规定标准。 按数量标志分组就是用事物数量的多少作为分组标志的分组。数量标志可以是绝对 数,也可以是相对数,这种分组,是按照具体数值界限划分的,一般不会产生困难,其 关键在于如何划分它们的界限
两种标志结合分组就是把品质标志和数量标志结合起来的分组 ②按主要标志与辅助标志分组。对于有些现象进行分组时,使用一个分组标志不足 以区分事物的不同性质与特点,不能全面地认识事物的变化规律。因此,进行分组时 除了使用一个主要分组标志以外,还要用一个或几个辅助标志作为分组补充标志。哪 些标志作为主要标志,哪些标志作为辅助标志,这要根据研究任务来选择与确定。 3.统计分组体系 统计分组体系是根据统计任务与分组的要求,对同一总体选择多种不同标志分组而 形成的体系。它是一种相互补充、相互联系的分组体系,用于对总体的数量表现认识的 深化。 ①简单分组与平行分组体系。将社会经济总体按一个标志分组称为简单分组。将同 总体选择两个或两个以上的标志分别进行简单分组,称为平行分组体系。 ②复合分组与复合分组体系。对同一总体选择两个或两个以上标志重叠起来进行分 组,就叫复合分组,多个复合分组组成的体系,就是复合分组体系。 四、次数分配 (一)次数分配的概念 在统计分组的基础上,将总体中所有单位按组归类整理,形成总体中各单位数在各 组间的分配称为次数分配。 某年某地区人口的性别分布 性别 人数(万人) 比率(%) 1198.0 51.34 女性 1108.6 48.0 计 2306.6 100.00 分配在各组的单位数叫次数或频数。 各组次数与总次数的比率叫频率或比率。各比率之和为100或1即Σ=1 将各组组别与次数依次排列而形成的数列叫次数分配数列,简称分配数列 (二)分配数列的编制 1.种类 ①属性分配数列 按品质标志分配而形成的数列叫属性分配数列,简称品质数列,如上例内蒙古自治 区人口分布
16 两种标志结合分组就是把品质标志和数量标志结合起来的分组。 ②按主要标志与辅助标志分组。对于有些现象进行分组时,使用一个分组标志不足 以区分事物的不同性质与特点,不能全面地认识事物的变化规律。因此,进行分组时, 除了使用一个主要分组标志以外,还要用一个或几个辅助标志作为分组补充标志。 哪 些标志作为主要标志,哪些标志作为辅助标志,这要根据研究任务来选择与确定。 3.统计分组体系 统计分组体系是根据统计任务与分组的要求,对同一总体选择多种不同标志分组而 形成的体系。它是一种相互补充、相互联系的分组体系,用于对总体的数量表现认识的 深化。 ①简单分组与平行分组体系。将社会经济总体按一个标志分组称为简单分组。将同 一总体选择两个或两个以上的标志分别进行简单分组,称为平行分组体系。 ②复合分组与复合分组体系。对同一总体选择两个或两个以上标志重叠起来进行分 组,就叫复合分组,多个复合分组组成的体系,就是复合分组体系。 四、次数分配 (一)次数分配的概念 在统计分组的基础上,将总体中所有单位按组归类整理,形成总体中各单位数在各 组间的分配称为次数分配。 某年某地区人口的性别分布 性别 人数(万人) 比率(%) 男性 1198.0 51.34 女性 1108.6 48.06 合计 2306.6 100.00 分配在各组的单位数叫次数或频数。 各组次数与总次数的比率叫频率或比率。各比率之和为 100 或 1 即Σ=1。 将各组组别与次数依次排列而形成的数列叫次数分配数列,简称分配数列。 (二)分配数列的编制 1.种类 ①属性分配数列: 按品质标志分配而形成的数列叫属性分配数列,简称品质数列,如上例内蒙古自治 区人口分布
②变量分配数列 按数量标志分组而形成的数列叫变量分配数列,简称变量数列 某班学生统计考试成绩表 考分 人数(人) 比率(%) 50-60 6070 7 17.5 70-80 11 12 90-100 100.0 1)单项式变量分组数列 是按每个变量值分别列组而形成的数列 某发电厂拥有发电机组的分布 拥有发电机组(套) 发电厂数(个) 比率(% 20.8 125 100.0 2)组距式变量数列 把各变量值按照一定组距进行分组而形成的数列。如:上例某班学生统计考试成绩 在组距数列中,表示各组界限的变量值称为组限,50-60,60-70等。其中较小的 变量值称为下限,50,60等,较大的变量值为上限,60,70等,各组上限与下限之差即 为组距,组距=上限一下限,60-50,70-60等,各组上限与下限的中点称为组中值, 即组中值=(上限+下限)/2,(50+60)/2=55,(60+70)/2=65,组中值具有一定 的假定性,即假定次数在各组内的分布是均匀的,代表了各组内的一般水平。 a.等距分组 各组的组距均相等。 特点:由于各组组距相等,各组次数的分布不受组距大小的影响,它和消除了组距
17 ②变量分配数列 按数量标志分组而形成的数列叫变量分配数列,简称变量数列。 某班学生统计考试成绩表 考 分 人数(人) 比率(%) 50—60 2 5.0 60—70 7 17.5 70—80 11 27.5 80—90 12 30.0 90—100 8 20.0 合 计 40 100.0 1)单项式变量分组数列 是按每个变量值分别列组而形成的数列。 某发电厂拥有发电机组的分布 拥有发电机组(套) 发电厂数(个) 比率(%) 1 35 28.0 2 48 38.4 3 26 20.8 4 12 9.6 5 4 3.2 合 计 125 100.0 2)组距式变量数列 把各变量值按照一定组距进行分组而形成的数列。如:上例某班学生统计考试成绩 表。 在组距数列中,表示各组界限的变量值称为组限,50—60,60—70 等。其中较小的 变量值称为下限,50,60 等,较大的变量值为上限,60,70 等,各组上限与下限之差即 为组距, 组距=上限-下限,60-50,70-60 等,各组上限与下限的中点称为组中值, 即组中值=(上限+下限)/2,(50+60)/2=55,(60+70)/2=65,组中值具有一定 的假定性,即假定次数在各组内的分布是均匀的,代表了各组内的一般水平。 a.等距分组 各组的组距均相等。 特点:由于各组组距相等,各组次数的分布不受组距大小的影响,它和消除了组距
影响,与次数密度的分布是一致的,一般呈正态分布。 次数密度=次数/组距,其作用主要用于消除各组组距不相等而造成的现象分布 的影响。 b.不等距分组 各组组距不相等 特点:不等距分组各组的次数多少受组距不同的影响,组距大次数可能多,组距小, 则次数可能少,因此必须消除组距对其分布的影响即需计算次数密度 在编制组距式变量数列时,常常会遇到这样的情况,如:学生成绩的分布 60分以下 60—70 70-80等 又如:学生人数的分布 30人以下 30-60 60人以上等 这种具有不确定组距的组称为“开口组”,包括上开口和下开口,其组中值如何计 下开口的组中值=上限一1/2邻组组距 上开口的组中值=下限+下限1/2邻组组距 2.变量数列的编制 程序:①原始数据②序列化(编制由小到大简单数列)③求出组距等④分组归类合 计(形成次数分布)⑤制成统计表(变量数列) ①整理原始数据使其序列化 现有某班40人统计学考试成绩如表所示: 89,88,76,99,74,60,82,60,89,86,92,85,70,93,99,94,82,77,79,97, 78,95,84,79,63,72,87,84,79,65,98,67,59,83,66,65,73,81,56,77 将上述40个变量值由小到大列成表格形式:
18 影响,与次数密度的分布是一致的,一般呈正态分布。 次数密度=次数/组距,其作用 主要用于消除各组组距不相等而造成的现象分布 的影响。 b.不等距分组 各组组距不相等。 特点:不等距分组各组的次数多少受组距不同的影响,组距大次数可能多,组距小, 则次数可能少,因此必须消除组距对其分布的影响即需计算次数密度。 在编制组距式变量数列时,常常会遇到这样的情况,如:学生成绩的分布 60 分以下 60—70 70—80 等 又如:学生人数的分布 30 人以下 30—60 60 人以上等 这种具有不确定组距的组称为“开口组”,包括上开口和下开口,其组中值如何计 算? 下开口的组中值=上限-1/2 邻组组距 上开口的组中值=下限+下限 1/2 邻组组距 2.变量数列的编制 程序:①原始数据②序列化(编制由小到大简单数列)③求出组距等④分组归类合 计(形成次数分布)⑤制成统计表(变量数列) ①整理原始数据使其序列化 现有某班 40 人统计学考试成绩如表所示: 89,88,76,99,74,60,82,60,89,86,92,85,70,93,99,94,82,77,79,97, 78,95,84,79,63,72,87,84,79,65,98,67,59,83,66,65,73,81,56,77 将上述 40 个变量值由小到大列成表格形式:
某班统计学考试成绩表 考分人数(人)考分人数(人)考分人数(人)考分人数(人) 74 12■1 1111 1111 65 77 86 78 67 ②计算组数,组距等进行归类合计 上表看出变量值的变动范围56分—99分,即最低分、最高分 二者之差即为全距。即全距=最大值一最小值 =99-56=43分 组数如体确定:组数与组距成反比关系,即 组数一全距/组数=(最大值—最小值)/组数 确定组数有一个 sturges经验公式可参照,即m=1+3.3221gn,n为总体单位数 组距如何确定? 视连续型变量与离散型变量不同而定。 a.离散型变量 由于离散型变量各变量值之间以整数断开,变量值之间有明显的界限,上下限都可 以用准确的数值表示,组限非常清楚。 如:某校按学生人数分组,其组限为 100人以下 101-200 201-300 301-400 401人以上 b.连续型变量 由于连续型变量各变量值之间可做无限分割,有小数存在,上下限不能用两个确定 的值表示,只能用前一组的上限与本组的下限为同一数值表示。如:上例考试成绩
19 某班统计学考试成绩表 考分 人数(人) 考分 人数(人) 考分 人数(人) 考分 人数(人) 56 1 72 1 82 2 92 1 59 1 73 1 83 1 93 1 60 2 74 1 84 2 94 1 63 1 76 1 85 1 95 1 65 2 77 2 86 1 97 1 66 1 78 1 87 1 98 1 67 1 79 3 88 1 99 2 70 1 81 1 89 2 合计 40 ②计算组数,组距等进行归类合计 上表看出变量值的变动范围 56 分—99 分,即最低分、最高分。 二者之差即为全距。 即全距=最大值-最小值 =99-56=43 分 组数如体确定:组数与组距成反比关系,即 组数=全距/组数=(最大值-最小值)/组数 确定组数有一个 sturges 经验公式可参照,即 m=1+3.322lgn,n 为总体单位数 组距如何确定? 视连续型变量与离散型变量不同而定。 a.离散型变量 由于离散型变量各变量值之间以整数断开,变量值之间有明显的界限,上下限都可 以用准确的数值表示,组限非常清楚。 如:某校按学生人数分组,其组限为: 100 人以下 101—200 201—300 301—400 401 人以上 b.连续型变量 由于连续型变量各变量值之间可做无限分割,有小数存在,上下限不能用两个确定 的值表示,只能用前一组的上限与本组的下限为同一数值表示。如:上例考试成绩