第二章统计资料的搜集与整理(一)教学目的通过本章的学习,了解统计数据搜集与整理的基本理论与方法,掌握各种方法的特性。(二)基本要求要求灵活运用各种数据搜集的方式方法,并对所得数据进行加工整理,为以后各章学习统计分析方法打下基础。(三)教学要点1、数据采集的方式方法;2、统计调查方案的设计;3、统计分组;4、变量数列的编制;5、统计数据的显示。(四)本章难点1、抽样调查、重点调查与典型调查的比较2、统计调查方案的设计;3、调查对象、调查单位、报告单位的内涵;4、变量数列的内涵与外延;5、统计分组的方法与技巧;6、各种统计图的灵活应用。(四)教学时数6课时(五)教学内容本章共分三节:第一节统计资料的搜集一、数据的计量尺度在计量学的一般分类方法中,依据对事物计量的精确程度,可将所采用的计量尺度由低级到高级、由粗略到精确分为四个层次,即名类尺度、顺序尺度
第二章 统计资料的搜集与整理 (一)教学目的 通过本章的学习,了解统计数据搜集与整理的基本理论与方法,掌握各种方 法的特性。 (二)基本要求 要求灵活运用各种数据搜集的方式方法,并对所得数据进行加工整理,为以 后各章学习统计分析方法打下基础。 (三)教学要点 1、数据采集的方式方法; 2、统计调查方案的设计; 3、统计分组; 4、变量数列的编制; 5、统计数据的显示。 (四)本章难点 1、抽样调查、重点调查与典型调查的比较; 2、统计调查方案的设计; 3、调查对象、调查单位、报告单位的内涵; 4、变量数列的内涵与外延; 5、统计分组的方法与技巧; 6、各种统计图的灵活应用。 (四)教学时数 6 课时 (五)教学内容 本章共分三节: 第一节 统计资料的搜集 一、数据的计量尺度 在计量学的一般分类方法中,依据对事物计量的精确程度,可将所采用的 计量尺度由低级到高级、由粗略到精确分为四个层次,即名类尺度、顺序尺度
区间尺度和比尺度。1.定类尺度定类尺度(Nominalscale,亦称分类尺度、列名尺度等)是这样一种品质标志,按照它可对研究客体进行平行的分类或分组,使同类同质,异类异质。例如,按照性别将人口分为男、女两类;按照经济性质将企业分为国有、集体、私营、混合制企业等。这里的“性别”和“经济性质”就是两种名类尺度。名类尺度是最粗略、计量层次最低的计量尺度,利用它只可测度事物之间的类别差,而不能了解各类之间的其他差别。名类尺度计量的结果表现为某种类别,但为了便于统计处理,例如为了计算和识别,也可用不同数字或编码表示不同类别。比如用1表示男,0表示女:用1表示国有企业,2表示集体企业,3表示私营企业,等等。这些数字只是不同类别的代码,决不意味着它区分了大小,更不能进行任何数学运算。名类尺度能对事物做最基本的测度,是其他计量尺度的基础。2.定序尺度定序尺度(Ordinalscale,亦称序数尺度、顺位尺度等)是这样一种品质标志,利用它不仅能将事物分成不同的类别,还可确定这些类别的等级差别或序列差别。例如“产品等级”就是一种测度产品质量好坏的顺序尺度,它可将产品分为一等品、二等品、三等品、次品等:“考试成绩”也是一种顺序尺度,它可将成绩分为优、良、中、及格、不及格等;“对某一事物的态度”作为一种顺序尺度,可将人们的态度分为非常同意、同意、保持中立、不同意、非常不同意,等等。显然,顺序尺度对事物的计量要比名类尺度精确些,但它至多测度了类别之间的顺序,而未测量出类别之间的准确差值。因此,顺序尺度的计量结果只能比较大小,不能进行加、减、乘、除等数学运算。3.定距尺度定距尺度(Intervalscale,亦称间隔尺度、等距尺度、区间尺度等)是能测度事物类别或次序之间间距的数量标志,更具体些说,区间尺度是可将事物区分为不同类别,对这些类别进行排序,并较准确地度量类别之间数量差距的一种计量尺度。该尺度通常使用自然或物理单位作为度量单位,如收入用人民币“元”度量,考试成绩用“百分制”度量,温度用摄氏或华氏的“度”来度量,重量用“克”度量,长度用“米”度量等。区间尺度的计量结果表现为数值。区间尺度
区间尺度和比尺度。 1.定类尺度 定类尺度(Nominal scale,亦称分类尺度、列名尺度等)是这样一种品质 标志,按照它可对研究客体进行平行的分类或分组,使同类同质,异类异质。例 如,按照性别将人口分为男、女两类;按照经济性质将企业分为国有、集体、私 营、混合制企业等。这里的“性别”和“经济性质”就是两种名类尺度。名类尺 度是最粗略、计量层次最低的计量尺度,利用它只可测度事物之间的类别差,而 不能了解各类之间的其他差别。名类尺度计量的结果表现为某种类别,但为了便 于统计处理,例如为了计算和识别,也可用不同数字或编码表示不同类别。比如 用 1 表示男,0 表示女;用 1 表示国有企业,2 表示集体企业,3 表示私营企业, 等等。这些数字只是不同类别的代码,决不意味着它区分了大小,更不能进行任 何数学运算。名类尺度能对事物做最基本的测度,是其他计量尺度的基础。 2.定序尺度 定序尺度(Ordinal scale,亦称序数尺度、顺位尺度等)是这样一种品质 标志,利用它不仅能将事物分成不同的类别,还可确定这些类别的等级差别或序 列差别。例如“产品等级”就是一种测度产品质量好坏的顺序尺度,它可将产品 分为一等品、二等品、三等品、次品等;“考试成绩”也是一种顺序尺度,它可 将成绩分为优、良、中、及格、不及格等;“对某一事物的态度”作为一种顺序 尺度,可将人们的态度分为非常同意、同意、保持中立、不同意、非常不同意, 等等。显然,顺序尺度对事物的计量要比名类尺度精确些,但它至多测度了类别 之间的顺序,而未测量出类别之间的准确差值。因此,顺序尺度的计量结果只能 比较大小,不能进行加、减、乘、除等数学运算。 3.定距尺度 定距尺度(Interval scale,亦称间隔尺度、等距尺度、区间尺度等)是能 测度事物类别或次序之间间距的数量标志,更具体些说,区间尺度是可将事物区 分为不同类别,对这些类别进行排序,并较准确地度量类别之间数量差距的一种 计量尺度。该尺度通常使用自然或物理单位作为度量单位,如收入用人民币“元” 度量,考试成绩用“百分制”度量,温度用摄氏或华氏的“度”来度量,重量用 “克”度量,长度用“米”度量等。区间尺度的计量结果表现为数值。区间尺度
的数值可做加、减法运算,例如,考试成绩80分与90分之间相差10分,一个地区的温度20°C与另一个地区的25°C相差5°C,等等。但不能做乘、除法运算。而且,区间尺度没有绝对的零点。4.定比尺度定比尺度(Ratioscale,亦称为比率尺度)的计量结果也表示为数值,跟区间尺度属同一层次,有时对两者可不作区分。比尺度这种数量标志不仅能测度各类别的大小和多少,还有一个绝对零点(Absolutezero)作为起点。这个绝对零点是它跟区间尺度的明显差别,就是说,区间尺度中没有绝对零点,即使其计量值为“0”,这个“0”也是有客观内容的数值,即“0”水平,而不表示“没有”或“不存在”。例如,某个学生统计学的考试成绩为“0”分,这个“0”分是他的统计学的客观成绩,并不表示他没有考试成绩或没有任何统计学知识;一个地区的温度为0°C,这表示一种温度的水平,并不是说没有温度。而比尺度中绝对零点的“0”,表示“没有”或“不存在”。例如,一个人的身高为“0”米,表示这个人不存在;一个人的收入为“0”,表示这个人没有收入;一个产品的产量为“0”,表示没有这种产品;等等。现实中,大多数场合人们使用的都是比尺度。定比尺度与上述三种计量尺度相比还有一个特性,就是可以计算数值之间的比值。例如,一个人的月工资收入为600元,另一个人的为300元,可以得出一个人的收入是另一个的两倍。但区间尺度由于不存在绝对零点,就只能比较数值差,而不能计算比值。比如,可以说30°C与15°C之差为15°C,而不能说30°C比15°C热一倍。可见,比尺度可以做加、减、乘、除法运算。上述四种计量尺度对事物的计量层次是由低级到高级、由粗略到精确,逐步递进的。高层次的计量尺度可以计量低层次计量尺度能够计量的事物,但不能反过来。显然,可以很容易地将高层次计量尺度的计量结果转化为低层次计量尺度的计量结果:将考试成绩的百分制转化为五等级分制就是一例。二、数据的类型1.按计量尺度分按照所采用的计量尺度不同,可以将统计数据分为定类数据、定序数据、定距数据和定比数据。统计数据是采用某些计量尺度对事物进行计量的结果,但采
的数值可做加、减法运算,例如,考试成绩 80 分与 90 分之间相差 10 分,一个 地区的温度 20°C 与另一个地区的 25°C 相差 5°C,等等。但不能做乘、除法 运算。而且,区间尺度没有绝对的零点。 4.定比尺度 定比尺度(Ratio scale,亦称为比率尺度)的计量结果也表示为数值,跟 区间尺度属同一层次,有时对两者可不作区分。比尺度这种数量标志不仅能测度 各类别的大小和多少,还有一个绝对零点(Absolute zero)作为起点。这个绝 对零点是它跟区间尺度的明显差别,就是说,区间尺度中没有绝对零点,即使其 计量值为“0”,这个“0”也是有客观内容的数值,即“0”水平,而不表示“没 有”或“不存在”。例如,某个学生统计学的考试成绩为“0”分,这个“0”分 是他的统计学的客观成绩,并不表示他没有考试成绩或没有任何统计学知识;一 个地区的温度为 0°C,这表示一种温度的水平,并不是说没有温度。而比尺度 中绝对零点的“0”,表示“没有”或“不存在”。例如,一个人的身高为“0”米, 表示这个人不存在;一个人的收入为“0”,表示这个人没有收入;一个产品的产 量为“0”,表示没有这种产品;等等。现实中,大多数场合人们使用的都是比尺 度。 定比尺度与上述三种计量尺度相比还有一个特性,就是可以计算数值之间的 比值。例如,一个人的月工资收入为 600 元,另一个人的为 300 元,可以得出一 个人的收入是另一个的两倍。但区间尺度由于不存在绝对零点,就只能比较数值 差,而不能计算比值。比如,可以说 30°C 与 15°C 之差为 15°C,而不能说 30° C 比 15°C 热一倍。可见,比尺度可以做加、减、乘、除法运算。 上述四种计量尺度对事物的计量层次是由低级到高级、由粗略到精确,逐步递进 的。高层次的计量尺度可以计量低层次计量尺度能够计量的事物,但不能反过来。 显然,可以很容易地将高层次计量尺度的计量结果转化为低层次计量尺度的计量 结果;将考试成绩的百分制转化为五等级分制就是一例。 二、数据的类型 1.按计量尺度分 按照所采用的计量尺度不同,可以将统计数据分为定类数据、定序数据、定 距数据和定比数据。统计数据是采用某些计量尺度对事物进行计量的结果,但采
用不同的计量尺度会得到不同类型的统计数据。就上述四种计量尺度计量的结果来看,我们可以大体上将统计数据分为两种类型:定性的数据和定量的数据。定性数据(Qualitativedata,亦称品质数据)是说明事物的品质特征表现的具体类别,不能用数值表示;因这类数据由名类尺度和顺序尺度计量形成,故又可细分为分类数据和顺序数据。定量数据(Quantitativedata,亦称数量数据或数值型数据)是说明现象数量特征表现的,能够甚至必须用数值来表现;因这类数据由区间尺度和比尺度计量形成,故又可细分为区间数据和比数据。对不同类型的数据,可采用不同的统计方法来处理和分析,比如,对定性数据一般只采用分组法计算,分析各组的频数或频率,而对定量数据则可用更多的统计方法去处理,计算、分析更多的统计指标或统计量。2.按数据的收集方法分按数据的收集方法分类,可将统计数据分为观测数据和实验数据。观测数据是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下而得到的,社会经济现象的统计数据几乎都是观测数据。实验数据是在实验中控制实验对象而收集到的数据。如医药研究试验数据、动植物杂交品种试验数据等等。自然科学领域的大多数据都是试验数据。3.按数据的时间关系分按照被描述对象与时间的关系,可以将统计数据分为截面数据和时间数据。截面数据是指同一时间不同空间上的数据。时间数据是指同一空间不同时间上的数据。从统计数据本身的来源看,统计数据最初都是来源于直接的调查或实验。但从使用者的角度看,统计数据主要来源于两种渠道:一是来源于直接的调查和科学实验,对使用者来说,这是统计数据的直接来源,我们称之为第一手或直接的统计数据;二是来源于别人调查或实验的数据,对使用者来说,这是统计数据的间接来源,我们称之为第二手或间接的统计数据。本节从使用者的角度讲述统计数据的收集方法。三、统计数据的间接来源对大多数使用者来说,亲自去做调查往往是不可能的。所使用的数据大多数是别人调查或科学实验的数据,对使用者来说称为二手数据
用不同的计量尺度会得到不同类型的统计数据。就上述四种计量尺度计量的结果 来看,我们可以大体上将统计数据分为两种类型:定性的数据和定量的数据。定 性数据(Qualitative data,亦称品质数据)是说明事物的品质特征表现的具体 类别,不能用数值表示;因这类数据由名类尺度和顺序尺度计量形成,故又可细 分为分类数据和顺序数据。定量数据(Quantitative data,亦称数量数据或数 值型数据)是说明现象数量特征表现的,能够甚至必须用数值来表现;因这类数 据由区间尺度和比尺度计量形成,故又可细分为区间数据和比数据。对不同类型 的数据,可采用不同的统计方法来处理和分析,比如,对定性数据一般只采用分 组法计算,分析各组的频数或频率,而对定量数据则可用更多的统计方法去处理, 计算、分析更多的统计指标或统计量。 2.按数据的收集方法分 按数据的收集方法分类,可将统计数据分为观测数据和实验数据。观测数据 是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下 而得到的,社会经济现象的统计数据几乎都是观测数据。实验数据是在实验中控 制实验对象而收集到的数据。如医药研究试验数据、动植物杂交品种试验数据等 等。自然科学领域的大多数据都是试验数据。 3.按数据的时间关系分 按照被描述对象与时间的关系,可以将统计数据分为截面数据和时间数据。 截面数据是指同一时间不同空间上的数据。时间数据是指同一空间不同时间上的 数据。 从统计数据本身的来源看,统计数据最初都是来源于直接的调查或实验。但 从使用者的角度看,统计数据主要来源于两种渠道:一是来源于直接的调查和科 学实验,对使用者来说,这是统计数据的直接来源,我们称之为第一手或直接的 统计数据;二是来源于别人调查或实验的数据,对使用者来说,这是统计数据的 间接来源,我们称之为第二手或间接的统计数据。本节从使用者的角度讲述统计 数据的收集方法。 三、统计数据的间接来源 对大多数使用者来说,亲自去做调查往往是不可能的。所使用的数据大多数 是别人调查或科学实验的数据,对使用者来说称为二手数据
二手数据主要是公开出版的或公开报道的数据,当然有些是尚未公开出版的数据。在我国,公开出版或报道的社会经济统计数据主要来自国家和地方的统计部门以及各种报刊媒介。例如,公开出版的有《中国市场统计年鉴》以及各省、市、地区的统计年鉴等。提供世界各国社会和经济数据的出版社物也有很多,如《世界经济年鉴》、《国外经济统计资料》,民办银行各年度的《世界发展报告》等。联合国的有关部门及世界各国也定期出版各种统计数据。除了公开出版的统计数据,还可以通过其他渠道使用一些尚未公开发布的统计数据,以及广泛分布于各种报纸、杂志、图书、广播、电视传媒中的各种数据资料。现在,随着计算机网络技术的发展,也可以在网络上获取所需的各种数据资料。利用二手数据对使用者来说既经济又方便,但使用时应注意统计数据的含义、计算口径和计算方法,以避免误用或滥用。同时,在引用二手数据时,一定要注明数据的来源,以尊重他人的劳动。四、统计数据的直接来源统计数据的直接来源主要有两个渠道:一是调查或观察;二是实验。调查是取得社会经济数据的重要手段,其中有统计部门进行的统计调查,也有其他部门或机构为特定目的而进行的调查,如市场调查等;实验是取得自然科学数据的主要手段。在本节中,着重讲授取得社会经济数据的主要方式和方法。(一)统计调查的组织方式实际中常用的统计调查组织方式主要有普查、抽样调查、统计报表、重点调查和典型调查1.普查。普查(Census)是为某一特定目的而专门组织的一次性全面调查方式,如人口普查、工业普查、农业普查等。世界各国一般都定期进行各种普查。普查适用于特定目的、特定对象,旨在搜集有关国情国力的基本统计数据,为国家制定有关政策或措施提供依据。它主要用于搜集处于某一时点状态上的社会经济现象的数量。普查作为一种特殊的调查组织方式有以下几个特点:(1)普查通常是一次性或周期性的。普查涉及面广,调查单位多,要耗费大量的人力、物力和财力,所以间隔较长时间,如10年才进行一次。我国的人口
二手数据主要是公开出版的或公开报道的数据,当然有些是尚未公开出版 的数据。在我国,公开出版或报道的社会经济统计数据主要来自国家和地方的统 计部门以及各种报刊媒介。例如,公开出版的有《中国市场统计年鉴》以及各省、 市、地区的统计年鉴等。提供世界各国社会和经济数据的出版社物也有很多,如 《世界经济年鉴》、《国外经济统计资料》,民办银行各年度的《世界发展报告》 等。联合国的有关部门及世界各国也定期出版各种统计数据。 除了公开出版的统计数据,还可以通过其他渠道使用一些尚未公开发布的 统计数据,以及广泛分布于各种报纸、杂志、图书、广播、电视传媒中的各种数 据资料。现在,随着计算机网络技术的发展,也可以在网络上获取所需的各种数 据资料。 利用二手数据对使用者来说既经济又方便,但使用时应注意统计数据的含 义、计算 口径和计算方法,以避免误用或滥用。同时,在引用二手数据时,一定要注 明数据的来源,以尊重他人的劳动。 四、统计数据的直接来源 统计数据的直接来源主要有两个渠道:一是调查或观察;二是实验。调查是 取得社会经济数据的重要手段,其中有统计部门进行的统计调查,也有其他部门 或机构为特定目的而进行的调查,如市场调查等;实验是取得自然科学数据的主 要手段。在本节中,着重讲授取得社会经济数据的主要方式和方法。 (一)统计调查的组织方式 实际中常用的统计调查组织方式主要有普查、抽样调查、统计报表、重点调查 和典型调查 1.普查。普查(Census)是为某一特定目的而专门组织的一次性全面调查 方式,如人口普查、工业普查、农业普查等。世界各国一般都定期进行各种普查。 普查适用于特定目的、特定对象,旨在搜集有关国情国力的基本统计数据,为国 家制定有关政策或措施提供依据。它主要用于搜集处于某一时点状态上的社会经 济现象的数量。普查作为一种特殊的调查组织方式有以下几个特点: (1)普查通常是一次性或周期性的。普查涉及面广,调查单位多,要耗费 大量的人力、物力和财力,所以间隔较长时间,如10年才进行一次。我国的人口