第三章统计数据的整理与显示 通过各种渠道将统计数据搜集上来之后,首先应对这些数据进行加工整理,使之系统化 条理化,以符合分析的需要。通过整理可以大大简化数据,使我们更容易理解和分析。数据整 理通常包括数据的预处理、分类或分组、汇总等几个方面的内容,它是统计分析之前的必要步 第一节数据的预处理 数据的预处理是数据整理的先前步骤,是在对数据分类或分组之前所做的必要处理,包括 数据的审核、筛选、排序等 数据的审核与筛选 在对统计数据进行整理时,首先要进行审核,以保证数据的质量,为进一步的整理与分析 打下基础。从不同渠道取得的统计数据,其审核内容和方法有所不同,不同类型的统计数据在 审核内容和方法上也有所差异 对于通过直接调査取得的原始数据,应主要从完整性和准确性两个方面去审核。完整性审 核主要是检査应调査的单位或个体是否有遗漏,所有的调查项目或指标是否填写齐全等。准确 性审核主要包括两个方面:一是检查数据资料是否真实地反映了客观实际情况,内容是否符合 实际:二是检査数据是否有错误,计算是否正确等。审核数据准确性的方法主要有逻辑检査和 计算检査。逻辑检査主要是从定性角度审核数据是否符合逻辑,内容是否合理,各项目或数字 之间有无相互矛盾的现象。比如中学文化程度的人所填的职业是大学教师,对于这种违背逻辑 的项目应予以纠正。逻辑检査主要用于对定类数据和定序数据的审核。计算检查是检查调查表 中的各项数据在计算结果和计算方法上有无错误。比如各分项数字之和是否等于相应的合计数, 各结构比例之和是否等于1或100%,出现在不同表格上的同一指标数值是否相同,等等。计 算检查主要用于对定距数据和定比数据的审核。 对于通过其他渠道取得的第二手数据,除了对其完整性和准确性进行审核外,还应首重审 核数据的适用性和时效性。第二手数据可以来自多种渠道,有些数据可能是为特定目的通过专 门调査而取得的,或者是已经按特定目的的需要做了加工整理。对于使用者来说,首先应弄清 楚数据的来源、数据的口径以及有关的背景材料,以便确定这些数据是否符合分析研究的需要, 是否需要重新加工整理等,不能盲目生搬硬套。此外,还要对数据的时效性进行审核,有些时 效性较强的问题,如果所取得的数据过于滞后,就失去了研究的意义。一般来说,应尽可能使 用最新的统计数据。数据经过审核后,确认适合实际需要,才有必要做进一步的加工整理。 对审核过程中发现的错误应尽可能予以纠正。调查结束后,当数据中发现的错误不能予以 纠正,或者有些数据不符合调査的要求而又无法弥补时,就需要对数据进行筛选。数据筛选包 括两方面内容:一是将某些不符合要求的数据或有明显错误的数据予以剔除;二是将符合某种 特定条件的数据筛选出来,对不符合特定条件的数据予以剔除。数据的筛选在市场调查中是十
36 第三章 统计数据的整理与显示 通过各种渠道将统计数据搜集上来之后,首先应对这些数据进行加工整理,使之系统化、 条理化,以符合分析的需要。通过整理可以大大简化数据,使我们更容易理解和分析。数据整 理通常包括数据的预处理、分类或分组、汇总等几个方面的内容,它是统计分析之前的必要步 骤。 第一节 数据的预处理 数据的预处理是数据整理的先前步骤,是在对数据分类或分组之前所做的必要处理,包括 数据的审核、筛选、排序等。 一、数据的审核与筛选 在对统计数据进行整理时,首先要进行审核,以保证数据的质量,为进一步的整理与分析 打下基础。从不同渠道取得的统计数据,其审核内容和方法有所不同,不同类型的统计数据在 审核内容和方法上也有所差异。 对于通过直接调查取得的原始数据,应主要从完整性和准确性两个方面去审核。完整性审 核主要是检查应调查的单位或个体是否有遗漏,所有的调查项目或指标是否填写齐全等。准确 性审核主要包括两个方面:一是检查数据资料是否真实地反映了客观实际情况,内容是否符合 实际;二是检查数据是否有错误,计算是否正确等。审核数据准确性的方法主要有逻辑检查和 计算检查。逻辑检查主要是从定性角度审核数据是否符合逻辑,内容是否合理,各项目或数字 之间有无相互矛盾的现象。比如中学文化程度的人所填的职业是大学教师,对于这种违背逻辑 的项目应予以纠正。逻辑检查主要用于对定类数据和定序数据的审核。计算检查是检查调查表 中的各项数据在计算结果和计算方法上有无错误。比如各分项数字之和是否等于相应的合计数, 各结构比例之和是否等于 1 或 100%,出现在不同表格上的同一指标数值是否相同,等等。计 算检查主要用于对定距数据和定比数据的审核。 对于通过其他渠道取得的第二手数据,除了对其完整性和准确性进行审核外,还应首重审 核数据的适用性和时效性。第二手数据可以来自多种渠道,有些数据可能是为特定目的通过专 门调查而取得的,或者是已经按特定目的的需要做了加工整理。对于使用者来说,首先应弄清 楚数据的来源、数据的口径以及有关的背景材料,以便确定这些数据是否符合分析研究的需要, 是否需要重新加工整理等,不能盲目生搬硬套。此外,还要对数据的时效性进行审核,有些时 效性较强的问题,如果所取得的数据过于滞后,就失去了研究的意义。一般来说,应尽可能使 用最新的统计数据。数据经过审核后,确认适合实际需要,才有必要做进一步的加工整理。 对审核过程中发现的错误应尽可能予以纠正。调查结束后,当数据中发现的错误不能予以 纠正,或者有些数据不符合调查的要求而又无法弥补时,就需要对数据进行筛选。数据筛选包 括两方面内容:一是将某些不符合要求的数据或有明显错误的数据予以剔除;二是将符合某种 特定条件的数据筛选出来,对不符合特定条件的数据予以剔除。数据的筛选在市场调查中是十
分重要的。 数据的排序 数据排序是按一定顺序将数据排列,以便于硏究者通过游览数据发现一些明显的特征或趋 势,找到解决问题的线索。除此之外,排序还有助于对数据检查纠错,为重新归类或分组等提 供依据。在某些场合,排序本身就是分析的目的之一。例如,了解究竟谁是中国家电生产的三 巨头,对于家电厂商而言是很有用的信息。美国的《财富》杂志每年都要排出世界500强企业 通过这一信息,经营者不仅可以了解自己企业所处的地位,清楚自己的差距,还可了解到竞争 对手的状况,从而有效制定企业发展的规划和战略目标。 对于定类数据,如果是字母型数据,排序有升序与降序之分,但习惯上升序使用得更普遍, 因为升序与字母的自然排列相同;如果是汉字型数据,排序方式很多,比如按汉字的首位拼音 字母排列,这与字母型数据的排序完全一样,也可按笔画排序,其中也有笔画多少的升序降序 之分。交替运用不同方式排序,在汉字型数据的检查纠错过程中十分有用。 定距数据和定比数据的排序只有两种,即递增和递减。设一组数据为X1,X2,…XN,递 增排序后可表示为:Xd1<Xa<…<XN;递减排序可表示为:X(1>Xa2)>…XN。排序后的 数据也称为顺序统计量( Order statistics)。无论是品质数据还是数值型数据,排序均可借助 计算机完成 第二节品质数据的整理与显示 数据经过预处理后,可进一步做分类或分组整理。在对数据进行整理时,首先要弄清数据 的类型,因为对于不同类型的数据所采取的处理方式和所适用的处理方法是不同的。对品质数 据主要是做分类整理,对数值型数据则主要是做分组整理。 、定类数据的整理与显示 定类数据本身就是对事物的一种分类,因此,在整理时除了要列出所分的类别外,还要计 算出每一类别的频数、频率或比例、比率,同时选择适当的图形进行显示,以便对数据及其特 征有一个初步的了解 (一)频数与频数分布 1.频数( Frequency)。频数也称次数,是落在各类别中的数据个数。我们把各个类别及其 相应的频数全部列出来就是频数分布或称次数分布( Frequency distribution)。将频数分布用表 格的形式表现出来就是频数分布表 例3-1为研究广告市场的状况,一家广告公司在某城市随机抽取200人就广告问题做了 邮寄问卷调查,其中的一个问题是:“您比较关心下列哪一类广告?” (1)商品广告:(2)服务广告:(3)金融广告;(4)房地产广告:(5)招生招聘广告:(6) 其他广告。 这里的变量就是“广告类别”,不同类型的广告就是变量值。调查数据经分类整理后形成频 数分布表。见表3-1。 表3-1某城市居民关注广告类型的频数分布表 广告类型 人数(人) 频率(%) 商品广告 0.560 服务广告 0.255 25.5
37 分重要的。 二、数据的排序 数据排序是按一定顺序将数据排列,以便于研究者通过游览数据发现一些明显的特征或趋 势,找到解决问题的线索。除此之外,排序还有助于对数据检查纠错,为重新归类或分组等提 供依据。在某些场合,排序本身就是分析的目的之一。例如,了解究竟谁是中国家电生产的三 巨头,对于家电厂商而言是很有用的信息。美国的《财富》杂志每年都要排出世界 500 强企业, 通过这一信息,经营者不仅可以了解自己企业所处的地位,清楚自己的差距,还可了解到竞争 对手的状况,从而有效制定企业发展的规划和战略目标。 对于定类数据,如果是字母型数据,排序有升序与降序之分,但习惯上升序使用得更普遍, 因为升序与字母的自然排列相同;如果是汉字型数据,排序方式很多,比如按汉字的首位拼音 字母排列,这与字母型数据的排序完全一样,也可按笔画排序,其中也有笔画多少的升序降序 之分。交替运用不同方式排序,在汉字型数据的检查纠错过程中十分有用。 定距数据和定比数据的排序只有两种,即递增和递减。设一组数据为 X1,X2,…XN,递 增排序后可表示为:X(1)<X(2)<…<X(N);递减排序可表示为:X(1)>X(2)>…>X(N)。排序后的 数据也称为顺序统计量(Order statistics)。无论是品质数据还是数值型数据,排序均可借助于 计算机完成。 第二节 品质数据的整理与显示 数据经过预处理后,可进一步做分类或分组整理。在对数据进行整理时,首先要弄清数据 的类型,因为对于不同类型的数据所采取的处理方式和所适用的处理方法是不同的。对品质数 据主要是做分类整理,对数值型数据则主要是做分组整理。 一、定类数据的整理与显示 定类数据本身就是对事物的一种分类,因此,在整理时除了要列出所分的类别外,还要计 算出每一类别的频数、频率或比例、比率,同时选择适当的图形进行显示,以便对数据及其特 征有一个初步的了解。 (一)频数与频数分布 1.频数(Frequency)。频数也称次数,是落在各类别中的数据个数。我们把各个类别及其 相应的频数全部列出来就是频数分布或称次数分布(Frequency distribution)。将频数分布用表 格的形式表现出来就是频数分布表。 例 3–1 为研究广告市场的状况,一家广告公司在某城市随机抽取 200 人就广告问题做了 邮寄问卷调查,其中的一个问题是:“您比较关心下列哪一类广告?” (1)商品广告;(2)服务广告;(3)金融广告;(4)房地产广告;(5)招生招聘广告;(6) 其他广告。 这里的变量就是“广告类别”,不同类型的广告就是变量值。调查数据经分类整理后形成频 数分布表。见表 3–1。 表 3-1 某城市居民关注广告类型的频数分布表 广告类型 人数(人) 比例 频率(%) 商品广告 服务广告 112 51 0.560 0.255 56.0 25.5
金融广告 0.045 4.5 房地产广告 16 8.0 招生招聘广告 10 5.0 其他广告 2 0.010 1.0 很显然,如果不做分类整理,观察200个人对不同广告的关注情况,既不便于理解,也不 便于分析。经分类整理后,可以大大简化数据,很容易看出关注“商品广告”的人数最多,而 关注“其他广告”的人数最少 2.比例( Proportion)。比例是一个总体中各个部分的数量占总体数据的比重,通常用于反 映总体的构成或结构。假定总体数量N被分成K个部分,每一部分的数量分别为N1,N2, N,则比例定义为。显然,各部分的比例之和等于1,即 比例是将总体中各个部分的数值都变成同一个基数,也就是都以1为基数,这样就可以对 不同类别的数值进行比较了。比如,在上面的例子中,关注金融广告和招生招聘广告的人数比 例差不多相 3.百分比( Percentage)。将比例乘以100就是百分比或百分数,它是将对比的基数抽象化 为100而计算出来的,用%表示,它表示每100个分母中拥有多少个分子。比如在上面的例子 中,频率一档就是将比例乘以100而得到的百分比。百分比是一个更为标准化的数值,很多相 对数都用百分比表示。当分子的数值很小而分母的数值很大时,也可以用千分数(‰)来表示 比例,如人口的出生率、死亡率、自然增长率等都可用千分数来表示 4.比率( Ratio)。比率是各不同类别的数量的比值。它可以是一个总体中各不同部分的数 量对比,比如在上面的例子中,关注商品广告的人数与关注服务广告人数的比率是11251。为 便于理解,通常将分母化为1。比如,关注商品广告和关注服务广告人数的比率是221 由于比率不是总体中部分与整体之间的对比关系,因而比值可能大于1。为方便起见,比 率可以不用1作为基数,而用100或其他便于理解的数作基数。比如,人口的性别比就用每100 名女性人口所对应的男性人口来表示,如性别比为105100,表示每100个女人对应105个男 人,说明男性人口数量略多于女性人口。 在经济和社会问题的研究中,经常使用比率。比如经济学中的积累与消费之比,国内生产 总值中第 、三产业产值之比,等等。比率也可以是同一现象在不同时间或空间上的数量 之比,比如将2001年的国内生产总值与2000年的国内生产总值进行对比,可以得到经济增长 率;将一个地区的国内生产总值同另一个地区的国内生产总值进行对比,反映两个地区的经济 发展水平差异,等等 (二)定类数据的图示 上面我们是用频数分布表示反映分类数据的频数分布。如果用图形来显示频数分布,就会 更加形象和直观。一张好的统计图表,往往胜过冗长的文字表述。统计图的类型有很多,多数 统计图除了可以绘制二维平面图外,还可以绘制三维立体图。图形的制作均可由计算机来完成。 这里首先介绍反映定类数据的图示方法,其中包括条形图和圆形图。如果两个总体或两个样本 的分类相同且问题可比时,还可以绘制环形图 1.条形图( Bar chart)。条形图是用宽度相同的条形的高度或长短来表示数据变动的图形。 条形图可以横置或纵置,纵置时也称为柱形图。条形图有单式、复式等形式。例如,根据表3
38 金融广告 房地产广告 招生招聘广告 其他广告 9 16 10 2 0.045 0.080 0.050 0.010 4.5 8.0 5.0 1.0 合 计 200 1 100 很显然,如果不做分类整理,观察 200 个人对不同广告的关注情况,既不便于理解,也不 便于分析。经分类整理后,可以大大简化数据,很容易看出关注“商品广告”的人数最多,而 关注“其他广告”的人数最少。 2.比例(Proportion)。比例是一个总体中各个部分的数量占总体数据的比重,通常用于反 映总体的构成或结构。假定总体数量 N 被分成 K 个部分,每一部分的数量分别为 N1,N2,… NK,则比例定义为 N Ni 。显然,各部分的比例之和等于 1,即 1 1 + 2 + + = N N N N N N K 比例是将总体中各个部分的数值都变成同一个基数,也就是都以 1 为基数,这样就可以对 不同类别的数值进行比较了。比如,在上面的例子中,关注金融广告和招生招聘广告的人数比 例差不多相同。 3.百分比(Percentage)。将比例乘以 100 就是百分比或百分数,它是将对比的基数抽象化 为 100 而计算出来的,用%表示,它表示每 100 个分母中拥有多少个分子。比如在上面的例子 中,频率一档就是将比例乘以 100 而得到的百分比。百分比是一个更为标准化的数值,很多相 对数都用百分比表示。当分子的数值很小而分母的数值很大时,也可以用千分数(‰)来表示 比例,如人口的出生率、死亡率、自然增长率等都可用千分数来表示。 4.比率(Ratio)。比率是各不同类别的数量的比值。它可以是一个总体中各不同部分的数 量对比,比如在上面的例子中,关注商品广告的人数与关注服务广告人数的比率是 112:51。为 便于理解,通常将分母化为 1。比如,关注商品广告和关注服务广告人数的比率是 2.2:1。 由于比率不是总体中部分与整体之间的对比关系,因而比值可能大于 1。为方便起见,比 率可以不用 1 作为基数,而用 100 或其他便于理解的数作基数。比如,人口的性别比就用每 100 名女性人口所对应的男性人口来表示,如性别比为 105:100,表示每 100 个女人对应 105 个男 人,说明男性人口数量略多于女性人口。 在经济和社会问题的研究中,经常使用比率。比如经济学中的积累与消费之比,国内生产 总值中第一、二、三产业产值之比,等等。比率也可以是同一现象在不同时间或空间上的数量 之比,比如将 2001 年的国内生产总值与 2000 年的国内生产总值进行对比,可以得到经济增长 率;将一个地区的国内生产总值同另一个地区的国内生产总值进行对比,反映两个地区的经济 发展水平差异,等等。 (二)定类数据的图示 上面我们是用频数分布表示反映分类数据的频数分布。如果用图形来显示频数分布,就会 更加形象和直观。一张好的统计图表,往往胜过冗长的文字表述。统计图的类型有很多,多数 统计图除了可以绘制二维平面图外,还可以绘制三维立体图。图形的制作均可由计算机来完成。 这里首先介绍反映定类数据的图示方法,其中包括条形图和圆形图。如果两个总体或两个样本 的分类相同且问题可比时,还可以绘制环形图。 1.条形图(Bar chart)。条形图是用宽度相同的条形的高度或长短来表示数据变动的图形。 条形图可以横置或纵置,纵置时也称为柱形图。条形图有单式、复式等形式。例如,根据表 3
1数据绘制的条形图如图3-1所示 2.圆形图( Pie chart)。圆形图也称饼图,是用圆形及圆内扇形的面积来表示数值大小的 图形。圆形图主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用。在 绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度 是按各部分百分比占360°的相应比例确定的。例如,关注服务广告的人数占总人数的百分比 为255%,那么其扇形的中心角度就应为360°×255%=91.8°,其余类推 根据表3-1数据绘制的圆形图如图3-2所示 其他广告 招生招聘广告 16 广告类型 房地产广告 金融广告 服务广告 51 商品广告 人数(人) 图3-1某城市居民关注不同类型广告的人数分布 招生招聘广告 房地产广告 其他广告 金融广告 商品广告 服务广告 图3-2某城市居民关注不同类型广告的人数构成 定序数据的数理与显示 前面介绍的定类数据的整理与显示方法,如频数、比例、百分比、比率、条形图和圆形图 等,也都适用于对定序数据的整理与显示。但有些方法适用于对定序数据的整理与显示,却不 适用于定类数据。对于定序数据,除了可使用上面的整理与显示技术外,还可以计算累积频数 和累积频率(百分比)。 (一)累积频数和累积频率 1.累积频数( Cumulative frequencies)。就是将各类别的频数逐级累加起来。其方法有两 种:一是从类别顺序的开始一方向类别顺序的最后一方累加频数(定距数据和定比数据则是从 变量值小的一方向变量值大的一方累加频数),称为向上累积:二是从类别顺序的最后一方向类 别顺序的开始一方累加频数(定距数据和定比数据则是从变量值大的一方向变量值小的一方累
39 –1 数据绘制的条形图如图 3–1 所示。 2.圆形图(Pie chart)。圆形图也称饼图,是用圆形及圆内扇形的面积来表示数值大小的 图形。圆形图主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用。在 绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度 是按各部分百分比占 360°的相应比例确定的。例如,关注服务广告的人数占总人数的百分比 为 25.5%,那么其扇形的中心角度就应为 360°×25.5%=91.8°,其余类推。 根据表 3–1 数据绘制的圆形图如图 3–2 所示。 图 3–1 某城市居民关注不同类型广告的人数分布 图 3–2 某城市居民关注不同类型广告的人数构成 二、定序数据的数理与显示 前面介绍的定类数据的整理与显示方法,如频数、比例、百分比、比率、条形图和圆形图 等,也都适用于对定序数据的整理与显示。但有些方法适用于对定序数据的整理与显示,却不 适用于定类数据。对于定序数据,除了可使用上面的整理与显示技术外,还可以计算累积频数 和累积频率(百分比)。 (一)累积频数和累积频率 1.累积频数(Cumulative frequencies)。就是将各类别的频数逐级累加起来。其方法有两 种:一是从类别顺序的开始一方向类别顺序的最后一方累加频数(定距数据和定比数据则是从 变量值小的一方向变量值大的一方累加频数),称为向上累积;二是从类别顺序的最后一方向类 别顺序的开始一方累加频数(定距数据和定比数据则是从变量值大的一方向变量值小的一方累 人数(人) 0 40 80 120 商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告 广 告 类 型 2 10 16 9 51 112 商品广告 服务广告 55% 26% 金融广告 5% 其他广告 1% 招生招聘广告 5% 房地产广告 8%
加频数),称为向下累积。通过累积频数,可以很容易看出某一类别(或数值)以下及某一类别 (或数值)以上的频数之和 2.累积频率或百分比( Cumulative percentages)。就是将各类别的百分比逐级累加起来, 也有向上累积和向下累积两种方法 例3-2在一项有关住房问题的研究中,研究人员在甲、乙两个城市各抽样调査300户家 庭,其中的一个问题是:“您对您家庭目前的住房状况是否满意?” (1)非常不满意:(2)不满意:(3)一般;(4)满意:(5)非常满意 调查结果经整理如表3-2和表3-3所示。 表3-2甲城市家庭对住房状况的评价 甲城市 回答类别户数百分比 向上累积 向下累积 (户)(%) 户数百分比户数百分比 非常不满意2482480300100 不满意 10836 非常满意 表3-3乙城市家庭对住房状况的评价 乙城市 回答类别户数百分比 向上累积 向下累积 (户)(%) 户数百分比户数百分比 (户) 非常不满意21 300 100.0 33.0 40.0 一般 满意 非常满意 381273001000 3001000 (二)定序数据的图示 1.累积频数分布图。根据累积频数或累积频率,可以绘制累积频数或频率分布图。例如, 根据表3-2数据绘制的累积频数分布图如图3-3所示。 累 计200 (a)向上累计
40 加频数),称为向下累积。通过累积频数,可以很容易看出某一类别(或数值)以下及某一类别 (或数值)以上的频数之和。 2.累积频率或百分比(Cumulative percentages)。就是将各类别的百分比逐级累加起来, 也有向上累积和向下累积两种方法。 例 3–2 在一项有关住房问题的研究中,研究人员在甲、乙两个城市各抽样调查 300 户家 庭,其中的一个问题是:“您对您家庭目前的住房状况是否满意?” (1)非常不满意;(2)不满意;(3)一般;(4)满意;(5)非常满意。 调查结果经整理如表 3–2 和表 3–3 所示。 表 3-2 甲城市家庭对住房状况的评价 回答类别 甲城市 户数 (户) 百分比 (%) 向上累积 向下累积 户数 (户) 百分比 (%) 户数 (户) 百分比 (%) 非常不满意 不满意 一 般 满 意 非常满意 24 108 93 45 30 8 36 31 15 10 24 132 225 270 300 8.0 44.0 75.0 90.0 100.0 300 276 168 75 30 100 92 56 25 10 合 计 300 100 - - - - 表 3-3 乙城市家庭对住房状况的评价 回答类别 乙城市 户数 (户) 百分比 (%) 向上累积 向下累积 户数 (户) 百分比 (%) 户数 (户) 百分比 (%) 非常不满意 不满意 一般 满意 非常满意 21 99 78 64 38 7.0 33.0 26.0 21.3 12.7 21 120 198 262 300 7.0 40.0 66.0 87.3 100.0 300 279 180 102 38 100.0 93.0 60.0 34.0 12.7 合 计 300 100.0 - - - - (二)定序数据的图示 1.累积频数分布图。根据累积频数或累积频率,可以绘制累积频数或频率分布图。例如, 根据表 3–2 数据绘制的累积频数分布图如图 3–3 所示。 24 132 225 270 300 0 100 200 300 非常不满意 不满意 一般 满意 非常满意 (a)向上累计 累 计 户 数 (户)