数据统计与数据分析 一、问卷的确认和编辑 数据资料的处理过程是从回收第一份问卷开始的。按照事先调查方案的计划, 尽量确保每份问卷都是有效问卷(所谓“有效”问卷,指的是在调查过程中按照正 确的方式执行完成的问卷)0问卷回收以后,督导员必须按照调查的要求,仔细地检 查问卷。检查问卷的目的在于将有错误填写,或者是不完整、不规范的问卷挑出, 保证数据的准确性。所谓错误填写即出现了那些不合逻辑或根本不可能的结果,通 过对调查员的复核,可以检查出哪些调查员没有按照调查的要求去访问,那么,该 调查员完成的问卷可能存在很多问题。还有可能漏答了某些必答的问题,比如被访 者的人口特征等基本情况,造成问卷回答不完整。 鉴于这些情况,不管是由于调查员造成的还是被访者的原因,通常有两种 方式进行补教:对于出现漏答的问卷,通常要求调查员对受访者进行重访,以补充 未答的问题:如果不便于重访或重访后的问卷还有问题,数目不是很多,可以当作 缺失值计。如果数量非常大,这份问卷就只能当作废卷处理,并且按照被访对象的 抽样条件,补充相关的样本。!一、问卷检查 问卷的检查一般是指对回收问卷的完整性和访问质量的检查,目的是要确 定哪些问卷可以接受,哪些问卷要作废。检查的要点包括: (①)规定详细的检查规则,一份问卷哪些问题是必须填写完整的,哪些问题出 现缺失时可以容忍等,使督导员明确检查问卷的每一项流程。 (②)对于每份调查员交回来的问卷必须彻底地检查,以确认调查员或者被 访者是否按照相关的要求完成了访问,并且完整地记录在问卷的恰当位置。 (3)应该将问卷分成三种类型,一种是完成的问卷,一种是作废的问卷, 第三种是有问题,但通过追访还可以利用的问卷。 (④)如果抽样中有配额的要求,那么应将完成的问卷中的配额指标进行统 计分析,确定问卷是否完成配额的要求,以便及时补充不足的样本。 (⑤)通常有下面情况的问卷是不能接受的:所回收的问卷明显不完整,缺 了一页或者多页:问卷中有很多内容没有填答:问卷的模式说明调查员(被访者)没 有理解或者遵循访问指南回答;问卷的答案几乎没有什么变化,如在态度的选项上 全部选择第X项:问卷的被访者不符合抽样要求:问卷的回收日期超过了访问的时 限等。二、问卷的校订
1 数据统计与数据分析 一、问卷的确认和编辑 数据资料的处理过程是从回收第一份问卷开始的。按照事先调查方案的计划, 尽量确保每份问卷都是有效问卷(所谓“有效”问卷,指的是在调查过程中按照正 确的方式执行完成的问卷)o 问卷回收以后,督导员必须按照调查的要求,仔细地检 查问卷。检查问卷的目的在于将有错误填写,或者是不完整、不规范的问卷挑出, 保证数据的准确性。所谓错误填写即出现了那些不合逻辑或根本不可能的结果,通 过对调查员的复核,可以检查出哪些调查员没有按照调查的要求去访问,那么,该 调查员完成的问卷可能存在很多问题。还有可能漏答了某些必答的问题,比如被访 者的人口特征等基本情况,造成问卷回答不完整。 鉴于这些情况,不管是由于调查员造成的还是被访者的原因,通常有两种 方式进行补救:对于出现漏答的问卷,通常要求调查员对受访者进行重访,以补充 未答的问题;如果不便于重访或重访后的问卷还有问题,数目不是很多,可以当作 缺失值计。如果数量非常大,这份问卷就只能当作废卷处理,并且按照被访对象的 抽样条件,补充相关的样本。 !一、问卷检查 问卷的检查一般是指对回收问卷的完整性和访问质量的检查,目的是要确 定哪些问卷可以接受,哪些问卷要作废。检查的要点包括: (1)规定详细的检查规则,一份问卷哪些问题是必须填写完整的,哪些问题出 现缺失时可以容忍等,使督导员明确检查问卷的每一项流程。 (2)对于每份调查员交回来的问卷必须彻底地检查,以确认调查员或者被 访者是否按照相关的要求完成了访问,并且完整地记录在问卷的恰当位置。 (3)应该将问卷分成三种类型,一种是完成的问卷,一种是作废的问卷, 第三种是有问题,但通过追访还可以利用的问卷。 (4)如果抽样中有配额的要求,那么应将完成的问卷中的配额指标进行统 计分析,确定问卷是否完成配额的要求,以便及时补充不足的样本。 (5)通常有下面情况的问卷是不能接受的:所回收的问卷明显不完整,缺 了一页或者多页;问卷中有很多内容没有填答;问卷的模式说明调查员(被访者)没 有理解或者遵循访问指南回答;问卷的答案几乎没有什么变化,如在态度的选项上 全部选择第 X 项;问卷的被访者不符合抽样要求;问卷的回收日期超过了访问的时 限等。二、问卷的校订
为了加强问卷的准确性,对那些初步接受的问卷还要进行进一步的检查和 校订,在校订的过程中,通常会发现问卷中存在有字迹模糊、问题漏选、前后回答 不一致、答案模棱两可和跳答错误的问题。 问卷的某些问题答案可能出现字迹模糊的情况,特别是碰上无结构的开放 式的问题时,因为调查员记录的不好,答案不容易识别。如果发现这样的问题,必 须对受访者进行追访,将不清楚的地方填写清楚。对于漏选的问题处理方法也是 样,出现漏选的题目因为各种原因,无法进行事后补充访问,普通的问题,且数目 不大时,通常作为缺失值处理:如果涉及到受访对象的个人特征的问题,通常只能 作为废卷处理。 问卷中有些问题的答案会出现不容易理解的模棱两可的情况,或者是使用 了不是通用的缩写方式或词语,或者在应该单选一项的问题中,圈选了两项等,都 必须通过追访进行补救。另外就是回答时可能出现跳答错误的情况,这可能是因为 被访对象没有很好地理解问题。如果出现这种情况,首先要核实被访对象是否符合 抽样调查的条件(跳答题目往往是筛选条件),如果符合,进行追问补充,如果不符 合条件,问卷只能作废,重新补充样本。 问卷的回收、检查与校订可能是非常繁琐、且时间很长的工作,但却是保 证数据处理过程中较少误差的重要步骤。三、问卷的编码 编码是指对一个问题的不同答案进行分组和确定数字代码的过程。大多数 问卷的大多数问题都是封闭式的,在调查之前就已经完成了编码的过程,即每一组 问题的不同答案的数字编码已经确定(参见表15一1)。 而开放式问题,因为不知道会得到什么答案,或者是希望得到比列出的封 闭式的选项更详尽的答案,所以在调查结束后,必须对这些开放式的问题进行事后 编码。开放题的事后编码的工作量很大,无法预知会出现多少个新的代码和答案, 而且有些答案是非常类似的,必须决定是合并成一类呢,还是分成不同的代码。具 体地说,编码需要以下几个步骤: (1)每个需要编码的项目都必须有一份编码表,将问题和项目的代码详细 地标注在编码表的项端位置,由于事先不知道会有多少新的代码或答案出现,所以 一定要预备足够的空间。 (②)如果编码的工作由一个编码员完成,出现错误的可能性相对较小。但 实际上,因为需要编码的问题可能很多,一个人没有办法按时完成,这就需要多个
2 为了加强问卷的准确性,对那些初步接受的问卷还要进行进一步的检查和 校订,在校订的过程中,通常会发现问卷中存在有字迹模糊、问题漏选、前后回答 不一致、答案模棱两可和跳答错误的问题。 问卷的某些问题答案可能出现字迹模糊的情况,特别是碰上无结构的开放 式的问题时,因为调查员记录的不好,答案不容易识别。如果发现这样的问题,必 须对受访者进行追访,将不清楚的地方填写清楚。对于漏选的问题处理方法也是一 样,出现漏选的题目因为各种原因,无法进行事后补充访问,普通的问题,且数目 不大时,通常作为缺失值处理;如果涉及到受访对象的个人特征的问题,通常只能 作为废卷处理。 问卷中有些问题的答案会出现不容易理解的模棱两可的情况,或者是使用 了不是通用的缩写方式或词语,或者在应该单选一项的问题中,圈选了两项等,都 必须通过追访进行补救。另外就是回答时可能出现跳答错误的情况,这可能是因为 被访对象没有很好地理解问题。如果出现这种情况,首先要核实被访对象是否符合 抽样调查的条件(跳答题目往往是筛选条件),如果符合,进行追问补充,如果不符 合条件,问卷只能作废,重新补充样本。 问卷的回收、检查与校订可能是非常繁琐、且时间很长的工作,但却是保 证数据处理过程中较少误差的重要步骤。三、问卷的编码 编码是指对一个问题的不同答案进行分组和确定数字代码的过程。大多数 问卷的大多数问题都是封闭式的,在调查之前就已经完成了编码的过程,即每一组 问题的不同答案的数字编码已经确定(参见表 15—1)。 而开放式问题,因为不知道会得到什么答案,或者是希望得到比列出的封 闭式的选项更详尽的答案,所以在调查结束后,必须对这些开放式的问题进行事后 编码。开放题的事后编码的工作量很大,无法预知会出现多少个新的代码和答案, 而且有些答案是非常类似的,必须决定是合并成一类呢,还是分成不同的代码。具 体地说,编码需要以下几个步骤: (1)每个需要编码的项目都必须有一份编码表,将问题和项目的代码详细 地标注在编码表的顶端位置,由于事先不知道会有多少新的代码或答案出现,所以 一定要预备足够的空间。 (2)如果编码的工作由一个编码员完成,出现错误的可能性相对较小。但 实际上,因为需要编码的问题可能很多,一个人没有办法按时完成,这就需要多个
编码员。在这样的情况下,一定要注意多个编码员工作的协调。应该安排编码员在 不同的时间,或者相同的时间相同的地点,使用同一个编码表。这样可以避免编码 重复的情况。 (③)研究人员应详细制定编码的守则,指导编码员如何识别答案,并且将 其归类。以及如何分配编码等等,并同时对编码的过程进行监督和检查。编码员在 编码的过程中可能有两种倾向:一种是事无巨细地将出现的每一种答案给与新的代 码,结果代码的数量比预料要多得多;另一种情况是对答案的归类过于粗糙,可能 丢弃了数据中有意义的差异。对于这两种情况都必须通过守则的规定,尽量避免。 碰到无法确认的分类的时候,通常的做法是付与一个新的代码,如果需要合并,可 以在将来的数据处理过程中完成。 (4)可以对“不知道”、“无所谓”、“不清楚”、“缺失,事先规定,但是 定要注意规定的编码与实现对该问题的最大编码的预计的数量一致。 (⑤)编码的字迹必须清楚,如果可能的话,及时进行计算机的录入管理。 二、问卷调查中的编码技巧 在问卷调查中大量的问卷收回后,需要对每个问题的答案进行整理、汇总。为 了充分利用问卷中的调查数据,提高问卷的录入效率及分析效果,需要对问卷中的 数据进行科学的编码。编码就是对一个问题的不同答案给出一个电脑能够识别的数 字代码的过程,在同一道题目中,每个编码仅代表一个观点,然后将其以数字形式 输入电脑,将不能直接统计计算的文字转变成可直接计算的数字,将大量文字信息 压缩成一份数据报告,使信息更为清晰和直观,以便对数据进行分组和后期分析。 这就使问卷编码工作成为问卷调查中不可缺少的流程,也成为数据整理汇总阶段重 要而基本的环节 通常,问卷中的问题有两类,一类是封闭式问题,即在提出问题的同时,列出 若干可能的答案供被调查者进行选择:另一类是开放式问题,即不向被调查者提供 回答选项的问题,被调查者使用自己的语言来回答问题。下面就不同问题的编码列 出不同的编码方法,以供大家探讨: 1、封闭式问题的编码方法 事实上在调查问卷开始设计的时候,编码工作就己经开始了。因为有些问题的答案 范围研究者事先是知道的,象性别,学历等。这样的问题,在问卷中以封闭问题的 形式出现,被访者回答问题时只要选择相应的现成答案就可以了。如:
3 编码员。在这样的情况下,一定要注意多个编码员工作的协调。应该安排编码员在 不同的时间,或者相同的时间相同的地点,使用同一个编码表。这样可以避免编码 重复的情况。 (3)研究人员应详细制定编码的守则,指导编码员如何识别答案,并且将 其归类.以及如何分配编码等等,并同时对编码的过程进行监督和检查。编码员在 编码的过程中可能有两种倾向:一种是事无巨细地将出现的每一种答案给与新的代 码,结果代码的数量比预料要多得多;另一种情况是对答案的归类过于粗糙,可能 丢弃了数据中有意义的差异。对于这两种情况都必须通过守则的规定,尽量避免。 碰到无法确认的分类的时候,通常的做法是付与一个新的代码,如果需要合并,可 以在将来的数据处理过程中完成。 (4)可以对“不知道”、“无所谓”、“不清楚”、“缺失,事先规定,但是一 定要注意规定的编码与实现对该问题的最大编码的预计的数量一致。 (5)编码的字迹必须清楚,如果可能的话,及时进行计算机的录入管理。 二、问卷调查中的编码技巧 在问卷调查中大量的问卷收回后,需要对每个问题的答案进行整理、汇总。为 了充分利用问卷中的调查数据,提高问卷的录入效率及分析效果,需要对问卷中的 数据进行科学的编码。编码就是对一个问题的不同答案给出一个电脑能够识别的数 字代码的过程,在同一道题目中,每个编码仅代表一个观点,然后将其以数字形式 输入电脑,将不能直接统计计算的文字转变成可直接计算的数字,将大量文字信息 压缩成一份数据报告,使信息更为清晰和直观,以便对数据进行分组和后期分析。 这就使问卷编码工作成为问卷调查中不可缺少的流程,也成为数据整理汇总阶段重 要而基本的环节。 通常,问卷中的问题有两类,一类是封闭式问题,即在提出问题的同时,列出 若干可能的答案供被调查者进行选择;另一类是开放式问题,即不向被调查者提供 回答选项的问题,被调查者使用自己的语言来回答问题。下面就不同问题的编码列 出不同的编码方法,以供大家探讨: 1、封闭式问题的编码方法 事实上在调查问卷开始设计的时候,编码工作就已经开始了。因为有些问题的答案 范围研究者事先是知道的,象性别,学历等。这样的问题,在问卷中以封闭问题的 形式出现,被访者回答问题时只要选择相应的现成答案就可以了。如:
Q1.请问您通常在什么地方购买日常用品?[多 小杂货店/便民店nn.1 仓储/超市nnn2 商场内超 市3 百货商场 零售摊点 5 批发市场6 直销/邮购 网上购 买11n8 其他n9 封闭式问题的调查问卷,在问 卷回收后就可以直接录入电脑,这对调查来说是非常便捷有效的。所以正常的问卷 调查都尽可能的使用封闭式问题。即便是那些事先不容易知道答案的问题,如购买 某商品的地点类型、使用某种商品的主要原因等也可采用此类形式,但通常会在封 闭式问题的答案中增加一个“其它”选项,就是为了保证所有的被访者在回答问题 时都有合适的被选对象,并且这个选项被选择的机会应当是可以预见到很少的,不 会超过主要答案被选择的机会。 二、开放式问题的编码方法 还有一些问题问卷设计者在设计问卷时是不完全知道答案的,这样的问题在问 卷中一般有两种形式。一种是只有问题没有备选答案,称作完全开放式问题。例 如:Q2.请问您不喜欢吃巧克力的原因有哪些?(需要追问) 另一种是有部分备选答案同时还有要求被访者注明的“其它”选项,称作半开 放式问题或隐含的开放式问题。例如: Q3.请问对于*产品,您愿意接受什么样的促销活动?[多选] 免费试用1 价格打折nnn2 赠送相关产品 礼品盒/礼品包.4 抽奖5 会员式活动. ”n6 集旧包装换取新产品、奖品等”,7 其他[请注 明]」 对于开放性问题,被访者需要用文字来叙述自 己的回答。问卷回收后这些答案不能马上录入电脑,需要后期的人员对其进行“再 编码”。“再编码”是为了方便数据处理,对原编码的有效补充,有时还是对原编码 的调整修改。“再编码”往往伴随着重新归类分组,由于电脑对数字型数据的偏爱, 以及某些统计分析程序只能处理数字型数据,因此经过再编码,数据处理更方便, 更可行。 但对于问卷调查来说,开放性问题出现的较少。从功能的角度来看开放性问题 是对封闭式问题的补充
4 Q1.请问您通常在什么地方购买日常用品?[多 小杂货店/便民店 „„„„„„„„.1 仓储/超市 „„„„„„„„„„„.2 商场内超 市„„„„„„„„„„„3 百货商场„„„„„„„„„„„„4 零售摊点„„„„„„„„„„„„ 5 批发市场„„„„„„„„„„„„6 直销/邮购 „„„„„„„„„„„.7 网上购 买„„„„„„„„„„„„8 其他„„„„„„„„„„„„„„9 封闭式问题的调查问卷,在问 卷回收后就可以直接录入电脑,这对调查来说是非常便捷有效的。所以正常的问卷 调查都尽可能的使用封闭式问题。即便是那些事先不容易知道答案的问题,如购买 某商品的地点类型、使用某种商品的主要原因等也可采用此类形式,但通常会在封 闭式问题的答案中增加一个“其它”选项,就是为了保证所有的被访者在回答问题 时都有合适的被选对象,并且这个选项被选择的机会应当是可以预见到很少的,不 会超过主要答案被选择的机会。 二、开放式问题的编码方法 还有一些问题问卷设计者在设计问卷时是不完全知道答案的,这样的问题在问 卷中一般有两种形式。一种是只有问题没有备选答案,称作完全开放式问题。例 如: Q2.请问您不喜欢吃巧克力的原因有哪些?(需要追问) 另一种是有部分备选答案同时还有要求被访者注明的“其它”选项,称作半开 放式问题或隐含的开放式问题。例如: Q3.请问对于**产品,您愿意接受什么样的促销活动?[多选] 免费试用„„„„„„„„„„„„1 价格打折„„„„„„„„„„„„2 赠送相关产品„„„ „„„„„„„3 礼品盒/礼品包 „„„„„„„„„4 抽奖„„„„„„„„„„„„„„5 会员式活动„„„„„ „„„ „„„ 6 集旧包装换取新产品、奖品等„„„ 7 其 他 [ 请 注 明]_ 对于开放性问题,被访者需要用文字来叙述自 己的回答。问卷回收后这些答案不能马上录入电脑,需要后期的人员对其进行“再 编码”。“再编码”是为了方便数据处理,对原编码的有效补充,有时还是对原编码 的调整修改。“再编码”往往伴随着重新归类分组,由于电脑对数字型数据的偏爱, 以及某些统计分析程序只能处理数字型数据,因此经过再编码,数据处理更方便, 更可行。 但对于问卷调查来说,开放性问题出现的较少。从功能的角度来看开放性问题 是对封闭式问题的补充
2、开放式问题的编码步骤 对回收问卷的再编码主要是针对开放式问题的。开放性问题的编码工作需要进 行4个步骤才能进行数据的录入: 第一步、录入答案。由于录入技术的进步,传统上让调查人员对着问卷逐条寻 找不同答案并列在一份大清单上的烦琐做法应当废止,而代之以全部录入答案,然 后再按照下列步骤实施编码。 第二步、尝试用不同方法对录入的答案进行排序、归类(许多软件例如excel、 foxpro、spss甚至word的汉字版等都有按笔画和拼音排序的功能),并结合主观判 断,然后合并意思相近的答案。并且对明显相同的答案统计其出现的次数。例 如:Q4.请问您不喜欢吃巧克力的原因有哪些? 原因 次数 价格不合理 5 价格有点贵 4 糖多怕胖 10 因为体重增加8 8 热量高,怕发胖 8 妈妈说上火 4 天气太热了,易上火 15 天气热想吃清淡的 价格原因 第三步、编码人员及问卷设计者根据调查的目的对抄出的答案进一步归纳,形成类 别数量适当的“编码表”。以上题为例,归纳的结果如下表: 编码表 合并原因 编码 价格不合理 担心发胖 2
5 2、开放式问题的编码步骤 对回收问卷的再编码主要是针对开放式问题的。开放性问题的编码工作需要进 行 4 个步骤才能进行数据的录入: 第一步、录入答案。由于录入技术的进步,传统上让调查人员对着问卷逐条寻 找不同答案并列在一份大清单上的烦琐做法应当废止,而代之以全部录入答案,然 后再按照下列步骤实施编码。 第二步、尝试用不同方法对录入的答案进行排序、归类(许多软件例如 excel、 foxpro、spss 甚至 word 的汉字版等都有按笔画和拼音排序的功能),并结合主观判 断,然后合并意思相近的答案。并且对明显相同的答案统计其出现的次数。例 如: Q4.请问您不喜欢吃巧克力的原因有哪些? 原因 次数 价格不合理 5 价格有点贵 4 糖多怕胖 10 因为体重增加 8 8 热量高,怕发胖 8 妈妈说上火 4 天 气太热了,易上火 15 天气热想吃清淡的 6 价格原因 1 。 第三步、编码人员及问卷设计者根据调查的目的对抄出的答案进一步归纳,形成类 别数量适当的“编码表”。以上题为例,归纳的结果如下表: 编码表 合并原因 编码 价格不合理 1 担心发胖 2