其实调查人员的素质,调查问题的拟定,被调查人员 的文化素质等等都对无回答率有一定影响。每件抽样调查, 我们需要力求低比率的无回答现象,从目前来看,完全避 免无回杏现蔡是不可能的。对无回答现象产生酌菲抽样 误差我们关心的是 1、问卷的回收率 调查报告一般要求列出回收率,尤其是通过邮寄方式 进行的调查,更需如此。因为回收率的高低将有力地论证 调查的成功与否。 对回收率的分析将有助于在无回答现象较严重的情况 下进行数据分析,同时也有助于分析出哪些对象是可以再 访问从而采取多次访问的手段尽量减少无回答率。 2、如何进行数据分析
其实调查人员的素质,调查问题的拟定,被调查人员 的文化素质等等都对无回答率有一定影响。每件抽样调查, 我们需要力求低比率的无回答现象,从目前来看,完全避 免无回答现象是不可能的。对于无回答现象产生的非抽样 误差我们关心的是: 1、问卷的回收率 调查报告一般要求列出回收率,尤其是通过邮寄方式 进行的调查,更需如此。因为回收率的高低将有力地论证 调查的成功与否。 对回收率的分析将有助于在无回答现象较严重的情况 下进行数据分析,同时也有助于分析出哪些对象是可以再 访问从而采取多次访问的手段尽量减少无回答率。 2、如何进行数据分析
设抽样容量为n,无回答个数为2,那么我们的实际 调查量为n1=n-n2。根据n1个有效数据分析将比原定的 计划少了很多信息。如果这n1个访问到的对象是从原定的 对象中随杌无放卣地插取的,那么推断的结果攴是精度上 的损失,至于估计量的一些良好性质,例如无偏性等仍然 保留。 然而事情并非这样地如意,无回答者常常拥有某些特 征以致对调查的问题持有特定的态度,因此依据n个回答 数据所作出的推断往往带有偏性。以总体平均数的估计为 例,我们面临的情况相当于总体中N个单元划分为两部 分:N1-回答者,N2无回答者。倘若抽样方式是 简单随机的,那么1与n的比例理应相当于N与N的比例。 这两部分的平均数分别记为和】1,】是总体平均数为 N Y=当y+ N N N Y2△W1H1+W2Y2(12.1)
设抽样容量为 n ,无回答个数为 , 那么我们的实际 调查量为 。根据 个有效数据分析将比原定的 计划少了很多信息。如果这 个访问到的对象是从原定的 对象中随机无放回地抽取的,那么推断的结果只是精度上 的损失,至于估计量的一些良好性质,例如无偏性等仍然 保留。 n2 n n n 1 2 = − n1 n1 然而事情并非这样地如意,无回答者常常拥有某些特 征以致对调查的问题持有特定的态度,因此依据 个回答 数据所作出的推断往往带有偏性。以总体平均数的估计为 例,我们面临的情况相当于总体中N 个单元划分为两部 分: ——回答者, ——无回答者。倘若抽样方式是 简单随机的,那么 与 的比例理应相当于 与 的比例。 这两部分的平均数分别记为 和 ,于是总体平均数为: n1 N1 N2 2 N1 N2 n n1 1 Y2 Y 1 2 1 2 1 1 2 2 N N Y Y Y W Y W Y N N = + + (12.1)
根据“回答者”部分的平均猕的无偏估计,用估趼 显然会产生偏倚: 27=19+(2 这个偏倚中,W2与H是可以利用调查得到的数据进行估计 的,但是由于“无回答”Y2是根本无法获知其信息的,因止 要对估计量y给于“纠偏”,其难度极大,尤其是萜较大际 也就是“无回答者”占有相当大比例时,莲的置信限都难于 得到。 在有些实例中,人们只能对偏倚作出一些猜测,这些 猜测有时候可以根据一些历史的资料作出,有一定的参考 价值;但是有时候凭主观作出的猜测无法证实其正确性, 因此利用它来“纠偏”缺乏依据也缺乏精确度,这显然归 因于无回答现象带来的恶果
根据“回答者”部分的平均数 是 的无偏估计,用 估计 显然会产生偏倚: 1 y 1 y Y1 Y 1 1 1 2 2 2 2 1 Y Y W Y W Y W Y Y − = − + = − ( 1) ( ) (12.2) 这个偏倚中, 与 是可以利用调查得到的数据进行估计 的,但是由于“无回答” , 是根本无法获知其信息的,因此 要对估计量 给于“纠偏”,其难度极大,尤其是在 较大时 也就是“无回答者”占有相当大比例时,连 的置信限都难于 得到。 W2 Y1 Y2 1 y W2 Y2 在有些实例中,人们只能对偏倚作出一些猜测,这些 猜测有时候可以根据一些历史的资料作出,有一定的参考 价值;但是有时候凭主观作出的猜测无法证实其正确性, 因此利用它来“纠偏”缺乏依据也缺乏精确度,这显然归 因于无回答现象带来的恶果
然而在用计算机处理抽样数据时,不单单是简单地用1 去代替Y或者最多给出一定量的纠偏。众所周知,抽样调 查一般不止问一个问题,我们的问卷经常围绕调查的且的 而设置一系列问题,我们遇到的无回答现象经常表现为: 全部问题无回答或部分问题无回答。在部分问题无回答者 中,将会呈现回答问题的多少以及哪些问题无回答的复杂 情况,这给计算机处理及整体推断带来一定的困难。有些 学者提出对于这样的“丢失”数据能否人为地补缺,如果 对无回答对象一无所知的情况下,我们可以采取下述措施: (1)对某些问题无回答的数据以该问题回答数据的平 均数来代替; (2)从对某问题回答的n个数据中作n2次随机有放回 的抽样,以填补n2个无回答者的数据
(1)对某些问题无回答的数据以该问题回答数据的平 均数来代替; (2)从对某问题回答的 个数据中作 次随机有放回 的抽样,以填补 个无回答者的数据。 n1 n2 n2 然而在用计算机处理抽样数据时,不单单是简单地用 去代替 或者最多给出一定量的纠偏。众所周知,抽样调 查一般不止问一个问题,我们的问卷经常围绕调查的目的 而设置一系列问题,我们遇到的无回答现象经常表现为: 全部问题无回答或部分问题无回答。在部分问题无回答者 中,将会呈现回答问题的多少以及哪些问题无回答的复杂 情况,这给计算机处理及整体推断带来一定的困难。有些 学者提出对于这样的“丢失”数据能否人为地补缺,如果 对无回答对象一无所知的情况下,我们可以采取下述措施: Y1 Y
上述做法还是相当于从吗个回答者的数据出发对总体 作出推断,但是在计算机上整体考虑来说是作为n个样本 来处理的,绘整体全再的推断带来某种方便,县也县有 定台理性,因为我们的抽样调查本身是要求n不均有回客 的。然而这样的处理在精度上如何计算,或者说新构成的 估计量方差如何估计,国外的一些统计学家曾作过研究与 进一步的探索。 3、多次访问 为了缩小无回答所引起的偏差,减少无回答的数量, 有必要采取一些措施,例如对访问者的培训,对敏感问题 的适当处理以消除被访问者的疑虑,调查前作好充分的准 备工作等等,采用多次访问是个有效的方法。当然,对于 那些“坚决拒绝回答者”来说,多次访问很难奏效,但是 对于那些“不在家”或“不能回答”原因的无回答者应当 有不小的作用
上述做法还是相当于从 个回答者的数据出发对总体 作出推断,但是在计算机上整体考虑来说是作为 个样本 来处理的,给整体全面的推断带来某种方便,且也具有一 定合理性,因为我们的抽样调查本身是要求 个均有回答 的。然而这样的处理在精度上如何计算,或者说新构成的 估计量方差如何估计,国外的一些统计学家曾作过研究与 进一步的探索。 n1 n n 3、多次访问 为了缩小无回答所引起的偏差,减少无回答的数量, 有必要采取一些措施,例如对访问者的培训,对敏感问题 的适当处理以消除被访问者的疑虑,调查前作好充分的准 备工作等等,采用多次访问是个有效的方法。当然,对于 那些“坚决拒绝回答者”来说,多次访问很难奏效,但是 对于那些“不在家”或“不能回答”原因的无回答者应当 有不小的作用