第十章系统抽样 众所周知,计算机在抽样过程中起着十分重要的作用。多 例如,前面提出利用讦算机产生随机数,当然我们知道它 生的是“伪”随机数。本章所讨论的系统抽样在抽样过程中 选择使用计算机将是十分方便的。 所谓系统抽样,就是将总体中N个单元按照随机方式( 有时也按某种特定的规则)编号为1,2,…,N,若想抽取 n个样本,不妨假设Nn=k为整数,利用计算机可以立即将 这N个单元排成n行k列的矩阵,再从1~k之间随机地产生 个随机数i,则取第i列的全体单元作为样本。这种方 法看起来似乎很“机械”,因此有时候也称为“机械抽样” 然而由于数值“i”是随机产生的,那么所得到的样本具 有一定的随机性
第十章 系统抽样 所谓系统抽样,就是将总体中N个单元按照随机方式( 有时也按某种特定的规则)编号为1,2,…,N,若想抽取 n 个样本,不妨假设N/n=k为整数,利用计算机可以立即将 这N个单元排成n 行k 列的矩阵,再从1~k之间随机地产生 一个随机数i ,则取第 i 列的全体单元作为样本。这种方 法看起来似乎很“机械”,因此有时候也称为“机械抽样” 。然而由于数值“i ”是随机产生的,那么所得到的样本具 有一定的随机性。 众所周知,计算机在抽样过程中起着十分重要的作用。 例如,前面提出利用计算机产生随机数,当然我们知道它产 生的是“伪”随机数。本章所讨论的系统抽样在抽样过程中 选择使用计算机将是十分方便的
但在实际中,总体的N个单元的编号并非完全随机的, 常常带有一定的规律性,例如按照居住地区、工作性质等等 的编号,有时也常常利用一些个体原有的编号诸如学生 的学号等。此时,系统抽样的随机性就与最有代表性的简单 随机抽样存在一定的差距。 §1系统抛桿的痞干习性 考察N=nk这种最简单的情形,从总体中实施容量为n的 系统抽样相当于从k列中随机地任取一列,显然每一列被选中 圆的概率是一样的,从而总体中每个单元入样的概率均相等, 这是N=nk时系统抽样的基本习性
但在实际中,总体的N个单元的编号并非完全随机的, 常常带有一定的规律性,例如按照居住地区、工作性质等等 的编号,有时也常常利用一些个体原有的编号——诸如学生 的学号等。此时,系统抽样的随机性就与最有代表性的简单 随机抽样存在一定的差距。 考察N=nk这种最简单的情形,从总体中实施容量为n 的 系统抽样相当于从k 列中随机地任取一列,显然每一列被选中 的概率是一样的,从而总体中每个单元入样的概率均相等, 这是N=nk时系统抽样的基本习性。 §1 系统抽样的若干习性
当N≠m时,用上述计算机排列抽样的方法就不能保证 各单元入样的概率相同,因为有些列有n个单元,有些列不 足n个单元,当列不足n时,通常在后再接上Y1,2,依 原来顺序再排列下去,直到第n行填满单元为止,这样任取 的一列恰好保证有n个样本。但是,这样产生的后果是增大 了某些单元入样的概率。但当n足够大时(例如n≥50), 这时N/n不为整数所带来的问题并不大,因此,在以后需 要n比较大时,我们总是假设N是n的整数倍。 我们注意到一个有趣的事实:当用计算机将N个单元排 成k列n行时,实际上相当于将总体分为k层(或群),系 统抽样相当于从k个群中随机地抽出一个群进行整群抽样。 这是最简单的整群抽样!因此,在讨论系统抽样的参数估计 时,很多场合将引用整群抽样的一些现成结果
当 时,用上述计算机排列抽样的方法就不能保证 各单元入样的概率相同,因为有些列有n 个单元,有些列不 足 n 个单元,当列不足n 时,通常在 后再接上 ,依 原来顺序再排列下去,直到第n 行填满单元为止,这样任取 的一列恰好保证有 n 个样本。但是,这样产生的后果是增大 了某些单元入样的概率。但当n 足够大时(例如 ), 这时 不为整数所带来的问题并不大,因此,在以后需 要 n 比较大时,我们总是假设N 是 n 的整数倍。 N nk YN 1 2 Y Y, , N n n 50 我们注意到一个有趣的事实:当用计算机将N 个单元排 成 k 列 n 行时,实际上相当于将总体分为k 层(或群),系 统抽样相当于从k 个群中随机地抽出一个群进行整群抽样。 这是最简单的整群抽样!因此,在讨论系统抽样的参数估计 时,很多场合将引用整群抽样的一些现成结果
系统抽样在实际工作中很受调研工作者的欢迎。首先在 于它的实施方便,同时还能保证样本一定程度的代表性。有 时候使用系统抽样不必重新编制抽样框,尤其是在被调查单 元具有自然顺序排列的时侯,例如流水线上生产的产品每隔 k个抽查一次,只要第一件受检查产品确定以后,余下的抽 查工作将有条不紊地进行。 比如,对上海地区的车辆进行某种特性的抽样检测就可 以对车辆牌照采用系统抽样,譬如车牌号码尾数为39的车辆 必须到检测所参加测试就是每100个单元中抽一个系统抽样 如果总体中单元原来的排列呈现一定的规律性甚至周期 性,依赖于这些排列的系统抽样会产生效果很差的可能。系 统抽样的另一个不足之处在于,在实际中被认为行之有效的 系统抽样一般不是严格的概率抽样,估算估计量的方差有较 大困难
系统抽样在实际工作中很受调研工作者的欢迎。首先在 于它的实施方便,同时还能保证样本一定程度的代表性。有 时候使用系统抽样不必重新编制抽样框,尤其是在被调查单 元具有自然顺序排列的时侯,例如流水线上生产的产品每隔 k 个抽查一次,只要第一件受检查产品确定以后,余下的抽 查工作将有条不紊地进行。 比如,对上海地区的车辆进行某种特性的抽样检测就可 以对车辆牌照采用系统抽样,譬如车牌号码尾数为39的车辆 必须到检测所参加测试就是每100 个单元中抽一个系统抽样 如果总体中单元原来的排列呈现一定的规律性甚至周期 性,依赖于这些排列的系统抽样会产生效果很差的可能。系 统抽样的另一个不足之处在于,在实际中被认为行之有效的 系统抽样一般不是严格的概率抽样,估算估计量的方差有较 大困难
§2估计量与方差 既然将总体单元排列成n×k的矩阵,因此总体中各单 元的下标也有所改动以便于讨论与表达,见下表: 12 k行平均 12 lk 2 21 Y2 2k F, 2 Y 2 nk 列平均2…卫 k
§2 估计量与方差 既然将总体单元排列成 的矩阵,因此总体中各单 元的下标也有所改动以便于讨论与表达,见下表: n k Y Y Y Y • • • • 1 2 i k Y1• Y2• Yn• 1 2 i k Y Y Y Y 11 12 1 1 i k Y Y Y Y 21 22 2 2 i k Y Y Y Y n n ni nk 1 2 1 2 n 行平均 列平均