本”来代表和说明总体;②节省人力,物力和时间;③以样本推断总体的误差可 以事先计算并加以控制;④调査的精确度髙。由于其上述众多优点,所以在流行 病学调查中占有重要的地位,是最常用的方法。抽样调查可以用于描述疾病的分 布、衡量卫生水平、研究影响因素、考核防治效果以及调査质量控制等。 缺点:①它毕竟是一种非全面调査方法,只能提供说明整个总体情况的统 计资料,而不能提供说明各级情况的资料;②抽样调査的设计、实施与资料分析 比较复杂,存在抽样误差和偏倚,不适用于变异过大的资料;③不适用于发病率 过低的疾病等 5.抽样方法依照抽样调查的理论依据和特点,可将其分为以下几类 (1)单纯随机抽样( simple ranom sampling):是最基本的抽样的方法,也 是其他抽样方法的基础。它按随机化的原理,直接从含有N个单位的总体中, 抽出n个单位作为样本进行调查。这种方法的基本原则是每个抽样单元被抽中选 入样本的机会是相等的 单纯随机抽样首先要有一份所有研究对象排列成序的编号名单,再用抽签、 摸球、随机数字法、电子计算机抽取等方法随机选出进入样本的号码,已经入选 的号码一般不能再次列入,直到达到预定的样本含量为止 例如某县有31个乡镇,欲从中抽取3个乡镇作调查,可以先将31个乡镇 进行编号(1号~31号),制作31张大小完全相同的纸片,把1~31数字分别写到 31张纸片上,然后将纸片揉成球状,全部放入一个纸箱中完全混匀,在任何人 都看不见的情况下摸出3个纸团,其上的3个数字所对应的乡镇即为所抽取的样 本 此法的优点是实施简单、易理解;其缺点是抽样范围较大时,工作量太大 难以采用,但当抽样比例较小而样本含量较小时,所得样本代表性差 (2)系统抽样( systematic sampling):又称机械抽样或等距抽样。它是把 总体中的全部调查单位按某一标志排列起来,按固定顺序和间隔抽取样本。例如, 拟选一个5%的样本(即抽样比为120),可先从1~20之间随机选一个数,设为 14,这就是选出的起点,再加上20,得34,34加20得54, 这样,14, 34,54,74,94就是前100号中入选的数字,以后依此类推。 系统抽样优点是简便易行,样本的观察单位在总体中分布均匀,抽样代表 性较好,抽样误差与单纯随机抽样相似或略小一些。缺点是如果总体各单元的排 列顺序有周期性,则抽取的样本可能有偏倚。比如在某街道以门牌号码的顺序抽 取调查对象,大多数街道的门牌号码单数在街道的同一侧,双数号码在另一侧, 那么用系统抽样方法时可能出现这样的情况:所抽到的对象均在街道的同一侧, 而街道的两侧有许多因素是不同的(如日晒、采光、通风等),如果这些因素对 某些疾病的发生有影响,那么抽到的样本的发病情况可能与总体有差异。再比如 身份证号码的末位数字男为单数、女为双数,如果以该数字为基础进行系统抽样, 6
6 本”来代表和说明总体;②节省人力,物力和时间;③以样本推断总体的误差可 以事先计算并加以控制;④调查的精确度高。由于其上述众多优点,所以在流行 病学调查中占有重要的地位,是最常用的方法。抽样调查可以用于描述疾病的分 布、衡量卫生水平、研究影响因素、考核防治效果以及调查质量控制等。 缺点:①它毕竟是一种非全面调查方法,只能提供说明整个总体情况的统 计资料,而不能提供说明各级情况的资料;②抽样调查的设计、实施与资料分析 比较复杂,存在抽样误差和偏倚,不适用于变异过大的资料;③不适用于发病率 过低的疾病等。 5.抽样方法 依照抽样调查的理论依据和特点,可将其分为以下几类。 (1)单纯随机抽样(simple ranom sampling):是最基本的抽样的方法,也 是其他抽样方法的基础。它按随机化的原理,直接从含有 N 个单位的总体中, 抽出 n 个单位作为样本进行调查。这种方法的基本原则是每个抽样单元被抽中选 入样本的机会是相等的。 单纯随机抽样首先要有一份所有研究对象排列成序的编号名单,再用抽签、 摸球、随机数字法、电子计算机抽取等方法随机选出进入样本的号码,已经入选 的号码一般不能再次列入,直到达到预定的样本含量为止。 例如某县有 31 个乡镇,欲从中抽取 3 个乡镇作调查,可以先将 31 个乡镇 进行编号(1 号~31 号),制作 31 张大小完全相同的纸片,把 1~31 数字分别写到 31 张纸片上,然后将纸片揉成球状,全部放入一个纸箱中完全混匀,在任何人 都看不见的情况下摸出 3 个纸团,其上的 3 个数字所对应的乡镇即为所抽取的样 本。 此法的优点是实施简单、易理解;其缺点是抽样范围较大时,工作量太大 难以采用,但当抽样比例较小而样本含量较小时,所得样本代表性差。 (2)系统抽样(syetematic sampling):又称机械抽样或等距抽样。它是把 总体中的全部调查单位按某一标志排列起来,按固定顺序和间隔抽取样本。例如, 拟选一个 5%的样本(即抽样比为 1/20),可先从 1~20 之间随机选一个数,设为 14,这就是选出的起点,再加上 20,得 34,34 加 20 得 54,……。这样,14, 34,54,74,94 就是前 100 号中入选的数字,以后依此类推。 系统抽样优点是简便易行,样本的观察单位在总体中分布均匀,抽样代表 性较好,抽样误差与单纯随机抽样相似或略小一些。缺点是如果总体各单元的排 列顺序有周期性,则抽取的样本可能有偏倚。比如在某街道以门牌号码的顺序抽 取调查对象,大多数街道的门牌号码单数在街道的同一侧,双数号码在另一侧, 那么用系统抽样方法时可能出现这样的情况:所抽到的对象均在街道的同一侧, 而街道的两侧有许多因素是不同的(如日晒、采光、通风等),如果这些因素对 某些疾病的发生有影响,那么抽到的样本的发病情况可能与总体有差异。再比如 身份证号码的末位数字男为单数、女为双数,如果以该数字为基础进行系统抽样
那么可能抽到的调查对象均为男性或均为女性。因此必须事先对总体的结构有所 了解才能恰当地应用。 (3)分层抽样( stratified sampling):它是把调查总体按一定的标准分为若 干类型,然后从每一类中按照相同的或不同的比例随机抽取样本。即先按照某些 人口学特征或某些标志(如年龄、性别、住址、职业、教育程度、民族等)将硏 究人群分为若干组(统计学上称为层),然后从每层抽取一个随机样本。分层抽 样又分为两类:一类叫按比例分配分层随机抽样,即各层内抽样比例相同:另 类叫最优分配分层随机抽样(或称不等比例分层随机抽样),即各层抽样比例不 同,内部变异小的层抽样比例小,内部变异大的层抽样比例大,此时获得的样本 均数或样本率的方差最小。 从分布不均匀的研究人群中抽取有代表性样本的方法。要求层内变异越小 越好,层间变异越大越好,因而可以提高每层的精确度,而且便于层间进行比较。 (4)整群抽样( cluster sampling):利用现成的集体,随机地一群一群地抽 取集体单位,加以研究,由此推断总体的情况,称为整群抽样。用此法抽样时 抽样单位不是个体而是群体,如居民区、班级、连队、乡、村、县、工厂、学校 等。抽到的样本包括若干个群体,对群体内所有个体均进行调査。群体内个体数 可以相等,也可以不等。 整群抽样要求群间的变异越小越好,否则抽样误差较大,不能提供总体的 可靠信息 这种方法的优点是便于组织,节约人力、物力,抽样和调查均比较方便, 在实际工作中易为群众所接受,因而适合大规模调査。缺点是抽样误差较大,分 析工作量也较大 (5)两级或多级抽样( two-stage or multi- stage sampling):这是大型调查时 常用的一种抽样方法。从总体中先抽取范围较大的单元,称为一级抽样单元(例 如县、市),再从抽中的一级单元中抽取范围较小的二级单元(如区、街),这就 是两级抽样。还可依次再抽取范围更小的单元,即为多级抽样。 多级抽样常与上述各种基本抽样方法结合使用 5.抽样调查样本大小的确定 (1)确定抽样调查样本大小时应根据以下几点,①考虑总体与个体之间 差异程度,如果硏究单位之间的变异较大,样本则要大些,如其间均衡性较好, 则样本可以小些;②考虑调査要求达到的精确和可信程度,调査要求的精确度髙 些,样本量就要大。反之,样本量不必过大;③预计所调查疾病的患病率,如现 患率低,则样本量要大。反之,样本可小些;④考虑调查的项目和任务的要求情 况:⑤不同的抽样方法,各种抽样方法的抽样误差有差异,所以其样本量的大小 各有要求,在此我们仅介绍单纯随机抽样的样本量估计方法。 (2)样本量大小的估计
7 那么可能抽到的调查对象均为男性或均为女性。因此必须事先对总体的结构有所 了解才能恰当地应用。 (3)分层抽样(stratified sampling):它是把调查总体按一定的标准分为若 干类型,然后从每一类中按照相同的或不同的比例随机抽取样本。即先按照某些 人口学特征或某些标志(如年龄、性别、住址、职业、教育程度、民族等)将研 究人群分为若干组(统计学上称为层),然后从每层抽取一个随机样本。分层抽 样又分为两类:一类叫按比例分配分层随机抽样,即各层内抽样比例相同;另一 类叫最优分配分层随机抽样(或称不等比例分层随机抽样),即各层抽样比例不 同,内部变异小的层抽样比例小,内部变异大的层抽样比例大,此时获得的样本 均数或样本率的方差最小。 从分布不均匀的研究人群中抽取有代表性样本的方法。要求层内变异越小 越好,层间变异越大越好,因而可以提高每层的精确度,而且便于层间进行比较。 (4)整群抽样(cluster sampling):利用现成的集体,随机地一群一群地抽 取集体单位,加以研究,由此推断总体的情况,称为整群抽样。用此法抽样时, 抽样单位不是个体而是群体,如居民区、班级、连队、乡、村、县、工厂、学校 等。抽到的样本包括若干个群体,对群体内所有个体均进行调查。群体内个体数 可以相等,也可以不等。 整群抽样要求群间的变异越小越好,否则抽样误差较大,不能提供总体的 可靠信息。 这种方法的优点是便于组织,节约人力、物力,抽样和调查均比较方便, 在实际工作中易为群众所接受,因而适合大规模调查。缺点是抽样误差较大,分 析工作量也较大。 (5)两级或多级抽样(two-stage or multi-stage sampling):这是大型调查时 常用的一种抽样方法。从总体中先抽取范围较大的单元,称为一级抽样单元(例 如县、市),再从抽中的一级单元中抽取范围较小的二级单元(如区、街),这就 是两级抽样。还可依次再抽取范围更小的单元,即为多级抽样。 多级抽样常与上述各种基本抽样方法结合使用。 5.抽样调查样本大小的确定 (1)确定抽样调查样本大小时应根据以下几点,①考虑总体与个体之间的 差异程度,如果研究单位之间的变异较大,样本则要大些,如其间均衡性较好, 则样本可以小些;②考虑调查要求达到的精确和可信程度,调查要求的精确度高 些,样本量就要大。反之,样本量不必过大;③预计所调查疾病的患病率,如现 患率低,则样本量要大。反之,样本可小些;④考虑调查的项目和任务的要求情 况;⑤不同的抽样方法,各种抽样方法的抽样误差有差异,所以其样本量的大小 各有要求,在此我们仅介绍单纯随机抽样的样本量估计方法。 (2)样本量大小的估计