第四章分层抽样 §1分居抽样及估针量 简单随机抽样是最基本的抽样手段,在一些小型的抽样 调查中被人们采纳。所谓小型是指总体容量N较小,当总体 容量N较大时,不便采用简单随机抽样方法。这时,分层抽 样将起到作用。 根据调查的要求,将总体N划分为若干个子总体1,N2 N(通常用总体或子总体的容量大小来表示总体或子 总体本身),实质上是将总体分为k层。独立地在各层中 进行抽样,称为分层抽样。如果在各层中的抽样都是简单随 机进行,则称为分层随机抽样,所得的样本称为分层随机样 本 总体如何分层是一门学问
§1 分层抽样及估计量 简单随机抽样是最基本的抽样手段,在一些小型的抽样 调查中被人们采纳。所谓小型是指总体容量N 较小,当总体 容量N 较大时,不便采用简单随机抽样方法。这时,分层抽 样将起到作用。 第四章 分 层 抽 样 根据调查的要求,将总体 N 划分为若干个子总体 (通常用总体或子总体的容量大小来表示总体或子 总体本身),实质上是将总体分为 k 层。独立地在各层中 进行抽样,称为分层抽样。如果在各层中的抽样都是简单随 机进行,则称为分层随机抽样,所得的样本称为分层随机样 本。 , , N1 N2 Nk , 总体如何分层是一门学问
般来说,按照调查的目的要求,从地区、民族、指标 的反映程度等因素出发考虑分层。因为一项社会经济调查, 常常不仅需对总体的有关参数进行估计,而且对一定群体的 一一 相应参数也需要估计。例如,调查全国的消费物价指数,同 时想知道各省市的消费物价指数,根据这种要求自然以全国 所有省市作为层来进行抽样。如果我们希望在样本中有某些 子总体的代表,比如前面所讲的民族的代表,那么分层就要 考虑到这些子总体作为独立的层。 应当注意,按照某种因素或特征进行分层时,各层之间 具有明显的区分界限将会提高估计的精度。样本既然考虑到 各种类型的代表性,那么这样获取的样本就更能代表总体, 直观告诉我们,这种样本用来估计总体会达到较小的误差
一般来说,按照调查的目的要求,从地区、民族、指标 的反映程度等因素出发考虑分层。因为一项社会经济调查, 常常不仅需对总体的有关参数进行估计,而且对一定群体的 相应参数也需要估计。例如,调查全国的消费物价指数,同 时想知道各省市的消费物价指数,根据这种要求自然以全国 所有省市作为层来进行抽样。如果我们希望在样本中有某些 子总体的代表,比如前面所讲的民族的代表,那么分层就要 考虑到这些子总体作为独立的层。 应当注意,按照某种因素或特征进行分层时,各层之间 具有明显的区分界限将会提高估计的精度。样本既然考虑到 各种类型的代表性,那么这样获取的样本就更能代表总体, 直观告诉我们,这种样本用来估计总体会达到较小的误差
各层中的抽样是独立进行的。这一事实还包括在各层中 所采取的抽样手段完全可以不相同,在一个层进行简单随机 抽样,在另一层则可采用更复杂一些的抽样,完全视各层的 情况不茼而是,这种因地制宜的手段将使样本点可能反映总 体的特性以及子总体的特性。 现在考虑分层抽样的具体估计方法,首先引进一些符号 1、符号 总体N=子总体N∪子总体N2∪…子总体Nk N=∑M h=1 第h层的单元标志值记为Yn(=1,2,…,N),从该层抽 取的样本记为J(=1,2,…,n),第h层子总体的总体平均 数为Yb,子总体之和为Y,样本平均数记为yh,其和Vn
各层中的抽样是独立进行的。这一事实还包括在各层中 所采取的抽样手段完全可以不相同,在一个层进行简单随机 抽样,在另一层则可采用更复杂一些的抽样,完全视各层的 情况不同而定,这种因地制宜的手段将使样本尽可能反映总 体的特性以及子总体的特性。 现在考虑分层抽样的具体估计方法,首先引进一些符号 1、符号 总体N= 子总体N1 子总体N2 子总体Nk = = k h N Nh 1 第 h 层的单元标志值记为 ,从该层抽 取的样本记为 ,第 h 层子总体的总体平均 数为 ,子总体之和为 ,样本平均数记为 ,其和 ( 1,2, , ) hi Nh Y i = ( 1,2, , ) hi nh y i = Yh Yh ~ h y h y ~
再记W=N/N,表示第h层在总体中的权重,一般假定它 是已知的。f=n1/N表示h层中的抽样比。 S=∑(m-1)(N-1)第h层层内方差 s=∑(n-)/(n1-1)第h层样本方差 i=1 2、参数的估计量 假定我们想估计总体的平均数Y,获取的样本是分层 随机样本。将Y写为: F=1∑r=1E∑x=1EN,=∑W i=1 h=1 (4.1)
再记 ,表示第 h 层在总体中的权重,一般假定它 是已知的。 表示 h 层中的抽样比。 Wh = Nh N h h Nh f = n ( ) ( 1) 1 2 2 = − − = h N i Sh Yhi Yh N h 第 h 层层内方差 ( ) ( 1) 1 2 2 = − − = h n i sh yhi yh n h 第 h 层样本方差 2、参数的估计量 假定我们想估计总体的平均数 ,获取的样本是分层 随机样本。将 写为: Y Y = = = = = k h N i hi N i i h Y N Y N Y 1 1 1 1 1 = = k h Nh Yh N 1 1 = = k h Wh Yh 1 (4.1)
从盒子模型观点看,这是一个大盒子装有k个小盒子,第h 个小盒子中的单元值是n,Yn2,…,YhN,小盒子的平均数 是,方差是Sb该小盒子在大盒子里所占的权为形已,分 层随机抽样是指从每个小盒子里按一定份额nh=1,2,…,k n1+m2+…+nk=n)作随机无放回抽样。 由第三章知道,yh是Y的无偏估计量,因此,由(41)式 可知,Y的一个无偏估计量自然地选为: ,=∑W(或N∑N)(42) = 总体总和y的无偏估计可选为 k n,=N1=N∑W=∑N(43) =1
从盒子模型观点看,这是一个大盒子装有 k 个小盒子,第h 个小盒子中的单元值是 ,小盒子的平均数 是 ,方差是 ,该小盒子在大盒子里所占的权为 ,分 层随机抽样是指从每个小盒子里按一定份额 ( )作随机无放回抽样。 h h hNh Y 1 ,Y 2 , ,Y Yh 2 Sh Wh nh n1 + n2 ++ nk = n h = 1,2, ,k 由第三章知道, 是 的无偏估计量,因此,由(4.1)式 可知, 的一个无偏估计量自然地选为: h y Yh Y = = k h st h h y W y 1 = = k h h h N y N 1 1 (或 ) (4.2) = = = = = k h h h k h s t s t h h y N y N W y N y 1 1 ~ (4.3) 总体总和 Y 的无偏估计可选为: ~