(xk-ak)<x}→ dt 2丌 该定理的含义是:如果一个量是由大量相互独立的随机因素影响所造 成的,而每一个别因素在总影响中所起的作用不很大,则这个量服从或近 似服从正态分布。 4.林德贝尔格定理 设x1,x2,…,xn,…是一个相对独立的随机变量序列,它们具有有 限的数学期望和方差a4=E(x),b2=D(x4)满足林德贝尔格条件则当 时 对任意 有 lim p 1Bn点(x-a4)<x→ d 64抽样误差 641.抽样误差的概念 当总体指标未知时,往往要安排一次抽样调査,然后用抽样调査所获 得的抽样指标的观察值作为总体指标的估计值。这种处理方法是存在一定 误差的,我们把抽样指标与所要估计的总体指标之间的差值称为抽样误差。 抽样误差的大小能够说明抽样指标估计总体指标是否可行,抽样效果是否 理想等调査性问题。常见的抽样误差有:抽样平均数与总体平均数之差 (X-X),抽样成数与总体成数之差(pP) 如某年级100名同学的平均体重X=55kg,现随机地抽取10名同 学为样本,其平均体重x=52kg。若用52kg估计55kg,则误差为52-55 =-3kg,如果重新抽10名同学,若测得X=57kg,则其误差为2kg。这种 只抽取部分样本而产生的误差,都被称为抽样误差。 由本例不难看出,抽样误差既是一种随机性误差,也是一种代表性误 差。说其是代表性误差,是因为利用总体的部分资料推算总体时,不论样 本选取有多么公正,设计多么完善,总还是一部分单位而不是所有单位, 产生误差是无法避免的。说其是随机性误差,是指按随机性原则抽样时, 由于抽样的不同,会得到不同的抽样指标值,由此产生的误差值各不相同。 抽样误差中的代表性误差是抽样调查本身所固有的、无法避免的误差,但
− − = → x − a x e dt B P t x n k k k n 2 1 2 2 1 ( ) 1 该定理的含义是:如果一个量是由大量相互独立的随机因素影响所造 成的,而每一个别因素在总影响中所起的作用不很大,则这个量服从或近 似服从正态分布。 4. 林德贝尔格定理 设 x1,x2,…,xn,…是一个相对独立的随机变量序列,它们具有有 限的数学期望和方差 ( ), ( ) 2 k k k k a = E x b = D x 满足林德贝尔格条件,则当 n →∞时,对任意的 x , 有 − − = → → x − a x e dt B P t x n k k k n n 2 1 2 2 1 ( ) 1 lim 。 6.4 抽样误差 6.4.1. 抽样误差的概念 当总体指标未知时,往往要安排一次抽样调查,然后用抽样调查所获 得的抽样指标的观察值作为总体指标的估计值。这种处理方法是存在一定 误差的,我们把抽样指标与所要估计的总体指标之间的差值称为抽样误差。 抽样误差的大小能够说明抽样指标估计总体指标是否可行,抽样效果是否 理想等调查性问题。常见的抽样误差有:抽样平均数与总体平均数之差 (x − X ),抽样成数与总体成数之差(p- P)。 比如某年级 100 名同学的平均体重 X =55kg,现随机地抽取 10 名同 学为样本,其平均体重 x =52kg。若用 52kg 估计 55kg,则误差为 52-55 =-3 kg,如果重新抽 10 名同学,若测得 x =57kg,则其误差为 2kg。这种 只抽取部分样本而产生的误差,都被称为抽样误差。 由本例不难看出,抽样误差既是一种随机性误差,也是一种代表性误 差。说其是代表性误差,是因为利用总体的部分资料推算总体时,不论样 本选取有多么公正,设计多么完善,总还是一部分单位而不是所有单位, 产生误差是无法避免的。说其是随机性误差,是指按随机性原则抽样时, 由于抽样的不同,会得到不同的抽样指标值,由此产生的误差值各不相同。 抽样误差中的代表性误差是抽样调查本身所固有的、无法避免的误差,但
随杋性误差则可利用大数定律精确地计算并能够通过抽样设计程序扣以控 抽样误差不包括下面两类误差:一类是调查误差,即在调查过程中由 于观察、测量、登记、计算上的差错而引起的误差;另一类是系统性误差, 即由于违反抽样调査的随机原则,有意抽选较好单位或较坏单位进行调查 这样造成样本的代表性不足所引起的误差。这两类误差都属于思想、作风 技术等问题,所以是可以防止和避免的 642.影响抽样误差的因素 1.抽样单位数的多少。由于总体内各元素之间总存在着差异,在其他 条件不变的情况下,大量观察总比小量观察易于发现总体规律或特征,因 此样本容量越大越能代表总体特征,抽样误差就越小。反之,样本容量越 小,抽样误差就可能越大。 2.总体各单位标志值的差异程度。总体内各单位标志的差异程度愈 小,或总体的标准差愈小,在其他条件给定下,则抽样误差就愈小。反之 抽样误差就愈大 3.抽样方法。抽样方法不同,抽样误差也不同。一般说来,重复抽样 的误差比不重复抽样的误差要大。 4.抽样的组织形式。选择不同的抽样组织形式,也会有不同的抽样误 643.抽样平均误差 个总体可能抽取很多个样本,因此样本指标(样本平均数、样本成 数等)就有不同的数值,它们与总体指标(总体平均数、总体成数等)的 离差(即抽样误差)也就不同。抽样平均误差就是反映抽样误差一般水平 的指标,通常用样本平均数(或样本成数)的标准差来表 1.样本平均数的平均误差 以μx表示样本平均数的平均误差,σ表示总体的标准差。根据定义 x2=E(x-X)2 1)当抽样方式为重复抽样时,样本标志值x,x,…x是相互独立的, 样本变量x与总体变量X同分布。所以得: H12=22(6-1)
随机性误差则可利用大数定律精确地计算并能够通过抽样设计程序扣以控 制。 抽样误差不包括下面两类误差:一类是调查误差,即在调查过程中由 于观察、测量、登记、计算上的差错而引起的误差;另一类是系统性误差, 即由于违反抽样调查的随机原则,有意抽选较好单位或较坏单位进行调查, 这样造成样本的代表性不足所引起的误差。这两类误差都属于思想、作风、 技术等问题,所以是可以防止和避免的。 6.4.2. 影响抽样误差的因素 1. 抽样单位数的多少。由于总体内各元素之间总存在着差异,在其他 条件不变的情况下,大量观察总比小量观察易于发现总体规律或特征,因 此样本容量越大越能代表总体特征,抽样误差就越小。反之,样本容量越 小,抽样误差就可能越大。 2. 总体各单位标志值的差异程度。总体内各单位标志的差异程度愈 小,或总体的标准差愈小,在其他条件给定下,则抽样误差就愈小。反之, 抽样误差就愈大。 3. 抽样方法。抽样方法不同,抽样误差也不同。一般说来,重复抽样 的误差比不重复抽样的误差要大。 4. 抽样的组织形式。选择不同的抽样组织形式,也会有不同的抽样误 差。 6.4.3. 抽样平均误差 一个总体可能抽取很多个样本,因此样本指标(样本平均数、样本成 数等)就有不同的数值,它们与总体指标(总体平均数、总体成数等)的 离差(即抽样误差)也就不同。抽样平均误差就是反映抽样误差一般水平 的指标,通常用样本平均数(或样本成数)的标准差来表示。 1. 样本平均数的平均误差 以μx表示样本平均数的平均误差, 表示总体的标准差。根据定义: 2 x 2 =E(x − X) (1)当抽样方式为重复抽样时,样本标志值 x1,x2,…xn 是相互独立的, 样本变量 x 与总体变量 X 同分布。所以得: n x 2 2 = (6–1)
它说明在重复抽样的条件下,抽样平均误差与总体标准差成正比,与 样本容量的平方根成反比 例6-1有5个工人的日产量分别为(单位:件):6,8,10,12, 14,用重复抽样的方法,从中随机抽取2个工人的日产量,用以代表这5 个工人的总体水平。则抽样平均误差为多少? 解:根据题意可得:x=5+8+10+12+14-10(件) 5 总体标准差σ= x=X24=、(件 8 ∴抽样平均误差x=7==2(件) (2)当抽样方式为不重复抽样时,样本标志值x,x,…,x不是相互 独立的,根据数理统计知识可知: (6-2) 当总体单位数N很大时,这个公式可近似表示为: 与重复抽样相比,不重复抽样平均误差是在重复抽样平均误差的基础 上,再乘以√N-n)/(N-1),而√N-n)/(N-1)总是小于1,所以不重 复抽样的平均误差也总是小于重复抽样的平均误差。如前例,若改用不重 复抽样方法,则抽样平均误差为 )=1.732(件) 25-1 在计算抽样平均误差时,通常得不到总体标准差的数值,一般可以用 样本标准差来代替总体标准差 2.抽样成数的平均误差 总体成数P可以表现为总体是非标志的平均数。即E(X)=P,它的 标准差a=√P(1P)
它说明在重复抽样的条件下,抽样平均误差与总体标准差成正比,与 样本容量的平方根成反比。 例 6–1 有 5 个工人的日产量分别为(单位:件):6,8,10,12, 14,用重复抽样的方法,从中随机抽取 2 个工人的日产量,用以代表这 5 个工人的总体水平。则抽样平均误差为多少? 解:根据题意可得: 10(件) 5 6 8 10 12 14 = + + + + X = 总体标准差 (件) ( ) 8 5 2 40 = = − = N X X 抽样平均误差 2(件) 2 8 = = = n x (2)当抽样方式为不重复抽样时,样本标志值 x1,x2,…,xn 不是相互 独立的,根据数理统计知识可知: = ( ) 1 2 − − N N n n x (6–2) 当总体单位数 N 很大时,这个公式可近似表示为: = (- ) N n n x 1 2 (6–3) 与重复抽样相比,不重复抽样平均误差是在重复抽样平均误差的基础 上,再乘以 (N-n)(/ N-1) ,而 (N-n)(/ N-1) 总是小于 1,所以不重 复抽样的平均误差也总是小于重复抽样的平均误差。如前例,若改用不重 复抽样方法,则抽样平均误差为: )= (件) - - = ( )= ( 1.732 5 1 5 2 2 8 1 2 − − N N n n x 在计算抽样平均误差时,通常得不到总体标准差的数值,一般可以用 样本标准差来代替总体标准差。 2. 抽样成数的平均误差 总体成数 P 可以表现为总体是非标志的平均数。即 E(X)=P,它的 标准差 = P(1-P)
根据样本平均误差和总体标准差的关系,可以得到样本成数的平均误 差的计算公式 (1)在重复抽样下 P(1-P) (6-4) (2)在不重复抽样下 N-n、|P(1-P)/N (6-5) 当总体单位数N很大时,可近似地写成: P(1-P) 当总体成数未知时,可以用样本成数来代替 例6-2,某企业生产的产品,按正常生产经验,合格率为90%,现 从5000件产品中抽取50件进行检验,求合格率的抽样平均误差。 解:根据题意,在重复抽样条件下,合格率的抽样平均误差为 P(1-P)0.9×0.1 =424% 在不重复抽样条件下,合格率的抽样平均误差为: .9×0.150 644.抽样极限误差 抽样极限误差,又称置信区间和抽样允许误差范围,是指在一定的把 握程度(P)下保证样本指标与总体指标之间的抽样误差不超过某一给定 的最大可能范围,记作Δ。作为样本的随机变量一—抽样指标值(x或p) 是围绕以未知的唯一确定的全及指标真值(A或P)为中心上下波动,它 与全及指标值可能会产生正或负离差,这些离差均是抽样指标的随机变量, 因而难以避免,只能将其控制在预先要求的误差范围(Δ或A)内
根据样本平均误差和总体标准差的关系,可以得到样本成数的平均误 差的计算公式。 (1)在重复抽样下 n P P p n (- ) = = 1 / (6–4) (2)在不重复抽样下 ( ) ( ) = ( )= 1 1 1 2 − − − − − N N n n P P N N n n p (6–5) 当总体单位数 N 很大时,可近似地写成: ( ) (- ) = N n n P P p 1− 1 (6–6) 当总体成数未知时,可以用样本成数来代替。 例 6–2,某企业生产的产品,按正常生产经验,合格率为 90%,现 从 5000 件产品中抽取 50 件进行检验,求合格率的抽样平均误差。 解:根据题意,在重复抽样条件下,合格率的抽样平均误差为: = % = (- ) = 4.24 50 1 0.9 0.1 n P P p 在不重复抽样条件下,合格率的抽样平均误差为: % ( ) ( ) ( ) 4.22 5000 50 1 50 0.9 0.1 1 1 = − − = − = N n n P P p 6.4.4. 抽样极限误差 抽样极限误差,又称置信区间和抽样允许误差范围,是指在一定的把 握程度(P)下保证样本指标与总体指标之间的抽样误差不超过某一给定 的最大可能范围,记作Δ。作为样本的随机变量——抽样指标值( x或p ), 是围绕以未知的唯一确定的全及指标真值( X或P )为中心上下波动,它 与全及指标值可能会产生正或负离差,这些离差均是抽样指标的随机变量, 因而难以避免,只能将其控制在预先要求的误差范围( p x或 )内
≤ △ 或x-A.≤X+△ P-△,≤p≤P+Δ 由于Δ和Δ,是预先给定的抽样方案中所允许的误差范围,所以利用 Δ_和Δ,可以反过来估计未知的全及指标的取值可能的范围。解上述两个 绝对值不等式便可得: x-A≤X≤x+△ P-△,≤Psp+△ 例6-3例如要估计北京北站整车到达货物的平均运送时间。从交付 的全部整车货票共26193批中,用不重复抽样抽取2718批货票。若允许 的抽样极限误差△.=0215(天),经计算知所抽取的每批货物平均运送时 间为叉=5.64(天),那么北京北站整车到达货物的平均运送时间区间估计 为(564-0.125,564+0.125),即在5515到5765天之间。 例6-4资料同上,若要估计北京北站整车到达货物的逾期运到率 (报告期内超过规定货物运到期限运到的货物批数/货物的到达总批数) 从随机抽取的2718批货票中,计算得抽样逾期到率为643%,所确定的抽 样极限误差为△=0642%,由此可得北京北站总体的逾期运到率的区间估 计是(643%-0.642%643%+0.642%) 64.5.抽样估计的概率度、精度和可靠程度 抽样估计的概率度 抽样极限误差Δ是单个样本值与总体指标值之间的绝对离差,而抽样 平均误差μ是所有可能样本值与总体指标值之间的平均离差,用抽样极限 误差与抽样平均误差相比,从而使由单一样本值得到的抽样极限误差标准 化,这样可称为抽样标准极限误差,但通常称其为概率度(t)或相对误差 范围
X x x − 或 p p x x x P p P x X p P − + − + − 由于 x 和 p 是预先给定的抽样方案中所允许的误差范围,所以利用 x 和 p 可以反过来估计未知的全及指标的取值可能的范围。解上述两个 绝对值不等式便可得: ( ) ( ) 6 8 6 7 − − − + − + p p x x p P p x X x 例 6–3 例如要估计北京北站整车到达货物的平均运送时间。从交付 的全部整车货票共 26 193 批中,用不重复抽样抽取 2 718 批货票。若允许 的抽样极限误差 x =0.215(天),经计算知所抽取的每批货物平均运送时 间为 X =5.64(天),那么北京北站整车到达货物的平均运送时间区间估计 为(5.64–0.125,5.64+0.125),即在 5.515 到 5.765 天之间。 例 6–4 资料同上,若要估计北京北站整车到达货物的逾期运到率 (报告期内超过规定货物运到期限运到的货物批数/货物的到达总批数), 从随机抽取的 2718 批货票中,计算得抽样逾期到率为 6.43%,所确定的抽 样极限误差为 p =0.642%,由此可得北京北站总体的逾期运到率的区间估 计是(6.43%-0.642%,6.43%+0.642%)。 6.4.5. 抽样估计的概率度、精度和可靠程度 1. 抽样估计的概率度 抽样极限误差Δ是单个样本值与总体指标值之间的绝对离差,而抽样 平均误差μ是所有可能样本值与总体指标值之间的平均离差,用抽样极限 误差与抽样平均误差相比,从而使由单一样本值得到的抽样极限误差标准 化,这样可称为抽样标准极限误差,但通常称其为概率度(t)或相对误差 范围