2.代表性误差:由于样本的结构不足以代表总体的结构而产生的抽样指标与 总体指标之间的误差。 代表性误差:系统性误差(非随机代表性误差);随机性误差(抽样误差) (1)系统性误差:抽取样本单位时,由于违背了随机原则,而有意识地选取 较好或较差的单位样本而产生的样本的代表性不强所引起的误差。(变量值统一 偏大或统一偏小)(举例 (2)随机性误差:是指随机抽样的偶然因素致使样本各单位的结构不足以代 表总体各单位的结构,而引起的抽样指标和总体指标之间的差距。 如某班100名同学,男60名,女40名,随机抽取10名为样本,由于随机原 因,未必都能抽到6个男,4名女的,使得样本的性别比例与总体有差别。 系统性误差和登记性误差都是抽样工作中由于技术、思想工作等所造成的误 差,若采取措施是可以预防和避免的 而随机性误差由于被抽选的样本各种各样,只要被抽中的样本内部各单位被 研究标志的构成比例与总体有差别,就会出现或大或小的偶然性误差,它是抽样 调查方法所固有的,是不可避免、不可消灭的误差,但可以设法加以控制。要进 行控制,就必须了解影响它大小的因素。 (二)影响抽样误差大小的因素 1.样本的单位数n 在其它条件不变的情况下,抽样单位数越多,抽样误差就会愈小,仅之抽样 误差就愈大。当n=N时,抽样指标等于总体指标,无误差。 2.总体被研究标志的变异程度σ 在其它条件下改变时,总体被研究标志的变异程度愈小,则抽样误差也愈小。 总体被研究标志的变异程度小,表明总体各单位标志值之间的差异也可能很小, 当总体各单位标志值相等时,则标志变异程度等于0,抽样指标就完全等于总体 指标,抽样误差也就不存在了。 例如,某班50名学生的学习成绩都在70分左右,没有太高或太低的,随机 抽取10名学生,其平均学习成绩也在70分左右,误差很小;若该班学习成绩高
2.代表性误差:由于样本的结构不足以代表总体的结构而产生的抽样指标与 总体指标之间的误差。 代表性误差:系统性误差(非随机代表性误差);随机性误差(抽样误差) (1)系统性误差:抽取样本单位时,由于违背了随机原则,而有意识地选取 较好或较差的单位样本而产生的样本的代表性不强所引起的误差。(变量值统一 偏大或统一偏小)(举例) (2)随机性误差:是指随机抽样的偶然因素致使样本各单位的结构不足以代 表总体各单位的结构,而引起的抽样指标和总体指标之间的差距。 如某班 100 名同学,男 60 名,女 40 名,随机抽取 10 名为样本,由于随机原 因,未必都能抽到 6 个男,4 名女的,使得样本的性别比例与总体有差别。 系统性误差和登记性误差都是抽样工作中由于技术、思想工作等所造成的误 差,若采取措施是可以预防和避免的。 而随机性误差由于被抽选的样本各种各样,只要被抽中的样本内部各单位被 研究标志的构成比例与总体有差别,就会出现或大或小的偶然性误差,它是抽样 调查方法所固有的,是不可避免、不可消灭的误差,但可以设法加以控制。要进 行控制,就必须了解影响它大小的因素。 (二)影响抽样误差大小的因素 1.样本的单位数 n 在其它条件不变的情况下,抽样单位数越多,抽样误差就会愈小,仅之抽样 误差就愈大。当 n=N 时,抽样指标等于总体指标,无误差。 2.总体被研究标志的变异程度σ 在其它条件下改变时,总体被研究标志的变异程度愈小,则抽样误差也愈小。 总体被研究标志的变异程度小,表明总体各单位标志值之间的差异也可能很小, 当总体各单位标志值相等时,则标志变异程度等于 0,抽样指标就完全等于总体 指标,抽样误差也就不存在了。 例如,某班 50 名学生的学习成绩都在 70 分左右,没有太高或太低的,随机 抽取 10 名学生,其平均学习成绩也在 70 分左右,误差很小;若该班学习成绩高
低不等,差异很大,有98分的,也有20分,若随机抽取10名学生,其平均成 绩也可能是50分,也可能85分,与总体平均数70分误差很大;若全班学生的 学习成绩都为70分,没有差异,则不存在抽样误差。 3.抽样的方法 抽样方法不同,抽样误差也不同。一般来说,重复抽样的误差比不重复抽样 的误差要大些 4.抽样调查的组织方式 不同的抽样组织方式,其误差也不同。一般来说,按照等距抽样、类型抽样 方法组织抽样调查,由于经过分类或排队,可以使样本的结构与总体的结构类似, 因而抽取相同数目的样本容量,其误差要比纯随机抽样小些 二、抽样平均误差 (一)含义 抽样平均误差是反映抽样误差一般水平的指标。 由于从一个总体中可能抽取许多个样本,抽样指标也就有许多不同的数值, 因而对全及指标的离差也就有大有小,有必要用一个指标来衡量抽样误差的一般 水平。 设x为抽样平均数的平均误差,μ。为抽样成数的平均误差,M为全部 可能的样本数目,则 ∑(x-X) (1- 川=x M 由于抽样平均数的平均数等于总体平均数[E(x)=X],抽样成数的平均 数等于总体成数[E(p)=P],因而通常用抽样平均数的标准差或抽样成数的标 准差,作为各自的抽样平均误差 例如,某小组有A、B、C、D四个工人为总体,其年龄分别为20、30、40、 50岁,从中抽取2人构成一个样本。在重复抽样的条件下,样本的可能数目为 42=16个;在不重复抽样的打件下,样本的可能数目为4×3=12个。见表3-1
低不等,差异很大,有 98 分的,也有 20 分,若随机抽取 10 名学生,其平均成 绩也可能是 50 分,也可能 85 分,与总体平均数 70 分误差很大;若全班学生的 学习成绩都为 70 分,没有差异,则不存在抽样误差。 3.抽样的方法 抽样方法不同,抽样误差也不同。一般来说,重复抽样的误差比不重复抽样 的误差要大些。 4.抽样调查的组织方式 不同的抽样组织方式,其误差也不同。一般来说,按照等距抽样、类型抽样 方法组织抽样调查,由于经过分类或排队,可以使样本的结构与总体的结构类似, 因而抽取相同数目的样本容量,其误差要比纯随机抽样小些。 二、抽样平均误差 (一)含义 抽样平均误差是反映抽样误差一般水平的指标。 由于从一个总体中可能抽取许多个样本,抽样指标也就有许多不同的数值, 因而对全及指标的离差也就有大有小,有必要用一个指标来衡量抽样误差的一般 水平。 设 为抽样平均数的平均误差, 为抽样成数的平均误差,M 为全部 可能的样本数目,则 由于抽样平均数的平均数等于总体平均数[E( x)= X ],抽样成数的平均 数等于总体成数 [E(p)=P],因而通常用抽样平均数的标准差或抽样成数的标 准差,作为各自的抽样平均误差。 例如,某小组有 A、B、C、D 四个工人为总体,其年龄分别为 20、30、40、 50 岁,从中抽取 2 人构成一个样本。在重复抽样的条件下,样本的可能数目为 4 2=16 个;在不重复抽样的打件下,样本的可能数目为 4×3=12 个。见表 3-1。 2 x ( ) x x X M p p M p(1- p) μ =σ= x p
表3-1 样本平均数平均数的离差离差的平方 序号 样本变量质 x二x A2020 225 AB√2030 10 100 23456789 AC√2040 25 AD√2050 35 0 BA√3020 10 100 BB 3030 BC√3040 0 BD√3050 25 CA√4020 25 10 CB√4030 0 12 CD√4050 45 100 13 DA√5020 0 14 DB√5030 40 DC√5040 16 DD5050 50 15 225 合计1612√560420√00√100500√ 打 为不重复抽样 ①总体平均数 X=20+30+40+50=35(岁) 20-35)2+(30-35)2+(40-352+(50-35 l1.18 560 420 不重复12 =35 ③在重复抽样条件下:以=y2 100=79 =6.5 在不重复抽样条件下 2
表 3-1 序号 样本变量质 x 样本平均数 x 平均数的离差 x- x 离差的平方 ( x - x ) 2 1 AA 20 20 20 -15 225 2 AB√ 20 30 25 -10 100 3 AC√ 20 40 30 -5 25 4 AD√ 20 50 35 0 0 5 BA√ 30 20 25 -10 100 6 BB 30 30 30 -5 25 7 BC√ 30 40 35 0 0 8 BD√ 30 50 40 5 25 9 CA√ 40 20 30 -5 25 10 CB√ 40 30 35 0 0 11 CC 40 40 40 5 25 12 CD√ 40 50 45 10 100 13 DA√ 50 20 35 0 0 14 DB√ 50 30 40 5 25 15 DC√ 50 40 45 10 100 16 DD 50 50 50 15 225 合计 16 12√ 560 420√ 0 0√ 1000 500√ 打“√”为不重复抽样 1 总体平均数 2 2 2 2 (20 -35)+(30 -35)+(40 -35)+(50 -35) σ= = 11.18 4 ② 560 35 x 重复 = 16 420 35 x 不重复 = 12 ③ 在重复抽样条件下: 2 x Σ(x - X) 1000 = = = 7.9 μ M 16 在不重复抽样条件下: 20 +30 + 40 +50 X = = 35(岁) 4 2 x Σ( x - X) = μ M 500 = = 6.5 12
从以上计算结果可以看出: ①样本平均数的平均数等于总体平均数x=X=35。 ②重复抽样的平均误差大于不重复抽样的平均误差。 ③抽样指标的标准差“x,小于总体的标准σ。 上述计算公式能明确地说明抽样平均误差的实质及意义,但它只有理论意 义,不能据以实际计算。因为 ①连续抽取全部可能出现的样本,并计算出样本指标是不可能的,因此要计 算全部可能样本平均数的标准差也是不可能的。 ②全及总体的平均数资料是未知的,抽样推断的目的就是要对它进行估计 (二)抽样平均误差的简捷计算方法 1.抽样平均数的平均误差 重复: 不重复:2 (2) 当N很大时:p 由两式可以看出,不重复抽样的方差等于重复抽样的方差乘以校正因子 N-n N-1,由于这个因子总是小于1,因而不重复抽样的误差总是小于重复抽样的 误差。当总体单位数N很大时,这个因子就十分接近于1,两种误差相差甚微。 1>式证明如下: H=ELX-E(I=E(x-X) =E(x1+x2+…+xnX+X+…+X E(x1-X)+(x2-X)+…+(xn-X n E(x-X)+E(x2-X)+…+E(xnX)+∑E(x-xXx 在重复抽样的条件下,样本的各个变量是相互独立的
从以上计算结果可以看出: ①样本平均数的平均数等于总体平均数 35 x = X 。 ②重复抽样的平均误差大于不重复抽样的平均误差。 ③抽样指标的标准差 x u ,小于总体的标准 。 上述计算公式能明确地说明抽样平均误差的实质及意义,但它只有理论意 义,不能据以实际计算。因为: ①连续抽取全部可能出现的样本,并计算出样本指标是不可能的,因此要计 算全部可能样本平均数的标准差也是不可能的。 ②全及总体的平均数资料是未知的,抽样推断的目的就是要对它进行估计。 (二)抽样平均误差的简捷计算方法 1.抽样平均数的平均误差 重复: x = μ n (1) 不重复: ( ) 1 N n N x = μ n (2) 当 N 很大时: (1 ) n N x = μ n 由两式可以看出,不重复抽样的方差等于重复抽样的方差乘以校正因子 1 N N n ,由于这个因子总是小于 1,因而不重复抽样的误差总是小于重复抽样的 误差。当总体单位数 N 很大时,这个因子就十分接近于 1,两种误差相差甚微。 <1>式证明如下: 2 2 2 2 2 ( 1 2 1 1 2 ( )] ) ( ) [( ) ( ) ( )] x E n E E n x E x x X x x x X X X n n x X x X x X n 2 = E[ 2 2 2 2 1 [ ( )( )] 1 2 ( ) ( ) ( ) i j i j E E E E X X x X x X xn X x x n 在重复抽样的条件下,样本的各个变量是相互独立的
∑E(x;-Xx,-)=0,则上式为 IE(xX+E(x2-X++E(xnX (σ)=g √n 般总体方差G是不知道的,可以用样本方差S来代替 用上例验证简捷公式: 重复抽样:μ2 _1118 =79(岁) 不重复抽样:以2N少)=1/1824-5:65(岁) 2 和前面定义公式结果一样。 2.抽样成数的平均误差, 重复:2y 是非标志的标椎差σ=√p(-p) 不重复抽样:1=p-p),N-n 当很大时:以=√m=Pa-) 举例:在某髙校中,随机抽选了400名学生,发现戴眼镜的学生有80人, 占20%,计算抽样平均误差。 不知道N,;只能用重复公式,又未知,用代替n={C=P 0.2×0.8 说明抽样平均误差为2%(有的样本指标与总体成数误差大,有的误差小, 但平均来说,误差为2%)
( )( ) 0 i j i j E x X x X ,则上式为: 2 2 2 2 1 [ 1 2 E( ) E( ) E( ) x X x X x n X n ] 2 2 2 1 ( ) xn n n n 则 一般总体方差 2 是不知道的,可以用样本方差 2 s 来代替。 用上例验证简捷公式: 重复抽样: 11.18 7.9 2 x = μ n (岁) 不重复抽样: 2 11.18 4 2 ( ) 6.5 1 2 4 1 N n N x = μ n (岁) 和前面定义公式结果一样。 2.抽样成数的平均误差, 重复: p(1 p) p = μ n 是非标志的标椎差 p(1 p) 不重复抽样: (1 ) ( ) 1 p p N n N p = μ n 当 N 很大时: (1 ) (1 ) p p n N p = μ n 举例:在某高校中,随机抽选了 400 名学生,发现戴眼镜的学生有 80 人, 占 20%,计算抽样平均误差。 说明抽样平均误差为 2%(有的样本指标与总体成数误差大,有的误差小, 但平均来说,误差为 2%)