2015/1/9 课程设置 恋石西子大学 课时:理论课:22学时 实习课:10学时 授课人:理论课 第六章抽样误差与假设检脸 联系方式:预防医学系卫生统计学教研室 Tel.:2057153 Email yfyxxzjy@126.com Baidu贴吧:yyxx(讨论、答凝) 领防医季卫生计季教研堂 大学一类课程网站一教学资源一(作业、PPt) 教学内容 计与区传计 第一节均教的灿样误差与标准误 第二节总体均教的估计 晚计新述 第三节假设检验的意义及步豫 来海小地乐快都床 小结 女:多体场最票 中:年本地接了 4 第一节样本均散的标准误 抽样试验 一、均数的抽样误差和标准误 从正态分有总体N(5.00.0.502)中,每次 随机抽取样本合量=5,并计第其均载与标 Example: 准差:重复抽取1000次,使得1000份样本: 己知健康成年男性服从总体均数为4.75×102几】 计算1000份样本的均数与标漫差,并对1000 标准差为038X102几的正态分布,从该慈体中随 份样本的均教作直方图。 机抽取140人,计算的样本均数为477X102几 接上述方法再做样本合量刀=10.样本令量 刀=30的抽样实脸,比较计算结果。 恶体均款≠样本均款的原是什么? 1
2015/1/9 1 第六章 抽样误差与假设检验 (Sampling Error and Hypothesis Test) 预防医学系 卫生统计学教研室 2 课程设置 课时: 理论课: 22学时 实习课: 10学时 授 课 人:理论课 联系方式:预防医学系卫生统计学教研室 Tel.:2057153 Email:yfyxxzjy@126.com Baidu贴吧:yfyxx (讨论、答疑) http://tieba.baidu.com/f?kw=yfyxx# 大学一类课程网站→教学资源→(作业、ppt) http://eol.shzu.edu.cn/eol/jpk/course/layout/default/index.jsp?courseId=1204 教学内容 第一节 均数的抽样误差与标准误 第二节 总体均数的估计 第三节 假设检验的意义及步骤 小结 3 总体 样本 抽取部分观察单位 参 数 统计量 统计推断 统计推断 statistical inference 如:样本均数 样本标准差 S 样本率 P 如:总体均数 μ 总体标准差 σ 总体率 π X 内容:1、参数估计(estimation of parameters) 包括:点估计与区间估计 2、假设检验(test of hypothesis) 统计描述 4 Example: 已知健康成年男性服从总体均数为4.75×102 /L , 标准差为0.38×102 /L的正态分布,从该总体中随 机抽取140人,计算的样本均数为4.77×102 /L 问: 总体均数≠样本均数的原因是什么? 第一节 样本均数的标准误 一、均数的抽样误差和标准误 5 抽样试验 从正态分布总体N(5.00,0.502)中,每次 随机抽取样本含量n=5,并计算其均数与标 准差;重复抽取1000次,获得1000份样本; 计算1000份样本的均数与标准差,并对1000 份样本的均数作直方图。 按上述方法再做样本含量n=10、样本含量 n=30的抽样实验;比较计算结果。 6
2015/1/9 抽样试验n=5 柚样试验(n=10 抽样试验(n=30】 3个抽样实验结果图示 n=5,S=0.212 =10,S=0.158 1=30,5=0.092 1000份样本抽样计算结果 ·精样课差在精拆所充中不可遵免 的热样差(sampling error)): ”: 的款的能准姜 由于样本的随机性所造成的吾戴来自同一落 s/6 aln 体的将本均款之洞及样本均款与善体灼散间 7=55.000.50499 02212 02226 的是升。 n=105.00.50 5.00 0.1580 m30 5.00 0.50 5.00 8 ·抽拆条差的大小可以用样来均藏齿标准差” 0.0920 来城述G。=g/√n ,通将航计的标准貅标准(Standard 2
2015/1/9 2 抽样试验(n =5) 7 抽样试验(n =10) 8 抽样试验(n =30) 9 3个抽样实验结果图示 0 50 100 150 200 250 300 350 400 450 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19 均数 频数 0 50 100 150 200 250 300 350 400 450 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19 均数 频数 0 50 100 150 200 250 300 350 400 450 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19 均数 频数 5; 0.2212 X n S 30; 0.0920 X n S 10; 0.1580 X n S 10 1000份样本抽样计算结果 总体均 数 总体标 准差s 均数的 均数 均数的标准差 n=5 5.00 0.50 4.99 0.2212 0.2236 n=10 5.00 0.50 5.00 0.1580 0.1581 n=30 5.00 0.50 5.00 0.0920 0.0913 S n n 11 • 抽样误差的大小可以用样本均数的标准差 来描述 • 通常将统计量的标准差称标准误(Standard Error) 又称样本均数的标准差 n X / • 抽样误差在抽样研究中不可避免 • 均数的抽样误差(sampling error) : 由于样本的随机性所造成的导致来自同一总 体的样本均数之间及样本均数与总体均数间 的差异。 X X 12
2015/1/9 ■■ ·共际研党中口未知,以样来排准基S作为可的俗计值 二、样本均教的抽样分布特点 计算每准满: S=SIn P29 小布根有规律,圆烧是蒸体始教左右 4.1在 盖本对稀,也原从玉春分有 拆本均版的史界较原史量的史界大火嘴小 S2=S1n-0.38/W140-0.032 原发基 畜杯未舍量根火的情规下,无冷承输副量变量原从 标准误的用逢 什4分布,了的精将分布均近服正毒。 ”件分特6T44味 新拆分率 ■用于银视检验 ■标准是与标准误的区制和展条? t分布 t分布 ,从正春膳体NM以,g)中随机精取抨本舍量为n 威机支重X 标准正毒分布 的拆本,酸得的拆本灼款的分布服从正春分有 MU.G2) u度换 N0,12) N,o)。 均藏天 ®-4 标准正春分布 ,同样可以对里正春分布的下进行皮换 N(u.o2/n) N0,12) w= x-4 X-u X-L v=n-1 Student 0 自南度:nl
2015/1/9 3 • 实际研究中σ未知,以样本标准差S作为σ的估计值 计算标准误: 例4.1 在某地随机抽查成年男子140人,测得红细胞 数均数为4.77×102 /L,标准差0.38 ×102 /L ,试计 算其抽样误差的大小: S S n X / S S / n 0.38/ 140 0.032 X P29 13 二、样本均数的抽样分布特点 各样本均数未必等于总体均数 样本均数之间存在差异 样本均数的分布很有规律,围绕着总体均数左右 基本对称,也服从正态分布 样本均数的变异较原变量的变异大大缩小 0 50 100 150 200 250 300 350 400 450 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19 均数 频数 0 50 100 150 200 250 300 350 400 450 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19 均数 频数 0 50 100 150 200 250 300 350 400 450 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19 均数 频数 14 中心极限定理: 当样本含量很大的情况下,无论原始测量变量服从 什么分布, X 的抽样分布均近似正态。 抽样分布 抽样分布示意图 s 15 标准误的用途 衡量抽样误差的大小,标准误越小,样本均数与 总体均数越接近,样本均数的可信度越高 结合标准正态分布与t分布曲线下面积分布规律, 估计总体均数的可信区间 用于假设检验 标准差与标准误的区别和联系? 16 从正态总体N( μ,σ2 )中随机抽取样本含量为n 的样本,获得的样本均数的分布服从正态分布 N(μ, ) 。 同样可以对呈正态分布的 进行u变换 2 x t 分布 x x x u 17 t分布 X u X 随机变量X N(μ,σ2 ) 标准正态分布 N(0,1 u变换 2) 均数 N(μ,σ2 /n) 标准正态分布 N(0,1 2) n X u , 1 v n S X S n X t X Student t分布 自由度:n-1 18
2015/1/9 t分布曲线 t分布曲线下面积(附表2) 制6o2,=2.262 t分有者下性项 89 123 325 密 侧0,9=28 侧60s2,=1.96 ■平制65,。 单侧:t。,v 平时60s.==164 双侧:ta/2v 在估计惑休的教的可信区间财: ▣估计餐的: d 点传计:山拆本能计量又、S、P 的计 直格估计燕体来敏体示容 95%(C):99%(C) a<u<b 可信区间的两个要素 慈体均数的可信区间的估计 1.0已和,正杰★藏下者95%的u值在土196闲, ■1.准喷度(accuracy):反映在可信度的大 -196≤u≤+1.96 小,即可行区同包舍燕体均的瓶来大小 -1.96s-≤+1.9% -1.96o,Su+1.96o, ■2.言度(precision).:反映在区同的长度, ■雄始95%-1.96g.,下+1.96g 区间光度越小,着雷度燕高 。两显,99%可信区间务: -2.58a x+2.58 4
2015/1/9 4 t分布曲线 0.0 0.1 0.1 0.2 0.2 0.3 0.3 0.4 0.4 -4 -3 -2 -1 0 1 2 3 4 t f( t) 自由度为1的t分布 自由度为9的t分布 标准正态分布 t 分布有如下性质: ①单峰分布,曲线在t=0 处 最高,并以t=0为中心左右 对称 ②与正态分布相比,曲线最 高处较矮,两尾部翘得高( 见绿线) ③ 随自由度增大,曲线逐渐 接近正态分布;分布的极限 为标准正态分布。 19 t分布曲线下面积(附表2) 双侧t0.05/2,9=2.262 =单侧t0.025,9 单侧t0.05,9=1.833 双侧t0.01/2,9=3.250 =单侧t0.005,9 单侧t0.01,9=2.821 双侧t0.05/2,∞=1.96 =单侧t0.025,∞ 单侧t0.05,∞ =1.64 20 单侧:tα, v 双侧:tα/2,v 四 总体均数的估计 总体均数的点估计(point estimation) 与区间估计(interval estimation) 参数的估计 点估计:由样本统计量 直接估计 总体参数 区间估计:在一定置信度(Confidence level) 下,估计未知总体均数的可能范围 a b 、、 X、S、p 21 在估计总体均数的可信区间时: 估计错误的概率:α 估计正确的概率:1-α ,也称为可信度,常用 95%或99% 可信区间:根据一定概率估计得到的区间 95%(CI) ; 99%(CI) 22 可信区间的两个要素 1.准确度(accuracy):反映在可信度的大 小,即可行区间包含总体均数的概率大小 2.精密度(precision):反映在区间的长度, 区间宽度越小,精密度越高 23 总体均数的可信区间的估计 1、σ已知, 正态曲线下有95%的u值在±1.96间, 总体均数95%可信区间为: 同理,99%可信区间为: x x x x x x u 1.96 1.96 1.96 1.96 1.96 1.96 x x x 96 x 1.96 , 1. x x x 58 x 2.58 , 2. 24
2015/1/9 g来知 2、口来知热t分市原理, 可用共估计值S代善,但(区-四S/列 者95%的t值在士uw:之间 巴不再原从标准正杰分南, -taw:sis+ieae 而是服从t会有。 移项:京-lnS,≤H≤+hS, 善体均畿」的99%可信区周为: -,+tanvz'Ss ■ 侧42¥医生测得25名动床高将吸化嘉者血巢纤单 创4.3试计算制4.1中诚地或年男子红如驰卷 蛋命承香量的6散为3.32/几,每准差为0.57/八, 体均95%可信间。 浅计算诚种痛人血莱纤维套和原金量岳体的款的 95%可信区闻, 下展:元-=2-20x0571店-309g 上展:下+n,S-332+2064x0571压-3.56(e 可体医闲的福义 严、其热宋 从中作,保100热,个来可一个可 传计餐满的机率大(0.05) 小o.01
2015/1/9 5 v v 5 v 1 ft() 标准正态分布 σ 未知 可用其估计值S 代替,但 已不再服从标准正态分布, 而是服从 t 分布。 (X )/(S / n) 不同自由度的 t 分布图 25 2、σ未知 按t分布原理, 有95%的t值在± 之间 总体均数μ 的95%可信区间为: 总体均数μ 的99%可信区间为: 0.05/ 2 t 0.05/2 0.05/2 0.05/2 0.05/2 0.05/2 0.05/2 , x x x t t t x t t S x t S x t S 移项 : x Sx x t S x t 0.05/ 2 0.05/ 2 , x Sx x t S x t 0.01/ 2 0.01/ 2 , 26 例4.2 某医生测得25名动脉粥样硬化患者血浆纤维 蛋白原含量的均数为3.32 g/L,标准差为0.57 g/L, 试计算该种病人血浆纤维蛋白原含量总体均数的 95%可信区间。 下限: 上限: . 3.32 2.064 0.57/ 25 3.09 (g/L) / 2( ) X X-t S . 3.32 2.064 0.57/ 25 3.56 (g/L) / 2( ) X X t S 27 例4.3 试计算例4.1中该地成年男子红细胞总 体均数的95%可信区间。 本例属于大样本,可采用正态近似的方法计 算可信区间。因为 , 则95%可信区间为: 4.77, 0.38,n 140 . 4.77 1.96 0.38/ 140 4.71( 10 /L) 12 / 2 X X-u S . 4.77 1.96 0.38/ 140 4.83( 10 /L) 12 / 2 X X u S 下限: 上限: 28 可信区间的涵义 总体均数95%可信区间:该区间包含总体均数的概率为95%。 从总体中作随机抽样,作100次抽样,每个样本可算得一个可 信区间,得100个可信区间,平均有95个可信区间包括μ(估 计正确),只有5个可信区间不包括μ(估计错误)。 95%可信区间 99%可信区间 公式 区间范围 窄 宽 估计错误的概率 大(0.05) 小(0.01) X X X t0.01/ 2,S , X t0.01/ 2,S X SX X t S X t 0.05/ 2, 0.05/ 2, , 29 μ * * * * * * 三、模拟实验 模拟抽样成年男子红细胞数。设定: μ=4.75,σ=0.39,n=140 产生100个随机样本,分别计算其95%的可信区间,结果用图 示的方法表示。从图可以看出:绝大多数可信区间包含总体 参数μ=4.75,只有6个可信区间没有包含总体参数(用星号标 记)。 30