f(X)= 202 1.3.15 式1.3.15中的μ,0分别代表正态变量X的总体均数和标准差分别是位置参数和形状 参数;简记为X~N(μ,a2);exp(k)代表ex,e≈2.718281828,它是自然对数约底;为圆周率, 其近似值为:π≈3.14159265359。 在式13.15中若令X一P则U就成了一个服从标准正态分布的连续型随机变量, 其概率密度函数的形式简化为: 此时,U的均数为0,标准差为1,简记为U~N(0,1)。 用式1.315和式1.3.16绘出的图(见图137)是一个左右对称的钟形曲线,如果将式 1.316代入式1.314可求出U在(ab)内取值的概率。如 P(-1<U<1)=68.27%;P(-1.96<U<1.96)=95.00%;P(-2.576<U<2.576)= 99.00%。 f(X) F(XY 图1.3.7标准正态分布曲线 a正态分布;b,标准正态分布 在统计检验中,常用的U值及标准正态曲线下尾端的概率(即面积)如下: 双侧概率 U值 单侧概率 U值 0,01 2.326 2.326 0,02 1.960 0.05 1.645 0.10 1.645 0.10 0.20 0.842 这些概率值也可用SAS中相应的概率函数算得,参看本书附录 t,x,F分布也都是很常用很重要的连续型随机变量的概率分布其中t分布的图形与标 准正态分布十分相似,当自由度df+∞时,t分布→标准正态分布(见图1.3.8)。这几种分布的 概率密度函数都相当复杂,实用时有相应的临界值表可查。其具体的概率值也可用SAS函数 中相应的概率函数算得参看本书附录。 4参数估计与区间估计 参数估计就是用样本统计量来估计总体参数,它包括点估计和区间估计。点估计给出被估
计参数的一个适当的估计值;区间估计是给出被估计参数的可能的数值范围。这种区间称为 置信区间或可信区间 5置信区间与容许区间 置信区间:按预先给定的 f(c) 概率1-a(通常取值为0.95 三 5 或0.99,估计未知参数值的 可能范围,这个范围称为被估 计参数的100(1-a)%置信区 间。1-a称为置信度或置信水 平,a称为显著性水平,也是估 计出错的概率。 容许区间;以给定置信水 平至少包含总体中规定比例的 田1.3.8具有不同自由度的t分布曲线 区间,即按预先给定的概率 a确定变量X的一个取值区间(X,X),该区间包括变量X的全部取值(总体含量)的百分 数为P。求某医学指标的95%或99%双侧正常值范围,就是容许区间的一个具体应用,可视为 近似容许区间 如果用K(nP1-a)取代式1.3.17中的tan-1),则式1.3.17成为置信水平为1-a的精 确容许区间。系数K(n,P,1-a)可从专门的统计用表中查得(从略),其中,n为样本含量、P为 选定的总体比例,常取0.95或0.99。tn-1是t临界值表中与自由度df=n-1、显著性水平(概 念见本书第2篇第章)a对应的t值 第6节平均指标与变异指标的结合使用 1.与S结合使用 变异系数是x与S结合使用的第1种场合;而确定某医学指标的正常值范围则是它们结 合使用的第2种场合。 当观测指标X近似服从正态分布时,按式1.3.17可求出观测指标X的100(1-a)%正常 值范围,当a=0.05或0.01时,分别为95%或99%的双侧正常值范围即观测值中低于下限 和高于上限者占5%或1% 1.3.17 当n大于100时,式1.3.17中的tom-1可用U代替,tn-1,可根据事先规定的a值按双侧 概率从t临界值表(见本书附录2)中查得,当然,也可直接用SAS函数算得,U.=1.96,U.m =2.576。 单侧正常值范围:若指标取值过高属于不正常时,下限为0,上限为+2-1;若指标取 值过低属于不正常时,下限为x--nS,无上限。当n>100时,可用U=-n代替号。 【说明】一般都是在大样本条件下求医学指标的正常值范围,才有实用价值;若资料服从 对数正态分布将观察值逐一取对数后按上述正态分布相应的公式计算对求得的结果取反对 数;对于一般的偏态分布资料,可用下节介绍的百分位数法确定正常值范围
2.E与S2结合使用 当观测指标X近似服从正态分布时,按式1.3,18可求出X所代表的总体均数g的100(1 a)%的置信区间。 行一1m:S:≤长≤X+tm:1,S 1.3.18 【例1.3.7】沿用【例1.3.6】的资料和结果,当α=0.05时,求X的近似95%容许区间、p 的95%置信区间 【分析与解答】已知:z=4.28mmol/L、S=0.920300mmol/L、Sx=0.306767mmol/L、 n=9、α=0.05;查t临界值表,得t(8=2.306,代入式1.3.17和1.3.18,得: X的近似95%容许区间为:428±2.306X0.92030,数值为2.15~6.40(mmoL); 的95%置信区间为:4.28±2.306×0.306767数值为3.57~4.99(mmol/L)。 【专业结论】求得X的近似95%容许区间为:2.15~6,40(mmol/);的95%置信区 间为:[3.57,4.99]mmol/L。 第7节分位数——描述偏态分布资料的分布情况和离散趋势 1.分位数的概念、种类和作用 分位数是一种位置指标,一个特定的分位数将任何…个颗数曲线下的面积(其数值为1) 分为两部分,若小于等于此分位数的观测值个数占全部观测值个数的比例为1/4.则称该分位 数为第1四分位数,记作Q同理,还有第2、第3四分位数,分别记作Q2、Q3;若小于等于此分 位数的观测值个数占全部观测值个数的比例为1/10,则称该分位数为第1十分位数记作D1。 同理,还有第2、第3、…第9十分位数,分别记作D2、D3…、D;若小于等于此分位数的观测 值个数占全部观测值个数的比例为1/10,则称该分位数为第1百分位数,记作P同理,还有 第2、第3、…第99百分位数,分别记作P2、P3、…、Py3。 显然,第1四分位数=第25百分位数即Q1=P23;第2四分位数=第5十分位数=第50 百分位数=中位数,即Q2=D3=P3=M;第3四分位数=第75百分位数,即Q3=P15。如此等 等,它们都可用百分位数表示出来,故常用百分位数代替四分位数和十分位数 通过给出一组资料的若干个分位数,可初步描述该组资料的离散程度和分布概况,故在实 际工作中,常用百分位数法确定服从偏态分布资料的医学指标的正常值范围。 2.百分位数的计算公式 将观測值编制成频数分布表,按所分组段,由小到大累计频数.按式1.3.19计算第X百 分位数Px Px=L+ f(nX%-C 正确利用此式的关键是先求出与Px所对应的累计频数nX%,然后,从累计频数那一列找 到恰包含数值nX%在内的累计频数该组就是Px所在的组段。式中L、if和C=∑f分别为 Px所在组段的下限值、组距频数和X<L的k个组的累计频数。它们本应泫带有下标X,为公 式书写方便,都省略了 由于P的含义是指全部个体中有X%个个体的测量值小于等于Px,从概率(或面积)的 角度看,百分位数Px中的X并不一定仅取正整数值12…、99。也可取大于0小于100的任
何小数,如P3,P.s,P32.3,P等,故位于(P23,P91.s)之间的比例就是95%,位于(P,P3)之 间的比例就是99%。 显然,四分位数间距Q3-Q1就等于第75百分位数与第25百分位数之间的间距即Q3 Q=P,s-P 3.百分位数在确定偏态频数分布资料正常值范围中的应用 【例138】某地200例正常成人血铅含量的频数分布如表1.3.6所示,请分别计算出 血铅含量的单侧和双侧95%正常值范围,并结合专业知识说明哪一个合理 13.6200例正常成人血铅含量的频数分布 【分析与解答】由表1.3.6的前2列可 血铅含量颜数累计频数 看出:正常人血铅含量呈正偏态分布。宜用百 (pmo)(1)(2)分位数法确定其正常值范围。 先求单侧95%正常值范围的上限,即 0.24 0 97 因nX%=200×95%=190,此数值恰 好包含在第(2)栏倒数第6组内,故式1.3.19 中的L=1.69、i=0.24、f=4、C=188,将这 1.45 11 些数值代入公式,得: 192 1.93 Ps=1.69+4(190-188)=1.81 2.17~ umol/L) 199 再求双侧95%正常值范围的下、上限, 即P2和P 2.90~3.14 200 因nX%=200×2.5%=5,此数值恰好 包含在第(2)栏第1组内,故公式中的L=0、i=0.24、f=6、C=0,将这些数值代入公式,得 P2s=0 0.24 (5-0)=0.2(gmol/L) 又因nX%=200×97.5%=195,此数值恰好包含在第(2)栏倒数第5组内,故公式中的 L.=1.93、i=0.24、f=4、C=192.将这些数值代人公式,得: 0.24 P=1,93+4(195-192)=2.11(pmol/L) 【专业结论】根据专业知识可知:血铅含量越低越好过高就可能会造成铅中毒,故只需 给出单侧上限值,即就此资料而耆,某地正常成人血铅含量95%的单侧正常值范围的上限为 81mol/L。 第8节正杰性检验 检验资料是否服从正态分布的方法有:W法、D法和U检验法等。SAS中 UNIVARIATE 过程釆用的是W法。此处为了结合介绍描述定量资料分布情况的两个重要的统计量一偏度 系数g;与峰度系数g顺便介绍基于这两个统计量实现正态性检验的U检验法。 偏度系数g1与峰度系数g2的计算公式(见式1.3.20-a和1.3.21-a)都比较复杂,将在第 1篇第6章中给出用SAS计算g和g2的简便方法此处仅对其概念及应用作一扼要介绍 28一
1.编度系数 偏度系数用来反映呈单峰分布的定量资料偏斜程度和方向。从方向上来看,当根据具体公 式算出统计量g1的值后,与g1>0、g1=0和g1<0所对应的分布分别叫作正偏态正态和负偏 态。从程度上来看,当g;≠0时,可能g1真不为0,也可能是由于抽样误差所引起的,故需通过 假设检验(概念见第1篇第1章第7节)作出与正态之间是否有显著性差别的统计推断。 2峰度系数 峰度系数用来反映呈单峰分布的定量资料表现出来的峰态情况。从g2的数值来看,与 >0、g2=0和g2<0所对应的峰态分别叫作尖峭峰、正态峰和平阔峰;从程度上来看,当gz≠0 时,可能g2真不为0,也可能是由于抽样误差所引起的,故需通过假设检验作出与正态峰之间 是否有显著性差别的统计推断 3关于g1与g2的假设检验 为了统计方法上的连贯性,必须将这个内容放在此处,读者学完第2篇有关章节后就很容 易看懂这部分内容了。 (1)关于g1的假设检验 设g1为偏度系数,n1为其标准误差,U是标准正态分布变量,则 H:对总体而言g;=0,H1:对总体而言g1≠0,a=0.05。 若U≥U,则P≤a,拒绝H,接受H1。此时,若g1>0,可在检验水准为a的条件下认为此 定量资料呈正偏态分布;若g<0,可在检验水准为a的条件下认为此定量资料呈负偏态分布 若U<U则P>a,接受H。可在检验水准为a的条件下认为此定量资料呈正态分布(这 是仅仅就偏度而言) (2)关于g2的假设检验 设g2为偏度系数,2为其标准误差,U是标准正态分布变量,则: H:对总体而言g2=0,H1对总体而言g2≠0,a=0.05 g 1.3.21 若U≥U则P≤a,拒绝H,接受H1。此时,若gz>0,可在检验水准为a的条件下认为此 定量资料呈尖峭峰分布;若g:<0,可在检验水准为a的条件下认为此定量资料呈平阔峰分布。 若U<U则P>a,接受H可在检验水准为a的条件下认为北定量资料呈正态分布(这 是仅仅就峰度而言)。 【说明】当a=0.05时,U0B=1.96;当a=0.01时,Ua=2.576。一组定量资料只有当 上述两种检验结果都是P>a时,才能认为此定量资料是服从正态分布的 式1.3.20中的qn由式1.3.20-b计算式1.3.21中的a2由式1.3.21-b计算。因为这2 个量在SAS输出结果中未给出,而g和g2的值是可以从SAS输出结果中得到的 n∑x3-3(2)(∑x)+2(∑x)/n (x-1)(n-2){[(∑x)-(∑)1mn]/(m-1)32 1.3.20-a 3.21 式中