3参数估计与假设检验 3.1概述 工程试验的一个很重要的任务是从样本中得到关于总体的结论。上一章介绍的关于未知 分布的推淅,这个问题的处理,一般要求样本容量较大在实际工作中往往很难实现然而在很 多场合·总体的分布类型是已知的而未知的仅仅是其中一个或几个参数。如实验数据的误差 般是服从正态分布N(A,d2)我们要作的只是对这些参数作出估计与推断即根据样本观察 值佔计未知参数的值这就是参数的点估计问题。 由于我们总是从局部来推断总体,不可能作出完全正确的结论。一般地这种推断是概率 意义上的正确,至于参数估计的精度如何点估计没有给出回答。人们在测量或计算时,常不以 得到近似值为满足,还需要估计误差,即要求更确切地知道近似值的精确程度,知道所求真值 所在的范围,类似地,对于未知参数6除了求出它的点估计外还希望估计出一个范围,并希 望知道这个范围包含参数的真值的可靠程度这样的范围通常用区间的形式给出,同时还要 给出此区间包含参数真值的可靠程度这种形式的估计称为区间估计。参数估计是数理统计 学的一个很重要的内容。 统计推断中另一类重要问题,是根据样本的信息来判断总体分布是否具有指定的特征,即 通过样本对总体的某种假设进行检验。例如,已知样本来自正态总体,问是否能说它是来自均 值为μ的正态总体?这种说法有多大把握?又如,已知桕互独立的两个样本.它们分别来自两 个正态总体,是否有理由说这两个总体的均值相同或方差相同这些问题称作总体参数的假设 检验 假设检验同估计理论一样,都是数理统计学的重要内容,也是对试验数据进行处理的重要 方法和手段。出于正态分布是最常遇到的分布类型,本章主要讨论正态分布的总体。 3.2参数估计 3.2.1点估计 设总体X的分布函数为F(x;),其中θ是未知参数,…般用样本X,X2,…X构成一个 统计量=O(X1,X2,…,X)来估计0,称为6的估计量,对应于样本的一个实现x1x2,… x估计量0的值(x1,x2…,x,)称为的估计值。简记为6。于是点佔计的问题就是寻求一个 作为估计参数6的估计量B(x1,X2…,)的问题。 若总X的分布函数F(x;61,02…,)含有l个未知参数那么,参数1,62;…O2的点估计 问题就是分别建立作为01,2,…,1的佔计量的l个统计量(X1,X2…,X),02(X1,X2,… X)∴…,(X1,X2…,X)。 下面介绍建立估计量的两种常用方法矩法和极大似然法 3.2.1.1矩法 在上一章已经提到,若总体ⅹ具有k阶矩,则样本的k阶矩依概率收敛于总体的k阶矩。 因此,在利用样本进行参数估计时,可以先用样本矩作为总体矩的估计,然后再确定未知参数
的估汁。这种估计方法称为矩法其中最常用到的是用样本均值X来估计总体的均值E(x), 用榉本力差2来估计总体的方FNx)]2。 例31设某种灯泡寿命X~N(,d2),其中μ,a2都是卡知参数,今随机取得4∵灯泡 测得命(h)为 5t2,1453, 1367 1650 试估计p及a2。 解因为H为全体灯泡的平均寿命,a2为全体灯泡的方差,我们用样本平均值X来估计 p,用样本方差S2来佔计a2,所以有 I x,=(1502+1453+1367+1650)=1493 [(1502-1493):+(1453-1493)2+(1367-1493)2+(1650-1493)2 =14069 3.2.1.2极大似然法 设总体x的概率密度函数∫(x;月,02……,B)为巳知,其中1,62,…,6,是未知参数(若X 为离散型,则f(x;61,62…,)表示概率P{X=x})于是,总体X的样本X1,X2,…,X,的联 合概率密度为11f(x,;61,2,…,6),对于样本的一个实现x1,x2,…,x,样本落在(x1,x2,… x)邻域里的概率为1f(x,;0,,…,)dx,对于确定的x1,x2,…,x,它是6,1,…,B的函 数,极大似然法的原理就是在6,53,…6的取值范围内选取使得∏∫(x,:0,9,…)dx达到 最大值的(x1x2,…x,),…(x,x2…x)作为6,,…,的估计值。这些估计值对应的 估计量8(X1,x2,…,X),…,(X1,X…,x)分别称为61,01,…,6的极大似然估计量。 由于使∏f(x:4,92,…,)d达到最大值答价于使Ⅱ/(x1:1,,…1)达到最大值,故 L(6,…,m)=I(x;.,02…,1) (3-1) 为θ,2……日的似然函数。 由于nx是x的单调上升函数,所以lnL与L有相同的最大值点。求L.(61,62…,)的最 大值可转化为求nL(B1,02,…,B)的最大值而后者使用起来是很方倾的 ln对a1,B2,…,求偏导并令其等于零得: olnL(B4,62,…、6,) a1 lnL(1,2、…,O) a92
0 万程组(3-2)称为似然方程组。求得B.(r1,r2…,x),…,(xx2,…,x,)的解就是分,94,…, 0的极大似然估计量。 例32设息体X服从正态分布N(p,a),,X2,…X是其样本,(1)若p已知,未 知,试求a的极大似然估计量;(2)若p,2均未知,试求,2的极大似然估计量。 解(])2的似然函数为 L(a2)=11[ √2xa expl X,-p)2 于是 inI, (o') n)-1.∑(x 对a2求导得似然方程 a lnl(g 解得 (X,p)2 (2)g,d2的似然函数为 L(u,d) (√2xo) lnL(μ,a2)=-nln(√2πa)- (X,-n)2 付μ,σ2求偏导得似然方程组 a InL(uo2) pn(=-1+1∑(x.-)=0 解得 X-X g2 (X,X)2 由本例结果可看出,均值p的矩估计量与极大似然估计量是一致的,而a2的极大似然估
计量与矩佔计量不同,相差一个系数¨—,当样本容放n较大时,两者相差甚微,而S2是总体 方差的无偏估计量,这就是为什么=>(x-x)2表示样本方差的原因 3.2.1.3评价估计量优劣的标准 由例3-2我们已经看到,对于同一参数,用不同方法来估计可能得到不同的估计量,究竟 采用哪一个好呢?这就牵涉到用什么标准来评价估计量的问题。 致性 由第二章知,当子样容量趋于无穷时,样本数字特征依概率收敛于总体数字特征,对于总 体参数的估计量B,自然也希望具有上述性质。这便引出了一致性的概念 设0(X1,X2,…X)为未知参数的估计量。若6依概率收敛于0则称b为0的…致估计 量 2.无偏性 估计量是随机变量,对于不同的样本实现它有不同的估计值我们希望它在未知参数的真 值附近徘徊,亦即希望它的数学期望等于未知参数的真值,这就是无偏性的概念。 设b为未知参数8的估计量,若 E(B)=6 (3-3) 则称b为的无偏估计量。 例3-3样本方差S2是总体方差的无偏估计量 事实上 E(S)E-12(X-X)] n1E{[(x-p)-(X-) EL(X,-p)2-2△(X.-p)(X一)+n(X-p)2] E[(X-p)2]-nE[(X-p)2 (n2 因此,一般总是取S2为a2的估计量 3.有效性 设a、02是θ的两个无偏估计量,若 D(a1)/D(B2)<1 (3-4) 则称较2有效。 这就是说,虽然和B2都在日的真值附近波动但B较B更密集在0附近即方差较小 白然比2更理想。 3.2.2区间估计
设总体分布含有一未知参数0.若由样本定的两个统计量(X,Y2…X.及(X1,X2, X,),对于给定值a(0<a<1),满足 P{0(X1,X2,…,N2)<a<X,N2,…,X)=1 则称随机区间(0,0)是0的100(1-a)%置信区间.和称为6的100(1-a)%置信限,分别 为置倍下限和置信:限。的分数100(1-a)%称为置信度。根据样本确定满足(3-5)式的置信 区间(0)称为参数6的区间估计 3.2.2.1正态分布总体均值与方差的区间佔计 1.a已知,求均值的置信区间 设Xx1,x1,…,x为总体N(m2)的一个样本,又知道X=1∑x,是m的一个点估计, 并由第2.4.1节知 X( 所以 N(.1) 且分布N(0,1)不依赖于P。因此对于给定的置信度100(1-a)%,有 PI 由不等式 故所求的100(1-a)%置信区间为 习惯上,这个置信区间也常写成 2.a未知时,求p的置信区间 设X1,X2;…,X为总体N(,2)的一个样本,由于a2未知,必须找到个不含σ2的统计 量来确定μ的置信区间由第2.4.3节知 (X-p)√n 且(n-1)不依赖于μ。由此得 P{-t2(n-1)< (X-p)√n <tn2(n-1) 故得方差未知的正态分布,其均值的100(1-a)%置信区间为