第六章参数估计 本章主要讲述点估计(矩法估计,极大似然估计):估计量的评价准则(无 偏性,最小方差性和有效性,其它几个准则):区间估计(区间估计的一般步骤, 内容单个正态总体参数的区间估计,双正态总体参数的区间估计,非正态总体参数的 提要区间估计)等内容 1、理解点估计的概念,掌握矩估计法(一阶、二阶)。了解极大似然估计法 2、了解估计量的评选标准(无偏性、有效性、一致性)。 重点3、理解区间估计的概念,会求单个正态总体的均值与方差的置信区间,会求两 分析 正态总体的均值差与方差比的置信区间 1、矩法估计,极大似然估计。 难点2、估计量的评价准则。 分析3、正态总体参数的区间估计 习题习题6(2461035,.9119226 布置 备注
第六章 参数估计 内容 提要 本章主要讲述点估计(矩法估计,极大似然估计);估计量的评价准则(无 偏性,最小方差性和有效性,其它几个准则);区间估计(区间估计的一般步骤, 单个正态总体参数的区间估计,双正态总体参数的区间估计,非正态总体参数的 区间估计)等内容. 重点 分析 1、理解点估计的概念,掌握矩估计法(一阶、二阶)。了解极大似然估计法。 2、了解估计量的评选标准(无偏性、有效性、一致性)。 3、理解区间估计的概念,会求单个正态总体的均值与方差的置信区间,会求两个 正态总体的均值差与方差比的置信区间。 难点 分析 1、 矩法估计,极大似然估计。 2、 估计量的评价准则。 3、 正态总体参数的区间估计。 习题 布置 习题 6 (2,4,6(1)(3)(5),9,11,18,22,24,26) 备注
教学内容( Contents) Chapter six参数估计( Parameter estimation) §6.1点估计( Point estimation) 矩估计法( Square Estimation) 如上所述,例5.4中我们所做的对该地区农户的平均收入水平和贫富悬殊程度做出推断 这一工作,用数理统计的话说,实质上是对总体X~N(2)的未知参数期望值与方差 值a2进行估计。我们当时是分别用样本均值X和样本方差S2来反映这两个量的,那么这样 做是否合理?直观来看这样做是合理的,从概率论的观点看也是合理的。事实上,若总体X的 期望存在,E(X)=,X1X2,…X是出自X的样本,则由柯尔莫哥洛夫强大数定律,以概 率为1地成立 X1= 而上式左边极限号内正是样本均值X,因此,我们常用X作为的估计值。不仅如此, 若X的k阶矩存在,EXk=a4,则同样由柯尔莫哥洛夫强大数定律得出 以概率为1成立。于是,同样可用样本阶原点矩A=∑X来近似a,这种用样本原点 矩去估计总体相应原点矩的方法,即是所谓的矩估计法。一般地,若总体的分布有m个参数 6,2…,Om,则显然,总体的k阶矩(k≤m)ak如果存在的话,必依赖这些参数, ak(6日2,…bn)k=1,2, 按照用样本矩近似真实矩的原则,可得方程 A1=a1(61,2,…n) (6.1) Amn=an(1,02,…n) 若上述关于B1,日2…n的方程组有唯一的解 (b1,b2,…,bm) 则称O是b1的矩估计量( Square Estimator)或矩估计。 Example6.1按矩估计的定义,无论总体是什么分布,k阶样本原点矩A均是它们相 应真实原点矩ak的矩估计量,只要真实矩存在。因当我们将ak视为未知参数时,A显然是 方程组(6.1)的唯一解。 Example6.2无论总体为什么分布,只要二阶矩存在,则样本方差S2为方差2的矩估 计量 Solution设X1,X2,…,Xn为一样本,我们有
67 教 学 内 容( Contents ) Chapter Six 参数估计(Parameter Estimation) §6.1 点估计(Point Estimation) 一、 矩估计法(Square Estimation) 如上所述,例 5.4 中我们所做的对该地区农户的平均收入水平和贫富悬殊程度做出推断 这一工作,用数理统计的话说,实质上是对总体 ~ ( , ) 2 X N 的未知参数期望值 与方差 值 2 进行估计。我们当时是分别用样本均值 X 和样本方差 2 S 来反映这两个量的,那么这样 做是否合理?直观来看这样做是合理的,从概率论的观点看也是合理的。事实上,若总体 X 的 期望存在, E X X X Xn ( ) , , , , = 1 2 是出自 X 的样本,则由柯尔莫哥洛夫强大数定律,以概 率为1地成立 = → = n i i n X n 1 1 lim 而上式左边极限号内正是样本均值 X ,因此,我们常用 X 作为 的估计值。不仅如此, 若 X 的 k 阶矩存在, k k EX = a ,则同样由柯尔莫哥洛夫强大数定律得出 = = n i k k Xi a n 1 1 lim 以概率为1成立。于是,同样可用样本 k 阶原点矩 = = n i k k Xi n A 1 1 来近似 k a ,这种用样本原点 矩去估计总体相应原点矩的方法,即是所谓的矩估计法。一般地,若总体的分布有 m 个参数 m , , , 1 2 ,则显然,总体的 k 阶矩( k m ) k a 如果存在的话,必依赖这些参数,即 ak = ak (1 , 2 , m ), k =1,2, ,m 按照用样本矩近似真实矩的原则,可得方程 = = ( , , , ) ( , , , ) 1 2 1 1 1 2 m m m m A a A a (6.1) 若上述关于 m , , , 1 2 的方程组有唯一的解 ( 1 , 2 , , m ) = 则称 i ˆ 是 i 的矩估计量(Square Estimator)或矩估计。 Example 6.1 按矩估计的定义,无论总体是什么分布, k 阶样本原点矩 Ak 均是它们相 应真实原点矩 k a 的矩估计量,只要真实矩存在。因当我们将 k a 视为未知参数时, Ak 显然是 方程组(6.1)的唯一解。 Example 6.2 无论总体为什么分布,只要二阶矩存在,则样本方差 2 S 为方差 2 的矩估 计量。 Solution 设 X X Xn , , , 1 2 为一样本,我们有
a=∑x,=X 故 a2-a (X1-X)2 记为G2=S2.第三步等号再一次用到习题5.4 需要估计的参数也可以不是总体的数字特征 Example6.3设x为[1O21上的均匀分布,X1X2,…,xn为样本,求B1O2的矩估 计 Solution xdx02-62 02-612(62-1) ,+6 x 62- dx=,(2-61)2 今 X=(O1+B2) (2-61) 解上述关于B1,O2的方程得 O1=X-3 02=X+√3S Example6.4贝努利试验中,事件A发生的频率是该事件发生概率的矩法估计。 Solution此处,实际上我们视总体X为“唱票随机变量”,即X服从两点分布 1,若A发生,P(A)=p 0若A不发生 求参数p的矩法估计 设X1,X2,…,Xn为X的一个样本,若其中有n1个X等于1,则X 为事件A发生的频率,另一方面,显然 EX=P(A=p 故有p=X 应用中许多问题可归结为例6.4,如废品率的估计问题等。特别对固定的x,经验分布函 数Fn(x)也可在某种意义下看成是F(x)的矩估计因为我们在5.3.2节中讲过,Fn(x)是n次 试验中事件{X<x}发生的频率,而F(x)已知是{X<x}的概率。当然这一矩估计所涉及的 总体已不是原来的总体X,而是相应的“唱票随机变量
68 = = = = = n i i n i i X n a X X n a 1 2 2 1 1 1 1 故 = = = − = = − = − n i i n i i X X S n X X n a a 1 2 2 1 2 2 2 2 1 2 ( ) 1 1 记为 2 2 ˆ = S .第三步等号再一次用到习题 5.4. 需要估计的参数也可以不是总体的数字特征。 Example 6.3 设 X 为[ 1 2 , ]上的均匀分布, X X Xn , , , 1 2 为样本,求 1 2 , 的矩估 计。 Solution ( ) 2 1 2( ) 1 2 2 1 2 1 2 2 2 1 1 2 1 = + − − = − = xdx a = − + − − = 2 1 2 2 1 2 1 2 2 1 2 ( ) 12 1 2 1 x dx 令 = − = + ( ) 12 1 ( ) 2 1 2 1 2 1 2 S X 解上述关于 1 2 , 的方程得 = + = − X S X S 3 3 2 1 Example 6.4 贝努利试验中,事件 A 发生的频率是该事件发生概率的矩法估计。 Solution 此处,实际上我们视总体 X 为“唱票随机变量”,即 X 服从两点分布: = = 若 不发生 若 发生 A A P A p X 0, 1, , ( ) 求参数 p 的矩法估计。 设 X X Xn , , , 1 2 为 X 的一个样本,若其中有 1 n 个 Xi 等于 1,则 = = = n i i n n X n X 1 1 1 即 为事件 A 发生的频率,另一方面,显然 EX = P(A) = p 故有 p ˆ = X . 应用中许多问题可归结为例 6.4,如废品率的估计问题等。特别对固定的 x ,经验分布函 数 F (x) n 也可在某种意义下看成是 F(x) 的矩估计。因为我们在 5.3.2 节中讲过, F (x) n 是 n 次 试验中事件 {X x} 发生的频率,而 F(x) 已知是 {X x} 的概率。当然这一矩估计所涉及的 总体已不是原来的总体 X ,而是相应的“唱票随机变量
并非所有建立了方程组(6.1)的矩估计问题都能得到的解析表达式。 Example6.5设总体的密度函数为 f(x.B1,62)= 1+O.下x8e(-x2)x0 0,x≤0 1<61<∞62>0,X1,X2,…,Xn为此总体的样本。则可以算出 2+B1 1+1 3+61 6, 其中I()为伽( Gamma)函数,按矩估计原理分别用X,A2取代a1,a2,得到形如(6.1)的方 程组,但,62无法得到简单的解析表达式,只能求O1O2的数值解。(见习题6.20) 使用矩估计法的一个前提是总体存在适当阶的矩,阶数应不小于待估参数的个数(或者 说参数空间的维数),但这不总是可以做到的。 Example6.6柯西( Cauchy)分布设总体具有密度函数 f(x, 0) 00<X<0 r(1+(x-0)2) 显然,它的各阶矩皆不存在,因此,不能用矩估计法来估计参数θ.另外,尽管矩估计法简便易 行,且只要n充分大,估计的精确度也很高,但它只用到总体的数字特征的形式,而未用到总 体的具体分布形式,损失了一部分很有用的信息,因此,在很多场合下显得粗糙和过于一般 二、极大似然估计( Maximum likelihood estimation) 参数的点估计方法中另一个常用方法就是极大似然估计,简记为ME( Maximum Likelihood estimation)。从字面上来理解,就是通过对样本的考察,认为待估参数最象是 取什么值即作为对参数的估计,事实上,极大似然估计原理也大致如此。我们通过一个具体例 子来说明这一估计的思想。 Example6.7已知甲、乙两射手命中靶心的概率分别为0.9及0.4,今有一张靶纸上面 的弹着点表明为10枪6中,已知这张靶纸肯定是甲、乙之一射手所射,问究竞是谁所射? 从直观上看,甲的枪法属上乘,命中靶心率为0.9,看来这次射击成绩不至于这么差;而 乙的枪法又似乎尚不足以打出这么好的成绩,但二者取一,还是更象乙所射。我们来计算 下可能性。为此我们建立一个统计模型:设甲、乙射中与否分别服从参数为p1=09,p2=04 的两点分布,今有样本X13X2,…,X10,其中有6个观察值为1,4个为0,由此估计总体的 参数p是0.9,还是0.4.这里因为参数空间只有两个点:O=0.9,0.4},我们不妨分别计 算一下参数为什么的可能性大。若是甲所射,即参数p=0.9,则此事发生的概率为 L(P1)=P1(1-p1) (09)(0.1)4≈000005:若是乙所射,即参数p=0.4,则此 事发生的概率为L(p2)=P2(1-P2 =(04)°(0.6)4≈0.0005,尽管是乙所射的可 能也不大,但毕竟比是甲所射的概率大了10倍,因此,在参数空间只有两点的情况下,概率 L(p)的最大值在p=0.4处发生,故我们更情愿认为是乙所射,即用0.4作为p的估计 p=p2=0.4. 总之,极大似然估计的出发点是基于这样一个统计原理,在一次随机试验中,某一事件
69 并非所有建立了方程组(6.1)的矩估计问题都能得到 ˆ 的解析表达式。 Example 6.5 设总体的密度函数为 − + = 0, 0 exp( ), 0 1 ( , , ) 1 2 2 1 2 1 2 x x x x f x 1 , 0, − 1 2 X X Xn , , , 1 2 为此总体的样本。则可以算出 + + = 2 1 2 1 1 2 1 a + + = 2 1 2 1 2 3 1 a 其中 (z) 为伽(Gamma)函数,按矩估计原理分别用 2 X, A 取代 1 2 a ,a ,得到形如(6.1)的方 程组,但 1 2 , 无法得到简单的解析表达式,只能求 1 2 ˆ , ˆ 的数值解。(见习题 6.20) 使用矩估计法的一个前提是总体存在适当阶的矩,阶数应不小于待估参数的个数(或者 说参数空间的维数),但这不总是可以做到的。 Example 6.6 柯西(Cauchy)分布 设总体具有密度函数 − + − = x x f x , (1 ( ) ) 1 ( , ) 2 显然,它的各阶矩皆不存在,因此,不能用矩估计法来估计参数 .另外,尽管矩估计法简便易 行,且只要 n 充分大,估计的精确度也很高,但它只用到总体的数字特征的形式,而未用到总 体的具体分布形式,损失了一部分很有用的信息,因此,在很多场合下显得粗糙和过于一般。 二、 极大似然估计(Maximum Likelihood Estimation) 参数的点估计方法中另一个常用方法就是极大似然估计,简记为 MLE (Maximum Likelihood Estimation)。从字面上来理解,就是通过对样本的考察,认为待估参数最象是 取什么值即作为对参数的估计,事实上,极大似然估计原理也大致如此。我们通过一个具体例 子来说明这一估计的思想。 Example 6.7 已知甲、乙两射手命中靶心的概率分别为 0.9 及 0.4,今有一张靶纸上面 的弹着点表明为 10 枪 6 中,已知这张靶纸肯定是甲、乙之一射手所射,问究竟是谁所射? 从直观上看,甲的枪法属上乘,命中靶心率为 0.9,看来这次射击成绩不至于这么差;而 乙的枪法又似乎尚不足以打出这么好的成绩,但二者取一,还是更象乙所射。我们来计算一 下可能性。为此,我们建立一个统计模型:设甲、乙射中与否分别服从参数为 p1 = 0.9, p2 = 0.4 的两点分布,今有样本 1 2 10 X , X , , X ,其中有 6 个观察值为 1,4 个为 0,由此估计总体的 参数 p 是 0.9,还是 0.4.这里因为参数空间只有两个点: ={0.9,0.4},我们不妨分别计 算一下参数为什么的可能性大。若是甲所射,即参数 p =0.9,则此事发生的概率为 ( ) (1 ) (0.9) (0.1) 0.00005 6 4 10 1 1 1 1 0 1 1 0 1 = − = = = − i i i Xi X L p p p ;若是乙所射,即参数 p =0.4,则此 事发生的概率为 ( ) (1 ) (0.4) (0.6) 0.0005 6 4 10 2 2 2 1 0 1 1 0 1 = − = = = − i i i Xi X L p p p ,尽管是乙所射的可 能也不大,但毕竟比是甲所射的概率大了 10 倍,因此,在参数空间只有两点的情况下,概率 L( p) 的最大值在 p =0.4 处发生,故我们更情愿认为是乙所射,即用 0.4 作为 p 的估计: p ˆ = 2 p =0.4. 总之,极大似然估计的出发点是基于这样一个统计原理,在一次随机试验中,某一事件
已经发生,比如已经得到某个具体的样本X1,X2,…,Xn,则必然认为发生该事件的概率最大 从例6.7我们可以看出,极大似然估计的做法,关键有两步:第一步写出某样本 X1,X2,…,Xn出现概率的表达式L(O),对于离散型总体X,设它的分布列为 p(k;O),i=1,2,…,则上述样本出现的概率为 L()=p(X;) 对于固定的样本,L(O)是参数O的函数,我们称之为似然函数 Likelihood Function)。第二步 则是求O∈O(⊙是参空间),使得L(O)达到最大,此0即为所求的参数O的极大似然估计。 这里还需要着重强调几点 a)当总体X是连续型随机变量时,谈所谓样本X1,X2…,Xn出现的概率是没有什么 意义的,因为任何一个具体样本的出现都是零概率事件。这时我们就考虑样本在它任意小的 邻域中出现的概率,这个概率越大,就等价于此样本处的概率密度越大。因此在连续型总体 的情况下,我们用样本的密度函数作为似然函数 L(0)=∏f(x:0) b)为了计算方便,我们常对似然函数L()取对数,并称hL()为对数似然函数 ( Logarithm likelihood function)。易知,L(O)与hL()在同一θ处达到极大,因此,这样做 不会改变极大点。 c)在例6.7中参数空间只有两点,我们可以用穷举法求出在哪一点上达到最大,但在 大多数情形中,⊙包含m维欧氏空间的一个区域,因此,必须采用求极值的办法,即对对数似 然函数关于,求导,再令之为0,即得 an(e) =0.6=(61,62,…,bn)i=1,2, (6.2) 我们称(6.2)为似然方程(组)( Likelihood equation( group)。解上述方程,即得到O1的 Mle, i=12 Example6.8设X1X2…,xn是N(o2)的样本,求与a2的ME Solution我们有 L(,G2) (2x)(2)2 ∑(X,-)2 In L(uo2)=_ In 2I-Ino ol4a)=∑x2-m)=0 an L(u,o n 1 X1-4)2=0 2c 解似然方程组,即得
70 已经发生,比如已经得到某个具体的样本 X X Xn , , , 1 2 ,则必然认为发生该事件的概率最大。 从例 6.7 我们可以看出,极大似然估计的做法,关键有两步:第一步写出某样本 X X Xn , , , 1 2 出 现 概 率 的 表 达 式 L( ) ,对于离散型总体 X , 设 它 的 分 布 列为 p(k ; ),i =1,2, , i 则上述样本出现的概率为 = = n i L p Xi 1 ( ) ( ; ) 对于固定的样本, L( ) 是参数 的函数,我们称之为似然函数(Likelihood Function)。第二步 则是求 ˆ ( 是参空间),使得 L( ) 达到最大,此 ˆ 即为所求的参数 的极大似然估计。 这里还需要着重强调几点: a) 当总体 X 是连续型随机变量时,谈所谓样本 X X Xn , , , 1 2 出现的概率是没有什么 意义的,因为任何一个具体样本的出现都是零概率事件。这时我们就考虑样本在它任意小的 邻域中出现的概率,这个概率越大,就等价于此样本处的概率密度越大。因此在连续型总体 的情况下,我们用样本的密度函数作为似然函数。 = = n i Xi L f 1 ( ) ( ; ) b) 为了计算方便,我们常对似然函数 L( ) 取对数,并称 ln L( ) 为对数似然函数 (Logarithm likelihood function)。易知, L( ) 与 ln L( ) 在同一 ˆ 处达到极大,因此,这样做 不会改变极大点。 c) 在例 6.7 中参数空间只有两点,我们可以用穷举法求出在哪一点上达到最大,但在 大多数情形中, 包含m维欧氏空间的一个区域,因此,必须采用求极值的办法,即对对数似 然函数关于 i 求导,再令之为 0,即得 0, ( , , , ) ln ( ) 1 2 m i L = = i = 1,2, ,m (6.2) 我们称(6.2)为似然方程(组)(Likelihood equation (group)) 。解上述方程,即得到 i 的 MLE ,i = 1,2, ,m. Example 6.8 设 X X Xn , , , 1 2 是 ( , ) 2 N 的样本,求 与 2 的 MLE . Solution 我们有 2 1 2 2 2 2 1 2 2 2 ( ) ln 2 ln 2 2 ln ( , ) 2 ( ) exp (2 ) ( ) 1 ( , ) 2 2 = = − = − − − − = − n i i n i i X n n L X L n n = − + − = = − = = = n i i n i i X L n X L 1 2 2 2 4 2 1 2 2 ( ) 0 2 1 2 ln ( , ) ( ) 0 ln ( , ) 1 解似然方程组,即得