第七章参数佔计 【授课对象】理工类本科二年级 【授课时数】6学时 【授课方法】课堂讲授与提问相结合 【基本要求】1、理解参数估计的概念,熟练掌握点估计的矩估计法和极大似然估计法; 2、掌握估计量好坏的三个评选标准; 3、理解理解区间估计的概念,熟练掌握单个正态总体的均值和方差的置信区间; 知道两个正态总体的均值差和方差比的区间估计。 【本章重点】参数估计的矩估计法和极大似然估计法;区间估计的概念 【本章难点】估计的矩估计法和极大似然估计法;区间估计的概念 【授课内容及学时分配】 §7.0前言 上一章,我们讲了数理统计的基本概念,从这一章开始,我们研究数理统计的重要内容 之一即统计推断。 所谓统计推断,就是根据从总体中抽取得的一个简单随机样本对总体进行分析和推断。 即由样本来推断总体,或者由部分推断总体。一—这就是数理统计学的核心内容。它的基本 问题包括两大类问题,一类是估计理论;另一类是假设检验。而估计理论又分为参数估计与 非参数估计,参数估计又分为点估计和区间估计两种,这里我们主要研究参数估计这一部分 数理统计的内容。 §7.1参数佑计的概念 统计推断的目的,是由样本推断出总体的具体分布。一般来说,要想得到总体的精确分 布是十分困难的。由第六章知道:只有在样本容量n充分大时,经验分布函数F(x)→)F(x)(以 概率1),但在实际问题中,并不容许n很大。而由第五章的中心极限定理,可以断定在某些 条件下的分布为正态分布,也就是说,首先根据样本值,对总体分布的类型作出判断和假设, 从而得到总体的分布类型,其中含有一个或几个未知参数:其次,对另外一些并不关心其分 布类型的统计推断问题,只关心总体的某些数字特征,如期望、方差等,通常把这些数字特 征也称为参数。这时,抽样的目的就是为了解出这些未知的参数。 例1:设某总体X~p(),试由样本(X1,X2…,xn)来估计参数
1 第七章 参 数 估 计 【授课对象】理工类本科二年级 【授课时数】6 学时 【授课方法】课堂讲授与提问相结合 【基本要求】1、理解参数估计的概念,熟练掌握点估计的矩估计法和极大似然估计法; 2、掌握估计量好坏的三个评选标准; 3、理解理解区间估计的概念,熟练掌握单个正态总体的均值和方差的置信区间; 知道两个正态总体的均值差和方差比的区间估计。 【本章重点】参数估计的矩估计法和极大似然估计法;区间估计的概念 【本章难点】估计的矩估计法和极大似然估计法;区间估计的概念 【授课内容及学时分配】 §7.0 前 言 上一章,我们讲了数理统计的基本概念,从这一章开始,我们研究数理统计的重要内容 之一即统计推断。 所谓统计推断,就是根据从总体中抽取得的一个简单随机样本对总体进行分析和推断。 即由样本来推断总体,或者由部分推断总体。——这就是数理统计学的核心内容。它的基本 问题包括两大类问题,一类是估计理论;另一类是假设检验。而估计理论又分为参数估计与 非参数估计,参数估计又分为点估计和区间估计两种,这里我们主要研究参数估计这一部分 数理统计的内容。 §7.1 参数估计的概念 统计推断的目的,是由样本推断出总体的具体分布。一般来说,要想得到总体的精确分 布是十分困难的。由第六章知道:只有在样本容量 n 充分大时,经验分布函数 ( ) ( ) F x F x n ⎯⎯⎯→ 一致 (以 概率 1),但在实际问题中,并不容许 n 很大。而由第五章的中心极限定理,可以断定在某些 条件下的分布为正态分布,也就是说,首先根据样本值,对总体分布的类型作出判断和假设, 从而得到总体的分布类型,其中含有一个或几个未知参数;其次,对另外一些并不关心其分 布类型的统计推断问题,只关心总体的某些数字特征,如期望、方差等,通常把这些数字特 征也称为参数。这时,抽样的目的就是为了解出这些未知的参数。 例 1:设某总体 X ~ p() ,试由样本 ( , , , ) X1 X2 Xn 来估计参数
例2:设某总体X~N(,a2),试由样本(X1,X2…,X)来估计参数μ,σ2。 在上述二例中,参数的取值虽未知,但根据参数的性质和实际问题,可以确定出参数的 取值范围,把参数的取值范围称为参数空间,记为θ。 如:例1:⊙={|4>0}例2:⊙={(μ2)|>0,H∈R} 1.定义;所谓参数估计,是指从样本(X1,X2…,Xn)中提取有关总体X的信息,即构造样本 的函数——统计量g(X1X2…Xn),然后用样本值代入,求出统计量的观测值 g(x1,x2,…xn),用该值来作为相应待估参数的值 此时,把统计量g(X1,X2…,Xn)称为参数的估计量,把g(x2x2…xn)称为参数的估计 值 2类型:包括点估计 区间估计 1)点估计:指对总体分布中的参数θ,根据样本(X1,X2…,Xn)及样本值(x1,x2…,xn),构 造一统计量g(X1X2…,Xn),将g(x,x2…x)作为O的估计值,则称g(X1,X2…Xn)为O的 点估计量,简称点估计。记为0=g(X1,X2,…X) 2)区间估计:指对总体中的一维参数O,构造两个统计量: 61=g1(X12X2,…,Xn) 62=g2(X1X2,…,Xn) 使得待估参数以较大的概率落在[θ1,θ2]内,此时,称[θ1,θ2]为θ的区间估计 §7.2点估计量的求法 0、引言: 关于点估计的一般提法:设θ为总体X分布函数中的未知参数或总体的某些未知的数字 特征,(x1,X2,…,Xn)是来自X的一个样本,(x1,x2…,x)是相应的一个样本值,点估计问题 就是构造一个适当的统计量θ(X1,X2…X),用其观察值(x1,x2…x)作为未知参数的近 似值,我们称(X1,X2…X)为参数O的点估计量,O(x,x2,…x)为参数O的点估计值,在 不至于混淆的情况下,统称为点估计。由于估计量是样本的函数,因此对于不同的样本值,θ 的估计值是不同的。 点估计量的求解方法很多,这里主要介绍矩估计法和极大似然估计法,除了这两种方法
2 例 2:设某总体 ~ ( , ) 2 X N ,试由样本 ( , , , ) X1 X2 Xn 来估计参数 2 , 。 在上述二例中,参数的取值虽未知,但根据参数的性质和实际问题,可以确定出参数的 取值范围,把参数的取值范围称为参数空间,记为 。 如:例 1: ={ | 0} 例 2: = 2 {( , ) | 0, } R 1.定义:所谓参数估计,是指从样本 ( , , , ) X1 X2 Xn 中提取有关总体 X 的信息,即构造样本 的函数——统计量 ( , , , ) g X1 X2 Xn ,然后用样本值代入,求出统计量的观测值 1 2 ( , , , ) n g x x x ,用该值来作为相应待估参数的值。 此时,把统计量 ( , , , ) g X1 X2 Xn 称为参数的估计量,把 ( , , ) 1 2, n g x x x 称为参数的估计 值。 2.类型:包括 点 估 计 区间估计 1)点估计:指对总体分布中的参数 ,根据样本 ( , , , ) X1 X2 Xn 及样本值 ( , , , ) 1 2 n x x x ,构 造一统计量 ( , , , ) g X1 X2 Xn ,将 ( , , ) 1 2, n g x x x 作为 的估计值,则称 ( , , , ) X1 X2 Xn g 为 的 点估计量,简称点估计。记为 = ( , , , ) X1 X2 Xn g 。 2)区间估计:指对总体中的一维参数 ,构造两个统计量: 1 = ( , , , ) g1 X1 X2 Xn 2 = ( , , , ) g2 X1 X2 Xn 使得待估参数以较大的概率落在[ 1 , 2 ]内,此时,称[ 1 , 2 ]为 的区间估计。 §7.2 点估计量的求法 0、引言: 关于点估计的一般提法:设 为总体 X 分布函数中的未知参数或总体的某些未知的数字 特征, ( , , , ) X1 X2 Xn 是来自 X 的一个样本, ( , , , ) 1 2 n x x x 是相应的一个样本值,点估计问题 就是构造一个适当的统计量 1 2 ˆ ( , , , ) X X X n ,用其观察值 ( , , , ) ˆ 1 2 n x x x 作为未知参数 的近 似值,我们称 1 2 ˆ ( , , , ) X X X n 为参数 的点估计量, ( , , , ) ˆ 1 2 n x x x 为参数 的点估计值,在 不至于混淆的情况下,统称为点估计。由于估计量是样本的函数,因此对于不同的样本值, 的估计值是不同的。 点估计量的求解方法很多,这里主要介绍矩估计法和极大似然估计法,除了这两种方法
之外,还有 Bayes方法和最小二乘法等。 、矩佔计法:( K. Pearson提出) 基本思想: 矩估计法是一种古老的估计方法。大家知道,矩是描写随机变量的最简单的数字特征。 样本来自于总体,从前面可以看到样本矩在一定程度上也反映了总体矩的特征,且在样本容 量n增大的条件下,样本的k阶原点矩A=∑X以概率收敛到总体X的k阶原点矩 m2=E(X),即A-→m4(m→∞)k=1,2,…,因而自然想到用样本矩作为总体矩的估 2.具体做法: 假设O=(O1,O2,…O4)为总体X的待估参数(0∈Φ),(X1,X2…,X)是来自X的一个样 本,令 即A=∑x=m=EX,1=12…k A=m 得一个包含k个未知数01,02…04的方程组,从中解出θ=(O1,O2,…4)的一组解 6=(61,B2…,6),然后用这个方程组的解O,2…,4分别作为,2….的估计量,这种估 计量称为矩估计量,矩估计量的观察值称为矩估计值。 该方法称为矩估计法。(只需掌握l=1,2的情形) 例3:设总体X的均值及方差a2都存在但均未知,且有a2>0,又设(X1,X2…,Xn)是 来自总体X的一个样本,试求μ,σ2的矩估计量 m2=E(X2)=DX)+E(X∥=0+2/A 解:因为{m=E(x=H A G=4一A所以得{a=1元(x)=x 注:上述结果表明:总体均值与方差的矩估计量的表达式不会因总体的分布不同而异;同时, 我们又注意到,总体均值是用样本均值来估计的,而总体方差(即总体的二阶中心矩)却不 是用样本方差来估计的,而是用样本二阶中心矩来估计。那么,能否用S2来估计a2呢?能 的话,S2与B,哪个更好?下节课将再作详细讨论
3 之外,还有 Bayes 方法和最小二乘法等。 一、矩估计法:(K.Pearson 提出) 1.基本思想: 矩估计法是一种古老的估计方法。大家知道,矩是描写随机变量的最简单的数字特征。 样本来自于总体,从前面可以看到样本矩在一定程度上也反映了总体矩的特征,且在样本容 量 n 增大的条件下,样本的 k 阶原点矩 1 1 n k k i i A X n = = 以概率收敛到总体 X 的 k 阶原点矩 ( ) k m E X k = ,即 ( ) 1,2, p A m n k k k ⎯⎯→ → = ,因而自然想到用样本矩作为总体矩的估 计。 2.具体做法: 假设 ( , , , ) = 1 2 k 为总体 X 的待估参数( ), ( , , , ) X1 X2 Xn 是来自 X 的一个样 本,令 1 1 2 2 k k A m A m A m = = = 即 l l n i l l Xi m EX n A = = = =1 1 ,l = 1,2, , k 得一个包含 k 个未知数 k 1 ,2 , , 的方程组,从中解出 ( , , , ) = 1 2 k 的一组解 ) ˆ , , ˆ , ˆ ( ˆ = 1 2 k ,然后用这个方程组的解 k , , , 1 2 分别作为 k , , , 1 2 的估计量,这种估 计量称为矩估计量,矩估计量的观察值称为矩估计值。 该方法称为矩估计法。(只需掌握 l =1,2 的情形) 例 3:设总体 X 的均值 及方差 2 都存在但均未知,且有 2 >0,又设 ( , , , ) X1 X2 Xn 是 来自总体 X 的一个样本,试求 , 2 的矩估计量。 解:因为 = = + = + = = 2 2 2 2 2 1 m E( X ) D( X ) [ E( X )] m E( X ) 令 + = = 2 2 2 1 A A = − = 2 2 1 2 1 A A A 所以得 = − = − = = = n i i n i i X X n X X n X 1 2 1 2 2 2 ( ) 1 ( ) 1 ˆ ˆ 注:上述结果表明:总体均值与方差的矩估计量的表达式不会因总体的分布不同而异;同时, 我们又注意到,总体均值是用样本均值来估计的,而总体方差(即总体的二阶中心矩)却不 是用样本方差来估计的,而是用样本二阶中心矩来估计。那么,能否用 2 S 来估计 2 呢?能 的话, 2 S 与 B2 哪个更好?下节课将再作详细讨论
这样看来,虽然矩估计法计算简单,不管总体服从什么分布,都能求出总体矩的估计量, 但它仍然存在着一定的缺陷:对于一个参数,可能会有多种估计量。比如下面的例子: 例4:设X~P(k,4),未知,(X1,X2,…,Xn)是X的一个样本,求λ。 ∵E(X)=λ,D(X)=元 所以由例3可知:E(X)=→=DX)=2→A=x1-x)2 由以上可看出,显然F与∑(x,-x)是两个不同的统计量,但都是的估计。这样,就会 给应用带来不便,为此,R. A Fisher提出了以下的改进的方法: 、最(极)大似然估计法:(R. 4. Fisher提出) 1基本思想: 若总体X的分布律为P(X=x)=p(x,O)[或密度函数为f(x;O)],其中b=(1,O2,…,O)为 待估参数(O∈)。 设(X13K2,…Xn)是来自总体X的一个样本,(x1,x2…x)是相应于样本的一样本值,易 知:样本(X1,X2…,X)取到观测值(x1,x2…,x)的概率为 P=PX=x,Xx2=x2…,X=x}=∏p(x;),[或样本(X1X2,…,X)落在点 (x1,x2,…,xn)的邻域(边长分别为dx1,dx2,…,axn的n维立方体)内的概率近似地为 p=∏f(x:0)(微分中值定理)],令L(0)=L(x,x2,…,x)=∏p(x,0)[或 L(0)=L(x,x2…,x)=∏f(x,0)],则概率p随的取值变化而变化,它是O的函数,L(O)称 为样本的似然函数(注意,这里的x1x2,…,xn是已知的样本值,它们都是常数)。如果已知当 θ=a∈⊙时使L(O)取最大值,我们自然认为作为未知参数O的估计较为合理 最大似然方法就是固定样本观测值(x1x2…xn),在θ取值的可能范围⊙内,挑选使似然 函数L(x1,x2…,x;)达到最大(从而概率p达到最大)的参数值6作为参数的估计值,即 L(x1,x2…,x;6)=maxl(x,x2…,x;),这样得到的与样本值(x,x2…x,)有关,常记为 θ(x,x2…x),称之为参数的最大似然估计值,而相应的统计量θ(X1X2…X)称为参数O的 最大似然估计量。这样将原来求参数θ的最大似然估计值问题就转化为求似然函数L(0)的最
4 这样看来,虽然矩估计法计算简单,不管总体服从什么分布,都能求出总体矩的估计量, 但它仍然存在着一定的缺陷:对于一个参数,可能会有多种估计量。比如下面的例子: 例 4:设 X ~ P(k,), 未知, ( , , , ) X1 X2 Xn 是 X 的一个样本,求 。 E(X ) = , D(X ) = 所以由例 3 可知: E(X ) = ˆ = X = = = − n i Xi X n D X 1 2 ( ) 1 ˆ ( ) 由以上可看出,显然 = − n i Xi X n X 1 2 ( ) 1 与 是两个不同的统计量,但都是 的估计。这样,就会 给应用带来不便,为此,R.A.Fisher 提出了以下的改进的方法: 二、最(极)大似然估计法:(R.A.Fisher 提出) 1.基本思想: 若总体 X 的分布律为 P X x p x ( ) ( ; ) = = [或密度函数为 ( ; ) i f x ],其中 ( , , , ) = 1 2 k 为 待估参数( )。 设 ( , , , ) X1 X2 Xn 是来自总体 X 的一个样本, 1 2 ( , , , ) n x x x 是相应于样本的一样本值,易 知:样本 ( , , , ) X1 X2 Xn 取到观测值 1 2 ( , , , ) n x x x 的概率为 1 1 2 2 1 { , , , } ( ; ) n n n i i p P X x X x X x p x = = = = = = ,[或样本 1 2 ( , , , ) X X X n 落在点 1 2 ( , , , ) n x x x 的邻域(边长分别为 1 2 , , , n dx dx dx 的 n 维立方体)内的概率近似地为 1 ( ; ) n i i i p f x dx = (微分中值定理)],令 1 2 1 ( ) ( , , , ) ( ; ) n n i i L L x x x p x = = = [或 1 2 1 ( ) ( , , , ) ( ; ) n n i i L L x x x f x = = = ],则概率 p 随 的取值变化而变化,它是 的函数, L( ) 称 为样本的似然函数(注意,这里的 1 2 , , , n x x x 是已知的样本值,它们都是常数)。如果已知当 = 0 时使 L( ) 取最大值,我们自然认为 0 作为未知参数 的估计较为合理。 最大似然方法就是固定样本观测值 1 2 ( , , ) n x x x ,在 取值的可能范围 内,挑选使似然 函数 1 2 ( , , , ; ) L x x xn 达到最大(从而概率 p 达到最大)的参数值 ˆ 作为参数 的估计值,即 1 2 1 2 ˆ ( , , , ; ) max ( , , , ; ) L x x x L x x x n n = ,这样得到的 ˆ 与样本值 1 2 ( , , ) n x x x 有关,常记为 1 2 ˆ ( , , ) n x x x ,称之为参数 的最大似然估计值,而相应的统计量 1 2 ˆ ( , , ) X X X n 称为参数 的 最大似然估计量。这样将原来求参数 的最大似然估计值问题就转化为求似然函数 L( ) 的最
大值问题了。 2具体做法: ①在很多情况下,p(x,O)和f(x,O)关于θ可微,因此据似然函数的特点,常把它变为如 下形式:hL()=∑加fx1:0)(或∑hpx,0)),该式称为对数似然函数。由高等数学知 L(与血L(O)的最大值点相同,令hL0=01=12.…,k,求解得:0=(x,x2…x), 从而可得参数6的极大似然估计量为θ=0(X,X2…,Xn); ②若p(x,O)和f(x,O)关于θ不可微时,需另寻方法。 例5:设X~B(1,p),p为未知参数,(x1,x2…,x)是一个样本值,求参数p的极大似然 估计 解:因为总体X的分布律为:P{X=x}=p2(1-p)x,x=0,1 故似然函数为L(p)=∏p3(1-p)3=p(1-p)x1=01(=12,…m) 而hL(p)=∑x,)hp+(n-∑x(1-p) ∑x,(m-∑x,) 令L(p=2-+ p-1=0,解得p的最大似然估计值为/ 所以p的最大似然估计量为:p=∑X=X。 例6:设X~N(A,2),,a2未知,(X1,X2,…,Xn)为X的一个样本,(x,x2…,xn)是 (X12x2,…,Xn)的一个样本值,求,σ2的极大似然估计值及相应的估计量。 解:∵X~f(x,p,O) R 所以似然函数为:L(A,a2)= (2xo2)=22x 取对数:hL(,a2)=-(h2z+ha2) 分别对,σ2求导数
5 大值问题了。 2.具体做法: ①在很多情况下, p x( ; ) 和 f x( ; ) 关于 可微,因此据似然函数的特点,常把它变为如 下形式: = = n i i ln L( ) ln f ( x ; ) 1 (或 = n i i ln p( x ; ) 1 ),该式称为对数似然函数。由高等数学知: L()与ln L() 的最大值点相同,令 i k L i 0 1,2, , ln ( ) = = ,求解得: 1 2 ( , , , ) n = x x x , 从而可得参数 的极大似然估计量为 1 2 ˆ ( , , , ) = X X X n ; ②若 p x( ; ) 和 f x( ; ) 关于 不可微时,需另寻方法。 例 5:设 X ~ B(1, p), p 为未知参数, 1 2 ( , , , ) n x x x 是一个样本值,求参数 p 的极大似然 估计。 解:因为总体 X 的分布律为: x x P X x p p − = = − 1 { } (1 ) , x =0,1 故似然函数为 − = − = = = − = − n i i n i i i i n x n x i x x L p p p p p 1 1 ( ) (1 ) (1 ) 1 1 x , (i , , n ) i = 01 =12 而 = = = + − − n i n i i i ln L( p ) ( x )ln p ( n x )ln( p ) 1 1 1 令 0 1 1 1 = − − = + = = ( p ) ( n x ) p x [ln L( p )]' n i i n i i ,解得 p 的最大似然估计值为 1 1 ˆ n i i p x x n = = = 所以 p 的最大似然估计量为: X X n p n i = i = =1 1 ˆ 。 例 6:设 ~ ( , ) 2 X N , , 2 未知, ( , , , ) X1 X2 Xn 为 X 的一个样本, ( , , , ) 1 2 n x x x 是 ( , , , ) X1 X2 Xn 的一个样本值,求 , 2 的极大似然估计值及相应的估计量。 解: X f x e x R x = − − 2 2 2 ( ) 2 1 ~ ( ; , ) 所以似然函数为: = − − − − = = = n − i x n i n i i x L e e 1 ( ) 2 2 1 2 2 2 1 2 2 2 2 ( ) (2 ) 2 1 ( , ) 取对数: = = − + − − n i i x n L 1 2 2 2 2 ( ) 2 1 (ln 2 ln ) 2 ln ( , ) 分别对 , 2 求导数: