第3章概率密度函数的参数估计上一章我们讨论了贝叶斯决策理论,采用贝叶斯决策理论进行分类决策时,需要计算后验概率P(のIX),或者需要事先知道各类的先验概率P()和样本的类条件概率密度p(X),但实际应用中先验概率和类概率密度函数往往是未知的。通常,对研究的对象只有一些模糊性的知识,或者通过实验采样而得到的一些样本。这就需要根据已有的样本,利用统计推断中的估计理论对样本的分布做出估计,然后将估计值当做真实值来使用。在模式识别问题中,先验概率的估计相对比较容易,它可以由各类样本在总体样本集中所占的比例进行估计。但类条件概率密度函数的估计却比较困难,从样本出发估计其函数形式和参数,这就是本章要讨论参数估计问题。3.1概率密度函数估计概述所谓的概率密度函数估计是已知某类别の,的样本X,(i=1,2,N),采用某种规则估计出样本所属类的概率函数p(Xの)。从估计的方法来讲,可分为参数估计和非参数估计。参数估计是先假定样本的类条件概率密度函数P(Xの)的类型已知,如服从正态分布、二项分布,再用已知类别的学习样本估计函数里面的未知参数9,这项工作也叫训练或学习。参数估计的方法通常采用的是最大似然估计方法和贝叶斯估计方法。非参数估计则是类条件概率密度函数的形式也未知,直接用已知类别的学习样本去估计函数的数学模型,非参数估计的方法通常采用的是Parzen窗法、k-近邻法。为了便于理解,首先介绍参数估计中的一些基本概念。(1)统计量。假如概率密度函数的形式已知,但表征函数的参数0未知,则可将0的估计值构造成样本X(i=12N)的某种函数,这种函数称为统计量。参数估计的任务,就是利用样本求出参数の的估计值=e(X,X",X)。(2)参数空间。参数0的取值范围称为参数空间,书中用③来表示。(3)点估计、估计量和估计值。构造一统计量作为未知参数0的估计,称为点估计,称为估计量,由样本(X,X,,,X)作为自变量计算出来的值称为估计值。(4)区间估计。通过从总体中抽取的样本,根据一定的正确度与精确度的要1
1 第 3 章 概率密度函数的参数估计 上一章我们讨论了贝叶斯决策理论,采用贝叶斯决策理论进行分类决策时,需 要计算后验概率 P X i | ,或者需要事先知道各类的先验概率 ( ) P i 和样本的类 条件概率密度 ( | )i p X ,但实际应用中先验概率和类概率密度函数往往是未知的。 通常,对研究的对象只有一些模糊性的知识,或者通过实验采样而得到的一些样本。 这就需要根据已有的样本,利用统计推断中的估计理论对样本的分布做出估计,然 后将估计值当做真实值来使用。在模式识别问题中,先验概率的估计相对比较容易, 它可以由各类样本在总体样本集中所占的比例进行估计。但类条件概率密度函数的 估计却比较困难,从样本出发估计其函数形式和参数,这就是本章要讨论参数估计 问题。 3.1 概率密度函数估计概述 所谓的概率密度函数估计是已知某类别 i 的样本 ( 1,2, , ) X i N i ,采用某 种规则估计出样本所属类的概率函数 ( )i p X 。从估计的方法来讲,可分为参数 估计和非参数估计。参数估计是先假定样本的类条件概率密度函数 ( )i p X 的类 型已知,如服从正态分布、二项分布,再用已知类别的学习样本估计函数里面的未 知参数 ,这项工作也叫训练或学习。参数估计的方法通常采用的是最大似然估计 方法和贝叶斯估计方法。非参数估计则是类条件概率密度函数的形式也未知,直接 用已知类别的学习样本去估计函数的数学模型,非参数估计的方法通常采用的是 Parzen 窗法、 N k -近邻法。 为了便于理解,首先介绍参数估计中的一些基本概念。 (1)统计量。假如概率密度函数的形式已知,但表征函数的参数 θ 未知,则 可将 θ 的估计值构造成样本 ( 1,2, , ) X i N i 的某种函数,这种函数称为统计量。 参数估计的任务,就是利用样本求出参数 θ 的估计值 1 2 ( , ˆ , , ) θ X X X N 。 (2) 参数空间。参数 θ 的取值范围称为参数空间,书中用 来表示。 (3)点估计、估计量和估计值。构造一统计量作为未知参数 θ 的估计,称为 点估计, ˆ θ 称为估计量,由样本 1 2 ( , , , ) X X X N 作为自变量计算出来的 ˆ θ 值称为 估计值。 (4)区间估计。通过从总体中抽取的样本,根据一定的正确度与精确度的要
求,构造出适当的区间,作为未知参数的真值所在范围的估计。下面我们分别介绍最大似然估计,贝叶斯估计、贝叶斯学习三种参数估计方法,以及Parzen窗法和ky-近邻法两种非参数估计方法。3.2最大似然估计对c类问题,设类别の,的概率密度函数p(Xの))的形式已知,但表征该函数的参数未知,记为O。从の,中独立抽取N个样本,如果能从这N个样本中推断出,的估计值e,,则完成了概率密度函数p(Xの)的估计。为了强调p(Xの)与参数,的关联性,也可把概率密度函数写成p(Xの,)。例如,如果已知某一类别の概率密度函数服从正态分布,则未知参数,包含了表征该函数的均值μ和协方差2,的全部信息,对参数0,的估计,实质上就是对正态函数的均值儿和协方差之,的估计。下面我们首先给出似然函数的定义,然后从似然函数出发,讨论最大似然估计的原理。1.似然函数从の类中抽取N个样本XM)=X,XX由于这N个样本均来自の,类,因此可将其概率密度函数p(X,)简化为p(Xの),则称这N个样本的联合概率密度函数p(X(N),の)为相对于样本集XM的e的似然函数。由于e是概率密度函数的一个确定性参数集,因此概率密度函数p(X(N)①)实际上就是条件概率p(XNの)。如果N个样本为独立抽取,似然函数可表示为(3-1)p(X(M)10)= p(X),X2,**,X10)=p(X10)k=1式(3-1)是在参数下观测到的样本集X(N)的概率(联合分布)密度。2.最大似然估计从の,类中独立抽取N个样本X(M)=(X,X2",XN),那么这N个样本最有可能来自于哪个概率密度函数,或者说与这N个样本最匹配的未知参数0是什么。这是最大似然估计要解决的问题,它的主要思想是,给定样本集X(N)=(X,X2,X),通过极大化似然函数p(X(M)の)去求与样本匹配的参数θ,θ的最大似然估计量θ就是使似然函数达到最大的估计量,图3-1是θ为dp(x()0)=0,可求得解。一维时的最大似然估计示意图。由de2
2 求,构造出适当的区间,作为未知参数的真值所在范围的估计。 下面我们分别介绍最大似然估计,贝叶斯估计、贝叶斯学习三种参数估计方法, 以及 Parzen 窗法和 N k -近邻法两种非参数估计方法。 3.2 最大似然估计 对 c 类问题,设类别 i 的概率密度函数 ( )i p X 的形式已知,但表征该函数 的参数未知,记为 i θ 。从 i 中独立抽取 N 个样本,如果能从这 N 个样本中推断出 i θ 的估计值 ˆ i θ ,则完成了概率密度函数 ( )i p X 的估计。为了强调 ( )i p X 与参 数 i θ 的关联性,也可把概率密度函数写成 ( , ) i i p X θ 。例如,如果已知某一类别 i 概率密度函数服从正态分布,则未知参数 i θ 包含了表征该函数的均值 i 和协方差 i 的全部信息,对参数 i θ 的估计,实质上就是对正态函数的均值 i 和协方差 i 的 估计。下面我们首先给出似然函数的定义,然后从似然函数出发,讨论最大似然估 计的原理。 1. 似然函数 从 i 类中抽取 N 个样本 ( ) 1 2 , , , N X X X XN ,由于这 N 个样本均来自 i 类,因此可将其概率密度函数 ( , ) i i p X θ 简化为 p X( ) θ ,则称这 N 个样本的 联合概率密度函数 ( ) ( , ) N p X θ 为相对于样本集 ( ) N X 的 θ 的似然函数。由于 θ 是概 率密度函数的一个确定性参数集,因此概率密度函数 ( ) ( , ) N p X θ 实际上就是条件概 率 ( | ) N p X θ 。如果 N 个样本为独立抽取,似然函数可表示为 ( ) 1 2 1 ( | ) ( , , , | ) ( | ) N N N k k p X p p θ X X X θ X θ (3-1) 式(3-1)是在参数 θ 下观测到的样本集 ( ) N X 的概率(联合分布)密度。 2. 最大似然估计 从 i 类中独立抽取 N 个样本 ( ) 1 2 , , , N X X X XN ,那么这 N 个样本最有 可能来自于哪个概率密度函数,或者说与这 N 个样本最匹配的未知参数 θ 是什 么。这是最大似然估计要解决的问题,它的主要思想是,给定样本集 ( ) 1 2 , , , N X X X XN ,通过极大化似然函数 ( ) ( | ) N p X θ 去求与样本匹配的参 数 θ ,θ 的最大似然估计量 ˆ θ 就是使似然函数达到最大的估计量,图 3-1 是 θ 为 一维时的最大似然估计示意图。由 ( ) ( | ) 0 N dp X d θ θ ,可求得解
p(X"10)160图3-10为一维时的最大似然估计示意图由于对数函数具有单调性,为了便于分析,对似然函数取对数H(0)=In p(X(N)[0)(3-2)显然,当估计量θ使数函数取最大值时,似然函数达到最大值,的最大似然估计是下面微分方程的解:dH(0) =0(3-3)de设の类的概率密度函数包含p个未知参数,则e为p维向量0=[0.0,...,0.](3-4)此时NH(0)= In p(X(M)[0)=In p(X, 10)(3-5)k=l公式(3-3)可表示为al2inp(X10)(3-6)a0即[2%-Inp(X,10)=000,[2mp(x,1)-0台0(3-7)a-Inp(X,10)=0台0e求解(3-7)微分方程组,可得到θ的最大似然估计值。3
3 ( |) N p X O ˆ 图 3-1 θ 为一维时的最大似然估计示意图 由于对数函数具有单调性,为了便于分析,对似然函数取对数 ( ) ( ) ln ( | ) N H p X θ θ (3-2) 显然,当估计量 ˆ θ 使数函数取最大值时,似然函数达到最大值, θ 的最大 似然估计是下面微分方程的解: ( ) 0 dH d θ θ (3-3) 设 i 类的概率密度函数包含 p 个未知参数,则 θ 为 p 维向量 T 1 2 [ , , , ] θ p (3-4) 此时 ( ) 1 ( ) ln ( | ) ln ( | ) N N k k H p X p X θ θ θ (3-5) 公式(3-3)可表示为 1 ln ( | ) 0 N k k p X θ θ (3-6) 即 1 1 1 2 1 ln ( | ) 0 ln ( | ) 0 ln ( | ) 0 N k k N k k N k k p p X p X p X θ θ θ (3-7) 求解(3-7)微分方程组,可得到 θ 的最大似然估计值 ˆ θ
3.3贝叶斯估计与贝叶斯学寸1.贝叶斯估计贝叶斯估计可描述为给定样本集X(N)=X,X2",X),对样本的概率密度函数的真实参数θ进行估计,使其估计值θ带来的贝叶斯风险最小。回顾上一章的最小风险贝叶斯决策,可以看出贝叶斯决策和贝叶斯估计都是以贝叶斯风险最小为基础,只是要解决的问题不同,前者是要判决样本X的类别归属,而后者是估计样本集X()所属总体分布的参数,本质上二者是统一的。贝叶斯决策和贝叶斯估计各变量的对应关系如表3-1所示。表3-1贝叶斯决策和贝叶斯估计各变量的对应关系贝叶斯决策贝叶斯估计样本集X(N)样本X估计量决策a,真实类别の真实参数0状态空间A是离散空间参数空间是连续空间先验概率P(の)参数的先验分布p(①)在上一章我们研究分类问题时,用式(2-11)定义了条件平均风险R(α,| X)= [L(α, o,)]= ZL(α,/o,) (o, I X)i= 1,..,ai-l参考上式,并对照表3-1贝叶斯决策和贝叶斯估计各变量的对应关系,可以定义在观测样本集X(N)=(X,X2",X)得条件下,用作为的估计的期望损失为R(0| X(N)= J。L(0,0)p(0|x(N)d0(3-12)其中,L(.)为用用0代替0所造成的损失,①为参数空间。考虑到X(N)的各种取值,应该求R(X(N))在空间2=2×Q××Q中的期望,即R=JeROI X))p(X')d(3-13)将(3-12)代入上式,得R= Ja J。L(e,0)p(e1x()p(x()dedx(M)(3-14)使R最小求得参数的估计值θ即为贝叶斯估计。显然,损失函数L(①,の)对0的求解有重要影响,当选用不同形式的损失函数时,所得到的贝叶斯估4
4 3.3 贝叶斯估计与贝叶斯学习 1.贝叶斯估计 贝叶斯估计可描述为给定样本集 ( ) 1 2 , , , N X X X XN ,对样本的概 率密度函数的真实参数 θ 进行估计,使其估计值 ˆ θ 带来的贝叶斯风险最小。回 顾上一章的最小风险贝叶斯决策,可以看出贝叶斯决策和贝叶斯估计都是以 贝叶斯风险最小为基础,只是要解决的问题不同,前者是要判决样本 X 的类 别归属,而后者是估计样本集 ( ) N X 所属总体分布的参数,本质上二者是统一 的。贝叶斯决策和贝叶斯估计各变量的对应关系如表 3-1 所示。 表 3-1 贝叶斯决策和贝叶斯估计各变量的对应关系 贝叶斯决策 贝叶斯估计 样本 X 样本集 ( ) N X 决策 i a 估计量 ˆ θ 真实类别 i 真实参数 θ 状态空间 A 是离散空间 参数空间 是连续空间 先验概率 ( ) P i 参数的先验分布 p( ) 在上一章我们研究分类问题时,用式(2-11)定义了条件平均风险 1 ( | ) [ ( | )] ( | ) ( | ) c i i j i j j j R X E L L P X i 1,2, ,a 参考上式,并对照表 3-1 贝叶斯决策和贝叶斯估计各变量的对应关系,可以 定义在观测样本集 ( ) 1 2 , , , N X X X XN 得条件下,用 ˆ θ 作为 θ 的估计的 期望损失为 ˆ ( ) ( ) ˆ ( | ) ( , ) ( | ) N N R X L p X d (3-12) 其中, ˆ L( , ) 为用用 ˆ θ 代替 θ 所造成的损失, 为参数空间。考虑到 ( ) N X 的 各种取值,应该求 ˆ ( ) ( | ) N R X 在空间 N 中的期望,即 ˆ ( ) ( ) ( ) ( | ) ( ) N N N N R R X p X dX (3-13) 将(3-12)代入上式,得 ˆ ( ) ( ) ( ) ( , ) ( | ) ( ) N N N N R L p X p X d dX (3-14) 使 R 最小求得参数 θ 的估计值 ˆ θ 即为贝叶斯估计。显然,损失函数 ˆ L( , ) 对 ˆ θ 的求解有重要影响,当选用不同形式的损失函数时,所得到的贝叶斯估
计值也不同。当损失函数为二次函数时L(0,0)=(0-0) (0-0)(3-15)可证明0的求解公式如下-(p(0x()d(3-16)上式表明,0的最小方差贝叶斯估计是观测样本集X(M)条件下的θ的条件期望。综上所述,观测到一组样本X(M),通过似然函数p(X(M)の)并利用贝叶斯公式将随机变量的先验概率密度p(①)转变为后验概率密度,然后根据θ的后验概率密度求出估计量θ。具体步骤如下:(1)确定θ的先验概率密度p(の)。(2)由样本集X(M)={X,X2,,X)求出p(x(N)10)。(3)利用贝叶斯公式求出θ的后验概率密度p(X(N)10)p(0)p(0X()=(3-17)fp(X(M) 10)p(0)de(4)根据式(3-15)求贝叶斯估计量6。在步骤(2)涉及到p(X(M1の)的求解,当样本的类概率密度函数的类型已知时,由于样本X,X,"",X为独立抽取,因此有p(x(N)10)= p(X1,X2,,X0)=p(X0)(3-18)2.贝叶斯学习贝叶斯学习的思想是利用θ的先验概率密度p()及样本提供的信息求出θ的后验概率密度p(IX(M)),根据后验概率密度直接求出类概率密度函数P(XIXM)。因此,贝叶斯学习和贝叶斯估计的前提条件完全相同,区别在于当求出后验概率密度p(OIX(M))后,贝叶斯学习没有对参数θ进行估计,而是直接进行总体概率密度的推断得到p(XIX(M))。所以,贝叶斯学习的前三步与贝叶斯估计完全一致,最后p(XIX(M))可由送代计算完成。选代计算式的推导如下:p(Xの)由未知参数确定,可写为p(X|の)=p(X|0),假定XN=(X,X..…,X)是独立抽取的の,类的一组样本,设θ的后验概率密度函数为p(|X(N)),式(3-15)贝叶斯公式重写为5
5 计值 ˆ θ 也不同。当损失函数为二次函数时 ˆ ˆ ˆ ( , ) T L (3-15) 可证明 ˆ θ 的求解公式如下 ˆ ( ) ( | ) N p X d (3-16) 上式表明, θ 的最小方差贝叶斯估计是观测样本集 ( ) N X 条件下的 θ 的条件期 望。 综上所述,观测到一组样本 ( ) N X ,通过似然函数 ( ) | N p X 并利用贝 叶斯公式将随机变量 的先验概率密度 p() 转变为后验概率密度,然后根据 的后验概率密度求出估计量 ˆ 。具体步骤如下: (1) 确定 的先验概率密度 p() 。 (2) 由样本集 ( ) 1 2 { , , , } N X X X XN 求出 ( ) | N p X 。 (3)利用贝叶斯公式求出 的后验概率密度 ( ) ( ) ( ) ( | ) ( ) ( | ) ( | ) ( ) N N N p X p p X p X p d (3-17) (4)根据式(3-15)求贝叶斯估计量 ˆ 。 在步骤(2)涉及到 ( ) | N p X 的求解,当样本的类概率密度函数的类型已 知时,由于样本 1 2 , , , X X XN 为独立抽取,因此有 ( ) 1 2 1 | , , , ( ) N N N i i p X p X X X p X (3-18) 2.贝叶斯学习 贝叶斯学习的思想是利用 的先验概率密度 p() 及样本提供的信息求出 的后验概率密度 ( ) ( | ) N p X ,根据后验概率密度直接求出类概率密度函数 ( ) ( | ) N p X X 。因此,贝叶斯学习和贝叶斯估计的前提条件完全相同,区别在于当 求出后验概率密度 ( ) ( | ) N p X 后,贝叶斯学习没有对参数 进行估计,而是直接 进行总体概率密度的推断得到 ( ) ( | ) N p X X 。所以,贝叶斯学习的前三步与贝叶斯 估计完全一致,最后 ( ) ( | ) N p X X 可由迭代计算完成。 迭代计算式的推导如下: ( | ) p X i 由 未 知 参 数 确 定 , 可 写 为 p p ( | ) | X X i , 假 定 { , , , } 1 2 N N X X X X 是独立抽取的 i 类的一组样本,设 的后验概率密度函 数为 ( ) ( | ) N p X ,式(3-15)贝叶斯公式重写为