第2章贝叶斯决策理论从上一章可以看出,模式识别的基本问题是分类问题,即根据待识别对象所具有的属性特征,将其划归到某个类别中去。本章介绍模式识别理论中的贝叶斯决策理论。贝叶斯决策理论是统计模式识别中的一个基本方法,是一种将特征空间划分为子空间的方法,对模式分析和分类器的设计起指导作用。贝叶斯决策理论的核心是当给定具有特征向量X的待识别样本时,它属于某一类的可能性有多大?如果能确定属于各个类别的概率,分类决策就有了依据。例如由某一人脸图像构成的特征向量为X,X属于某甲的可能性为70%,属于某乙的可能性为30%。在没有任何样本信息的情况下,则应将图像判决为某甲,以使分类错误更小,这就是贝叶斯决策理论考虑分类问题的出发点。下面先介绍几个重要的概念。2.1几个重要的概念1.先验概率先验概率在分类方法中有着重要的作用,它的函数形式及主要参数或者是已知的,或者是可通过大量抽样实验估计出来。若用の,和の,分别表示为两个类别,P(の)和P(の,)表示各自的先验概率,此时满足P(0)+P(0,)=1推广到℃类问题中,の,の2………表示℃个类别,各自的先验概率用P(),P),,P()表示,则满足P(o)+P(0,)+.....+P(0)=1在实际的模式识别系统中,有时可以用先验概率作为分类决策的依据。如:有一个装了双色球的盒子,其中红色球占80%,蓝色球占20%,如果用の代表红色球,の,代表蓝色球,则P(の)=0.8,P(の,)=0.2,现从中任取一个球,若用先验概率对球的颜色做出预判,较合理的判决为红色球。先验概率一般不作为判决的唯一依据,但当先验概率相当大时,它也能成为分类判决的主要考虑因素。2.类(条件)概率密度它是指在某种确定类别条件下,模式样本X出现的概率密度分布函数,常用p(Xの,)ie1,2...",c)来表示。在本书中,我们采用p(X|の)表示条件概率密度函数,P(X|の)表示其对应的条件概率。P(*#)是条件概率的通用符号,在"后边出现的#为条件,之前的*为某个事件,即在某条件#下出现某个事件*的概率,如P(1X)是表示在X出现条件下,样本为の类的概率
第 2 章 贝叶斯决策理论 从上一章可以看出,模式识别的基本问题是分类问题,即根据待识别对象所具有的属性 特征,将其划归到某个类别中去。本章介绍模式识别理论中的贝叶斯决策理论。贝叶斯决策 理论是统计模式识别中的一个基本方法,是一种将特征空间划分为子空间的方法,对模式分 析和分类器的设计起指导作用。贝叶斯决策理论的核心是当给定具有特征向量 X 的待识别 样本时,它属于某一类的可能性有多大?如果能确定属于各个类别的概率,分类决策就有了 依据。例如由某一人脸图像构成的特征向量为 X,X 属于某甲的可能性为 70%,属于某乙的 可能性为 30%。在没有任何样本信息的情况下,则应将图像判决为某甲,以使分类错误更 小,这就是贝叶斯决策理论考虑分类问题的出发点。下面先介绍几个重要的概念。 2.1 几个重要的概念 1. 先验概率 先验概率在分类方法中有着重要的作用,它的函数形式及主要参数或者是已知的,或者 是可通过大量抽样实验估计出来。 若用 1 和 2 分别表示为两个类别, 1 P( ) 和 2 P( ) 表示各自的先验概率,此时满足 1 2 P P ( ) ( ) 1 推 广 到 c 类问题中, 1 2 , , c 表 示 c 个类别, 各 自 的 先 验 概 率 用 1 2 ( ), ( ), , ( ) P P P c 表示,则满足 1 2 ( ) ( ) ( ) 1 P P P c 在实际的模式识别系统中,有时可以用先验概率作为分类决策的依据。如:有一个装了 双色球的盒子,其中红色球占 80%,蓝色球占 20%,如果用 1 代表红色球,2 代表蓝色 球,则 1 P( ) 0.8 , 2 P( ) 0.2 ,现从中任取一个球,若用先验概率对球的颜色做出预 判,较合理的判决为红色球。先验概率一般不作为判决的唯一依据,但当先验概率相当大时, 它也能成为分类判决的主要考虑因素。 2.类(条件)概率密度 它是指在某种确定类别条件下,模式样本 X 出现的概率密度分布函数,常用 ( | )( 1,2, , ) i p X i c 来表示。在本书中,我们采用 ( | )i p X 表示条件概率密度函数, ( | ) P X i 表示其对应的条件概率。 P (*|#)是条件概率的通用符号,在“|”后边出现的#为条 件,之前的*为某个事件,即在某条件#下出现某个事件*的概率,如 ( | ) P X k 是表示在 X 出现条件下,样本为 k 类的概率
3.后验概率它是在某个具体的模式样本X条件下,某种类别出现的概率,常以P(,|X)i=1,2,,c)表示。后验概率可以根据贝叶斯公式(2-1)计算出来并直接用作分类判决的依据。P(o)X)= p(XI0)P(α)p(X)(2-1)其中:p(X)= Z p(X[0,)P(0,)(2-2)1=l先验概率是指(i=1,2,...,c)出现的可能性,不考虑其它任何条件。类条件概率密度函数p(X|の)是指の,条件下在一个连续的函数空间出现X的概率密度,也就是第の,类样本的特征X是如何分布的。一个事物在某条件下出现的概率P(*#)与该事件在不带任何条件下出现的概率(写成P(*)是不相同的。例如通过高血压患者家系调查发现,双亲血压正常者其子女患高血压的概率仅为3%,父母均患有高血压者,其子女患高血压概率高达45%,那么父母均患有高血压是指一种条件(#),在这种家族病史的条件下,子女患高血压的(*)的概率就要大得多。2.2几种常用的决策规则针对具体对象,设计者从不同角度考虑,会采用不同的决策准则,从而对决策结果会产生不同的影响。其中基于最小错误率的贝叶斯决策与基于最小风险的贝叶斯决策是最基本的两种方法,下面分别加以讨论。问题的描述:已知总共有c类样本の(i=1,2....,c),其先验概率为P(の),条件概率密度函数为p(Xの),样本分布在n维特征空间,则对于待识别样本,如何确定其所属类别?由于属于不同类的待识别对象存在着呈现相同观察值的可能,即所观察到的某一样本的特征向量为X,而在c类中又有不止一类可能呈现这一X值,这种可能性可用P(の,X)(i=12,.....,c)表示。如何做出合理的判决就是贝叶斯决策理论所要讨论的问题。2.2.1基于最小错误率的贝叶斯决策当已知类别出现的先验概率P(の)和每个类中的样本分布的类条件概率密度p(X|o),可以求得一个待分类样本属于每类的后验概率P(の,/X),i=1,2,..",c。将其划归到后验概率最大的那一类中,这种分类器称为最小错误率贝叶斯分类器,其分类决策准则可表示为:1.两类情况
3. 后验概率 它 是 在 某 个 具 体 的 模 式 样 本 X 条 件 下 , 某 种 类 别 出 现 的 概 率 , 常 以 ( | )( 1,2, , ) P X i c i 表示。后验概率可以根据贝叶斯公式(2-1)计算出来并直接用作 分类判决的依据。 (2-1) 其中: 1 ( ) ( ) ( ) c i i i p X p X P (2-2) 先验概率是指 ( 1,2, , ) i i c 出现的可能性,不考虑其它任何条件。类条件概率密度 函数 ( | )i p X 是指 i 条件下在一个连续的函数空间出现 X 的概率密度,也就是第 i 类样 本的特征 X 是如何分布的。 一个事物在某条件下出现的概率 P (*|#)与该事件在不带任何条件下出现的概率(写成 P (*))是不相同的。例如通过高血压患者家系调查发现,双亲血压正常者其子女患高血压的 概率仅为 3%,父母均患有高血压者,其子女患高血压概率高达 45%,那么父母均患有高血 压是指一种条件(#),在这种家族病史的条件下,子女患高血压的(*)的概率就要大得多。 2.2 几种常用的决策规则 针对具体对象,设计者从不同角度考虑,会采用不同的决策准则,从而对决策结果会产 生不同的影响。其中基于最小错误率的贝叶斯决策与基于最小风险的贝叶斯决策是最基本的 两种方法,下面分别加以讨论。 问题的描述:已知总共有 c 类样本 ( 1,2, , ) i i c ,其先验概率为 ( ) P i ,条件概率 密度函数为 ( | )i p X ,样本分布在 n 维特征空间,则对于待识别样本,如何确定其所属类 别?由于属于不同类的待识别对象存在着呈现相同观察值的可能,即所观察到的某一样本的 特征向量为 X,而在 c 类中又有不止一类可能呈现这一 X 值,这种可能性可用 ( | )( 1,2, , ) P X i c i 表示。如何做出合理的判决就是贝叶斯决策理论所要讨论的问 题。 2.2.1 基于最小错误率的贝叶斯决策 当已知类别出现的先验概率 ( ) P i 和每个类中的样本分布的类条件概率密度 ( | )i p X ,可以求得一个待分类样本属于每类的后验概率 ( | ), =1,2, , P X i c i 。将其 划归到后验概率最大的那一类中,这种分类器称为最小错误率贝叶斯分类器,其分类决策准 则可表示为: 1.两类情况 | | i i i p P P p X X X
若P(/X)>P(のX),则XEの类(2-3)若P(o/X)>P(αX),则X E0,类2.多类情况若 P(o,/X)=max[P(o,IX)),j=1,2,.",c 则X e0,类(2-4)由(2-1),已知待识别样本X后,可以通过先验概率P(の.)和条件概率密度函数p(Xの),得到样本X分属各类别的后验概率,显然这个概率值可以作为X类别归属的依据。该判别依据可以有以下几种等价形式:观察Bayes公式(2-1),分母与i无关,即与分类无关,故分类规则又可表示为若 p(X[o,)P(o,)=max(p(X/o,)P(o,) j=1,2,,c, 则XE,类 (2-5)对两类问题,(2-5)式相当于(2-6),XeO[p(X/)P()>p(X/0)P(0),[p(X /0)P(0)> p(X 0)P(0), XEO公式(2-6)可改写为[o(2-7)4(N)= P(Xla)>P(.)Xp(X /,)<P()[02统计学中称li2(X)为似然比,P(,)/P(の)为似然比阈值。对(2-7)式取自然对数,有[o>ln P(o,)In/2(X)=In p(X [0 ,)-In p(X[02)Xe(2-8)<In P(o)[o2(2-5),(2-7),(2-8)都是贝叶斯决策规则的等价形式。可以发现,上述分类决策规则实为“最大后验概率分类器”,易知其分类错误的概率为P(e)= p(e,X)dX =" p(e| X)p(X)dX而p(e| X)=Zp(o, / X)-max p(o, I X)e显然,当p(elX)取得了最小值时,P(e)也取得了最小值,“最大后验概率分类器”与“最小错误率分类器”是等价的。对于最小错误率贝叶斯分类器,其分类决策规则也同时确定了分类决策边界,但是,其分类决策边界不一定是线性的,也不一定是连续的。图2-1为基于最小错误率分类判决的示意图
1 2 1 2 1 2 ( ) ( ) , ( ) ( ) , P X P X X P X P X X 若 则 类 若 则 类 (2-3) 2.多类情况 (2-4) 由(2-1),已知待识别样本 X 后,可以通过先验概率 ( ) P i 和条件概率密度函数 ( | )i p X ,得到样本 X 分属各类别的后验概率,显然这个概率值可以作为 X 类别归属的依 据。该判别依据可以有以下几种等价形式: 观察 Bayes 公式(2-1),分母与 i 无关,即与分类无关,故分类规则又可表示为 (2-5) 对两类问题,(2-5)式相当于 (2-6) 公式(2-6)可改写为 (2-7) 统计学中称 l12(X)为似然比, 为似然比阈值。 对(2-7)式取自然对数,有 2 1 12 1 2 1 2 ln ( ) ln ( ) ln ( | ) ln ( | ) , ln ( ) P l X p X p X X P (2-8) (2-5),(2-7),(2-8)都是贝叶斯决策规则的等价形式。可以发现,上述分类决策规则实为“最 大后验概率分类器”,易知其分类错误的概率为 而 显然,当 p e X ( | ) 取得了最小值时, Pe( ) 也取得了最小值,“最大后验概率分类器” 与“最小错误率分类器”是等价的。 对于最小错误率贝叶斯分类器,其分类决策规则也同时确定了分类决策边界,但是,其 分类决策边界不一定是线性的,也不一定是连续的。图 2-1 为基于最小错误率分类判决的示 意图。 若 P X P X j c X ( | ) max ( | ) , 1,2, , i j i 则 类 若 p P p P j c ( | ) max ( | ) ( ) 1,2, , , X X X i i j j i 则 类 1 1 2 2 1 2 2 1 1 2 ( | ) ( | ) ( ), ( | ) ( | ) ( ) p P p P p P p P , X X X X X X 1 2 1 12 2 1 2 ( | ) ( ) ( ) , ( | ) ( ) p X P l X X p X P 2 1 P P ( ) / ( ) P e p e X dX p e X p X dX ( ) ( , ) ( | ) ( ) 1 1 ( | ) ( | ) max ( | ) c i i i c i p e X p X p X
p(Xo)P(o)p(X|0,)P(0,)p(Xq)dX621 =2 =p(Xo,)dX2228, P(0,) e,P(o)2.21图2-1基于最小错误率的贝叶斯决策2.2.2最小风险判决规则最小错误率判决规则没有考虑错误判决带来的“风险”,或者说没有考虑某种判决带来的损失。同一问题中,不同的判决有不同的风险,例如判断细胞是否为癌细胞,可能有两种错误判决:①正常细胞错判为癌细胞:②癌细胞错判为正常细胞。但两种错误带来的风险并不相同。在①中,会给健康人带来不必要的精神负担;在②中,会使患者失去进一步检查、治疗的机会,造成严重后果。显然,第②种错误判决的风险大于第①种。正是由于有判决风险的存在,仅考虑最小错误进行判决是不充分的,还必须考虑判决带来的风险,因此引入最小风险判决规则。事实上,最小风险判决规则也是一种Bayes分类方法。判决风险也可以理解为由判决而付出的代价,即使在做出正确判决的情况下,也会付出一定的代价,也会有损失。假定有c类问题,用j=1,2·,c)表示类别,用ai=1,2a)表示可以做出的判决。实际应用中,判决数a和类别数c可能相等:也可能不等,即允许除c类的c个决策之外,可以采用其它决策,如“拒绝”决策,此时α=C+1。对于给定的模式X,令L(α,lo)表示Xの,而判决为α;的风险。若已做出判决αi,对c个不同类别の,,有c个不同的L(α,1の)。L(α,lの)的c个离散值随类型的性质变化,具有很大的随机性,可看成是随机变量。另外,由于判决数目有α个,这样对于不同的判决和不同类别就有一个α×c维风险矩阵,如表2-1所示。表2-1风险矩阵类型0.002判决L(α, /o)L(α, /o,)L(α, o)α1L(α, /o)L(α, /02)L(α,/o)α2........................L(α.lo)L(α, lo)...L(α.lo)αa
1 x 2 12 1 p X d X ( ) 1 21 2 p X d X ( ) 1 1 p X P ( ) ( ) 2 2 p X P ( ) ( ) 12 1 P( ) 21 2 P( ) 2 图 2-1 基于最小错误率的贝叶斯决策 2.2.2 最小风险判决规则 最小错误率判决规则没有考虑错误判决带来的“风险”,或者说没有考虑某种判决带来 的损失。同一问题中,不同的判决有不同的风险,例如判断细胞是否为癌细胞,可能有两种 错误判决:① 正常细胞错判为癌细胞;② 癌细胞错判为正常细胞。但两种错误带来的风险 并不相同。在①中,会给健康人带来不必要的精神负担;在②中,会使患者失去进一步检查、 治疗的机会,造成严重后果。显然,第②种错误判决的风险大于第①种。 正是由于有判决风险的存在,仅考虑最小错误进行判决是不充分的,还必须考虑判决带 来的风险,因此引入最小风险判决规则。事实上,最小风险判决规则也是一种 Bayes 分类方 法。判决风险也可以理解为由判决而付出的代价,即使在做出正确判决的情况下,也会付出 一定的代价,也会有损失。 假定有 c 类问题,用 ( 1,2, , ) j j c 表示类别,用 ( 1, 2, , ) i a i a 表示可以做 出的判决。实际应用中,判决数 a 和类别数 c 可能相等;也可能不等,即允许除 c 类的 c 个 决策之外,可以采用其它决策,如“拒绝”决策,此时 c 1。 对于给定的模式 X,令 ( | ) L i j 表示 X j 而判决为 i 的风险。若已做出判决 i , 对 c 个不同类别 j ,有 c 个不同的 ( | ) L i j 。 ( | ) L i j 的 c 个离散值随类型的性质变化,具有很大的随机性,可看成是随机变量。 另外,由于判决数目有 个,这样对于不同的判决和不同类别就有一个 c 维风险矩阵, 如表 2-1 所示。 表 2-1 风险矩阵 类型 判决 1 2 . c 1 1 1 L( | ) 1 2 L( | ) . 1 ( | ) L c 2 2 1 L( | ) 2 2 L( | ) . 2 (|) L c . a 1 ( | ) L a 2 1 L( | ) . ( | ) L a c
假定某样本X的后验概率P(,X)已经确定,则有:P(oIX)+P(o,/X)+....+P(o./X)=1, j=1,2,...,c, 且P(o,| ,对于每一种判决αi,可求出随机变量L(α,lの)的条件平均风险,也叫“条件平均损失”:R(α, / X)= E[L(α, |o,)]=L(α, Io,)- P(0, /X) i= 1,2,...,a (2-11)j=l最小风险判决规则就是把样本X归属于“条件平均风险最小”的那一种判决。也就是(2-12)若R(α,/X)=,min(R(α/X)),则XE0,-实施最小风险判决规则的步骤如下:(1)给定样本X,计算各类后验概率P(の,IX),j=1,2,,c。(2)在已知风险矩阵的条件下,按照(2-11)式求各种判决的条件平均风险R(α,|X), i=1,2,......,a.(3)按照(2-12)式,比较各种判决的条件平均风险,把样本X归属于条件平均风险最小的那一种判决。上面分析了两种决策规则,下面讨论它们之间的关系。当决策风险L(α,の)为0-1函数时,有oi=jL(α, /o,)(2-13)11 i+j即做出正确判决时损失为0,错误判决损失为1,且判决数目与类型数目相等。再令[1,i=],代L(α,[o,)=1-,,其中8,=代入式(2-11),有[0,itjR(α, 0)=ZL(α, [0,) P(0, [X)1=1Z(1-0,) P(o, Ix) =P(0, IX)-8, ·P(o, / X)j=li=l=1-P(0, /x)结果代入式(2-12)中,得到(2-14)若P(o,/X)=max(P(o/X)),则XEの,这就是最小错误率判决规则。由此可见,当决策风险L(α,|の)为0一1损失函数时,最小风险判决规则即为最小错误率判决规则。换另一句话说,就是最小错误率判决规则是最小风险判决规则的一个特例。2.2.3最大似然比判决规则类条件概率密度函数p(X|の)又称为“似然函数”,两个类条件概率密度之比称为“似
假定某样本 X 的后验概率 ( | ) P X j 已经确定,则有: 1 2 ( | ) ( | ) ( | ) 1, 1,2, , P X P X P X j c c ,且 ( | ) 0 P X j , 对于每一种判决 i ,可求出随机变量 ( | ) L i i 的条件平均风险,也叫“条件平均损失”: 1 ( | ) [ ( | )] ( | ) ( | ) c i i j i j j j R X E L L P X i 1,2, ,a (2-11) 最小风险判决规则就是把样本 X 归属于“条件平均风险最小”的那一种判决。也就是 若 1,2, , ( | ) min { ( | )} i k k a R X R X ,则 X i (2-12) 实施最小风险判决规则的步骤如下: (1) 给定样本 X ,计算各类后验概率 ( | ) P X j , j 1,2, ,c 。 (2) 在已知风险矩阵的条件下,按照(2-11)式求各种判决的条件平均风险 ( | ) R X i ,i 1,2, ,a 。 (3) 按照(2-12)式,比较各种判决的条件平均风险,把样本 X 归属于条件平均风 险最小的那一种判决。 上面分析了两种决策规则,下面讨论它们之间的关系。当决策风险 ( | ) L i j 为 0-1 函数时,有 0 ( | ) 1 i j i j L i j (2-13) 即做出正确判决时损失为 0,错误判决损失为 1,且判决数目与类型数目相等。再令 ( | ) 1 L i j ij ,其中 1, 0, ij i j i j ,代入式(2-11),有 1 ( | ) ( | ) ( | ) c i j i j j i R L P X 1 (1 ) ( | ) c ij j i P x 1 1 ( | ) ( | ) c c j ij j i j P X P X 1 ( | ) P x i 结果代入式(2-12)中,得到 若 1,2, , ( | ) max { ( | )} i k k c P X P X ,则 X i (2-14) 这就是最小错误率判决规则。由此可见,当决策风险 ( | ) L i j 为 0-1 损失函数时,最小 风险判决规则即为最小错误率判决规则。换另一句话说,就是最小错误率判决规则是最小风 险判决规则的一个特例。 2.2.3 最大似然比判决规则 类条件概率密度函数 ( | )i p X 又称为“似然函数”,两个类条件概率密度之比称为“似