(2a)"/2, μexp[-(X-4)2(X-A)](6-23)p(X /0):1(X-μ)"z'(X-μ,))“(2元)"12,[ exp[-(6-24)p(X |0,)=两类样本的对数似然比为4(-(x-)+(-)(-4)(6-25)利用矩阵迹的性质ATB=tr(BA),其中A、B表示向量,式(6-25)可改写成,=→-[2(X-4)(X-4)]+[27(x-)(X-4,)](6-26)将其代入I.的计算公式,并化简得[((6-27)将式(6-27)代入式(6-22),得J=t[272,-272, -21]+t[(u,-μ,) (27 +27)(4-4,)](6-28)显然,当Z=2,=Z时,则J,=(u-μ,)'z'(μ.-μu.)(6-29)上式即为两个类类心Mahalanobis距离的平方。在正态分布时Bhattacharyya距离J,可表示成(μ-μ)B=(6-30)1[,,当2,=2,=2时-u,)'z-(u,-u)(6-31)它与散度J,的表达式只差一个常系数。6.4基于摘函数的可分性判据概率距离可分性判据是依据类条件概率分布定义的判据准则。由贝叶斯准则可知最佳分
1 /2 1/2 1 1 ( | ) exp[ ( ) ( )] (2 ) | | 2 T i i i i d i p X X X (6-23) 1 /2 1/2 1 1 ( | ) exp[ ( ) ( )] (2 ) | | 2 T j j j j d j p X X X (6-24) 两类样本的对数似然比为 1 1 1 1 1 ln 2 2 2 T T j ij i i i j j j i l X X X X (6-25) 利用矩阵迹的性质 tr( ) T T A B BA ,其中 A 、 B 表示向量,式(6-25)可改写成 1 1 1 1 1 ln tr tr 2 2 2 T T j ij i i i j j j i l X X X X (6-26) 将其代入 ij I 的计算公式,并化简得 1 1 1 1 1 1 ln tr tr 2 2 2 T j ij i j i j i j i j i I (6-27) 将式(6-27)代入式(6-22),得 1 1 1 1 1 1 tr 2 tr 2 2 T D i j j i i j i j i j J I (6-28) 显然,当 i j 时,则 1 T D i j i j J (6-29) 上式即为两个类类心 Mahalanobis 距离的平方。在正态分布时 Bhattacharyya 距离 B J 可 表示成 1/2 1 1 1 2 ln 8 2 2 i j T i j B i j i j i j J (6-30) 当 i j 时 1 1 8 T B i j i j J (6-31) 它与散度 D J 的表达式只差一个常系数。 6.4 基于熵函数的可分性判据 概率距离可分性判据是依据类条件概率分布定义的判据准则。由贝叶斯准则可知最佳分
类器实际上是由后验概率决定的,因此这一节我们讨论基于后验概率分布的判据。如果对某些特征,各类后验概率都相等,即P(o|X)=!(6-32)C其中C为类别数,则样本的类别归属就无法确定,或者只能任意指定样本所属类别。此时误判率为P,=1-1_ C-1C(6-33)cC这也就是错误率最大的情况。考虑另一极端,假设能有一组特征使得P(oX)=1,且 P(,X)=0,ji(6-34)显然,此时样本X肯定划分为类别,而误判率为零。由此可看出,后验概率越集中,判断错误的概率就越小,反之后验概率分布越平缓,即接近均匀分布,则分类错误概率就越大,因此样本后验概率的集中程度可以作为类别可分性的一种判据,后验概率分布的集中程度可以用信息论中熵的进行定量描述。从特征提取角度来看,特征越具有不确定性,用该特征进行分类越困难。因此用具有最小不确定性的那些特征进行分类是最有利的,在信息论中用“摘”作为特征不确定性的度量如果已知样本的后验概率为P(のX),定义Shannon炳为H()=-Z P(o| X)log P(0| X)(6-35)isl另一常用的平方摘H(2=2P d|X(6-36)这两者都有摘函数的性质:(1)摘为正且对称,即函数式内项的次序可以变换不影响的值,即H.(P,P,.",P)=H,(P,P,."",P)=..=H,(P.,..,P)≥0上式中P=P(oX)。(2)如P(o|X)=1,且P(oX)=0(1≤j≤c,j+i),则H(P,P,,P)=0;(3)对任意的概率分布P(oX)≥0,以及P(oX)=1,则i=lH.(P,P,., P)≤H.因而这些函数都可用作各类别样本后验概率集中分布程度的定量指标,在函数取值较大的
类器实际上是由后验概率决定的,因此这一节我们讨论基于后验概率分布的判据。如果对某 些特征,各类后验概率都相等,即 1 ( ) P Xi c (6-32) 其中 c 为类别数,则样本的类别归属就无法确定,或者只能任意指定样本所属类别。此 时误判率为 1 1 1 e c P c c (6-33) 这也就是错误率最大的情况。 考虑另一极端,假设能有一组特征使得 ( ) 1 P X i ,且 ( ) 0, P X j i j (6-34) 显然,此时样本 X 肯定划分为类别 i ,而误判率为零。由此可看出,后验概率越集中, 判断错误的概率就越小,反之后验概率分布越平缓,即接近均匀分布,则分类错误概率就越 大,因此样本后验概率的集中程度可以作为类别可分性的一种判据,后验概率分布的集中程 度可以用信息论中熵的进行定量描述。 从特征提取角度来看,特征越具有不确定性,用该特征进行分类越困难。因此用具有最 小不确定性的那些特征进行分类是最有利的,在信息论中用“熵”作为特征不确定性的度量, 如果已知样本的后验概率为 ( ) P X i ,定义 Shannon 熵为 (1) 2 1 ( ) log ( ) c c i i i H P X P X (6-35) 另一常用的平方熵 (2) 2 1 2 1 ( ) c c i i H P X (6-36) 这两者都有熵函数的性质: (1)熵为正且对称,即函数式内项的次序可以变换不影响熵的值,即 1 2 2 1 1 ( , , , ) ( , , , ) ( , , ) 0 H P P P H P P P H P P c c c c c c 上式中 ( ) P P X i i 。 (2)如 ( ) 1 P X i ,且 ( ) 0 P X j (1 , ) j c j i ,则 1 2 ( , , , ) 0 H P P P c c ; (3)对任意的概率分布 ( ) 0 P X i ,以及 1 ( ) 1 c i i P X ,则 1 2 1 1 1 ( , , , ) , , , H P P P H c c c c c c 因而这些函数都可用作各类别样本后验概率集中分布程度的定量指标,在熵函数取值较大的