当前位置：和泉文库 > 计算机 > 浏览文档

武汉理工大学：《模式识别》课程授课教案（讲义）第6章特征提取与选择

文件格式：PDF，文件大小：667.96KB，售价：4.74元

文档详细内容（约16页）

第6章特征提取与选择模式识别的主要任务是设计分类器，将样本划分为相应的类别，获得好的分类性能。而前面章节讨论的分类器设计方法，都是认为样本的特征已经确定，各类样本都分布在由该特征所决定的空间内。因此分类器设计问题是一个使用什么方法，将已确定的特征空间合理划分的问题。分类器设计方法固然重要，但样本的特征选择与提取也是模式识别系统的一个关键的问题。好的特征可以使同类样本的分布更具加紧密，不同类别样本则在该特征空间中更加分开，这就为分类器设计奠定了良好的基础。反之，如果不同类别的样本在该特征空间中混杂在一起，再好的设计方法也无法提高分类器的准确性。本章要讨论的问题就是给定训练样本集，如何设计特征空间的问题。6.1 类别可分性判据特征选择与提取的实质是要对原始特征空间进行优化，这就需要对优化的结果进行评价，在实际应用中经常采用的评价方法，是对分类系统的性能进行测试，最直接的测试指标当然是识别率，其它指标还有识别计算速度、存储容量等。本章讨论的评价方法目的在于找出对特征空间进行优化的具体算法。对特征空间进行优化的任务是求出一组对分类最有效的特征，所谓有效是指在特征维数减少到同等水平时，其分类性能达到最优。因此需要设计出定量分析方法，判断所得到的特征或所选取的特征维数是否对分类最有利，这种用以定量检验分类性能的准则称为类别可分离性判据。一般说来分类器最基本的性能评估是其分类的错误率，如果能用反映错误率大小的准则，在理论上是最合适的。但是正如在前述章节讨论中提到的，对错误率的计算是极其复杂的，以至于很难构筑直接基于错误率的判据。为此人们设法从另一些更直观的方法出发，设计出一些类别可分离性判据的准则，用来检验不同的特征组合对分类性能好坏的影响，进而导出特征选择与特征提取的方法。通常希望所构造的可分性判据满足下列要求：（1）与误判概率有单调关系。(2）当模式的特征独立时，判据有可加性，即J,(X,X2,",Xa)=ZJ,(X)k=l（3）判据具有距离的某些特性，即[J,>0,ijJ,=0,i=j[J,=Jj

第 6 章特征提取与选择模式识别的主要任务是设计分类器，将样本划分为相应的类别，获得好的分类性能。而前面章节讨论的分类器设计方法，都是认为样本的特征已经确定，各类样本都分布在由该特征所决定的空间内。因此分类器设计问题是一个使用什么方法，将已确定的特征空间合理划分的问题。分类器设计方法固然重要，但样本的特征选择与提取也是模式识别系统的一个关键的问题。好的特征可以使同类样本的分布更具加紧密，不同类别样本则在该特征空间中更加分开，这就为分类器设计奠定了良好的基础。反之，如果不同类别的样本在该特征空间中混杂在一起，再好的设计方法也无法提高分类器的准确性。本章要讨论的问题就是给定训练样本集，如何设计特征空间的问题。 6.1 类别可分性判据特征选择与提取的实质是要对原始特征空间进行优化，这就需要对优化的结果进行评价，在实际应用中经常采用的评价方法，是对分类系统的性能进行测试，最直接的测试指标当然是识别率，其它指标还有识别计算速度、存储容量等。本章讨论的评价方法目的在于找出对特征空间进行优化的具体算法。对特征空间进行优化的任务是求出一组对分类最有效的特征，所谓有效是指在特征维数减少到同等水平时，其分类性能达到最优。因此需要设计出定量分析方法，判断所得到的特征或所选取的特征维数是否对分类最有利，这种用以定量检验分类性能的准则称为类别可分离性判据。一般说来分类器最基本的性能评估是其分类的错误率，如果能用反映错误率大小的准则，在理论上是最合适的。但是正如在前述章节讨论中提到的，对错误率的计算是极其复杂的，以至于很难构筑直接基于错误率的判据。为此人们设法从另一些更直观的方法出发，设计出一些类别可分离性判据的准则，用来检验不同的特征组合对分类性能好坏的影响，进而导出特征选择与特征提取的方法。通常希望所构造的可分性判据满足下列要求：（1）与误判概率有单调关系。（2）当模式的特征独立时，判据有可加性，即 1 2 1 ( , , , ) ( ) d ij d ij k k J X X X J X    （3）判据具有距离的某些特性，即 0, 0, ij ij ij ji J i j J i j J J          

（4）对特征数目是单调不减的，即 1 2 1 2 1 ( , , , ) ( , , , , ) ij d ij d d J X X X J X X X X   在实际应用，有些判据并不一定同时能满足上述四个条件，但并不影响其使用。 6.2.基于距离的可分性判据基于距离的可分性判据的实质是 Fisher 准则的延伸，即同时考虑样本的类内聚集程度与类间的离散程度这两个因素。这种判据对特征空间优化的结果较好地体现类内密集、类间分离的目的，也就是说，一些不能体现类间分隔开的特征在对特征空间进行优化的过程中很可能被剔除了。基于距离度量在几何上具有直观性，因为一般情况下同类样本在特征空间呈聚类状态，即从总体上说同类样本由于具有共性，因此类内样本间距离应比类间样本间距离小。Fisher 准则正是以使类间距离尽可能大同时又保持类内距离较小这一思想设计的。同样在特征选择与特征提取中也使用类似的思想，称为基于距离的可分性判据。为了度量类内、类间的距离，也可用另一种描述方法，即描述样本的离散程度的方法。在讨论 Fisher 准则时曾用过两个描述离散度的矩阵。一个是类间离散矩阵 b S ，即  1 2 1 2   T b S m m m m    (6-1) 另一个是类内离散度矩阵 w S ，有 w 1 2 S S S   (6-2) 其中，    , 1,2 T w i i X S X m X m i       以上式子是针对两类别情况的，如果推广至 c 类情况，同时考虑各类的先验概率 Pi 不相等，则可将上列各式表示成    1 c T b i i i i S P m m m m      (6-3)    1 c T w i i i i i S PE X m X m          (6-4) 其中，m 为所有样本的总均值向量， Ei 表示 i 类的期望符号。利用(6-3)与(6-4)式可以将基于距离的可分性判据表示如下几种形式。（1）特征向量间平均距离的判据 1 ( ) tr( ) w b J X S S   (6-5) 其中，“ tr ”表示矩阵的迹。式(6-5)实际上是从计算特征向量间总平均距离的公式推导得到的，该式可写成

由式（6-17）可以看出，当 1 2 P X P X ( ) ( )    对所有 X 值成立时 0 B J  ，而当两类的分布完全不交迭时 B J 为无穷大。 Chernoff 界限的定义为 1 1 2 ln ( ) ( ) s S C J p X p X dX          (6-18) 其中， S 取[0，1]区间的一个参数，当 S  0.5 时式(6-18)即为式(6-17)，因此 B J 是 C J 的一个特例。 (2) 散度另一种常用的基于概率距离度量的判据是利用似然比或对数似然比。对两类问题，其对数似然比为 ( ) ln ( ) i ij j p X l p X    (6-19) 如果对某个 X ， ( ) ( ) P X P X   i j  ，则 0 ij l  ，反之若两者差异越大，则 ij l 的绝对值也大。式(6-19)只是对某一 X 值而言，为了对整个特征空间概率分布的差异程度做出评价， i 类相对 j 的可分性信息定义为 ( ) (X) ( )ln ( ) i ij ij i j p X I E l p X dX p X            (6-20) j 类相对 i 的可分性信息定义为 ( ) (X) ( )ln ( ) j ji ji j i p X I E l p X dX p X            (6-21) 而总的平均可分信息则可表示成 ( ) ( ) ( ) ln ( ) i D ij ji i j j p X J I I p X p X dX p X              (6-22) D J 被称为散度，从其数学构造上来看，式中被积函数概率密度之差和概率密度之比能反映出两个类样本分布的重叠程度，同时被积函数中两因式永远同号，故其乘积非负。有关散度的具体含意将结合正态分布的例子说明。 (3) 正态分布时基于概率分布距离度量显然在一般情况下由于概率分布本身的复杂形式，以上这些基于概率分布的判据相当复杂。但当模式的概率分布具有某种特定参数形式，尤其是呈正态分布时，判据的表达式可以得到进一步简化。下面讨论两类别正态分布时散度判据的表达式。设两类的概率密度函数为

点击进入文档下载页（PDF格式）

共16页，可试读7页，点击继续阅读 ↓↓

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录