当前位置：和泉文库 > 计算机 > 哈尔滨工业大学：《模式识别》课程教学资源（讲义）第二章距离分类器和聚类分析

哈尔滨工业大学：《模式识别》课程教学资源（讲义）第二章距离分类器和聚类分析

一、模式的距离度量通过特征抽取，我们以特征空间中的一个点来表示输入的模式，属于同一个类别的样本所对应的点在模式空间中聚集在一定的区域，而其它类别的样本点则聚集在其它区域，则就启发我们利用点与点之间距离远近作为设计分类器的基准。这种思路就是我们这一章所要介绍的距离分类器的基础。

文件格式：DOC，文件大小：434.5KB，售价：2.4元

文档详细内容（约8页）

集各个类别的样本,样本量的增加能够跟好的反映出类别的中体分布情况,这样带来的问题就是如何利用多个样本来设计距离分类器?下面介绍几种常用的方法 1.平均样本法此方法中,我们还希望以一个标准样本来代表每个类别,这样就可以采用单个标准样本距离分类器的准则来进行分类。下面的问题就是如何来确定这个标准样本,这实际上就是如何利用训练样本集来进行学习的问题在模式识别方法中,我们将经常遇到最优化问题,下面我们就以这个简单问题来介绍一下最优化方法的一些概念设有M个类别,92.2…,第m类有训练样本集{X,x回,…x吧},我们希望求得一个标准样本T叫,训练样本X=(x,x…,x)我们要寻找的标准样本 T实际上应该是一个距离训练样本集中所有样本的平均距离最小的一点,则一点最能够代表这个训练样本集。例如,如果类别样本的分布为一个球形的话,这一点应该是球的中心。这一条件可以用下面的函数表示:()=∑4(x-T),此函数称为目标函数。我们的目标就是要寻找到一个T叫,使得(T)最小以欧氏距离为例,f(T)1 ∑(S("-),下面r的各推元素取偏导数 afIT at 2K 11-x+)-0 则:(1"=1∑x2,以矢量形式表示:T叫=1∑x 平均样本法的特点是:1、算法简单;2、每个类别只需存储一个平均样本,存储量小 3、识别时只需计算M次距离函数,计算量小:4、对类别样本的分布描述能力不强,效果不一定很好。在单个样本的距离分类器中,实际上我们是定义了一个未知类别模式到某一类别的距离,这个距离就是待识模式与类别标准样本之间的距离:d(Xg)=d(X,T),然后以模式与类别的距离作为分类的判据。实际上在多个标准样本的问题中,我们还可以定义其它形式的模式与类别的距离 2.平均距离法己知类别92的训练样本集为:Tγ,T20…,I},定义待识模式X与类别的距离: d(x Q2 11

11 集各个类别的样本，样本量的增加能够跟好的反映出类别的中体分布情况，这样带来的问题就是如何利用多个样本来设计距离分类器？下面介绍几种常用的方法。 1. 平均样本法此方法中，我们还希望以一个标准样本来代表每个类别，这样就可以采用单个标准样本距离分类器的准则来进行分类。下面的问题就是如何来确定这个标准样本，这实际上就是如何利用训练样本集来进行学习的问题。在模式识别方法中，我们将经常遇到最优化问题，下面我们就以这个简单问题来介绍一下最优化方法的一些概念。设有 M 个类别， 1 2 , , ,   M ，第 m 类有训练样本集 ( ) ( ) ( )  1 2 , , , m  m m m X X XK ，我们希望求得一个标准样本 (m) T ，训练样本 ( ) ( ) ( ) ( ) ( 1 2 , , , ) m m m m i i i iN X = x x x 。我们要寻找的标准样本 (m) T 实际上应该是一个距离训练样本集中所有样本的平均距离最小的一点，则一点最能够代表这个训练样本集。例如，如果类别样本的分布为一个球形的话，这一点应该是球的中心。这一条件可以用下面的函数表示： ( ) ( ) ( ) ( ) ( ) 1 1 Km m m m i m i f d K = T X T = −  ，此函数称为目标函数。我们的目标就是要寻找到一个 (m) T ，使得 ( ) ( ) m f T 最小。以欧氏距离为例， ( ) ( ) ( ) ( ) ( ) 1 2 2 1 1 1 Km N m m m ij j m i j f x t K = =   = −     T   ，下面对 (m) T 的各维元素取偏导数： ( ) ( ) ( ) ( ) ( ) ( ( ) ( )) ( ) ( ) 1 1 1 1 1 2 1 0 2 m m m m K K K m m m m m ij j j ij m m i i i k f x t t x t K K = = =    = −  − = − =         T 则： ( ) ( ) 1 1 Km m m j ij m i t x K = =  。以矢量形式表示： ( ) ( ) 1 1 Km m m i K m i= T X =  。平均样本法的特点是：1、算法简单；2、每个类别只需存储一个平均样本，存储量小； 3、识别时只需计算 M 次距离函数，计算量小；4、对类别样本的分布描述能力不强，效果不一定很好。在单个样本的距离分类器中，实际上我们是定义了一个未知类别模式到某一类别的距离，这个距离就是待识模式与类别标准样本之间的距离： d d (X X T , ,  = i i ) ( ) ，然后以模式与类别的距离作为分类的判据。实际上在多个标准样本的问题中，我们还可以定义其它形式的模式与类别的距离。 2. 平均距离法已知类别 i 的训练样本集为： ( ) ( ) ( )  1 2 , , , i  i i i T T TK ，定义待识模式 X 与类别 i 的距离： ( ) ( ) ( ) 1 1 , , Ki i i j j i d d K = X X T  = 

然后还是以与待识模式最近的类别作为识别结果。在平均距离法中,需要存储所有的训练样本,而且在识别时还要计算待识模式与每个训练样本的距离,所以计算量比较大 3.最近邻法最近邻法以与待识样本距离最近的标准样本点的类别作为分类类别。实际上相当于定义待识模式与类别g的距离 d(x, Q2, )=min d(x,T') 最近邻法也要存储和计算所有的训练样本,同时与平均距离法相比容易受到噪声的干扰,当与X最近点为噪声时,就会导致误识。最近邻法的改进平均样本法用一点代表一个类别,过分集中;最近邻法以类内的每一点代表类别,过于分散,在通常情况下可以采用折衷的办法,首先将每个类别的训练样本划分为几个子集,在各个子集中计算平均样本,每一个类别以几个子集的平均样本代表,采用最近邻法分类。(举例红莩果,绿莩),这样做的好处是,一方面可以减少存储量和计算量,同时还可以减小噪声的干扰,这是在实际系统使用比较多的方法 4.K近邻法 K-近邻法是另外一种减小噪声干扰的改进方法,它不是根据与未知样本X最近的一个样本的类别来分类,而是根据X最近邻的K各样本点中多数点的类别来分类。方法如下: a)计算X与所有训练样本的距离 b)对所有的d(xT)从小到大排序 e)统计前K个中各类训练样本的个数N,i=1.2,…,M,必有∑N=K d)取= arg max M作为X的类别 K-近邻法中,K值得选择非常重要,太大则就会变成那一类的训练样本说多就分类到哪一类,太少则容易受到噪声的影响,当K=1时,就变为了最近邻法 22聚类分析在某些问题中,我们已知的只是一个训练样本集,而不知道样本集中每个样本的类别标号,这就需要我们首先将这些样本分成若干类,然后再用分好类的样本训练出相应的分类器将未知类别的一组样本分成若干类的过程称为是聚类分析,也称为是无监督学习或无教师学聚类分析的思路非常直观,也是根据各个带分类模式特征的相似程度来进行分类,将在特征空间中聚集在一起的样本点划分为一类。聚类分析的方法可以分为三类:简单聚类法、系统聚类法和动态聚类法。简单聚类法(试探法) 1、最近邻规则的简单试探法设N个待分类的模式{X1,X2…X},已知一个阈值7(每个样本到其聚类中心的

12 然后还是以与待识模式最近的类别作为识别结果。在平均距离法中，需要存储所有的训练样本，而且在识别时还要计算待识模式与每个训练样本的距离，所以计算量比较大。 3. 最近邻法最近邻法以与待识样本距离最近的标准样本点的类别作为分类类别。实际上相当于定义待识模式与类别 i 的距离： ( ) ( ) ( ) 1 , min , i i i j j K d d   X X T  = 最近邻法也要存储和计算所有的训练样本，同时与平均距离法相比容易受到噪声的干扰，当与 X 最近点为噪声时，就会导致误识。最近邻法的改进：平均样本法用一点代表一个类别，过分集中；最近邻法以类内的每一点代表类别，过于分散，在通常情况下可以采用折衷的办法，首先将每个类别的训练样本划分为几个子集，在各个子集中计算平均样本，每一个类别以几个子集的平均样本代表，采用最近邻法分类。（举例：红苹果，绿苹果），这样做的好处是，一方面可以减少存储量和计算量，同时还可以减小噪声的干扰，这是在实际系统使用比较多的方法。 4. K -近邻法 K -近邻法是另外一种减小噪声干扰的改进方法，它不是根据与未知样本 X 最近的一个样本的类别来分类，而是根据 X 最近邻的 K 各样本点中多数点的类别来分类。方法如下： a) 计算 X 与所有训练样本的距离； b) 对所有的 ( ) ( , ) i j d X T 从小到大排序； c) 统计前 K 个中各类训练样本的个数 Ni ，i M =1, 2, , ，必有 1 M i i N K =  = ； d) 取 0 1 arg max i i M i N   = 作为 X 的类别。 K -近邻法中， K 值得选择非常重要，太大则就会变成那一类的训练样本说多就分类到哪一类，太少则容易受到噪声的影响，当 K = 1 时，就变为了最近邻法。 2.2 聚类分析在某些问题中，我们已知的只是一个训练样本集，而不知道样本集中每个样本的类别标号，这就需要我们首先将这些样本分成若干类，然后再用分好类的样本训练出相应的分类器。将未知类别的一组样本分成若干类的过程称为是聚类分析，也称为是无监督学习或无教师学习。聚类分析的思路非常直观，也是根据各个带分类模式特征的相似程度来进行分类，将在特征空间中聚集在一起的样本点划分为一类。聚类分析的方法可以分为三类：简单聚类法、系统聚类法和动态聚类法。一、简单聚类法（试探法） 1、最近邻规则的简单试探法设 N 个待分类的模式 X X X 1 2 , , , N ，已知一个阈值 T （每个样本到其聚类中心的

点击进入文档下载页（DOC格式）

共8页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（DOC）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录