当前位置：和泉文库 > 电气与自动化 > 浏览文档

【机器学习】基于局部保留投影的多可选聚类发掘算法

文件格式：PDF，文件大小：2.18MB，售价：3.12元

文档详细内容（约8页）

第11卷第5期智能系统学报 Vol.11 No.5 2016年10月 CAAI Transactions on Intelligent Systems 0ct.2016 D0I:10.11992/is.201508022 网络出版地址：htp:/ww.cnki.net/kcms/detail/23.1538.TP.20160824.0928.004.html 基于局部保留投影的多可选聚类发掘算法程肠，王士同 (江南大学数字蝶体学院，江苏无锡214122) 摘要：绝大多数的聚类分析算法仅能得到单一的聚类结果，考虑到数据的复杂程度普遍较高，以及看待数据的视角不同，所得到的聚类结果在保证其合理性的基础上应当是不唯一的，针对此问题，提出了一个新的算法RLPP,用于发掘多种可供选择的聚类结果。RLPP的目标函数兼顾了聚类质量和相异性两大要素，采用子空间流形学习技术，通过新的子空间不断生成多种互不相同的聚类结果。LPP同时适用于线性以及非线性的数据集。实验表明， RLPP成功地发掘了多种可供选择的聚类结果，其性能相当或优于现有的算法。关键词：可供选择的聚类结果：无监督学习；流形学习：多聚类；特征分解中图分类号：TP18文献标志码：A文章编号：1673-4785(2016)05-0600-08 中文引用格式：程肠，王士同.基于局部保留投影的多可选聚类发掘算法[J].智能系统学报，2016,11(5)：600-607. 英文引用格式：CHENG Yang,WANG Shitong.A multiple alternative clusterings mining algorithm using locality preserving projec tions[].CAAI transactions on intelligent systems,2016,11(5):600-607. A multiple alternative clusterings mining algorithm using locality preserving projections CHENG Yang,WANG Shitong (School of Digit Media,Jiangnan University,Wuxi 214122.China) Abstract:Most clustering algorithms typically find just one single result for the data inputted.Considering that the complexity of the data is generally high,combined with the need to allow the data to be viewed from different per- spectives (on the basis of ensuring reasonableness),means that clustering results are often not unique.We present a new algorithm RLPP for an alternative clustering generation method.The objective of RLPP is to find a balance between clustering quality and dissimilarity using a subspace manifold learning technique in a new subspace so that a variety of clustering results can be generated.Experimental results using both linear and nonlinear datasets show that RLPP successfully provides a variety of alternative clustering results,and is able to outperform or at least match a range of existing methods. Keywords:alternative clustering;unsupervised learning;manifold learning;multiple clusterings;eigendecomposi- tion 大多数传统的聚类算法仅仅能得到单个结果，本文根据文献[1]所述原理，提出了一种能够发但是当对复杂数据进行聚类分析时，很可能存在多掘多个可供选择的聚类结果的算法RLPP。算法结个具有合理性的聚类结果。这一特点在高维数据上合了希尔伯特施密特独立性度量准则(hilbert- 表现得尤为明显，例如文本、图像、基因数据等，这些 schmidt independence criterion,HsIC)]以及局部保数据具有多种特征，而不同的特征子空间往往会得持投影(locality preserving projections,LPP)[),改进到完全不同的聚类结果，同时每一种结果都能体现了LPP算法学习子空间的过程。由于HSIC可以高数据不同的结构信息。效地评估不同随机变量之间的依赖性，而LPP算法具有流形学习能力，因此RLPP同时兼顾了聚类结收稿日期：2015-08-26.网络出版日期：2016-08-24 果的相异性和聚类质量这两大要素。并且由于其目基金项目：国家自然科学基金项目(61272210). 通信作者：程肠.E-mail:szhchengyang(@163.com 标函数最终在特征分解问题的框架内求解，因此能

第１１卷第５期智能系统学报Ｖｏｌ．１１ №．５２０１６年１０月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＯｃｔ．２０１６ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１５０８０２２网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１６０８２４．０９２８．００４．ｈｔｍｌ基于局部保留投影的多可选聚类发掘算法程旸，王士同（江南大学数字媒体学院，江苏无锡２１４１２２）摘要：绝大多数的聚类分析算法仅能得到单一的聚类结果，考虑到数据的复杂程度普遍较高，以及看待数据的视角不同，所得到的聚类结果在保证其合理性的基础上应当是不唯一的，针对此问题，提出了一个新的算法ＲＬＰＰ，用于发掘多种可供选择的聚类结果。ＲＬＰＰ的目标函数兼顾了聚类质量和相异性两大要素，采用子空间流形学习技术，通过新的子空间不断生成多种互不相同的聚类结果。ＲＬＰＰ同时适用于线性以及非线性的数据集。实验表明，ＲＬＰＰ成功地发掘了多种可供选择的聚类结果，其性能相当或优于现有的算法。关键词：可供选择的聚类结果；无监督学习；流形学习；多聚类；特征分解中图分类号：ＴＰ１８文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１６）０５⁃０６００⁃０８中文引用格式：程旸，王士同．基于局部保留投影的多可选聚类发掘算法［Ｊ］．智能系统学报，２０１６，１１（５）：６００⁃６０７．英文引用格式：ＣＨＥＮＧＹａｎｇ，ＷＡＮＧＳｈｉｔｏｎｇ．Ａｍｕｌｔｉｐｌｅａｌｔｅｒｎａｔｉｖｅｃｌｕｓｔｅｒｉｎｇｓｍｉｎｉｎｇａｌｇｏｒｉｔｈｍｕｓｉｎｇｌｏｃａｌｉｔｙｐｒｅｓｅｒｖｉｎｇｐｒｏｊｅｃ⁃ ｔｉｏｎｓ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１６，１１（５）：６００⁃６０７．ＡｍｕｌｔｉｐｌｅａｌｔｅｒｎａｔｉｖｅｃｌｕｓｔｅｒｉｎｇｓｍｉｎｉｎｇａｌｇｏｒｉｔｈｍｕｓｉｎｇｌｏｃａｌｉｔｙｐｒｅｓｅｒｖｉｎｇｐｒｏｊｅｃｔｉｏｎｓＣＨＥＮＧＹａｎｇ，ＷＡＮＧＳｈｉｔｏｎｇ（ＳｃｈｏｏｌｏｆＤｉｇｉｔＭｅｄｉａ，ＪｉａｎｇｎａｎＵｎｉｖｅｒｓｉｔｙ，Ｗｕｘｉ２１４１２２，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｍｏｓｔｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓｔｙｐｉｃａｌｌｙｆｉｎｄｊｕｓｔｏｎｅｓｉｎｇｌｅｒｅｓｕｌｔｆｏｒｔｈｅｄａｔａｉｎｐｕｔｔｅｄ．Ｃｏｎｓｉｄｅｒｉｎｇｔｈａｔｔｈｅｃｏｍｐｌｅｘｉｔｙｏｆｔｈｅｄａｔａｉｓｇｅｎｅｒａｌｌｙｈｉｇｈ，ｃｏｍｂｉｎｅｄｗｉｔｈｔｈｅｎｅｅｄｔｏａｌｌｏｗｔｈｅｄａｔａｔｏｂｅｖｉｅｗｅｄｆｒｏｍｄｉｆｆｅｒｅｎｔｐｅｒ⁃ ｓｐｅｃｔｉｖｅｓ（ｏｎｔｈｅｂａｓｉｓｏｆｅｎｓｕｒｉｎｇｒｅａｓｏｎａｂｌｅｎｅｓｓ），ｍｅａｎｓｔｈａｔｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓａｒｅｏｆｔｅｎｎｏｔｕｎｉｑｕｅ．ＷｅｐｒｅｓｅｎｔａｎｅｗａｌｇｏｒｉｔｈｍＲＬＰＰｆｏｒａｎａｌｔｅｒｎａｔｉｖｅｃｌｕｓｔｅｒｉｎｇｇｅｎｅｒａｔｉｏｎｍｅｔｈｏｄ．ＴｈｅｏｂｊｅｃｔｉｖｅｏｆＲＬＰＰｉｓｔｏｆｉｎｄａｂａｌａｎｃｅｂｅｔｗｅｅｎｃｌｕｓｔｅｒｉｎｇｑｕａｌｉｔｙａｎｄｄｉｓｓｉｍｉｌａｒｉｔｙｕｓｉｎｇａｓｕｂｓｐａｃｅｍａｎｉｆｏｌｄｌｅａｒｎｉｎｇｔｅｃｈｎｉｑｕｅｉｎａｎｅｗｓｕｂｓｐａｃｅｓｏｔｈａｔａｖａｒｉｅｔｙｏｆｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓｃａｎｂｅｇｅｎｅｒａｔｅｄ．ＥｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｕｓｉｎｇｂｏｔｈｌｉｎｅａｒａｎｄｎｏｎｌｉｎｅａｒｄａｔａｓｅｔｓｓｈｏｗｔｈａｔＲＬＰＰｓｕｃｃｅｓｓｆｕｌｌｙｐｒｏｖｉｄｅｓａｖａｒｉｅｔｙｏｆａｌｔｅｒｎａｔｉｖｅｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓ，ａｎｄｉｓａｂｌｅｔｏｏｕｔｐｅｒｆｏｒｍｏｒａｔｌｅａｓｔｍａｔｃｈａｒａｎｇｅｏｆｅｘｉｓｔｉｎｇｍｅｔｈｏｄｓ．Ｋｅｙｗｏｒｄｓ：ａｌｔｅｒｎａｔｉｖｅｃｌｕｓｔｅｒｉｎｇ；ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ；ｍａｎｉｆｏｌｄｌｅａｒｎｉｎｇ；ｍｕｌｔｉｐｌｅｃｌｕｓｔｅｒｉｎｇｓ；ｅｉｇｅｎｄｅｃｏｍｐｏｓｉ⁃ ｔｉｏｎ收稿日期：２０１５⁃０８⁃２６．网络出版日期：２０１６⁃０８⁃２４．基金项目：国家自然科学基金项目（６１２７２２１０）．通信作者：程旸．Ｅ⁃ｍａｉｌ：ｓｚｈｃｈｅｎｇｙａｎｇ＠１６３．ｃｏｍ．大多数传统的聚类算法仅仅能得到单个结果，但是当对复杂数据进行聚类分析时，很可能存在多个具有合理性的聚类结果。这一特点在高维数据上表现得尤为明显，例如文本、图像、基因数据等，这些数据具有多种特征，而不同的特征子空间往往会得到完全不同的聚类结果，同时每一种结果都能体现数据不同的结构信息。本文根据文献［１］所述原理，提出了一种能够发掘多个可供选择的聚类结果的算法ＲＬＰＰ。算法结合了希尔伯特施密特独立性度量准则（ｈｉｌｂｅｒｔ⁃ ｓｃｈｍｉｄｔｉｎｄｅｐｅｎｄｅｎｃｅｃｒｉｔｅｒｉｏｎ，ＨＳＩＣ）［２］以及局部保持投影（ｌｏｃａｌｉｔｙｐｒｅｓｅｒｖｉｎｇｐｒｏｊｅｃｔｉｏｎｓ，ＬＰＰ）［３］，改进了ＬＰＰ算法学习子空间的过程。由于ＨＳＩＣ可以高效地评估不同随机变量之间的依赖性，而ＬＰＰ算法具有流形学习能力，因此ＲＬＰＰ同时兼顾了聚类结果的相异性和聚类质量这两大要素。并且由于其目标函数最终在特征分解问题的框架内求解，因此能

第5期程肠，等：基于局部保留投影的多可选聚类发掘算法 ·601· 够确保求出的新的子空间一定存在，并且解是全局列空间中，可以用P×b计算，其中P被称为投影矩最优的。阵，P=A(ATA)AT。而(I-P)同样也是一个投总的来说，本文所做的工作为：1)提出了一种新的影矩阵，表示把投影到了AT的零空间中。文献[14] 算法RLPP,用于发掘多种可供选择的聚类结果：2) 中提出的2种算法把每个数据实例看作向量，利用 LPP根据同时满足质量和相异性要求的目标函数，生了上述投影等式。文献[15]中的研究也与此相关，成一个新的特征子空间，该特征子空间能够确保存在，投影矩阵被应用于从所提供的聚类结果导出的距离并且是全局最优的：3)通过实验，验证了RLPP的效矩阵上。相比于文献[14]中的2种算法，这种方法果，并与其他现有的算法进行了性能比较。的优势在于能够解决数据维数比类别数小的情况。 1当前典型的可选聚类发掘方法文献[16]提出的算法采用了不同的方法，通过对数据的投影，使得在参考聚类结果中属于相同类别的当前，有关发掘可选聚类结果的算法大体上可数据点经过映射后在新的空间中拉开距离。这一方以分为两类：一类直接利用原始数据空间寻找，另一法与其他方法之间的不同之处在于它并不寻找一个类则是基于投影（变形）子空间寻找。全新的可选聚类，而是通过设定2个聚类结果之间 1.1基于全部原始数据空间的相异度阈值，允许已知的聚类结果中的部分在可这类研究利用的是整个原始特征空间，大多数选聚类结果中保留下来。文献[17]和文献[18]中研究的不同之处在于优化聚类质量和相异性的目标所提出的算法基于谱聚类实现，前者表明可选聚类函数不同。文献[4-9]中的研究可以归类为此类。结果可以通过拉普拉斯矩阵不同的特征向量找到，文献[4]提出了一种分层聚类(hierarchical cluste- 后者所提出的多重谱聚类(multiple spectral cluste- ring)算法COALA,该算法把从提供的聚类结果中生 ring,MSC)把子空间学习技术融入了谱聚类的过程成的cannot--link约束项合并入它的每一个凝聚步骤中，也就是说，MSC的目标函数是一个对偶函数中，即尽可能多地满足这些cannot--ink约束项。在 (dual-function),通过最优化一项来修正另一项。另文献[7]中，提出了CAMI算法，用于同时寻找两个外，文献[I]提出了正则化PCA(regularized PCA, 可供选择的聚类结果。CAMI算法在混合模型下构 RPCA)和正则化的图方法(regularized graph-based 造聚类问题，优化了一个双重目标函数(dual-objec- method,RegGB)算法，其中RPCA与MSC一样，都 tive function),使得当两个混合模型之间的互信息采用了HSIC,用于评估相关性，而RegGB算法则是 (反映了两种聚类结果之间的不同)最小时，对数似基于图论构造。总的来说，RPCA和RegGB算法在然（反映了聚类质量）最大。文献[6]提出的两种算寻找可选聚类的能力上要优于之前所提到的算法，法Dec-kmeans和Conv-EM也属于此类，这两种算法但是RPCA算法只适用于线性结构的数据集，并且分别改进了k-means和EM的目标函数，结合了一其寻找可选聚类结果的能力有限，往往只能找到个修正项，用于表示两种聚类结果之间的去相关信个可选聚类，这些都极大地影响了它在使用上的灵息。文献[8]中的工作采用了不同的方式，其原理活性。因此，本文在文献[1]所提出的思路上，探索来源于信息论，它的目标函数最大化全部数据实例了一种新的算法，通过引入流形学习大大提高了其和可选聚类结果类标之间的互信息(M),同时最小发掘低维流形结构的能力和子空间学习能力，并通化可选聚类和所提供的聚类结果之间的互信息。文过核化扩大了其适用范围，使得其既适用于线性，同献[8]中并没有基于传统的香农嫡，而是采用了时又适用于非线性的数据集。 Renyi熵，以及相对应的二次互信息[2]，这种方法在结合了非参数Parzen窗[]后使得MI基本近似。 2问题描述这种双重优化聚类目标同样被用于文献[9]中，区别在于文献「91使用的是迭代法，而不是文献「81中假设数据集X={x1x2…xn},x:eR,即X是所使用的分层技术。 dxn的矩阵，并提供一个使用任意聚类算法得到的 1.2基于投影子空间参考聚类结果C)。则本文研究的目标为：发掘数如果原数据空间的子空间与原数据空间是相互据集X上的可供选择的聚类结果C2),并且C2)中独立的（比如是正交的），那么根据该子空间得到的的所有类别C2必须满足两个条件，U,C2=X和聚类结果也与原聚类结果不同。文献[14-18]就是 C2nC2=0(i≠j)。除了与C)不同外，还要求根据这样的理论基础提出了各自的算法。文献 C(2)的聚类质量较高。同理，若提供一组参考聚类「14]由正交投影方法提出了两种寻找可供选择的结果{C),C,…{,必须生成高质量的可供选择聚类结果的算法。已知一个向量b,投影到矩阵的的聚类结果C),且与之前所有的聚类结果{C)

够确保求出的新的子空间一定存在，并且解是全局最优的。总的来说，本文所做的工作为：１）提出了一种新的算法ＲＬＰＰ，用于发掘多种可供选择的聚类结果；２）ＲＬＰＰ根据同时满足质量和相异性要求的目标函数，生成一个新的特征子空间，该特征子空间能够确保存在，并且是全局最优的；３）通过实验，验证了ＲＬＰＰ的效果，并与其他现有的算法进行了性能比较。１当前典型的可选聚类发掘方法当前，有关发掘可选聚类结果的算法大体上可以分为两类：一类直接利用原始数据空间寻找，另一类则是基于投影（变形）子空间寻找。１．１基于全部原始数据空间这类研究利用的是整个原始特征空间，大多数研究的不同之处在于优化聚类质量和相异性的目标函数不同。文献［４⁃９］中的研究可以归类为此类。文献［４］提出了一种分层聚类（ｈｉｅｒａｒｃｈｉｃａｌｃｌｕｓｔｅ⁃ ｒｉｎｇ）算法ＣＯＡＬＡ，该算法把从提供的聚类结果中生成的ｃａｎｎｏｔ⁃ｌｉｎｋ约束项合并入它的每一个凝聚步骤中，即尽可能多地满足这些ｃａｎｎｏｔ⁃ｌｉｎｋ约束项。在文献［７］中，提出了ＣＡＭＩ算法，用于同时寻找两个可供选择的聚类结果。ＣＡＭＩ算法在混合模型下构造聚类问题，优化了一个双重目标函数（ｄｕａｌ⁃ｏｂｊｅｃ⁃ ｔｉｖｅｆｕｎｃｔｉｏｎ），使得当两个混合模型之间的互信息（反映了两种聚类结果之间的不同）最小时，对数似然（反映了聚类质量）最大。文献［６］提出的两种算法Ｄｅｃ⁃ｋｍｅａｎｓ和Ｃｏｎｖ⁃ＥＭ也属于此类，这两种算法分别改进了ｋ⁃ｍｅａｎｓ和ＥＭ的目标函数，结合了一个修正项，用于表示两种聚类结果之间的去相关信息。文献［８］中的工作采用了不同的方式，其原理来源于信息论，它的目标函数最大化全部数据实例和可选聚类结果类标之间的互信息（ＭＩ），同时最小化可选聚类和所提供的聚类结果之间的互信息。文献［８］中并没有基于传统的香农熵［１０］，而是采用了Ｒｅｎｙｉ熵，以及相对应的二次互信息［１１⁃１２］，这种方法在结合了非参数Ｐａｒｚｅｎ窗［１３］后使得ＭＩ基本近似。这种双重优化聚类目标同样被用于文献［９］中，区别在于文献［９］使用的是迭代法，而不是文献［８］中所使用的分层技术。１．２基于投影子空间如果原数据空间的子空间与原数据空间是相互独立的（比如是正交的），那么根据该子空间得到的聚类结果也与原聚类结果不同。文献［１４⁃１８］就是根据这样的理论基础提出了各自的算法。文献［１４］由正交投影方法提出了两种寻找可供选择的聚类结果的算法。已知一个向量ｂ，投影到矩阵的列空间中，可以用Ｐ×ｂ计算，其中Ｐ被称为投影矩阵，Ｐ＝Ａ（ＡＴＡ）－１ＡＴ。而（Ⅰ－Ｐ）同样也是一个投影矩阵，表示把投影到了ＡＴ的零空间中。文献［１４］中提出的２种算法把每个数据实例看作向量，利用了上述投影等式。文献［１５］中的研究也与此相关，投影矩阵被应用于从所提供的聚类结果导出的距离矩阵上。相比于文献［１４］中的２种算法，这种方法的优势在于能够解决数据维数比类别数小的情况。文献［１６］提出的算法采用了不同的方法，通过对数据的投影，使得在参考聚类结果中属于相同类别的数据点经过映射后在新的空间中拉开距离。这一方法与其他方法之间的不同之处在于它并不寻找一个全新的可选聚类，而是通过设定２个聚类结果之间的相异度阈值，允许已知的聚类结果中的部分在可选聚类结果中保留下来。文献［１７］和文献［１８］中所提出的算法基于谱聚类实现，前者表明可选聚类结果可以通过拉普拉斯矩阵不同的特征向量找到，后者所提出的多重谱聚类（ｍｕｌｔｉｐｌｅｓｐｅｃｔｒａｌｃｌｕｓｔｅ⁃ ｒｉｎｇ，ＭＳＣ）把子空间学习技术融入了谱聚类的过程中，也就是说，ＭＳＣ的目标函数是一个对偶函数（ｄｕａｌ⁃ｆｕｎｃｔｉｏｎ），通过最优化一项来修正另一项。另外，文献［１］提出了正则化ＰＣＡ（ｒｅｇｕｌａｒｉｚｅｄＰＣＡ，ＲＰＣＡ）和正则化的图方法（ｒｅｇｕｌａｒｉｚｅｄｇｒａｐｈ⁃ｂａｓｅｄｍｅｔｈｏｄ，ＲｅｇＧＢ）算法，其中ＲＰＣＡ与ＭＳＣ一样，都采用了ＨＳＩＣ，用于评估相关性，而ＲｅｇＧＢ算法则是基于图论构造。总的来说，ＲＰＣＡ和ＲｅｇＧＢ算法在寻找可选聚类的能力上要优于之前所提到的算法，但是ＲＰＣＡ算法只适用于线性结构的数据集，并且其寻找可选聚类结果的能力有限，往往只能找到一个可选聚类，这些都极大地影响了它在使用上的灵活性。因此，本文在文献［１］所提出的思路上，探索了一种新的算法，通过引入流形学习大大提高了其发掘低维流形结构的能力和子空间学习能力，并通过核化扩大了其适用范围，使得其既适用于线性，同时又适用于非线性的数据集。２问题描述假设数据集Ｘ＝｛ｘ１ｘ２… ｘｎ｝，ｘｉ∈Ｒｄ，即Ｘ是ｄ×ｎ的矩阵，并提供一个使用任意聚类算法得到的参考聚类结果Ｃ（１）。则本文研究的目标为：发掘数据集Ｘ上的可供选择的聚类结果Ｃ（２），并且Ｃ（２）中的所有类别Ｃ（２）ｉ必须满足两个条件，ＵｉＣ（２）ｉ＝Ｘ和Ｃ（２）ｉ ∩Ｃ（２）ｊ＝Ø（∀ｉ≠ｊ）。除了与Ｃ（１）不同外，还要求Ｃ（２）的聚类质量较高。同理，若提供一组参考聚类结果｛Ｃ（１），Ｃ（２），…｝，必须生成高质量的可供选择的聚类结果Ｃ（ｋ），且与之前所有的聚类结果｛Ｃ（１），第５期程旸，等：基于局部保留投影的多可选聚类发掘算法 ·６０１·

·602· 智能系统学报第11卷 C2),…}不同。假设欧式空间R”中的数据矩阵通过非线性映为了发掘另一个可供选择的聚类结果，使用子射函数p映射到希尔伯特空间K,即p:R→K。使空间流形学习方法，将原始数据空间X映射到一个用(X)表示希尔伯特空间中的数据矩阵，即新的子空间中。该空间保留了X的特征，并且完全 p(X)=[e(x,)p(x2)…p(xn)]。那么，在希尔伯独立于其他的参考聚类结果。任何聚类算法都可以特空间中的特征向量问题就可以表示为使用这个新的子空间进行聚类分析。 [(X)Le(X)']v=A[e(X)De(X)]v (5) 考虑如下的核函数： 3局部保持投影 K(x:,x)=(p(x:)·p(x))=p(x)p(x) 局部保持投影(locality preserving projections, 式(5)中的特征向量是p(x,),p(x2),, LPP)[)是一种非监督降维方法，是流形学习算法 p(x)的线性组合，每一项的系数分别为a, Laplacian Eigenmap的线性逼近。给定R中的n个 i=1,2,…,m,即y= 数据点x1,x2,…,xn,LPP通过寻找转换矩阵A,将 ae(x)=g(X)a。其中， i=1 这n个数据点映射为R(ld)上的数据点y,y2, a=[a,a2…an]T。经过简单的代数变换，可以得 …Jyn,即到如下特征向量问题：KLKa=AKDKa。. y:=Ax,i=1,2,…,n (1) 4希尔伯特-施密特独立性度量准则式中所需的转换矩阵A可以通过最小化式(2)目标函数得到：已知一个参考聚类结果C”,使用RLPP算法学 A=argmin∑(y:-y,)2wg (2) 习相对于C)独立的子空间A,这样就确保了使用 A得到的聚类结果C)与C)不同。为了计算不同式中：W是权值矩阵，可采用k最近邻算法得到邻子空间之间的相异性，采用了HSIC(hilbert-schmidt 接图，再求出权值矩阵。 independence criterion)),更重要的是，LPP与HSIC 如果x:是x:的k近邻点，则W=exp- 1x-x2 结合后可以导出一个特征分解问题，这样就一定可以计算出全局最佳解。 (t∈R):否则W,=0。显然，W是一个n×n的稀疏对 HSIC是一种基于核的独立性度量方法，采用称矩阵。 Hilbert--Schmidt互协方差算子，通过对该算子范数从目标函数式(2)可以看出，降维后的特征空间的经验估计得到独立性判断准则。具体来说，已知可以保持原始高维空间的局部结构。结合式(1)和 X和Y两个随机变量，HSIC(x,n的值越大说明X和式(2)，做简单的代数变换： Y的关联性越强，值等于0时说明X和Y相互之间 Σ)，完全独立。数学上，令F表示再生核希尔伯特空间，P(x) Σ(4x-Ax护W,= 表示数据x从原空间映射到F中的映射函数，则核函数可以写为K(x,x)=〈p(x),(x)）。同样的， ∑Ax,DaxA-∑Ax,W,xA= 定义山(y)为原空间中的数据y映射到再生希尔伯 (3) 特空间G的映射函数，核函数可以写为L(y,y)= AX(D-W)XA =ATXLXA 〈(y),(y)》。则互协方差算子C,:G→F可以式中：X=[x1x2…xn],D是一个n的对角矩阵，对角被定义为C,=E,[((x)-u)⑧((y)-μ，)]，⑧ 线元素D=∑W,L是拉普拉斯矩阵，L=D-W。表示张量积。C,即为Hilbert-Schmidt算子，而HSIC 能够使得式(3)取最小值的变换矩阵A的求解定义为C,的Hilbert--Schmidt算子范数，即可以转换为如下的广义特征值问题： HSIC(eF.=IC,I,其中P表示X和Y的联合 XLXA =AXDXA (4) 分布。实际上，不需要知道联合分布P,已知n个将式(4)求解出的特征值按从小到大排列，即观测值Z={(x1y1),…,(xyn)},可以直接给出入。<…<入-1，取前k个最小的特征值对应的特征向 HSIC的经验估计值为HSICr.=(n-l)-r(L,H)。量a0,a1,…,ak-1组成A,即A=[aoa1…ak-1】,由于其中K,L,∈R,且K,L,分别是核K和L关于Z观 a:是列向量，所以A是d×k的矩阵。测值的Gam矩阵，即K,=k(x:,x),L,g=(y:,》)= 此外，LPP不仅适用于原始数据空间，还适用于《心：y〉，其中y:是一个二元向量，表示对x,的类标再生核希尔伯特空间(reproducing kernel hilbert space,RKHS),这样就可以引出核LPP算法。签所做的编码（稍后将举例说明)。H=1-e,c,e

Ｃ（２），…｝不同。为了发掘另一个可供选择的聚类结果，使用子空间流形学习方法，将原始数据空间Ｘ映射到一个新的子空间中。该空间保留了Ｘ的特征，并且完全独立于其他的参考聚类结果。任何聚类算法都可以使用这个新的子空间进行聚类分析。３局部保持投影局部保持投影（ｌｏｃａｌｉｔｙｐｒｅｓｅｒｖｉｎｇｐｒｏｊｅｃｔｉｏｎｓ，ＬＰＰ）［３］是一种非监督降维方法，是流形学习算法ＬａｐｌａｃｉａｎＥｉｇｅｎｍａｐ的线性逼近。给定Ｒｄ中的ｎ个数据点ｘ１，ｘ２，…，ｘｎ，ＬＰＰ通过寻找转换矩阵Ａ，将这ｎ个数据点映射为Ｒｌ（ｌ≪ｄ）上的数据点ｙ１，ｙ２， …，ｙｎ，即：ｙｉ＝ＡＴｘｉ，ｉ＝１，２，…，ｎ（１）式中所需的转换矩阵Ａ可以通过最小化式（２）目标函数得到：Ａ＝ａｒｇｍｉｎ∑ｉｊ（ｙｉ－ｙｊ）２Ｗｉｊ（２）式中：Ｗｉｊ是权值矩阵，可采用ｋ最近邻算法得到邻接图，再求出权值矩阵。如果ｘｊ是ｘｉ的ｋ近邻点，则Ｗｉｊ＝ｅｘｐ－ ‖ｘｉ－ｘｊ‖２ｔ（ｔ∈Ｒ）；否则Ｗｉｊ＝０。显然，Ｗ是一个ｎ×ｎ的稀疏对称矩阵。从目标函数式（２）可以看出，降维后的特征空间可以保持原始高维空间的局部结构。结合式（１）和式（２），做简单的代数变换：１２ ∑ｉｊ（ｙｉ－ｙｊ）２Ｗｉｊ＝１２ ∑ｉｊ（ＡＴｘｉ－ＡＴｘｊ）２Ｗｉｊ＝ ∑ｉＡＴｘｉＤｉｉｘＴｉＡ－ ∑ｉｊＡＴｘｉＷｉｊｘＴｊＡ＝ＡＴＸ(Ｄ－Ｗ) ＸＴＡ＝ＡＴＸＬＸＴＡ（３）式中：Ｘ＝ｘ１ｘ２… ｘｎ [ ] ，Ｄ是一个ｎ×ｎ的对角矩阵，对角线元素Ｄｉｉ＝ ∑ ｊＷｉｊ，Ｌ是拉普拉斯矩阵，Ｌ＝Ｄ－Ｗ。能够使得式（３）取最小值的变换矩阵Ａ的求解可以转换为如下的广义特征值问题：ＸＬＸＴＡ＝ λＸＤＸＴＡ（４）将式（４）求解出的特征值按从小到大排列，即 λ０＜…＜λｌ－１，取前ｋ个最小的特征值对应的特征向量ａ０，ａ１，…，ａｋ－１组成Ａ，即Ａ＝ａ０ａ１… ａｋ－１ [ ] ，由于ａｉ是列向量，所以Ａ是ｄ×ｋ的矩阵。此外，ＬＰＰ不仅适用于原始数据空间，还适用于再生核希尔伯特空间（ｒｅｐｒｏｄｕｃｉｎｇｋｅｒｎｅｌｈｉｌｂｅｒｔｓｐａｃｅ，ＲＫＨＳ），这样就可以引出核ＬＰＰ算法。假设欧式空间Ｒｎ中的数据矩阵通过非线性映射函数 φ 映射到希尔伯特空间Ｋ，即 φ：Ｒｎ→Ｋ。使用 φ（Ｘ）表示希尔伯特空间中的数据矩阵，即 φ（Ｘ）＝ [φ（ｘ１）φ（ｘ２） …φ（ｘｎ） ] 。那么，在希尔伯特空间中的特征向量问题就可以表示为 φ（Ｘ）Ｌφ（Ｘ）Ｔ [ ] ｖ＝ λ φ（Ｘ）Ｄφ（Ｘ）Ｔ [ ] ｖ（５）考虑如下的核函数：Ｋｘｉ，ｘｊ ( ) ＝ φ ｘｉ ( )·φ ｘｊ ( ( ) ) ＝ φ ｘｉ ( ) Ｔφ ｘｊ ( ) 式（５）中的特征向量是 φ（ｘ１），φ（ｘ２），…， φ（ｘｎ）的线性组合，每一项的系数分别为ａｉ，ｉ＝１，２，…，ｍ，即ｖ＝ ∑ ｎｉ＝１ａｉφ（ｘｉ）＝ φ（Ｘ）ａ。其中，ａ＝［ａ１ａ２ … ａｎ］Ｔ。经过简单的代数变换，可以得到如下特征向量问题：ＫＬＫａ＝λＫＤＫａ。４希尔伯特－施密特独立性度量准则已知一个参考聚类结果Ｃ（１），使用ＲＬＰＰ算法学习相对于Ｃ（１）独立的子空间Ａ，这样就确保了使用Ａ得到的聚类结果Ｃ（２）与Ｃ（１）不同。为了计算不同子空间之间的相异性，采用了ＨＳＩＣ（ｈｉｌｂｅｒｔ⁃ｓｃｈｍｉｄｔｉｎｄｅｐｅｎｄｅｎｃｅｃｒｉｔｅｒｉｏｎ）［１］，更重要的是，ＬＰＰ与ＨＳＩＣ结合后可以导出一个特征分解问题，这样就一定可以计算出全局最佳解。ＨＳＩＣ是一种基于核的独立性度量方法，采用Ｈｉｌｂｅｒｔ⁃Ｓｃｈｍｉｄｔ互协方差算子，通过对该算子范数的经验估计得到独立性判断准则。具体来说，已知Ｘ和Ｙ两个随机变量，ＨＳＩＣ（Ｘ，Ｙ）的值越大说明Ｘ和Ｙ的关联性越强，值等于０时说明Ｘ和Ｙ相互之间完全独立。数学上，令Ｆ表示再生核希尔伯特空间，φ（ｘ）表示数据ｘ从原空间映射到Ｆ中的映射函数，则核函数可以写为Ｋ（ｘ，ｘＴ）＝〈φ（ｘ），φ（ｘＴ）〉。同样的，定义 ψ（ｙ）为原空间中的数据ｙ映射到再生希尔伯特空间Ｇ的映射函数，核函数可以写为Ｌ（ｙ，ｙＴ）＝〈ψ（ｙ），ψ（ｙＴ）〉。则互协方差算子Ｃｘｙ：Ｇ→Ｆ可以被定义为Ｃｘｙ＝Ｅｘｙ [（φ（ｘ）－μｘ）􀱋（ψ（ｙ）－μｙ） ] ，􀱋 表示张量积。Ｃｘｙ即为Ｈｉｌｂｅｒｔ⁃Ｓｃｈｍｉｄｔ算子，而ＨＳＩＣ定义为Ｃｘｙ的Ｈｉｌｂｅｒｔ⁃Ｓｃｈｍｉｄｔ算子范数，即ＨＳＩＣ（Ｐｘｙ，Ｆ，Ｇ）＝ ‖Ｃｘｙ‖２ＨＳ，其中Ｐｘｙ表示Ｘ和Ｙ的联合分布。实际上，不需要知道联合分布Ｐｘｙ，已知ｎ个观测值Ｚ＝（ｘ１，ｙ１），…，（ｘｎ，ｙ { ｎ）} ，可以直接给出ＨＳＩＣ的经验估计值为ＨＳＩＣ（Ｚ，Ｆ，Ｇ）＝（ｎ－１）－２ｔｒ（ＫＨＬｙＨ）。其中Ｋ，Ｌｙ∈Ｒｎ×ｎ，且Ｋ，Ｌｙ分别是核Ｋ和Ｌ关于Ｚ观测值的Ｇｒａｍ矩阵，即Ｋｉｊ＝ｋ（ｘｉ，ｘｊ），Ｌｙｉｊ＝ｌ（ｙｉ，ｙｊ）＝〈ｙｉ，ｙｊ〉，其中ｙｉ是一个二元向量，表示对ｘｉ的类标签所做的编码（稍后将举例说明）。Ｈ＝Ｉ－１ｎｅｎｅＴｎ，ｅｎ ·６０２· 智能系统学报第１１卷

第5期程肠，等：基于局部保留投影的多可选聚类发掘算法 ·603· 表示元素值全为1的列向量。r(·)表示矩阵的此，P(X)LP(X)T+p(X)HL,Hp(X)'是实对称矩迹。阵。作为一个特征分解问题，A的最优解由前k个为了表示简单，使用HSICox,)代替HSIC(2.F,, 最小非零特征值对应的特征向量构成，即A= 表示随机变量X和(x)=A'x,也就是X和Y之间 [a,a2…&]。下一步，可以使用k-means算法的依赖性。对子空间A进行聚类，得到可供选择的聚类结假设有8个数据{x1,x2,…,xg,{,其中x,和x2, 果C2)。 x3和x4,x3和x6,x,和xg分别为一类。则向量y1= 可以看到，(X)HL,He(X)I直接影响了LPP y2=(1000),y3=y4=(0100),y5=y6= 算法中(X)Lp(X)T项，也就是说，可以把两个聚 (0010)T,y,=yg=(0001)'。矩阵Y的每一行对类结果之间的独立性看作添加的约束项。同时，通应一个y。L,是一个8×8的矩阵，由：和y的点过添加更多的HSIC项，将算法推广可以找到更多积构成。K是一个8×8的矩阵，表示(x:)和(x) 可供选择的聚类结果。之间的相似度。同时注意，根据定义，H是一个n×n 举例来说，在寻找第3个可供选择的聚类结果 (在本例中是8×8)的常数矩阵，每行每列的和都等 C3)时，只要提供之前找到的两个聚类结果C)和于0。因此，在上述示例中，每一行（列）都包含7个 C2),并把式(6)中的HSIC(ax.c)一项替换为 (安)和1个 HSIC(ATx.c)+HSIC(ax.c2,即可。因此只要在式 (8)中使用A'XHL,HXA+A'XHL2HXA,即直接 5基于局部保留投影的多可选聚类发使用AXH(L,:+L,2）HXA代替AXHL,HXA。掘算法也就是说，使用(L,+L,2)代替了L,其他矩阵保持不变即可。由于通过HSIC,)可以自然地评估结构很复 RLPP算法描述如下：杂的样本X和Y之间的相关性，因此结合HSICo.” 1)输入数据集X;一个X上的参考聚类结果对LPP的目标函数进行修改。要求是转换矩阵A C。必须能够发掘嵌入在高维数据中的低维流形结构， 2)输出一个数据集X上可供选择的参考聚类并且与已知的聚类结果C)完全独立。换句话说，结果C2。在所有与已经存在的聚类结果C)不同的子空间 3)算法流程：中，要选出能够最好地保持高维数据流形结构的子 ①计算L,L,=(y:y〉，其中y:是一个二元向空间。因此，改进LPP的目标函数如下：量，表示C)中x,的类标签的编码。 A=argmin A'XLX'A HSIC(ATX.c(D)= ②计算H=1-e.c。 argmin A XLX'A tr(HKHL,) (6) 式中：A表示A的最佳解，且由迹的性质可知 ③计算权值矩阵W,如果x是x:的k近邻点， r(HKHL,)=r(KHL,H)。不同的核函数在计算变那么W,=exp- x-12 (t∈R),否则W,=0。量之间的独立性时结果不同，这里采用线性核函数， t 映射函数定义为：(x)=ATx,因此，K= ④计算矩阵D,Da=∑W,计算拉普拉斯矩阵 (p(X),P(X)〉=YAAX。即 L,L=D-W。 ATXLXA tr(HKHL,)= ⑤使用高斯核计算核矩阵K,K=9(x)'· AXLXA+AXHL HX'A= p()。 AT (XLX+XHL HX)A (7) ⑥分解核矩阵K,K=PP,根据P(X)=AP 将数据集合X映射到高维特征空间中后，就可得到(X)。以最终得到(X)=[p(x)(x2)…(xn)]。其 ⑦计算(X)LP(X)'+(X)HL,H(X)的特中，核矩阵K的元素为K=p(x:)I·(x)。即：征值和特征向量。 A.m=A((X)L(X)+(X)HL H (X))A ⑧按特征值从小到大的顺序对特征向量排序。 (8) ⑨选择前k个最小的特征值对应的特征向量，因为H和L,都是对称矩阵，所以即A=[a0a1…ak-1Jo (X)HL,H(X)'也是对称矩阵，同样，因为L是 ①c2)-k-means(A'e(X))。对称矩阵，所以P(X)L(X)T也是对称矩阵。因 RLPP算法的时间复杂度完全由计算最近邻矩

表示元素值全为１的列向量。ｔｒ（·）表示矩阵的迹。为了表示简单，使用ＨＳＩＣ（Ｘ，Ｙ）代替ＨＳＩＣ（Ｚ，Ｆ，Ｇ），表示随机变量Ｘ和 φ（ｘ）＝ＡＴｘ，也就是Ｘ和Ｙ之间的依赖性。假设有８个数据｛ｘ１，ｘ２，…，ｘ８，｝，其中ｘ１和ｘ２，ｘ３和ｘ４，ｘ５和ｘ６，ｘ７和ｘ８分别为一类。则向量ｙ１＝ｙ２＝（１０００）Ｔ，ｙ３＝ｙ４＝（０１００）Ｔ，ｙ５＝ｙ６＝（００１０）Ｔ，ｙ７＝ｙ８＝（０００１）Ｔ。矩阵Ｙ的每一行对应一个ｙｉ。Ｌｙ是一个８×８的矩阵，由ｙｉ和ｙｊ的点积构成。Ｋ是一个８×８的矩阵，表示 φ（ｘｉ）和φ（ｘｊ）之间的相似度。同时注意，根据定义，Ｈ是一个ｎ×ｎ（在本例中是８×８）的常数矩阵，每行每列的和都等于０。因此，在上述示例中，每一行（列）都包含７个（－１８）和１个７８。５基于局部保留投影的多可选聚类发掘算法由于通过ＨＳＩＣ（Ｘ，Ｙ）可以自然地评估结构很复杂的样本Ｘ和Ｙ之间的相关性，因此结合ＨＳＩＣ（Ｘ，Ｙ）对ＬＰＰ的目标函数进行修改。要求是转换矩阵Ａ必须能够发掘嵌入在高维数据中的低维流形结构，并且与已知的聚类结果Ｃ（１）完全独立。换句话说，在所有与已经存在的聚类结果Ｃ（１）不同的子空间中，要选出能够最好地保持高维数据流形结构的子空间。因此，改进ＬＰＰ的目标函数如下：Ａｏｐｔ＝ａｒｇｍｉｎＡＴＸＬＸＴＡ＋ＨＳＩＣ（ＡＴＸ，Ｃ（１））＝ａｒｇｍｉｎＡＴＸＬＸＴＡ＋ｔｒＨＫＨＬｙ ( ) （６）式中：Ａｏｐｔ表示Ａ的最佳解，且由迹的性质可知ｔｒＨＫＨＬｙ ( ) ＝ｔｒ(ＫＨＬｙＨ) 。不同的核函数在计算变量之间的独立性时结果不同，这里采用线性核函数，映射函数定义为： φ（ｘ）＝ＡＴｘ，因此，Ｋ＝〈φ（Ｘ），φ（Ｘ）〉＝ＸＴＡＡＴＸ。即ＡＴＸＬＸＴＡ＋ｔｒＨＫＨＬｙ ( ) ＝ＡＴＸＬＸＴＡ＋ＡＴＸＨＬｙＨＸＴＡ＝ＡＴＸＬＸＴ＋ＸＨＬｙＨＸＴ ( ) Ａ（７）将数据集合Ｘ映射到高维特征空间中后，就可以最终得到 φ（Ｘ）＝［φ（ｘ１） φ（ｘ２） … φ（ｘｎ）］。其中，核矩阵Ｋ的元素为Ｋｉｊ＝φ （ｘｉ）Ｔ·φ（ｘｊ）。即：Ａｏｐｔ＝ＡＴ（φ（Ｘ）Ｌφ （Ｘ）Ｔ＋ φ（Ｘ）ＨＬｙＨφ （Ｘ）Ｔ）Ａ（８）因为Ｈ和Ｌｙ都是对称矩阵，所以 φ（Ｘ）ＨＬｙＨφ （Ｘ）Ｔ也是对称矩阵，同样，因为Ｌ是对称矩阵，所以 φ(Ｘ) Ｌφ （Ｘ）Ｔ也是对称矩阵。因此，φ（Ｘ）Ｌφ （Ｘ）Ｔ＋φ（Ｘ）ＨＬｙＨφ （Ｘ）Ｔ是实对称矩阵。作为一个特征分解问题，Ａｏｐｔ的最优解由前ｋ个最小非零特征值对应的特征向量构成，即Ａ＝［α１ α２… αｋ］。下一步，可以使用ｋ⁃ｍｅａｎｓ［１９］算法对子空间Ａ进行聚类，得到可供选择的聚类结果Ｃ（２）。可以看到，φ（Ｘ）ＨＬｙＨφ （Ｘ）Ｔ直接影响了ＬＰＰ算法中 φ（Ｘ）Ｌφ （Ｘ）Ｔ项，也就是说，可以把两个聚类结果之间的独立性看作添加的约束项。同时，通过添加更多的ＨＳＩＣ项，将算法推广可以找到更多可供选择的聚类结果。举例来说，在寻找第３个可供选择的聚类结果Ｃ（３）时，只要提供之前找到的两个聚类结果Ｃ（１）和Ｃ（２），并把式（６）中的ＨＳＩＣ（ＡＴＸ，Ｃ（１））一项替换为ＨＳＩＣ（ＡＴＸ，Ｃ（１））＋ＨＳＩＣ（ＡＴＸ，Ｃ（２））即可。因此只要在式（８）中使用ＡＴＸＨＬｙ１ＨＸＴＡ＋ＡＴＸＨＬｙ２ＨＸＴＡ，即直接使用ＡＴＸＨ（Ｌｙ１＋Ｌｙ２）ＨＸＴＡ代替ＡＴＸＨＬｙＨＸＴＡ。也就是说，使用（Ｌｙ１＋Ｌｙ２）代替了Ｌｙ，其他矩阵保持不变即可。ＲＬＰＰ算法描述如下：１）输入数据集Ｘ；一个Ｘ上的参考聚类结果Ｃ（１）。２）输出一个数据集Ｘ上可供选择的参考聚类结果Ｃ（２）。３）算法流程： ①计算Ｌｙ，Ｌｙ＝〈ｙｉ，ｙｊ〉，其中ｙｉ是一个二元向量，表示Ｃ（１）中ｘｉ的类标签的编码。 ②计算Ｈ＝Ｉ－１ｎｅｎｅＴｎ。 ③计算权值矩阵Ｗ，如果ｘｊ是ｘｉ的ｋ近邻点，那么Ｗｉｊ＝ｅｘｐ－ ‖ｘｉ－ｘｊ‖２ｔ（ｔ∈Ｒ），否则Ｗｉｊ＝０。 ④计算矩阵Ｄ，Ｄｉｉ＝ ∑ ｊＷｉｊ，计算拉普拉斯矩阵Ｌ，Ｌ＝Ｄ－Ｗ。 ⑤使用高斯核计算核矩阵Ｋ，Ｋｉｊ＝ φ （ｘｉ）Ｔ · φ（ｘｊ）。 ⑥分解核矩阵Ｋ，Ｋ＝ＰＴΛＰ，根据 φ（Ｘ）＝ Λ １２Ｐ得到 φ（Ｘ）。 ⑦计算 φ（Ｘ）Ｌφ （Ｘ）Ｔ＋φ（Ｘ）ＨＬｙＨφ（Ｘ）Ｔ的特征值和特征向量。 ⑧按特征值从小到大的顺序对特征向量排序。 ⑨选择前ｋ个最小的特征值对应的特征向量，即Ａ＝［ａ０ａ１… ａｋ－１］。 ⑩Ｃ（２）＝ｋ⁃ｍｅａｎｓ（ＡＴφ（Ｘ））。ＲＬＰＰ算法的时间复杂度完全由计算最近邻矩第５期程旸，等：基于局部保留投影的多可选聚类发掘算法 ·６０３·

·604. 智能系统学报第11卷阵以及核矩阵决定，因为它们的时间复杂度均为果，并与其他算法进行比较。第1组人工数据集 0(n2d),因此整体的时间复杂度也为0(n2d)。 Sym1分布在二维空间内，分为4部分，每部分由200 个数据点组成，共8O0个数据，点。使用数据集Syml 6 实验与分析的目的是检验算法是否能够尽可能多的发现可供选 6.1聚类结果评估择的聚类结果，且所有结果均满足与初始聚类结果聚类结果根据聚类质量和相异性两方面进行评正交的条件。第2组人工数据集Sym2的结构较为估。聚类质量分为两种情况：如果已知正确的类标，复杂，每部分的形状都是非凸的。使用数据集Sy2 则可选聚类结果和正确的类标之间通过F-measure 的目的是检验算法是否能够处理非线性的数据结计算，计算公式为F=2P×R/(P+R),其中P和R分构，并且发掘出嵌入在高维数据中的低维流形结构。别表示准确率(precision)和召回率(recall);否则，图1中的第1行表示的是RLPP使用数据集使用Dunn Index计算，表示为Dl(g。数学上，Dunn Syml得到的运行结果。其中，第1列表示的是所提 min均{8(c,9)} 供的参考聚类结果C),第2列表示的是由RLPP ndex定义为Dlo-742,其中8：GxC一得到的可供选择的聚类结果C2)。从图中可以直观 R。,表示类与类之间的距离，△：C→R。表示类内地看出，RLPP成功地找到了与所提供的参考聚类直径。对于评估聚类结果的相异性，使用了两种不结果完全不相同，但是聚类质量很高的可选聚类结同的方法。第1种是最为常用的标准化互信息果。另外，如果我们把该结果C2)看作除C)外新 (normalized mutual information,NMl),第2种是杰增的参考聚类结果，并且寻找第2个可选的参考聚卡德指数(Jaccard index,.JI)。类结果C),RLPP会得到第3列所显示的聚类结对于NMI和JⅡ指标，值越小意味着不同聚类结果。C3)在欧氏距离下与前两个聚类结果相比不是果之间的相似度越高；对于F-measure和Dunn Index 特别得自然，但是C)仍然很有启发性，并且它完全指标，值越大意味着更高的聚类质量。独立于前2个参考聚类结果C)和C2)。同时注意 6.2人工数据集到，RPCA算法无法寻找出合适的C)。在表1中，使用两种流行的人工数据集评估LPP的效提供了这些算法的表现。 14 2 10 2 6 1012 14 -4 2 0 246 101214-4-202 468101214 (a)Synl数据集可选聚类结果C (b)Syml数据集可选聚类结果C (c)Synl数据集可选聚类结果C ② 88 4-4-3 -2 4-4-3 -2-1 01234 (d)Syn2数据集可选聚类结果C (e)Syn2数据集可选聚类结果Ca (f)Syn2数据集可选聚类结果C 图1由数据集Synl(第1行)和Syn2(第2行)得到的可选聚类结果 Fig.1 Alternative clusterings uncovered from Synl(1"row)and Syn2(24 row)datasets

阵以及核矩阵决定，因为它们的时间复杂度均为Ｏ（ｎ２ｄ），因此整体的时间复杂度也为Ｏ（ｎ２ｄ）。６实验与分析６．１聚类结果评估聚类结果根据聚类质量和相异性两方面进行评估。聚类质量分为两种情况：如果已知正确的类标，则可选聚类结果和正确的类标之间通过Ｆ⁃ｍｅａｓｕｒｅ计算，计算公式为Ｆ＝２Ｐ×Ｒ／（Ｐ＋Ｒ），其中Ｐ和Ｒ分别表示准确率（ｐｒｅｃｉｓｉｏｎ）和召回率（ｒｅｃａｌｌ）；否则，使用ＤｕｎｎＩｎｄｅｘ计算，表示为ＤＩ（Ｃ）。数学上，ＤｕｎｎＩｎｄｅｘ定义为ＤＩ（Ｃ）＝ｍｉｎｉ≠ｊ｛δ（ｃｉ，ｃｊ）｝ｘ１≤ｌ≤ｋ｛Δ（ｃｌ）｝，其中 δ：Ｃ×Ｃ→ Ｒ＋０，表示类与类之间的距离，Δ：Ｃ→Ｒ＋０表示类内直径。对于评估聚类结果的相异性，使用了两种不同的方法。第１种是最为常用的标准化互信息（ｎｏｒｍａｌｉｚｅｄｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎ，ＮＭＩ），第２种是杰卡德指数（Ｊａｃｃａｒｄｉｎｄｅｘ，ＪＩ）。对于ＮＭＩ和ＪＩ指标，值越小意味着不同聚类结果之间的相似度越高；对于Ｆ⁃ｍｅａｓｕｒｅ和ＤｕｎｎＩｎｄｅｘ指标，值越大意味着更高的聚类质量。６．２人工数据集使用两种流行的人工数据集评估ＲＬＰＰ的效果，并与其他算法进行比较。第１组人工数据集Ｓｙｎ１分布在二维空间内，分为４部分，每部分由２００个数据点组成，共８００个数据点。使用数据集Ｓｙｎ１的目的是检验算法是否能够尽可能多的发现可供选择的聚类结果，且所有结果均满足与初始聚类结果正交的条件。第２组人工数据集Ｓｙｎ２的结构较为复杂，每部分的形状都是非凸的。使用数据集Ｓｙｎ２的目的是检验算法是否能够处理非线性的数据结构，并且发掘出嵌入在高维数据中的低维流形结构。图１中的第１行表示的是ＲＬＰＰ使用数据集Ｓｙｎ１得到的运行结果。其中，第１列表示的是所提供的参考聚类结果Ｃ（１），第２列表示的是由ＲＬＰＰ得到的可供选择的聚类结果Ｃ（２）。从图中可以直观地看出，ＲＬＰＰ成功地找到了与所提供的参考聚类结果完全不相同，但是聚类质量很高的可选聚类结果。另外，如果我们把该结果Ｃ（２）看作除Ｃ（１）外新增的参考聚类结果，并且寻找第２个可选的参考聚类结果Ｃ（３），ＲＬＰＰ会得到第３列所显示的聚类结果。Ｃ（３）在欧氏距离下与前两个聚类结果相比不是特别得自然，但是Ｃ（３）仍然很有启发性，并且它完全独立于前２个参考聚类结果Ｃ（１）和Ｃ（２）。同时注意到，ＲＰＣＡ算法无法寻找出合适的Ｃ（３）。在表１中，提供了这些算法的表现。图１由数据集Ｓｙｎ１（第１行）和Ｓｙｎ２（第２行）得到的可选聚类结果Ｆｉｇ．１ＡｌｔｅｒｎａｔｉｖｅｃｌｕｓｔｅｒｉｎｇｓｕｎｃｏｖｅｒｅｄｆｒｏｍＳｙｎ１（１ｓｔｒｏｗ）ａｎｄＳｙｎ２（２ｎｄｒｏｗ）ｄａｔａｓｅｔｓ ·６０４· 智能系统学报第１１卷

点击进入文档下载页（PDF格式）

共8页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录