当前位置：和泉文库 > 电气与自动化 > 浏览文档

【机器学习】结合稀疏表示与约束传递的半监督谱聚类算法

文件格式：PDF，文件大小：1.05MB，售价：3.9元

文档详细内容（约10页）

第13卷第5期智能系统学报 Vol.13 No.5 2018年10月 CAAI Transactions on Intelligent Systems Oct.2018 D0:10.11992/tis.201703013 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20170702.1547.026html 结合稀疏表示与约束传递的半监督谱聚类算法赵晓晓，周治平 (江南大学物联网技术应用教育部工程研究中心，江苏无锡214122) 摘要：针对半监督谱聚类不能有效处理大规模数据，没有考虑约束传递不能充分利用有限约束信息的问题，提出一种结合稀疏表示和约束传递的半监督谱聚类算法。首先，根据约束信息生成约束矩阵，将其引入到谱聚类中；然后，将约束集合中的数据作为地标点构造稀疏表示矩阵，近似获得图相似度矩阵，从而改进约束谱聚类模型：同时，根据地标点的相似度矩阵生成连通区域，在每个连通区域内动态调整近邻点，利用约束传递进一步提高聚类准确率。实验表明，所提算法和约束谱聚类相比，在算法效率方面具有明显优势，且准确率没有明显下降：和快速谱聚类方法相比，在聚类准确率上有所提升。关键词：数据挖掘：聚类分析：谱聚类：半监督学习：稀硫表示：约束传递中图分类号：TP18 文献标志码：A文章编号：1673-4785(2018)05-0855-09 中文引用格式：赵晓晓，周治平.结合稀疏表示与约束传递的半监督谱聚类算法L.智能系统学报，2018,13(5)：855-863. 英文引用格式：ZHAO Xiaoxiao,ZHOU Zhiping.A semi-supervised spectral clustering algorithm combined with sparse representa- tion and constraint propagation[J CAAI transactions on intelligent systems,2018,13(5):855-863. A semi-supervised spectral clustering algorithm combined with sparse representation and constraint propagation ZHAO Xiaoxiao,ZHOU Zhiping (Engineering Research Center of Internet of Things Technology Applications Ministry of Education,Jiangnan University,Wuxi 214122,China) Abstract:The semi-supervised spectral clustering algorithm does not deal with large-scale datasets effectively and does not fully utilize the constraint information because it does not consider the constraint propagation.To address these drawbacks,this paper proposes a semi-supervised spectral clustering algorithm that combines sparse representation and constraint propagation.The algorithm first generates the constraint matrix according to the constraint information,intro- duces it into the spectral clustering,and then constructs a sparse representation matrix by taking the data points in the constrained sets as the landmarks to approximate the graph similarity matrix,thereby revising the constrained spectral clustering model.Meanwhile,the connected region is generated according to the similarity matrix of the landmark data points,and the neighboring nodes are dynamically adjusted in each connected region.The clustering accuracy is further improved using the constraint propagation.Experimental results show that the proposed method is more efficient than constrained spectral clustering algorithms,and their accuracy levels are similar.Moreover,its clustering accuracy ex- ceeds those of the fast spectral clustering algorithms. Keywords:data mining;cluster analysis;spectral clustering;semi-supervised learning;sparse representation;constraint propagation 谱聚类作为聚类分析一种有效的方法，建立收稿日期：2017-03-10.网络出版日期：2017-07-02 在谱图划分的基础上，可将数据集从原始空间转基金项目：国家自然科学基金项目(61373126). 通信作者：赵晓晓.E-mail:6l519050I9@vip,jiangnan.edu.cn. 换到低维特征空间，使原始数据变成线性可分四

DOI: 10.11992/tis.201703013 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20170702.1547.026.html 结合稀疏表示与约束传递的半监督谱聚类算法赵晓晓，周治平（江南大学物联网技术应用教育部工程研究中心，江苏无锡 214122）摘要：针对半监督谱聚类不能有效处理大规模数据，没有考虑约束传递不能充分利用有限约束信息的问题，提出一种结合稀疏表示和约束传递的半监督谱聚类算法。首先，根据约束信息生成约束矩阵，将其引入到谱聚类中；然后，将约束集合中的数据作为地标点构造稀疏表示矩阵，近似获得图相似度矩阵，从而改进约束谱聚类模型；同时，根据地标点的相似度矩阵生成连通区域，在每个连通区域内动态调整近邻点，利用约束传递进一步提高聚类准确率。实验表明，所提算法和约束谱聚类相比，在算法效率方面具有明显优势，且准确率没有明显下降；和快速谱聚类方法相比，在聚类准确率上有所提升。关键词：数据挖掘；聚类分析；谱聚类；半监督学习；稀疏表示；约束传递中图分类号：TP18 文献标志码：A 文章编号：1673−4785(2018)05−0855−09 中文引用格式：赵晓晓, 周治平. 结合稀疏表示与约束传递的半监督谱聚类算法[J]. 智能系统学报, 2018, 13(5): 855–863. 英文引用格式：ZHAO Xiaoxiao, ZHOU Zhiping. A semi-supervised spectral clustering algorithm combined with sparse representation and constraint propagation[J]. CAAI transactions on intelligent systems, 2018, 13(5): 855–863. A semi-supervised spectral clustering algorithm combined with sparse representation and constraint propagation ZHAO Xiaoxiao，ZHOU Zhiping (Engineering Research Center of Internet of Things Technology Applications Ministry of Education, Jiangnan University, Wuxi 214122, China) Abstract: The semi-supervised spectral clustering algorithm does not deal with large-scale datasets effectively and does not fully utilize the constraint information because it does not consider the constraint propagation. To address these drawbacks, this paper proposes a semi-supervised spectral clustering algorithm that combines sparse representation and constraint propagation. The algorithm first generates the constraint matrix according to the constraint information, introduces it into the spectral clustering, and then constructs a sparse representation matrix by taking the data points in the constrained sets as the landmarks to approximate the graph similarity matrix, thereby revising the constrained spectral clustering model. Meanwhile, the connected region is generated according to the similarity matrix of the landmark data points, and the neighboring nodes are dynamically adjusted in each connected region. The clustering accuracy is further improved using the constraint propagation. Experimental results show that the proposed method is more efficient than constrained spectral clustering algorithms, and their accuracy levels are similar. Moreover, its clustering accuracy exceeds those of the fast spectral clustering algorithms. Keywords: data mining; cluster analysis; spectral clustering; semi-supervised learning; sparse representation; constraint propagation 谱聚类作为聚类分析一种有效的方法，建立在谱图划分的基础上，可将数据集从原始空间转换到低维特征空间，使原始数据变成线性可分[1] ，收稿日期：2017−03−10. 网络出版日期：2017−07−02. 基金项目：国家自然科学基金项目 (61373126). 通信作者：赵晓晓. E-mail：6151905019@vip.jiangnan.edu.cn. 第 13 卷第 5 期智能系统学报 Vol.13 No.5 2018 年 10 月 CAAI Transactions on Intelligent Systems Oct. 2018

·856· 智能系统学报第13卷目前已广泛应用于图像分割、人脸识别等领域。明，本文算法对这些大规模数据具有较好适应另一方面，半监督学习是机器学习领域的研究热性，且在有效降低算法复杂度的同时，保证了约点，已被用于解决实际问题6，在聚类分析中引束谱聚类算法结果的准确率。入一些监督信息来指导聚类过程，能够提高聚类准确率。 1算法基本原理半监督聚类算法的约束信息包括“必连”和 1.1约束NCut算法 “勿连”约束集合，引入这些约束信息可指导聚类对于数据集X={x1,x:∈R,数据之间的相过程。目前，针对半监督谱聚类算法已有大量的似度矩阵为W,度矩阵D为对角阵，其内元素表研究，Kamvar等m根据约束关系调整数据之间的相似度，将调整后的相似度矩阵用于改进谱聚示为Da=∑W规范化拉普拉斯矩阵表示为L=一类，但是不能充分利用初始有限的约束关系；蒋 D-1PWD-1r,I表示单位矩阵。伟进等劉提出一种纠错式主动学习成对约束算标准NCut的目标函数为法，将挖掘到的监督信息用于调整数据点之间的 argminv'Lv,s.t.yy =1,vL1 (1) 距离矩阵，但约束集合对聚类结果影响较大；丁世飞等通过优化高斯核参数和引入成对约束信式中v表示松弛化的类指示向量。息来调整相似度矩阵，但过多的约束信息会对聚假设已知“必连”约束集合M与“勿连”约束集类准确率造成负面的影响；Cucuringu等"ol将“必合C,文献[11]根据约束信息生成约束矩阵Q,可连”和“勿连”约束矩阵均视为图拉普拉斯矩阵，把表示为约束聚类转化为广义特征值问题，针对2类划分 (x,x)∈M 效率和准确率显著提高。王翔等提出一种柔性 Q -1,(x,x)eC (2) 0, 约束谱聚类框架，引入大量硬约束和软约束信息无约束信息建立新的约束优化问题，有效提高聚类准确率，通过式(3)来衡量Q中约束关系与v的一致程度：但是不具备约束关系传递。基于约束信息的半监 ov-> (3) 督聚类算法，通常能获取数据的约束关系是非常 1j1 有限的，通过约束传递来获得大量可靠的成对约定义软约束v∈R,QER",如果数据x,和x,是束信息，可显著提高半监督聚类的性能。余志文同一类，那么Q为正；否则为负。Q的绝对值表示等2提出一种增强型半监督聚类集成框架(incre- 约束权重，vQ的值越大，表明v与Q中的约束信 mental semi-supervised clustering ensemble,ISSCE), 息就越一致。基于上述软约束，不一定要严格满采用卢志武等提出的约束传递方法，即基于足每个指定的约束条件，忽略部分约束信息可降 k近邻图的标签传播方法，将少量标签样本的监低计算开销，通过用户指定阈值来确定约束的下督信息传递给未标签样本，但如果相似度错误反界值，即vQy≥a。映数据点之间的相似性，会造成约束关系的错误约束NCut的目标函数为传递。传统的谱聚类及上述大部分半监督谱聚类 argminy Lv,s.t.yQv>a.vy=1.vL1 (4) 算法均需要存储数据的相似度矩阵且对拉普拉斯上述问题可转化为求解矩阵的特征向量)，矩阵进行特征分解，空间和时间的计算复杂度比但是空间和时间复杂度分别为0(2)和0()，对于较高，在处理大规模数据集时计算代价难以承受。大规模数据集，计算复杂度过高；而且不具备约为了提升谱聚类的扩展性，蔡登等1提出基于地标点表示的谱聚类算法，通过数据点与地标点之束传递功能，不能充分利用有限的约束信息。间的相似度矩阵乘积来近似得到整体数据点的相 1.2依据稀疏表示的相似度矩阵似度矩阵，然后利用近似性质实现快速特征分解。蔡登等提出基于图稀疏表示的谱聚类算本文将采用基于地标点近似表示的方法，通法，通过地标点的线性组合来实现所有数据点过稀疏表示构造的相似度矩阵对柔性约束谱聚类 X的近似表示X≈YZ。对于给定的任一数据点算法模型进行改进，并且根据约束集合内地标 x,其近似数据点e,可以表示为点的关系，利用Tarjan算法自动检测连通区域， (5) 在每个连通区域内部动态调整近邻点，传递约束 1 关系，从而更新稀疏表示矩阵提高聚类准确率。式中：y,是Y∈Rwp的列向量，Z是ZeRw的第j行在5个大规模标准数据集上进行实验的结果表第i列元素

目前已广泛应用于图像分割、人脸识别等领域[2-3]。另一方面，半监督学习是机器学习领域的研究热点，已被用于解决实际问题[4-6] ，在聚类分析中引入一些监督信息来指导聚类过程，能够提高聚类准确率。半监督聚类算法的约束信息包括“必连”和 “勿连”约束集合，引入这些约束信息可指导聚类过程。目前，针对半监督谱聚类算法已有大量的研究，Kamvar 等 [7]根据约束关系调整数据之间的相似度，将调整后的相似度矩阵用于改进谱聚类，但是不能充分利用初始有限的约束关系；蒋伟进等[8]提出一种纠错式主动学习成对约束算法，将挖掘到的监督信息用于调整数据点之间的距离矩阵，但约束集合对聚类结果影响较大；丁世飞等[9]通过优化高斯核参数和引入成对约束信息来调整相似度矩阵，但过多的约束信息会对聚类准确率造成负面的影响；Cucuringu 等 [10]将“必连”和“勿连”约束矩阵均视为图拉普拉斯矩阵，把约束聚类转化为广义特征值问题，针对 2 类划分效率和准确率显著提高。王翔等[11]提出一种柔性约束谱聚类框架，引入大量硬约束和软约束信息建立新的约束优化问题，有效提高聚类准确率，但是不具备约束关系传递。基于约束信息的半监督聚类算法，通常能获取数据的约束关系是非常有限的，通过约束传递来获得大量可靠的成对约束信息，可显著提高半监督聚类的性能。余志文等 [12]提出一种增强型半监督聚类集成框架 (incremental semi-supervised clustering ensemble，ISSCE)，采用卢志武等[ 1 3 ]提出的约束传递方法，即基于 k 近邻图的标签传播方法，将少量标签样本的监督信息传递给未标签样本，但如果相似度错误反映数据点之间的相似性，会造成约束关系的错误传递。传统的谱聚类及上述大部分半监督谱聚类算法均需要存储数据的相似度矩阵且对拉普拉斯矩阵进行特征分解，空间和时间的计算复杂度比较高，在处理大规模数据集时计算代价难以承受。为了提升谱聚类的扩展性，蔡登等[14]提出基于地标点表示的谱聚类算法，通过数据点与地标点之间的相似度矩阵乘积来近似得到整体数据点的相似度矩阵，然后利用近似性质实现快速特征分解。本文将采用基于地标点近似表示的方法，通过稀疏表示构造的相似度矩阵对柔性约束谱聚类算法模型[11]进行改进，并且根据约束集合内地标点的关系，利用 Tarjan 算法[15]自动检测连通区域，在每个连通区域内部动态调整近邻点，传递约束关系，从而更新稀疏表示矩阵提高聚类准确率。在 5 个大规模标准数据集上进行实验的结果表明，本文算法对这些大规模数据具有较好适应性，且在有效降低算法复杂度的同时，保证了约束谱聚类算法结果的准确率。 1 算法基本原理 1.1 约束 NCut 算法 X = {xi} n i=1 , xi ∈ R d Dii = ∑ j Wi j L = I− D −1/2W D−1/2 对于数据集，数据之间的相似度矩阵为 W，度矩阵 D 为对角阵，其内元素表示为，规范化拉普拉斯矩阵表示为，I 表示单位矩阵。标准 NCut 的目标函数为 argmin v∈Rn v T Lv, s.t.v T v = 1, v⊥1 (1) 式中 v 表示松弛化的类指示向量。 Q 假设已知“必连”约束集合 M 与“勿连”约束集合 C，文献[11]根据约束信息生成约束矩阵，可表示为 Qi j=    1, (xi , xj) ∈ M −1, (xi , xj) ∈ C 0, 无约束信息 (2) 通过式 (3) 来衡量 Q 中约束关系与 v 的一致程度： v TQv = ∑n i=1 ∑n j=1 vivjQi j (3) v ∈ R n Q ∈ R n×n xi xj Q Q v TQv Q v TQv ⩾ α 定义软约束，，如果数据和是同一类，那么为正；否则为负。的绝对值表示约束权重，的值越大，表明 v 与中的约束信息就越一致。基于上述软约束，不一定要严格满足每个指定的约束条件，忽略部分约束信息可降低计算开销，通过用户指定阈值来确定约束的下界值，即。约束 NCut 的目标函数为 argmin v∈ n v T Lv, s.t.v TQv ⩾ α, v T v = 1, v⊥1 (4) O ( n 2 ) O ( n 3 ) 上述问题可转化为求解矩阵的特征向量[11] ，但是空间和时间复杂度分别为和，对于大规模数据集，计算复杂度过高；而且不具备约束传递功能，不能充分利用有限的约束信息。 1.2 依据稀疏表示的相似度矩阵 X ≈ YZ xi xˆi 蔡登等[14]提出基于图稀疏表示的谱聚类算法，通过地标点的线性组合来实现所有数据点 X 的近似表示。对于给定的任一数据点，其近似数据点可以表示为 xˆi = ∑p j=1 Zjiyj (5) yj Y ∈ R d×p Zji Z ∈ R 式中：是的列向量，是 p×n的第 j 行第 i 列元素。 ·856· 智能系统学报第 13 卷

第5期赵晓晓，等：结合稀疏表示与约束传递的半监督谱聚类算法 ·857· 如果x越接近y,Z:会越大，如果y,不在数据 L,和Lp分别表示在同一个连通区域内的数点x:的r近邻内，可设Z:为0，所以可生成一个稀据p:和p,的r近邻集合，P,P∈Ta,i,je{1,2,…,T。疏表示矩阵Z。Yo∈R表示Y的子矩阵，由x的因为矩阵Z具有高度稀疏性，在同一个连通区域 r近邻组成，Z计算见式(6)：内的两个数据点p:和p,可能并没有共同近邻点。 K(xiy;) Zi= 所以可考虑对于T内的任一数据点P,将其他数 ∑OKxJ7) i∈1,2，…，n,j∈(i） (6) 据点peT的近邻点也作为p:的近邻点：式中：K(是核函数，较常用的是高斯核函数 Lp Lm ULp:U...ULnl,ie1.2.....ITal (9) - K(xy)=e;o表示带宽。根据式(8)、(9)进行约束关系的传递，对矩阵2进在获得矩阵Z后，可以构造两种形式的图，即行更新： G=ZZ和S=ZZT,计算立=DPZ,D为对角矩 (i,pj)=lookup Vec (10) 阵，其内元素D=∑乙，所以规范化图的相似度式中：ieLp,peTa,freq:=freq,i是p,的近邻点，它出现的频率freq:等于按照升序排列后的频率矩阵可表示为G=2r2eRam和3=22r∈Rxp,计算 freqz,存储在向量degree Vec中。 G的时间复杂度为O(pm2),计算$的时间复杂度为 2.2 依据稀疏表示的可扩展半监督NCut算法 O(np2)(pn). 根据1.2节所提出的基于稀疏表示建立的相似度矩阵可知，G=22是数据X的规范化相似度 2所提算法矩阵，经过2.1节的约束关系传递，已经实现对矩 2.1约束关系传递阵2的更新，相似度矩阵G也随着更新，且包含更将在“必连”和“勿连”约束集合中的数据点视多的约束信息，能够有效地提高聚类结果。为地标点，其个数为P。根据约束关系生成一个依据稀疏表示的约束NCut目标函数可表示为 p×p的相似度矩阵，利用Tarjan算法检测强连通 arg miny'Lv,s.t.yOv>a,v'v =1,v11 (11) 区域，会生成多个连通区域；对每个连通区域，动式中L=I-GeR是规范化的图拉普拉斯矩阵。态调整其内数据的近邻点，进行约束关系的传基于文献[11]提出的方法，上述问题的求解递，对基于地标点近似表示方法中的稀疏表示矩可以松弛为一般的特征值求解问题：阵2进行更新。 Lv=A(2-BD)v (12) 根据约束信息所生成的相似度矩阵，利用式中B是a的下界。 Tarjan算法检测生成H个强连通区域，可表示为求解式(12)特征向量的时间复杂度为O(π)， T={TUT2UUTa},其中ae(1,2,…,},T1=p, 所以在处理大规模数据集时计算负担过大。为了 T表示第a个连通区域，包含T个数据点，T:表示使该方法具有可扩展性，能较好地适应于大规模 T的补集，T≡{p.∈Tlp。生T,同一个连通区域内数据集，根据1.2可知，基于稀疏表示的方法还可的数据之间相似度最大，在不同连通区域的数据之间的相似度最小，设置为以构造另外一种规范化图，其相似度矩阵表示为 2-&hb 3=22T∈Rw,若能将S引入到上述约束NCut的 (7 目标函数中，可以大大降低求解特征向量的时间每个数据点均有r个近邻点，L.∈R表示复杂度。因此可将veR表示为2Tu,其中ueRP。在T内每个数据点与其近邻点之间的稀疏表示矩将v=2u代入到式(11)。改进后的可扩展约束阵2集合，依次计算每个近邻点i∈{1,2，…，的出 NCut目标函数可表示为现次数freq,并且按照升序进行排列，生成一个 argminu Au,s.t.uOu>a,uSu =1,1TSu=0 (13) ER m维的向量degree Vec=(freqr,freq,…,freqm),m是式中：A=3-$3,0=Z02。 L近邻点出现次数不同的个数，出现次数较多的该模型等价于式(I1)所表示的约束NCut目近邻点是P。∈T最近的邻居点，依据线性插值策标函数，但是有两个改进：一是规范化的拉普拉略，生成一个m维的lookupVec向量：斯矩阵LeRm变为矩阵A∈RPP;二是约束矩阵 max-min min+freq x- m≠1 lookupVec.= m-1 (8) QeR变为0∈RP,因为p《n,有效降低了计算 (max,m=1 复杂度。同样和文献[11]所提出的约束Ncut模型式中：min和max分别表示Lz.中最大和最小相似相比，一方面，通过地标点所构造的稀疏表示矩度，∈{1,2，…，m}。阵来近似获得相似度矩阵，避免对整个数据进行

xi yj Zji yj xi Zji Y⟨i⟩ ∈ R d×r xi Zji 如果越接近，会越大，如果不在数据点的 r 近邻内，可设为 0，所以可生成一个稀疏表示矩阵 Z。表示 Y 的子矩阵，由的 r 近邻组成，计算见式 (6)： Zji = K(xi , yj) ∑ j ′∈⟨i⟩ K(xi , yj ′ ) , i ∈ 1,2,··· ,n, j ∈ ⟨i⟩ (6) K(·) K(xi , yj) = e −∥xi−y j∥ 2σ2 σ 式中：是核函数，较常用的是高斯核函数；表示带宽。 G =Z T Z S = ZZT Zˆ = D −1/2Z Dii = ∑ j Zi j Gˆ =Zˆ T Zˆ ∈ R n×n Sˆ = Zˆ Zˆ T ∈ R p×p Gˆ O ( pn2 ) Sˆ O ( np2 ) (p ≪ n) 在获得矩阵 Z 后，可以构造两种形式的图，即和，计算， D 为对角矩阵，其内元素，所以规范化图的相似度矩阵可表示为和，计算的时间复杂度为，计算的时间复杂度为。 2 所提算法 2.1 约束关系传递 p× p Zˆ 将在“必连”和“勿连”约束集合中的数据点视为地标点，其个数为 p。根据约束关系生成一个的相似度矩阵，利用 Tarjan 算法检测强连通区域，会生成多个连通区域；对每个连通区域，动态调整其内数据的近邻点，进行约束关系的传递，对基于地标点近似表示方法中的稀疏表示矩阵进行更新。 |H| T ≡ {T1 ∪T2 ∪ ··· ∪Ta} a ∈ {1,2,··· ,|H|} |T| = p Ta T|a| T ′ a Ta T ′ a ≡ { p ′ a ∈ T|p ′ a < Ta } 根据约束信息所生成的相似度矩阵，利用 Tarjan 算法检测生成个强连通区域，可表示为，其中，，表示第 a 个连通区域，包含个数据点，表示的补集，，同一个连通区域内的数据之间相似度最大，在不同连通区域的数据之间的相似度最小，设置为 Zˆ ( pi , pj ) = { 1, { pi ∈ Ta|pj ∈ Ta } 0, { pi ∈ Ta|pj ∈ T ′ a } (7) LTa ∈ R r×|Ta| Ta Zˆ i ∈ {1,2,··· ,r} freqi degreeVec = ( freq1 ′ ,freq2 ′ ,··· ,freqm′ ) LTa pa ∈ Ta 每个数据点均有 r 个近邻点，表示在内每个数据点与其近邻点之间的稀疏表示矩阵集合，依次计算每个近邻点的出现次数，并且按照升序进行排列，生成一个 m 维的向量，m 是近邻点出现次数不同的个数，出现次数较多的近邻点是最近的邻居点，依据线性插值策略，生成一个 m 维的 lookupVec 向量： lookupVeci ′ =    min+freqi ′ × max−min m−1 , m , 1 max, m = 1 (8) LTa i ′ ∈ {1,2,··· ,m} 式中：min 和 max 分别表示中最大和最小相似度，。 Lpi Lpj pi pj pi , pj ∈ Ta i, j ∈ {1,2,··· ,|Ta|} pi pj Ta pi pj ∈ Ta pi 和分别表示在同一个连通区域内的数据和的 r 近邻集合，，。因为矩阵 Z 具有高度稀疏性，在同一个连通区域内的两个数据点和可能并没有共同近邻点。所以可考虑对于内的任一数据点，将其他数据点的近邻点也作为的近邻点： Lpi = { Lp1 ∪ Lp2 ∪ ··· ∪ Lp|a| } , i ∈ 1,2,··· ,|Ta| (9) 根据式 (8)、(9) 进行约束关系的传递，对矩阵 Zˆ 进行更新： Zˆ ( i, pj ) = lookupVeci ′ (10) i ∈ Lpj pj ∈ Ta freqi = freqi ′ pj freqi freqi ′ degreeVec 式中：，，，i 是的近邻点，它出现的频率等于按照升序排列后的频率，存储在向量中。 2.2 依据稀疏表示的可扩展半监督 NCut 算法 Gˆ =Zˆ T Zˆ Zˆ Gˆ 根据 1.2 节所提出的基于稀疏表示建立的相似度矩阵可知，是数据 X 的规范化相似度矩阵，经过 2.1 节的约束关系传递，已经实现对矩阵的更新，相似度矩阵也随着更新，且包含更多的约束信息，能够有效地提高聚类结果。依据稀疏表示的约束 NCut 目标函数可表示为 argmin v∈Rn v T Lv¯ , s.t.v TQv ⩾ α, v T v = 1, v⊥1 (11) L¯ = I−Gˆ ∈ R 式中 n×n是规范化的图拉普拉斯矩阵。基于文献[11]提出的方法，上述问题的求解可以松弛为一般的特征值求解问题： Lv = λ(Q−βI) v (12) 式中 β 是α的下界。 O ( n 3 ) Sˆ = Zˆ Zˆ T ∈ R p×p Sˆ v ∈ R n Zˆ Tu u ∈ R p v = Zˆ Tu 求解式 (12) 特征向量的时间复杂度为，所以在处理大规模数据集时计算负担过大。为了使该方法具有可扩展性，能较好地适应于大规模数据集，根据 1.2 可知，基于稀疏表示的方法还可以构造另外一种规范化图，其相似度矩阵表示为，若能将引入到上述约束 NCut 的目标函数中，可以大大降低求解特征向量的时间复杂度。因此可将表示为，其中。将代入到式 (11)。改进后的可扩展约束 NCut 目标函数可表示为 argmin u∈Rp u TAu, s.t.u TQuˆ ⩾ α,u TSuˆ = 1,1 TSuˆ = 0 (13) A = Sˆ −SˆSˆ, 式中： Qˆ = ZQˆ Zˆ T。 L ∈ R n×n A ∈ R p×p Q ∈ R n×n Qˆ ∈ R p×p p ≪ n 该模型等价于式 (11) 所表示的约束 NCut 目标函数，但是有两个改进：一是规范化的拉普拉斯矩阵变为矩阵；二是约束矩阵变为，因为，有效降低了计算复杂度。同样和文献[11]所提出的约束 Ncut 模型相比，一方面，通过地标点所构造的稀疏表示矩阵来近似获得相似度矩阵，避免对整个数据进行第 5 期赵晓晓，等：结合稀疏表示与约束传递的半监督谱聚类算法 ·857·

·858· 智能系统学报第13卷特征分解，大大降低算法的复杂度，能够很好地根据lookupVec更新2；适应于大规模数据集；另一方面，在连通区域内 end for 部进行约束关系传递，更新矩阵2，改进模型即式 5)依据约束关系生成约束矩阵Q,计算 (13)中S和A也随着更新，可以充分利用初始有限 3=22r,0=202r; 的约束信息，提高聚类的准确率。 6)求解Ox=ySx的最大特征值ymx; 为了求解式(13)，引入拉格朗日乘子，可扩展 7)ifB>ymax,类label的向量V=O; 约束NCut问题转化为 8)else求解式(16)的特征向量； A(u.Ap)=uAu-a(u'Qu-a)-u(u"Su-1)(14) 9)找出所有正特征值所对应的特征向量{u, 需要满足KKT条件，即 1 {u中每个元素乘 Au-AOu-uSu=0 (15) u Su uQu >a 10)去掉{u中与1S不正交的特征向量； uSu =1 I1)计算uA,寻找m个特征向量使Au,最 1TSu=0 小，m=min{k-1,lu,并把这些特征向量作为 ≥0 V的列向量； A(u"Qu-a)=0 12)计算V=2rV(I-VrAV),并对其进行k- 当A=0时，式(15)变为Au-S=0,意昧着并 means聚类。没有考虑相关约束信息，所以为了充分使用约束 2.3算法复杂度分析信息，只考虑>0的情况，即⑨u=a。基于地标点近似表示的谱聚类算法需要构造假设B=-兑式(15)变为稀疏矩阵Z,该步骤的时间复杂度为O(pm),对矩 Au=a(0-BS)u 阵Z进行奇异值分解获得相似度矩阵的特征向 (16) 量，该步骤的时间复杂度为O(p3+p2m)；所提算法通过求解式(16)的特征值和特征向量，计算复杂也要构造矩阵Z,生成个连通区域进行近邻点度远远降低。约束关系传递的时间复杂度为O(⑩，计算矩阵还需要考虑如何设置参数B和α，由于矩阵 S的时间复杂度为0(p2m,求解式(16)的特征值计 A是半正定的，可得算复杂度为0(p),远远小于文献[11]约束谱聚类 F(@-B的)u=A(a-B)≥0 算法特征分解所需要的时间复杂度On),p≤n, 即参数B是a的下界值，a作为约束的下界值，所以计算2Q2T的时间复杂度为O(kp2+kpm)。只需要指定参数B值即可，参数B可调意味着算法对噪声等额外信息的处理更加灵活。为了保证 3实验与分析式(16)有i个有意义的特征向量，需要满足B<Y, 3.1实验环境其中y,表示Ox=y3x的第i个最大的特征值。为了验证本文算法的性能，选取规模较大的算法结合稀疏表示与约束传递的半监督谱数据集进行实验，依次为物体图像数据集聚类算法 COIL100,人脸数据集CMU-PIE,手写数字数据输入数据集X,约束集合M和C,聚类个集USPS、MNIST和UCI标准库中的森林植被类数k,参数B; 数据集CoverType,数据集的特性如表1所示。仿输出类label。真实验基于MATLAB2014b平台，计算机的硬件 1)将在约束集合内的p个点选为地标点，并配置为Intel i7-4770CPU3.40GHz、16 GB RAM. 作为矩阵U的列向量；表1实验数据集的特性 2)根据式(6)构造Z,并计算2=D-12Z Table 1 Experimental datasets features 3)使用Tarjan算法，根据地标点之间的约束关系计算连通区域CC; 数据集数据集个数类维数 4)for每个连通区域CCdo: COIL100 7200 100 1024 计算连通区域的邻接子矩阵L; USPS 9298 10 256 根据近邻点出现频率的次数构建向量Iook- CMU-PIE 11554 68 1024 upVec; MNIST 70000 10 784 根据式(9)将约束关系传递给该区域内剩余 CoverType 581012 7 54 数据点；

Zˆ Sˆ A 特征分解，大大降低算法的复杂度，能够很好地适应于大规模数据集；另一方面，在连通区域内部进行约束关系传递，更新矩阵，改进模型即式 (13) 中和也随着更新，可以充分利用初始有限的约束信息，提高聚类的准确率。为了求解式 (13)，引入拉格朗日乘子，可扩展约束 NCut 问题转化为 Λ(u, λ, µ) = u TAu−λ ( u TQuˆ −α ) −µ ( u TSuˆ −1 ) (14) 需要满足 KKT 条件，即 Au−λQuˆ −µSuˆ = 0 (15) u TQuˆ ⩾ α u TSuˆ = 1 1 TSuˆ = 0 λ ⩾ 0 λ ( u TQuˆ −α ) = 0 λ = 0 Au−µSuˆ = 0 λ > 0 u TQuˆ = α 当时，式 (15) 变为，意味着并没有考虑相关约束信息，所以为了充分使用约束信息，只考虑的情况，即。 β = − µ λ 假设，式 (15) 变为 Au = λ ( Qˆ −βSˆ ) u (16) 通过求解式 (16) 的特征值和特征向量，计算复杂度远远降低。还需要考虑如何设置参数 β 和α，由于矩阵 A 是半正定的，可得 λu T ( Qˆ −βSˆ ) u = λ(α−β) ⩾ 0 β α α β β β < γi γi Qˆ x = γSˆ x 即参数是的下界值，作为约束的下界值，所以只需要指定参数值即可，参数可调意味着算法对噪声等额外信息的处理更加灵活。为了保证式 (16) 有 i 个有意义的特征向量，需要满足，其中表示的第 i 个最大的特征值。算法结合稀疏表示与约束传递的半监督谱聚类算法 β 输入数据集 X，约束集合 M 和 C，聚类个数 k，参数；输出类 label。 1) 将在约束集合内的 p 个点选为地标点，并作为矩阵 U 的列向量； Zˆ =D −1/2 2) 根据式 (6) 构造 Z，并计算 Z ； 3) 使用 Tarjan 算法，根据地标点之间的约束关系计算连通区域 CC； 4) for 每个连通区域 CC do：计算连通区域的邻接子矩阵 LTa；根据近邻点出现频率的次数构建向量 lookupVec；根据式 (9) 将约束关系传递给该区域内剩余数据点；根据 lookupVec 更新 Zˆ ； end for Q Sˆ = Zˆ Zˆ T Qˆ = ZQˆ Zˆ T 5) 依据约束关系生成约束矩阵，计算，； Qˆ x = γSˆ 6) 求解 x的最大特征值 γmax； 7) if β ⩾ γmax，类 label 的向量 V =Ø； 8) else 求解式 (16) 的特征向量 u； { u + i } { u + i } √ 1 uiSuˆ i 9) 找出所有正特征值所对应的特征向量，中每个元素乘； { u + i } 1 10) 去掉中与 TSˆ不正交的特征向量； u T i Aui u T i Aui m = min{ k−1, { u + i } } V 11) 计算，寻找 m 个特征向量使最小，，并把这些特征向量作为的列向量； V (r) = Zˆ TV ( I−V TAV) 12) 计算，并对其进行 kmeans 聚类。 2.3 算法复杂度分析 Z O(pn) O ( p 3 + p 2n ) |H| O(r|H|) Sˆ O ( p 2n ) O ( p 3 ) O(n 3 ), p ≪ n ZQˆ Zˆ T O ( kp2 +kpn) 基于地标点近似表示的谱聚类算法需要构造稀疏矩阵，该步骤的时间复杂度为，对矩阵 Z 进行奇异值分解获得相似度矩阵的特征向量，该步骤的时间复杂度为；所提算法也要构造矩阵 Z，生成个连通区域进行近邻点约束关系传递的时间复杂度为，计算矩阵的时间复杂度为，求解式 (16) 的特征值计算复杂度为，远远小于文献[11]约束谱聚类算法特征分解所需要的时间复杂度，计算的时间复杂度为。 3 实验与分析 3.1 实验环境为了验证本文算法的性能，选取规模较大的数据集进行实验，依次为物体图像数据集 COIL100，人脸数据集 CMU-PIE，手写数字数据集 USPS、MNIST 和 UCI 标准库中的森林植被类数据集 CoverType，数据集的特性如表 1 所示。仿真实验基于 MATLAB2014b 平台，计算机的硬件配置为 Intel i7-4770 CPU 3.40 GHz、16 GB RAM。表 1 实验数据集的特性 Table 1 Experimental datasets features 数据集数据集个数类维数 COIL100 7 200 100 1 024 USPS 9 298 10 256 CMU-PIE 11 554 68 1 024 MNIST 70 000 10 784 CoverType 581 012 7 54 ·858· 智能系统学报第 13 卷

第5期赵晓晓，等：结合稀疏表示与约束传递的半监督谱聚类算法 ·859· 本文算法和文献[11]的约束谱聚类方法CSP, PC算法相比，本文算法在CMU-PIE数据集上文献[14]的基于地标点采样的快速谱聚类算法 ACC、NMⅡ分别提升了79.12%和38.58%.在Cov- LSC-R和LSC-K,文献[I5]所提出的针对大规模数 erType数据集上ACC和NMI分别提升了15.02% 据集的半监督谱聚类算法SC-PC进行对比，LSC- 和39.94%。因为在处理高维数据时，采用稀疏表 R是通过随机采样来获取p个地标点，LSC-K是示能够过滤一些异常点和噪声，同时指定约束下利用k-means算法来获得p个地标点。须指出，界，可去除一些噪声等约束关系的负面影响。因由于CSP算法在CMU-PIE、MNIST和Cover- 此，引入约束信息来改变谱聚类算法的目标函 Type数据集上计算负担过大，并没有进行相关实数，并通过在连通区域内进行约束关系传递，能验的比较。够有效提高聚类的准确率。鉴于比较的公平性，具体的参数设置如下：其表2各数据集实验结果中文献[14-15]和本文算法的地标点个数p均设置 Table 2 Experimental results of different datasets 为1000，所有算法中k-means部分的迭代次数均数据集算法 ACC NMI 时间/s 设置为500，所有稀疏表示矩阵构造过程中的近 CSP 0.67390.8237 19656.02 邻点个数r设置为5。约束的下界即参数B=Boyk-1, 其中A=05+04x号为0：=5：的第k-1个最 LSC-K0.54560.7632 4.13 COIL100 LSC-R0.4896 0.7315 2.33 大的特征值。 SC-PC 0.59680.7718 2.59 通过数据集中每个样本预定义的类标签来实现对聚类结果的评价，采用聚类准确率ACC和归本文 0.66600.7975 3.51 一化互信息NM两种度量指标对聚类结果进 CSP 0.86440.8049 26932.75 行评估和比较分析。两个评价指标的取值范围均 LSC-K0.77530.7915 1.19 是在0~1之间，值越大表示聚类效果越好。 USPS LSC-R0.75240.7541 0.62 3.2实验分析 SC-PC 0.80740.7697 0.75 各种算法在上述数据集的实验结果如表2 本文 0.84350.7731 1.88 所示。 CSP 根据表2可以看出，约束谱聚类算法CSP在 LSC-K 0.0956 0.2126 COL100和USPS两个数据集上的ACC和NMI 5.39 均取得最佳结果，因为其考虑引入约束矩阵建立 CMU-PIE LSC-R 0.09360.2148 4.48 约束优化问题，提高聚类准确率，但是在上述两 SC-PC 0.17240.2623 4.84 个数据集上的运行时间太长，耗时将近5~7h,对本文 0.30880.3635 6.45 于更大的数据集CMU-PIE、MNIST和Cover- CSP Type数据集，计算负担过大，没能进行验证。本 LSC-K0.72700.7222 12.58 文算法在COIL100和USPS数据集的ACC分别 MNIST LSC-R0.5890 0.5911 8.80 为0.6660和0.8435，NMI指标分别为0.7975和 SC-PC 0.73440.6978 11.08 0.7731,和CSP相比稍有降低；但从运行时间上，本文 0.78390.6728 24.98 本文算法的运行时间仅在秒级别，耗时分别为 CSP 3.51s和1.88s,远远少于CSP的运行时间，而且在包含581012个样本的大规模CoverType数据 LSC-K 0.2552 0.0673 355.11 集上运行时间只需要747.36s,所以本文算法基于 CoverType LSC-R 0.22900.0681 78.18 稀疏表示矩阵来建立相似度矩阵，降低了矩阵分 SC-PC0.2563 0.0721 149.71 解的复杂度，提高了半监督聚类算法的可扩展性。本文0.29480.1009 747.36 另一方面，本文算法和LSC-K、LSC-R、SC-PC 三种均为提升谱聚类的效率的算法，即快速谱聚为了分析初始约束信息对聚类结果的影响，类算法相比，在准确率ACC和归一化互信息NM 添加了地标点个数p(对应半监督聚类中能获取的两个指标上有所提高，且在CMU-PIE和Cover- 初始约束信息)对聚类指标影响的对比实验。同 Type数据集上两个指标具有明显的提升；和SC 样，CSP算法只在USPS和COIL1O0两个数据集

本文算法和文献[11]的约束谱聚类方法 CSP，文献[14]的基于地标点采样的快速谱聚类算法 LSC-R 和 LSC-K，文献[15]所提出的针对大规模数据集的半监督谱聚类算法 SC-PC 进行对比，LSCR 是通过随机采样来获取 p 个地标点，LSC-K 是利用 k-means 算法来获得 p 个地标点。须指出，由于 CSP 算法在 CMU-PIE、MNIST 和 CoverType 数据集上计算负担过大，并没有进行相关实验的比较。 β = β0γk−1 β0 = 0.5+0.4× p n γk−1 Qˆ x = γSˆ x k−1 鉴于比较的公平性，具体的参数设置如下：其中文献[14-15]和本文算法的地标点个数 p 均设置为 1 000，所有算法中 k-means 部分的迭代次数均设置为 500，所有稀疏表示矩阵构造过程中的近邻点个数 r 设置为 5。约束的下界即参数，其中，为的第个最大的特征值。通过数据集中每个样本预定义的类标签来实现对聚类结果的评价，采用聚类准确率 ACC 和归一化互信息 NMI 两种度量指标[14]对聚类结果进行评估和比较分析。两个评价指标的取值范围均是在 0~1 之间，值越大表示聚类效果越好。 3.2 实验分析各种算法在上述数据集的实验结果如表 2 所示。根据表 2 可以看出，约束谱聚类算法 CSP 在 COIL100 和 USPS 两个数据集上的 ACC 和 NMI 均取得最佳结果，因为其考虑引入约束矩阵建立约束优化问题，提高聚类准确率，但是在上述两个数据集上的运行时间太长，耗时将近 5~7 h，对于更大的数据集 CMU-PIE、MNIST 和 CoverType 数据集，计算负担过大，没能进行验证。本文算法在 COIL100 和 USPS 数据集的 ACC 分别为 0.666 0 和 0.843 5，NMI 指标分别为 0.797 5 和 0.773 1，和 CSP 相比稍有降低；但从运行时间上，本文算法的运行时间仅在秒级别，耗时分别为 3.51 s 和 1.88 s，远远少于 CSP 的运行时间，而且在包含 581 012 个样本的大规模 CoverType 数据集上运行时间只需要 747.36 s，所以本文算法基于稀疏表示矩阵来建立相似度矩阵，降低了矩阵分解的复杂度，提高了半监督聚类算法的可扩展性。另一方面，本文算法和 LSC-K、LSC-R、SC-PC 三种均为提升谱聚类的效率的算法，即快速谱聚类算法相比，在准确率 ACC 和归一化互信息 NMI 两个指标上有所提高，且在 CMU-PIE 和 CoverType 数据集上两个指标具有明显的提升；和 SCPC 算法相比，本文算法在 CMU-PIE 数据集上 ACC、NMI 分别提升了 79.12% 和 38.58%，在 CoverType 数据集上 ACC 和 NMI 分别提升了 15.02% 和 39.94%。因为在处理高维数据时，采用稀疏表示能够过滤一些异常点和噪声，同时指定约束下界，可去除一些噪声等约束关系的负面影响。因此，引入约束信息来改变谱聚类算法的目标函数，并通过在连通区域内进行约束关系传递，能够有效提高聚类的准确率。为了分析初始约束信息对聚类结果的影响，添加了地标点个数 p(对应半监督聚类中能获取的初始约束信息) 对聚类指标影响的对比实验。同样，CSP 算法只在 USPS 和 COIL100 两个数据集表 2 各数据集实验结果 Table 2 Experimental results of different datasets 数据集算法 ACC NMI 时间/s COIL100 CSP 0.673 9 0.823 7 19 656.02 LSC-K 0.545 6 0.763 2 4.13 LSC-R 0.489 6 0.731 5 2.33 SC-PC 0.596 8 0.771 8 2.59 本文 0.666 0 0.797 5 3.51 USPS CSP 0.864 4 0.804 9 26 932.75 LSC-K 0.775 3 0.791 5 1.19 LSC-R 0.752 4 0.754 1 0.62 SC-PC 0.807 4 0.769 7 0.75 本文 0.843 5 0.773 1 1.88 CMU-PIE CSP — — — LSC-K 0.095 6 0.212 6 5.39 LSC-R 0.093 6 0.214 8 4.48 SC-PC 0.172 4 0.262 3 4.84 本文 0.308 8 0.363 5 6.45 MNIST CSP — — — LSC-K 0.727 0 0.722 2 12.58 LSC-R 0.589 0 0.591 1 8.80 SC-PC 0.734 4 0.697 8 11.08 本文 0.783 9 0.672 8 24.98 CoverType CSP — — — LSC-K 0.255 2 0.067 3 355.11 LSC-R 0.229 0 0.068 1 78.18 SC-PC 0.256 3 0.072 1 149.71 本文 0.294 8 0.100 9 747.36 第 5 期赵晓晓，等：结合稀疏表示与约束传递的半监督谱聚类算法 ·859·

点击进入文档下载页（PDF格式）

共10页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录