当前位置：和泉文库 > 电气与自动化 > 浏览文档

【机器感知与模式识别】结合地标点与自编码的快速多视图聚类网络

文件格式：PDF，文件大小：3.83MB，售价：3.12元

文档详细内容（约8页）

第17卷第2期智能系统学报 Vol.17 No.2 2022年3月 CAAI Transactions on Intelligent Systems Mar.2022 D0:10.11992tis.202101011 网络出版地址：https:/kns.cnki.net/kcms/detail/23.1538.TP.20211015.0634.004.html 结合地标点与自编码的快速多视图聚类网络马睿，周治平 (江南大学物联网技术应用教育部工程研究中心，江苏无锡214122) 摘要：针对目前存在的多视图聚类方法大多是对聚类准确性进行研究而未着重于提升算法效率，从而难以应用于大规模数据的现象，本文提出一种结合地标点和自编码的快速多视图聚类算法。利用加权PageRank排序算法选出每个视图中最具代表性的地标点。使用凸二次规划函数从数据中直接生成多个视图的相似度矩阵，求得多个视图的共识相似度矩阵以有效利用多个视图包含的具有一致性和互补性的聚类有效信息，将获得的具有低存储开销性能的共识相似度矩阵输入自编码器替代拉普拉斯矩阵特征分解，在联合学习框架下同时更新自编码器参数和聚类中心从而在降低计算复杂度的同时保证聚类精度。在5个多视图数据集上的实验证明了本文算法相对于其他多视图算法在运行时间上的优越性。关键词：多视图聚类；地标点聚类：加权PageRank:自编码器：特征分解：联合学习：聚类分析：数据挖掘中图分类号：TP181文献标志码：A文章编号：1673-4785(2022)02-0333-08 中文引用格式：马睿，周治平.结合地标点与自编码的快速多视图聚类网络J.智能系统学报，2022,17(2)：333-340. 英文引用格式：MA Rui,,ZHOU Zhiping.Fast multiview clustering network combining landmark points and autoencoder.CAAl transactions on intelligent systems,2022,17(2):333-340. Fast multiview clustering network combining landmark points and autoencoder MA Rui,ZHOU Zhiping (Engineering Research Center of Internet of Things Technology Applications Ministry of Education,Jiangnan University,Wuxi 214122,China) Abstract:Currently,most existing multiview clustering methods only focus on the accuracy of clustering and pay little attention to the improvement of the efficiency of the algorithm,which makes it difficult to apply them to large-scale datasets.This paper proposes a fast multiview clustering algorithm combining landmarks and autoencoder.The weighted PageRank algorithm is adopted to select the most representative landmark points in each view.The similarity matrix of multiple views is directly generated through the convex quadratic programming function.To effectively use the consistent and complementary clustering effective information contained in multiple views,the consensus similarity matrix of multiple views is obtained.The obtained consensus similarity matrix with low storage overhead performance is inputted to the autoencoder to replace the Laplacian matrix eigendecomposition.The proposed algorithm updates the autoencoder parameters and clustering centers under the framework of joint learning to ensure clustering accuracy while reducing computational complexity.Experiments in five multiview datasets show that the proposed algorithm is better than other multiview algorithms in terms of running time. Keywords:multiview clustering:landmark point clustering;weighted PageRank;autoencoder:eigendecomposition; joint learning;cluster analysis;data mining 聚类作为一种无监督的学习方法可将给定的由于现实世界中多视图数据的普遍存在，例如，数据集根据数据的内在联系划分成多个集内相似文档可以由不同语言来编写，基因可由不同技术度高而集间相似度低的子集，获得了数据挖掘、来测量2。充分利用多视图数据以探索到更丰模式识别、图像分割等诸多领域的关注山。并且富、全面的数据特征从而获得更好的性能也成为收稿日期：2021-01-08.网络出版日期：2021-10-15. 聚类发展的方向。通信作者：周治平.E-mail:zp@jiangnan.edu..cn 多视图子空间聚类由于其优越的性能和丰富

DOI: 10.11992/tis.202101011 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20211015.0634.004.html 结合地标点与自编码的快速多视图聚类网络马睿，周治平（江南大学物联网技术应用教育部工程研究中心，江苏无锡 214122） PageRank 摘要：针对目前存在的多视图聚类方法大多是对聚类准确性进行研究而未着重于提升算法效率，从而难以应用于大规模数据的现象，本文提出一种结合地标点和自编码的快速多视图聚类算法。利用加权排序算法选出每个视图中最具代表性的地标点。使用凸二次规划函数从数据中直接生成多个视图的相似度矩阵，求得多个视图的共识相似度矩阵以有效利用多个视图包含的具有一致性和互补性的聚类有效信息，将获得的具有低存储开销性能的共识相似度矩阵输入自编码器替代拉普拉斯矩阵特征分解，在联合学习框架下同时更新自编码器参数和聚类中心从而在降低计算复杂度的同时保证聚类精度。在 5 个多视图数据集上的实验证明了本文算法相对于其他多视图算法在运行时间上的优越性。关键词：多视图聚类；地标点聚类；加权 PageRank；自编码器；特征分解；联合学习；聚类分析；数据挖掘中图分类号：TP181 文献标志码：A 文章编号：1673−4785(2022)02−0333−08 中文引用格式：马睿, 周治平. 结合地标点与自编码的快速多视图聚类网络 [J]. 智能系统学报, 2022, 17(2): 333–340. 英文引用格式：MA Rui, ZHOU Zhiping. Fast multiview clustering network combining landmark points and autoencoder[J]. CAAI transactions on intelligent systems, 2022, 17(2): 333–340. Fast multiview clustering network combining landmark points and autoencoder MA Rui，ZHOU Zhiping (Engineering Research Center of Internet of Things Technology Applications Ministry of Education, Jiangnan University, Wuxi 214122, China) Abstract: Currently, most existing multiview clustering methods only focus on the accuracy of clustering and pay little attention to the improvement of the efficiency of the algorithm, which makes it difficult to apply them to large-scale datasets. This paper proposes a fast multiview clustering algorithm combining landmarks and autoencoder. The weighted PageRank algorithm is adopted to select the most representative landmark points in each view. The similarity matrix of multiple views is directly generated through the convex quadratic programming function. To effectively use the consistent and complementary clustering effective information contained in multiple views, the consensus similarity matrix of multiple views is obtained. The obtained consensus similarity matrix with low storage overhead performance is inputted to the autoencoder to replace the Laplacian matrix eigendecomposition. The proposed algorithm updates the autoencoder parameters and clustering centers under the framework of joint learning to ensure clustering accuracy while reducing computational complexity. Experiments in five multiview datasets show that the proposed algorithm is better than other multiview algorithms in terms of running time. Keywords: multiview clustering; landmark point clustering; weighted PageRank; autoencoder; eigendecomposition; joint learning; cluster analysis; data mining 聚类作为一种无监督的学习方法可将给定的数据集根据数据的内在联系划分成多个集内相似度高而集间相似度低的子集，获得了数据挖掘、模式识别、图像分割等诸多领域的关注[1]。并且由于现实世界中多视图数据的普遍存在，例如，文档可以由不同语言来编写，基因可由不同技术来测量[2]。充分利用多视图数据以探索到更丰富、全面的数据特征从而获得更好的性能也成为聚类发展的方向。多视图子空间聚类由于其优越的性能和丰富收稿日期：2021−01−08. 网络出版日期：2021−10−15. 通信作者：周治平. E-mail: zzp@jiangnan.edu.cn. 第 17 卷第 2 期智能系统学报 Vol.17 No.2 2022 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2022

·334· 智能系统学报第17卷的可扩展性得到了飞速发展。例如，Cao等在多视图学习场景显然无能为力。各个视图之间利用希尔伯特施密特独立性准则综上所述，本文提出一种结合地标点和自编 (HSIC)进行视图间相互约束，从而捕获到更丰富码的快速多视图聚类方法。为了提取大规模数据的数据关系。Wang等通过新颖的位置感知准集中的强代表性点以降低存储开销，首先利用加则来利用多个视图的互补信息，同时通过一致性权PageRank排序算法在每个视图中选取原始数约束来获得多个视图的通用聚类指示矩阵。Brbic 据中权重较高的数据点作为每个视图的地标点，等向在生成多个视图的联合亲和度矩阵时利用低为了避免传统的手工生成相似度矩阵中指数函数秩稀疏进行约束，并将方法扩展到核空间以适用与近邻点个数的选择，本文利用凸二次规划函数于非线性数据。Nie等m通过避免引入超参数的直接从数据中获得每个视图的相似度矩阵，融合完全自动加权方案来为每个视图分配不同的权重多视图信息，将生成的多视图共识相似度矩阵作以区分不同视图的重要性。Wang等图试图通过为自编码器的输人，利用自编码器替代拉普拉斯整合编码的补充信息，利用具有最大依赖性的空矩阵特征分解获得多视图数据的联合嵌入表示，间学习技术来形成多视图的信息丰富的完整感知最后利用K-means算法进行最后的聚类划分。为相似性。L等通过将潜在表示强制构造为最大了避免微调环节覆盖之前所得最优参数从而获得程度接近多个视图的形式从而能够灵活地编码来更精确的聚类结果，本文将自编码器的重建损失自不同视图的互补信息。随着科技迅速发展，网和聚类损失放在同一学习框架下从而能够对自编络数据量也随之剧烈膨胀并越发呈现纷繁复杂状码器的参数和聚类中心进行联合更新。态。例如，Facebook每月约报告60亿张新照片， YouTube每分钟约上传72小时的视频。而聚类 1相关算法理论分析的主要任务之一就是对大规模数据集进行无 1.1多视图子空间聚类监督分类。虽然上述多视图聚类方法相较于单鉴于融合多视图数据以捕获到更全面的聚类视图聚类方法在聚类精度方面有了质的提升，但有效信息是十分有必要的，多视图子空间聚类最是它们都呈现出较高的计算复杂度，从而在大规近获得了大量关注。给出多视图数据模数据集上的使用具有局限性。为了提升面向大规模数据集的可扩展性，亟 X=[KX2…K]eRa4w 需找到一种优质的能降低计算复杂度的聚类算根据自表示思想通过一个稀疏系数矩阵重构法，为了解决这一问题，He等☑利用随机傅里叶原始数据，则多视图子空间聚类网络的目标函数为特征来显式表示内核空间中的数据，显式特征映 min∑x-xs2+afs) 射可显著加快特征向量近似，从而提高谱聚类预 1 (1) 测速度。Tian等u1发现自编码器和谱聚类本质 s.t.S≥0，S1=1 上都是在保留原始数据最重要数据特征的同时实式中：S为第个视图的相似度矩阵，不同形式的现降维处理，因此运用自编码器来替代谱聚类中 f)可以给出不同性质的解。例如，文献[4]利用的拉普拉斯矩阵特征分解，对于大规模数据集来 HSIC鼓励图对之间的差异性，文献[6]利用低秩说，这一处理极大地减少了内存消耗，但此方法稀疏对相似度矩阵S进行约束，文献[9]生成了一仍需要直接处理规模庞大的数据。因此Yin等个潜在的表示空间以灵活编码多视图信息。但是提出了一种具有局部相似性表示的基于地标的光所有这些多视图子空间聚类方法每个视图的相似谱聚类方法，该方法首先通过使用给定的相似度度矩阵S的大小都为n×n,从而都至少需要O(nk) 函数对原始数据点的“最相似”地标进行编码，然的时间，且都涉及拉普拉斯矩阵特征分解，因此后对编码数据点进行奇异值分解以得到频谱嵌入具有计算效率以及存储空间上的劣势，使其很难数据点，再利用传统聚类方法例如K-means对嵌扩展到样本点数量庞大的大规模数据集上。入数据点进行划分。Banijamali等将地标表示 1.2锚图构造与非线性低维映射相结合，同时避免了直接处理相似度矩阵的构造对于谱聚类来说非常重大规模数据集与拉普拉斯矩阵特征分解步骤，实要，对于构造大规模数据集的相似度矩阵，锚图现了更精确的快速聚类方法。虽然上述基于谱聚是一种十分有效的方法。类的扩展算法十分有效地降低了谱聚类的计算利用K-means或随机选择等方法从含有n个量，但它们都是针对单视图谱聚类进行的，对于样本点的数据集中提取出具有m(m<)个样本点

的可扩展性得到了飞速发展[3]。例如，Cao 等 [4] 在各个视图之间利用希尔伯特施密特独立性准则 (HSIC) 进行视图间相互约束，从而捕获到更丰富的数据关系。Wang 等 [5] 通过新颖的位置感知准则来利用多个视图的互补信息，同时通过一致性约束来获得多个视图的通用聚类指示矩阵。Brbic 等 [6] 在生成多个视图的联合亲和度矩阵时利用低秩稀疏进行约束，并将方法扩展到核空间以适用于非线性数据。Nie 等 [7] 通过避免引入超参数的完全自动加权方案来为每个视图分配不同的权重以区分不同视图的重要性。Wang 等 [8] 试图通过整合编码的补充信息，利用具有最大依赖性的空间学习技术来形成多视图的信息丰富的完整感知相似性。Li 等 [9] 通过将潜在表示强制构造为最大程度接近多个视图的形式从而能够灵活地编码来自不同视图的互补信息。随着科技迅速发展，网络数据量也随之剧烈膨胀并越发呈现纷繁复杂状态。例如，Facebook 每月约报告 60 亿张新照片， YouTube 每分钟约上传 72 小时的视频。而聚类分析的主要任务之一就是对大规模数据集进行无监督分类[10]。虽然上述多视图聚类方法相较于单视图聚类方法在聚类精度方面有了质的提升，但是它们都呈现出较高的计算复杂度，从而在大规模数据集上的使用具有局限性[11]。为了提升面向大规模数据集的可扩展性，亟需找到一种优质的能降低计算复杂度的聚类算法，为了解决这一问题，He 等 [12] 利用随机傅里叶特征来显式表示内核空间中的数据，显式特征映射可显著加快特征向量近似，从而提高谱聚类预测速度。Tian 等 [13] 发现自编码器和谱聚类本质上都是在保留原始数据最重要数据特征的同时实现降维处理，因此运用自编码器来替代谱聚类中的拉普拉斯矩阵特征分解，对于大规模数据集来说，这一处理极大地减少了内存消耗，但此方法仍需要直接处理规模庞大的数据。因此 Yin 等 [14] 提出了一种具有局部相似性表示的基于地标的光谱聚类方法，该方法首先通过使用给定的相似度函数对原始数据点的“最相似”地标进行编码，然后对编码数据点进行奇异值分解以得到频谱嵌入数据点，再利用传统聚类方法例如 K-means 对嵌入数据点进行划分。Banijamali 等 [15] 将地标表示与非线性低维映射相结合，同时避免了直接处理大规模数据集与拉普拉斯矩阵特征分解步骤，实现了更精确的快速聚类方法。虽然上述基于谱聚类的扩展算法十分有效地降低了谱聚类的计算量，但它们都是针对单视图谱聚类进行的，对于多视图学习场景显然无能为力。综上所述，本文提出一种结合地标点和自编码的快速多视图聚类方法。为了提取大规模数据集中的强代表性点以降低存储开销，首先利用加权 PageRank 排序算法在每个视图中选取原始数据中权重较高的数据点作为每个视图的地标点，为了避免传统的手工生成相似度矩阵中指数函数与近邻点个数的选择，本文利用凸二次规划函数直接从数据中获得每个视图的相似度矩阵，融合多视图信息，将生成的多视图共识相似度矩阵作为自编码器的输入，利用自编码器替代拉普拉斯矩阵特征分解获得多视图数据的联合嵌入表示，最后利用 K-means 算法进行最后的聚类划分。为了避免微调环节覆盖之前所得最优参数从而获得更精确的聚类结果，本文将自编码器的重建损失和聚类损失放在同一学习框架下从而能够对自编码器的参数和聚类中心进行联合更新。 1 相关算法理论 1.1 多视图子空间聚类鉴于融合多视图数据以捕获到更全面的聚类有效信息是十分有必要的，多视图子空间聚类最近获得了大量关注。给出多视图数据 X = [X 1 X 2 ··· X v ] ∈ R ∑v i=1 di×n 根据自表示思想通过一个稀疏系数矩阵重构原始数据，则多视图子空间聚类网络的目标函数为 min S i ∑v i=1 X i − X iS i 2 F +α f ( S i ) s.t. S i ⩾ 0,S i 1 = 1 (1) S i i f(·) S i S i n×n O ( n 2 k ) n 式中：为第个视图的相似度矩阵，不同形式的可以给出不同性质的解。例如，文献 [4] 利用 HSIC 鼓励图对之间的差异性，文献 [6] 利用低秩稀疏对相似度矩阵进行约束，文献 [9] 生成了一个潜在的表示空间以灵活编码多视图信息。但是所有这些多视图子空间聚类方法每个视图的相似度矩阵的大小都为，从而都至少需要的时间，且都涉及拉普拉斯矩阵特征分解，因此具有计算效率以及存储空间上的劣势，使其很难扩展到样本点数量庞大的大规模数据集上。 1.2 锚图构造相似度矩阵的构造对于谱聚类来说非常重要，对于构造大规模数据集的相似度矩阵，锚图是一种十分有效的方法[16]。 n m(m ≪ n) 利用 K-means 或随机选择等方法从含有个样本点的数据集中提取出具有个样本点 ·334· 智能系统学报第 17 卷

第2期马容，等：结合地标点与自编码的快速多视图聚类网络 ·335· 的子集，每个子集中的点作为地标点来逼近原数子空间聚类中的2个数据点。对于大规模数据集据集，引入k近邻点来度量点对之间的局部亲和来说，此举可在利用多视图一致性与互补性确保力。利用地标点与原数据来构造一个稀疏相似度聚类精度的同时使复杂度显著降低。矩阵Z∈Rmm: 由于现实世界中数据的固有结构呈现出普遍 K(xi,aj) 非线性状态9，将式(3)扩展到核空间中进行。定 Zy= yK(x,ay） je(i) (2) 义p:RD→H为从原始输入空间到核希尔伯特空间H的映射，对于每个包含n个样本点的视图 0,其他 X=x号…x],其变换后形式为式中：)表示x:的(r<m)个最近邻地标点；K()= (X)=[(xi)o(x2)...(x")] exp(-p(x,a)/262)是带宽参数为6的常用高斯核函由m个地标点构成的强代表性数据矩阵数；6控制每个数据点的局部邻域大小。 A"=[aa…aJ的变换后形式为然而此启发式策略存在一个总是被忽略的固 (A)=(a)a)...oa")] 有缺点，即所构建的图形质量很大程度依赖于指核函数定义为数函数和近邻点个数的选择，因此，下游任务可 K(ss)=<pc),p(c）> 能会受到负面影响。则式(3)可转变为 2结合地标点与自编码的快速多视 mintr(K-2K'Z'+ZK'Z+aZ" (4) 图聚类算法 s.t.ZT1=1.0≤Z"≤1 通过求解式(4)可以捕获到p(x)与p(a)间的线 2.1图形构造性稀疏关系，即样本点x与地标点a间的非线性关大规模数据集中存在很多冗余数据，少量样系。将式(4)按列重新写出：本完全满足重建子空间的需求。传统的地标点选 minK:-2KZ+ZK'Z:+aZTZ Z 择方法有文献[15]中的随机抽样和使用K均值中 (5) 心点作为地标点的方法。但是随机抽样可能导致 st.ZT1=1,0≤Z≤1 地标点彼此过于靠近，这可能导致邻域重叠。而进而式(5)可转变成为二次型形式(6)，从而采用K均值中心作为地标点的方法运行时间过长能直接通过凸二次规划函数求解得到各个视图的且当数据规模极大，超出系统的内存时，K均值聚由数据直接生成的相似度矩阵Z: 类算法需要不断地执行读取操作”。因此，本文 minZ:(al+K)Z:-2KZ (6) 采用文献[I8]中的加权PageRank算法来为每个视 s.tZr1=1,0≤z≤1 图选择wpr值最高的m个样本点作为地标点。因为所获得的Z的大小不为n×n,不能直接为了避免式(2)形式生成相似度矩阵的不足对Z进行后续谱聚类操作，在每个视图上求取双之处，本文在多视图聚类框架下采取直接从数据随机相似度矩阵S=22r,该形式比Z能更多地生成相似度矩阵的方法，该方法不仅能揭示数据保留数据局部结构，然而利用传统方法计算度矩低维结构，还对噪声和数据规模有着极强的鲁棒阵D需消耗O(n2m)时间，很难负担大规模数据集性。在多视图思想下利用重构误差和约束项建立的运行。为此采用文献20]中方法进行快速度矩采用地标点的多视图聚类模型目标函数：阵计算D"=diag(亿r2),其中2是第k个元素为 2第k行元素之和的m×1向量，该计算度矩阵的 min∑K-A'(Z2+az (3) 时间复杂度为O(nm),相比O(nm)有了巨大提升。拉普拉斯矩阵表示为 st.0≤Z",(Z)T1=1. L"=D-122r2D-1n 式中：V为从不同来源或者利用不同收集方式获 (7) 得到S"=2D-,再联合各个视图以获得具取到的视图总个数；、A"、Z分别为第v个视图的原始数据矩阵、地标点矩阵、相似度矩阵。因有互补性与一致性的多视图蕴涵的丰富信息：为无需设置近邻点，该形式生成的相似度矩阵不再受困于只能捕获到数据的局部分布这一桎梏， (8) 并能完整感知数据从而保留数据的全局结构。可 2.2联合优化框架以看出，与式(2)相比，对于每个视图，本方法只由于对S进行特征向量分解而获得类指示矩需在mm个数据点之间计算相似度矩阵而非传统阵需要花费至少O(k)的时间，当面临样本数n极

k Z ∈ R n×m 的子集，每个子集中的点作为地标点来逼近原数据集，引入近邻点来度量点对之间的局部亲和力。利用地标点与原数据来构造一个稀疏相似度矩阵 : Zi j =    Kδ ( xi , aj ) ∑ j ′∈⟨i⟩ Kδ ( xi , aj ′ ) , j ∈ ⟨i⟩ 0, 其他 (2) ⟨i⟩ xi r(r < m) Kδ (·) = exp( −ρ 2 (xi , aj)/2δ 2 ) δ δ 式中：表示的个最近邻地标点；是带宽参数为的常用高斯核函数；控制每个数据点的局部邻域大小。 r 然而此启发式策略存在一个总是被忽略的固有缺点，即所构建的图形质量很大程度依赖于指数函数和近邻点个数的选择，因此，下游任务可能会受到负面影响。 2 结合地标点与自编码的快速多视图聚类算法 2.1 图形构造 K K K PageRank wpr m 大规模数据集中存在很多冗余数据，少量样本完全满足重建子空间的需求。传统的地标点选择方法有文献 [15] 中的随机抽样和使用均值中心点作为地标点的方法。但是随机抽样可能导致地标点彼此过于靠近，这可能导致邻域重叠。而采用均值中心作为地标点的方法运行时间过长且当数据规模极大，超出系统的内存时，均值聚类算法需要不断地执行读取操作[17]。因此，本文采用文献 [18] 中的加权算法来为每个视图选择值最高的个样本点作为地标点。为了避免式 (2) 形式生成相似度矩阵的不足之处，本文在多视图聚类框架下采取直接从数据生成相似度矩阵的方法，该方法不仅能揭示数据低维结构，还对噪声和数据规模有着极强的鲁棒性。在多视图思想下利用重构误差和约束项建立采用地标点的多视图聚类模型目标函数： min Z v ∑V v=1 X v − A v (Z v ) T2 F +αZ v2 F s.t. 0 ⩽ Z v ,(Z v ) T 1 = 1. (3) V X v A v Z v v mn 式中：为从不同来源或者利用不同收集方式获取到的视图总个数；、、分别为第个视图的原始数据矩阵、地标点矩阵、相似度矩阵。因为无需设置近邻点，该形式生成的相似度矩阵不再受困于只能捕获到数据的局部分布这一桎梏，并能完整感知数据从而保留数据的全局结构。可以看出，与式 (2) 相比，对于每个视图，本方法只需在个数据点之间计算相似度矩阵而非传统 n 子空间聚类中的 2个数据点。对于大规模数据集来说，此举可在利用多视图一致性与互补性确保聚类精度的同时使复杂度显著降低。 φ : R D → H H n X v = [x v 1 x v 2 ··· x v n ] 由于现实世界中数据的固有结构呈现出普遍非线性状态[19] ，将式 (3) 扩展到核空间中进行。定义为从原始输入空间到核希尔伯特空间的映射，对于每个包含个样本点的视图，其变换后形式为 φ(X v ) = [φ ( x v 1 ) φ ( x v 2 ) ··· φ ( x v n ) ] m A v = [a v 1 a v 2 ··· a v m ] 由个地标点构成的强代表性数据矩阵的变换后形式为 φ(A v ) = [ φ( a v 1 ) φ(a v 2 ) ··· φ(a v m )] 核函数定义为 K(xi,xj) =< φ(xi),φ( xj ) > 则式 (3) 可转变为 min Z v tr( K v −2K vZ v + Z vTK vZ v ) +αZ v2 F s.t. Z vT 1 = 1,0 ⩽ Z v ⩽ 1 (4) φ(x) φ(a) x a 通过求解式 (4) 可以捕获到与间的线性稀疏关系，即样本点与地标点间的非线性关系。将式 (4) 按列重新写出： min Z v i K v ii −2K v i,:Z v i + Z v i TK vZ v i +αZ v i T Z v i s.t. Z v i T 1 = 1,0 ⩽ Z v i ⩽ 1 (5) Z v 进而式 (5) 可转变成为二次型形式 (6)，从而能直接通过凸二次规划函数求解得到各个视图的由数据直接生成的相似度矩阵： min Z v i Z v i T (αI+ K v ) Z v i −2K v i,:Z v i s.t. Z v i T 1 = 1,0 ⩽ zi j ⩽ 1 (6) Z v n×n Z v S v = Zˆ vZˆ vT Z v D v O ( n 2m ) D v = diag( Zˆ vT Zˆ vs) Zˆ vs Zˆ v m×1 O(nm) O ( n 2m ) 因为所获得的的大小不为，不能直接对进行后续谱聚类操作，在每个视图上求取双随机相似度矩阵，该形式比能更多地保留数据局部结构，然而利用传统方法计算度矩阵需消耗时间，很难负担大规模数据集的运行。为此采用文献 [20] 中方法进行快速度矩阵计算，其中是第 k 个元素为第 k 行元素之和的向量，该计算度矩阵的时间复杂度为，相比有了巨大提升。拉普拉斯矩阵表示为 L v = D v−1/2 Zˆ vT Zˆ v D v−1/2 (7) S v = bZ v D 得到 v−1/2 ，再联合各个视图以获得具有互补性与一致性的多视图蕴涵的丰富信息： S = ∑ v S v v (8) 2.2 联合优化框架 S O ( n 2 k ) n 由于对进行特征向量分解而获得类指示矩阵需要花费至少的时间，当面临样本数极第 2 期马睿，等：结合地标点与自编码的快速多视图聚类网络 ·335·

·336· 智能系统学报第17卷为庞大的大规模数据集时，特征分解步骤将耗时示h;和聚类中心c,的梯度计算公式为巨大从而降低算法可用性。由文献[2]可知谱聚类的本质是寻求样本空间标准相似度矩阵的最小 =2∑1+k-cp,-9wa-c (14) =1 重构误差的过程，这与自编码器的核心思想高度一致，且利用自编码器替代拉普拉斯矩阵特征分 =221+h,-c'a-pa,-c） (15) =1 解只需消耗样本数n的线性次方时间。因此将给定m为小批量样本数，为学习速率，编码 S作为自编码器的输入来替代特征分解，通过编器权重M1、译码器权重M2、聚类中心c,的更新公码和解码重构学习低维嵌入形式数据。式分别为自编码器是一种利用非线性变换函数将原始输入x:映射到低维嵌入空间，获得嵌入表示， (16) 再通过另一映射函数gw对h进行解码重构，通过最小化原始输入x,与嵌入表示h,的重构输出y:之 M=M,-1/aL, 间的重构损失L,来迭代更新的人工神经网络， maM, (17) 其均值误差测量形式目标函数为 :-%m 62 (18) (9) 当连续两次更新的类标签分配之间的变化率文献[15]同样利用自编码器来配合聚类，然小于给定的阈值6时迭代停止。而其仅在聚类步骤前简单叠加无监督深度学习框 23算法流程图架，这样形成的低维嵌入空间可能反而会损坏聚结合地标点与自编码的快速多视图聚类网络类分配效果。为此本文将聚类步骤和表示学习统算法流程如图1所示。到一个基于KL散度的利用损失函数迭代更新开始自编码器参数{M1、M2:0、}和聚类中心c,的联合学习框架中，从而能联合优化聚类标签的分配从文件中读取多视图数据和特征的学习，也使位于自编码器隐藏层的低维特征能够最大限度的保留原始数据的固有局部结根据加权PageRank选择出构。将聚类损失目标函数定义为每个视图的m个地标点 4.=KL(nIQ)=∑∑p,log (10) qii 根据式（⑥）利用凸二次规划函数式中：Q为由t-SNE测量的软标签的分布；P为由直接生成多个视图的相似度矩阵 Q导出的目标分布。KL散度衡量了两种不同分根据式(8)生成多个视图的布之间的差异性，若对其进行最小化则能使得目共识相似度矩阵标分布P能够尽可能接近聚类输出分布Q。9表示根据t-SNE测量得到的嵌入表示h,与聚类中心使用共识相似度矩阵作为堆叠 c,的相似程度，其表达式如下：自编码器的输入 (1+h:-c) qi (11) ∑1+h-c7 在隐藏层初始化聚类中心 P则是由q确定的目标分布：根据式(16)~(18)更新自编码器参数和聚类中心 /∑u Py= ∑所∑ (12) 类标签分配变化率是否小于给定阈值因此，总体的优化目标函数为 Y L=L+λL (13) 其中，A(0<A<1)为控制嵌入空间失真程度的平衡结束参数。则根据mini-batch随机梯度算法反向传播图1所提算法流程图逐层训练网络后计算出的聚类损失L关于嵌入表 Fig.1 Flow chart of the proposed algorithm

n S 为庞大的大规模数据集时，特征分解步骤将耗时巨大从而降低算法可用性。由文献 [21] 可知谱聚类的本质是寻求样本空间标准相似度矩阵的最小重构误差的过程，这与自编码器的核心思想高度一致，且利用自编码器替代拉普拉斯矩阵特征分解只需消耗样本数的线性次方时间。因此将作为自编码器的输入来替代特征分解，通过编码和解码重构学习低维嵌入形式数据。 fi xi hi gw’ hi xi hi yi Lr 自编码器是一种利用非线性变换函数将原始输入映射到低维嵌入空间，获得嵌入表示，再通过另一映射函数对进行解码重构，通过最小化原始输入与嵌入表示的重构输出之间的重构损失来迭代更新的人工神经网络[14] ，其均值误差测量形式目标函数为 Lr = ∑n i=1 xi −gw’ (fi) 2 2 (9) {M1、M2；θ1、θ2} cj 文献 [15] 同样利用自编码器来配合聚类，然而其仅在聚类步骤前简单叠加无监督深度学习框架，这样形成的低维嵌入空间可能反而会损坏聚类分配效果。为此本文将聚类步骤和表示学习统一到一个基于 KL 散度的利用损失函数迭代更新自编码器参数和聚类中心的联合学习框架中，从而能联合优化聚类标签的分配和特征的学习，也使位于自编码器隐藏层的低维特征能够最大限度的保留原始数据的固有局部结构。将聚类损失目标函数定义为 Lc = KL(P| |Q) = ∑ i ∑ j pi jlog pi j qi j (10) Q P Q P Q qi j hi cj 式中：为由 t-SNE 测量的软标签的分布；为由导出的目标分布。KL 散度衡量了两种不同分布之间的差异性，若对其进行最小化则能使得目标分布能够尽可能接近聚类输出分布。表示根据 t-SNE 测量得到的嵌入表示与聚类中心的相似程度[14] ，其表达式如下： qi j = (1+ hi − cj) −1 ∑ j (1+ hi − cj 2 ) −1 (11) pi j 则是由 qi j 确定的目标分布： pi j = q 2 i j/ ∑ i qi j ∑ j (q 2 i j/ ∑ i qi j) (12) 因此，总体的优化目标函数为 L = Lc +λLr (13) λ(0 < λ < 1) Lc 其中，为控制嵌入空间失真程度的平衡参数。则根据 mini-batch 随机梯度算法反向传播逐层训练网络后计算出的聚类损失关于嵌入表示 hi和聚类中心 cj 的梯度计算公式为 ∂Lc ∂hi = 2 ∑k j=1 ( 1+ hi − cj 2 )−1 ( pi j −qi j) (hi − cj ) (14) ∂Lc ∂cj = 2 ∑k j=1 ( 1+ hi − cj 2 )−1 ( qi j − pi j) (hi − cj ) (15) m η M1 M2 cj 给定为小批量样本数，为学习速率，编码器权重、译码器权重、聚类中心的更新公式分别为 M1 = M1 − η m ∑m i=1 ( ∂Lc ∂M1 +λ ∂Lr ∂M1 ) (16) M2 = M2 − η m ∑m i=1 ( ∂Lr ∂M2 ) (17) cj = cj − η m ∑m i=1 ( ∂Lc ∂cj ) (18) δ 当连续两次更新的类标签分配之间的变化率小于给定的阈值时迭代停止。 2.3 算法流程图结合地标点与自编码的快速多视图聚类网络算法流程如图 1 所示。开始从文件中读取多视图数据根据式 (6) 利用凸二次规划函数直接生成多个视图的相似度矩阵根据式 (8) 生成多个视图的共识相似度矩阵使用共识相似度矩阵作为堆叠自编码器的输入在隐藏层初始化聚类中心根据式 (16) ~ (18) 更新自编码器参数和聚类中心类标签分配变化率是否小于给定阈值结束根据加权 PageRank 选择出每个视图的 m 个地标点 N Y 图 1 所提算法流程图 Fig. 1 Flow chart of the proposed algorithm ·336· 智能系统学报第 17 卷

第2期马容，等：结合地标点与自编码的快速多视图聚类网络 ·337· 2.4算法复杂度分析 techl01-7/20、NUS-WIDE-Object (NUS)五个大规当有v个视图，每个视图有n个样本点，每个视模的多视图数据集进行实验，每个数据集样本点图的地标点个数为m时：1)利用加权PageRank算法数都在1000以上，表2为5个大规模多视图数据为每个视图进行地标点选择，因此本文地标点选集的详细介绍，其中V为多视图数据集的视图编择步骤的时间复杂度为O(vmm),t为生成每个样本号。本文算法实验是在python3..7运行，计算机配点的wpr的迭代次数；2)构造多个视图的相似度置为Intel Core i5CPU1.6GHz、4GB内存，操作系矩阵，DiMSC和FMR等多视图子空间聚类方法统为macOS Catalina. 由于未进行1)地标点选择，在2)中DiMSC和表2数据集介绍 FMR算法构造的每个视图的自表示矩阵图形大 Table 2 Description of the datasets 小均为n×m,二者的计算复杂度分别为O(Tvm3+vdm2)、 100leaves Handwritten Caltech101-7/20 NUS O(T(L+1)(m3+k2),其中L表示FMR算法中涉及 64 216 48 65 的梯度下降法的迭代次数，T为DiMSC、FMR算 64 76 40 226 法总迭代次数。当数据规模n很大时，L、T<m,因 64 64 254 145 此DiMSC和FMR算法步骤2)的计算复杂度均 4 6 1984 74 可视为O(n),这远远高于本文算法的m×n(m《n) 5 240 512 129 图形的计算复杂度O(mm)。3)聚类步骤，DiM- 6 47 928 SC和FMR算法的步骤3)采用常规谱聚类，涉及 1600 2000 1474/2386 30000 到2图的拉普拉斯矩阵特征分解，需要消耗 100 10 7/20 31 O()的时间复杂度，且存储开销极大。而所提算法采用自编码器替代拉普拉斯矩阵特征分解步将本文方法所得聚类结果与样本真实标签进骤，自编码器参数和聚类中心联合更新，仅需行比较，利用聚类准确率(ACC)、标准化互信息 O(nD2+ndk)的时间，其中D为自编码器隐藏层的 (NM)和运行时间(Time)来作为性能评估指标，最大单元数，d为自编码器中间层的维数，k为簇 ACC和NMI取值均在O~1,值越大说明聚类性能数，与此同时存储开销也被大大降低。因为通常越佳，运行时间越短说明算法越具有普遍适用 k《d《D,所以本文所提算法的总体时间复杂度性，即越适用于大规模数据集。为O(vtpm+vmm3+nD)。可以看出，本文提出的采 3.2数据集及对比算法用地标点的快速多视图聚类网络的总体时间复杂为证明本文提出的算法的有效性，将其分别度为样本点数n的线性次方，而DiMSC和FMR聚与单视图聚类算法和多视图聚类算法进行对比，类算法的总体时间复杂度为样本点数n的三次对比单视图聚类算法分别为文献[21]中的传统单方。表1给出了所提算法与多视图聚类算法DMSC、视图谱聚类算法SC和文献[15]中的使用K均值 FMR的时间复杂度对比结果。与通常的多视图进行地标点选择后利用嵌入表示替代拉普拉斯矩聚类算法相比本文算法的效率大大提升，且所需阵分解步骤的SCAL-K,同时与4个近期出现的的存储开销显著降低，从而可更适用于大规模数性能优异的多视图聚类算法DiMSCH、MLRSSC 据集。 MSC IAS!⑧、FMRO进行对比。表1不同方法时间复杂度对比为保证算法对比的公平性，所有对比算法都 Table 1 Complexity analysis of different methods 遵从算法原论文的实验设置，并调试参数获得其算法步骤1 步骤2 步骤3 总体最优值。文献[I5]中的SCAL-K算法及本文算法 DiMSC O(Tvn+vdn2) O(n3) O(n) 的自编码器部分的编码器维度设置为p-500-500- FMR O(T(L+1)(n3+km2) O(n) O(n) 2000-10,解码器部分为编码器的镜像，最小批量本文O(vtn) O(vnm) O(nD2+ndk)O(n) 样本数设置为256，初始学习速率n设为0.1，停止阈值设置为h=103,并把控制嵌入空间失真程度 3实验与结果分析的平衡参数A设置为0.1。对于两个单视图聚类算法，在数据集的每个视图上运行实验后取多个视 3.1实验环境及评价指标图里的最佳结果展示。为了证明本文所提方法对大规模多视图数据 3.3实验结果分析的适用性，选取100leaves、Handwritten(HW)、Cal- 各个算法在5个数据集上的实验结果如表3~7

2.4 算法复杂度分析 v n m PageRank O(vtmn) t n×n O(T vn3 +vdn2 ) O(T(L+1))( n 3 +kn2 ) L T n L T ≪ n O ( n 3 ) m×n m ≪ n O ( vnm3 ) n 2 O ( n 3 ) O ( nD2 +ndk) D d k k ≪ d ≪ D O ( vtpn+vnm3 +nD2 ) n n 当有个视图，每个视图有个样本点，每个视图的地标点个数为时：1) 利用加权算法为每个视图进行地标点选择，因此本文地标点选择步骤的时间复杂度为，为生成每个样本点的 wpr 的迭代次数；2) 构造多个视图的相似度矩阵，DiMSC 和 FMR 等多视图子空间聚类方法由于未进行 1) 地标点选择，在 2) 中 DiMSC 和 FMR 算法构造的每个视图的自表示矩阵图形大小均为，二者的计算复杂度分别为、，其中表示 FMR 算法中涉及的梯度下降法的迭代次数，为 DiMSC、FMR 算法总迭代次数。当数据规模很大时，、，因此 DiMSC 和 FMR 算法步骤 2) 的计算复杂度均可视为，这远远高于本文算法的 ( ) 图形的计算复杂度。3) 聚类步骤，DiMSC 和 FMR 算法的步骤 3) 采用常规谱聚类，涉及到图的拉普拉斯矩阵特征分解，需要消耗的时间复杂度，且存储开销极大。而所提算法采用自编码器替代拉普拉斯矩阵特征分解步骤，自编码器参数和聚类中心联合更新，仅需的时间，其中为自编码器隐藏层的最大单元数，为自编码器中间层的维数，为簇数，与此同时存储开销也被大大降低。因为通常，所以本文所提算法的总体时间复杂度为。可以看出，本文提出的采用地标点的快速多视图聚类网络的总体时间复杂度为样本点数的线性次方，而 DiMSC 和 FMR 聚类算法的总体时间复杂度为样本点数的三次方。表 1 给出了所提算法与多视图聚类算法 DiMSC、 FMR 的时间复杂度对比结果。与通常的多视图聚类算法相比本文算法的效率大大提升，且所需的存储开销显著降低，从而可更适用于大规模数据集。表 1 不同方法时间复杂度对比 Table 1 Complexity analysis of different methods 算法步骤1 步骤2 步骤3 总体 DiMSC — O(T vn3 +vdn2 ) O ( n 3 ) O ( n 3 ) FMR — O(T(L+1))( n 3 +kn2 ) O ( n 3 ) O ( n 3 ) 本文 O(vtmn) O ( vnm3 ) O ( nD2 +ndk) O(n) 3 实验与结果分析 3.1 实验环境及评价指标为了证明本文所提方法对大规模多视图数据的适用性，选取 100leaves、Handwritten（HW）、CalV tech101-7/20、NUS-WIDE-Object (NUS) 五个大规模的多视图数据集进行实验，每个数据集样本点数都在 1 000 以上，表 2 为 5 个大规模多视图数据集的详细介绍，其中为多视图数据集的视图编号。本文算法实验是在 python3.7 运行，计算机配置为 Intel Core i5CPU 1.6 GHz、4 GB 内存，操作系统为 macOS Catalina。表 2 数据集介绍 Table 2 Description of the datasets V 100leaves Handwritten Caltech101-7/20 NUS 1 64 216 48 65 2 64 76 40 226 3 64 64 254 145 4 — 6 1984 74 5 — 240 512 129 6 — 47 928 — n 1600 2000 1474/2386 30 000 k 100 10 7/20 31 将本文方法所得聚类结果与样本真实标签进行比较，利用聚类准确率 (ACC)、标准化互信息 (NMI) 和运行时间 (Time) 来作为性能评估指标， ACC 和 NMI 取值均在 0~1，值越大说明聚类性能越佳，运行时间越短说明算法越具有普遍适用性，即越适用于大规模数据集。 3.2 数据集及对比算法为证明本文提出的算法的有效性，将其分别与单视图聚类算法和多视图聚类算法进行对比，对比单视图聚类算法分别为文献 [21] 中的传统单视图谱聚类算法 SC 和文献 [15] 中的使用 K 均值进行地标点选择后利用嵌入表示替代拉普拉斯矩阵分解步骤的 SCAL-K，同时与 4 个近期出现的性能优异的多视图聚类算法 DiMSC[4] 、MLRSSC[6] 、 MSC_IAS[8] 、FMR[10] 进行对比。 η 0.1 h = 10−3 λ 0.1 为保证算法对比的公平性，所有对比算法都遵从算法原论文的实验设置，并调试参数获得其最优值。文献 [15] 中的 SCAL-K 算法及本文算法的自编码器部分的编码器维度设置为 p-500-500- 2000-10，解码器部分为编码器的镜像，最小批量样本数设置为 256，初始学习速率设为，停止阈值设置为，并把控制嵌入空间失真程度的平衡参数设置为。对于两个单视图聚类算法，在数据集的每个视图上运行实验后取多个视图里的最佳结果展示。 3.3 实验结果分析各个算法在 5 个数据集上的实验结果如表 3~7 第 2 期马睿，等：结合地标点与自编码的快速多视图聚类网络 ·337·

点击进入文档下载页（PDF格式）

共8页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录