第12卷第6期 智能系统学报 Vol.12 No.6 2017年12月 CAAI Transactions on Intelligent Systems Dec.2017 D0:10.11992/tis.201703031 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20171109.1250.004.html 多视角模糊双加权可能性聚类算法 蒋亦樟,朱丽,刘丽2,王士同 (1.江南大学数字煤体学院,江苏无锡214122,2.江苏信息职业技术学院物联网工程学院,江苏无锡214153) 摘要:为解决传统可能性聚类算法(P℃M)无法满足多视角学习场景聚类的实际问题,并进一步考虑到现有多视角 聚类算法尚未重视的视角权重及视角内特征权重优化问题,本文提出一种新的具备最佳视角及最优特征划分能力的 多视角模糊双加权可能性聚类算法(MV-FDW-PCM)。该算法将基于传统的PCM算法,给出了详细的多视角聚类 学习框架使得P℃M算法具备多视角聚类能力,进而通过引入视角间模糊加权机制及视角内属性模糊加权机制解决 视角间权重及视角内特征权重优化问题。实验结果表明,所提的MV-FDW-PCM算法在面对多视角聚类问题时较以 往算法具有更佳的聚类效果。 关键词:多视角聚类:视角间模糊加权:视角内属性模糊加权:可能性聚类 中图分类号:TP181文献标志码:A文章编号:1673-4785(2017)06-0806-10 中文引用格式:蒋亦樟,朱丽,刘丽,等.多视角模糊双加权可能性聚类算法.智能系统学报,2017,12(6):806-815. 英文引用格式:JIANG Yizhang,ZHU Li,.LIU Li,etal.Multi-view fuzzy double-weighting possibility clustering algorithmJ. CAAI transactions on intelligent systems,2017,12(6):806-815. Multi-view fuzzy double-weighting possibility clustering algorithm JIANG Yizhang',ZHU Li',LIU Li,WANG Shitong' (1.School of Digital Media,Jiangnan University,Wuxi214122,China;2.School of Internet of Things Engineering,Jiangsu Voca- tional College of Information Technology,Wuxi 214153,China) Abstract:To solve the problem that traditional possibility clustering algorithms(PCM)barely achieve multi-view clus- tering,and considering that the optimization of views and feature weights has not been regarded as important in existing multi-view clustering algorithms,this paper proposes a new multi-view fuzzy double-weighted possibility clustering algorithm(MV-FDW-PCM).The algorithm is based on the traditional PCM algorithm,and it gives a detailed multi- view clustering learning framework,which gives it its own multi-view clustering ability.It realizes the optimization of the weight of view and the feature weight within the view by the introduction of an inter-view fuzzy weighting mechan- ism and an inside-view attribute fuzzy weighting mechanism.The experimental results show that the proposed MV- FDW-PCM algorithm has better clustering performance than the previous algorithms regarding multi-view clustering. Keywords:multi-view clustering;fuzzy weighting between views;fuzzy weighting of attribute within views;possibil- istic clustering 聚类分析作为一种常见的无监督学习数据预处 的不断更新,传统的聚类模式已不再适应新的学习 理方法,在数据挖掘、文件恢复、图像分割及模式分 场景,如多视角学习场景11、迁移学习场景6则 类等领域有着广泛的应用基础。随着现代技术发展 多任务学习场景1及子空间学习场景21等。本文 将主要关注多视角学习场景,进而针对传统聚类模 收稿日期:2017-03-23.网络出版日期:2017-11-09. 基金项目:国家自然科学基金项目(61300151.61702225):江苏省 型如何在多视角学习场景下更好地学习优化及应用 自然科学基金项目(BK20160187):中央高校基本科研 业务费基金项目(USRPI1737. 展开探讨。 通信作者:蒋亦樟.E-mail:241519405@qq.com 对于传统聚类方法,主要有以FCM(fuzzy c-
DOI: 10.11992/tis.201703031 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20171109.1250.004.html 多视角模糊双加权可能性聚类算法 蒋亦樟1 ,朱丽1 ,刘丽2 ,王士同1 (1. 江南大学 数字媒体学院,江苏 无锡 214122; 2. 江苏信息职业技术学院 物联网工程学院, 江苏 无锡 214153) 摘 要:为解决传统可能性聚类算法(PCM)无法满足多视角学习场景聚类的实际问题,并进一步考虑到现有多视角 聚类算法尚未重视的视角权重及视角内特征权重优化问题,本文提出一种新的具备最佳视角及最优特征划分能力的 多视角模糊双加权可能性聚类算法(MV-FDW-PCM)。该算法将基于传统的 PCM 算法,给出了详细的多视角聚类 学习框架使得 PCM 算法具备多视角聚类能力,进而通过引入视角间模糊加权机制及视角内属性模糊加权机制解决 视角间权重及视角内特征权重优化问题。实验结果表明,所提的 MV-FDW-PCM 算法在面对多视角聚类问题时较以 往算法具有更佳的聚类效果。 关键词:多视角聚类;视角间模糊加权;视角内属性模糊加权;可能性聚类 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2017)06−0806−10 中文引用格式:蒋亦樟, 朱丽, 刘丽, 等. 多视角模糊双加权可能性聚类算法[J]. 智能系统学报, 2017, 12(6): 806–815. 英文引用格式:JIANG Yizhang, ZHU Li, LIU Li, et al. Multi-view fuzzy double-weighting possibility clustering algorithm[J]. CAAI transactions on intelligent systems, 2017, 12(6): 806–815. Multi-view fuzzy double-weighting possibility clustering algorithm JIANG Yizhang1 ,ZHU Li1 ,LIU Li2 ,WANG Shitong1 (1. School of Digital Media, Jiangnan University, Wuxi 214122, China; 2. School of Internet of Things Engineering, Jiangsu Vocational College of Information Technology, Wuxi 214153, China) Abstract: To solve the problem that traditional possibility clustering algorithms (PCM) barely achieve multi-view clustering, and considering that the optimization of views and feature weights has not been regarded as important in existing multi-view clustering algorithms, this paper proposes a new multi-view fuzzy double-weighted possibility clustering algorithm (MV-FDW-PCM). The algorithm is based on the traditional PCM algorithm, and it gives a detailed multiview clustering learning framework, which gives it its own multi-view clustering ability. It realizes the optimization of the weight of view and the feature weight within the view by the introduction of an inter-view fuzzy weighting mechanism and an inside-view attribute fuzzy weighting mechanism. The experimental results show that the proposed MVFDW-PCM algorithm has better clustering performance than the previous algorithms regarding multi-view clustering. Keywords: multi-view clustering; fuzzy weighting between views; fuzzy weighting of attribute within views; possibilistic clustering 聚类分析作为一种常见的无监督学习数据预处 理方法,在数据挖掘、文件恢复、图像分割及模式分 类等领域有着广泛的应用基础。随着现代技术发展 的不断更新,传统的聚类模式已不再适应新的学习 场景,如多视角学习场景[ 1 - 5 ] 、迁移学习场景[ 6 - 9 ] 、 多任务学习场景[10-11]及子空间学习场景[12]等。本文 将主要关注多视角学习场景,进而针对传统聚类模 型如何在多视角学习场景下更好地学习优化及应用 展开探讨。 对于传统聚类方法,主要有以 FCM(fuzzy c- 收稿日期:2017−03−23. 网络出版日期:2017−11−09. 基金项目:国家自然科学基金项目 (61300151,61702225);江苏省 自然科学基金项目 (BK20160187);中央高校基本科研 业务费基金项目 (JUSRP11737). 通信作者:蒋亦樟. E-mail:241519405@qq.com. 第 12 卷第 6 期 智 能 系 统 学 报 Vol.12 No.6 2017 年 12 月 CAAI Transactions on Intelligent Systems Dec. 2017
第6期 蒋亦樟,等:多视角模糊双加权可能性聚类算法 ·807· means)算法31为代表的划分型聚类算法,还有以 PCM算法在面对多视角聚类任务时所存在的问题, AP((affinity propagation)算法a1为代表的图论型聚 最后引出具备最佳视角及最优特征划分能力的多视 类算法等。相对于其他聚类模型,基于划分的聚类 角模糊双加权可能性聚类算法(MV-FDW-PCM)的 算法模型结构简单,优化过程亦不复杂,经常被用 迫切性。 于实际应用。但在以FCM算法为族群的各种基于 L.1传统PCM算法 划分的算法中,如MEC(maximum entropy cluster- 传统PCM算法于1996年被提出。当时模糊 ing,MEC)算法s.a0及PCM(possibilisticc-means)算 C均值聚类FCM算法是模糊聚类算法中最流行 法212等,经实验验证PCM算法较之其他算法具备 的聚类算法之一。随着FCM算法使用的推广,一 更好的噪声及孤立点鲁棒性,因此本文将以经典 些专家学者发现FCM算法中对隶属度的限制条件 PCM算法模型为理论基础开展其在多视角学习场 增大了噪声、例外点对聚类结果的影响。为了消除 景下的模型优化及应用问题的研究。 FCM算法中隶属度之和为1的限制,R.Krishna- 目前针对多视角聚类问题,已有一些代表性的 puram等提出了PCM算法。该算法的优势在于去 工作2被提出,如:1)基于概率论方法的多视角协 除了隶属度之和为1的限制条件,从而降低了噪声 同聚类Co-EM(collaborative expectation maxi- 对聚类精度的影响。PCM算法的目标函数式为 mization)算法;2)基于FCM算法模型的Co-FC (collaborative fuzzy clustering)算法,3)针对Co- JPCM(U,V)= ∑∑gk,-+∑∑-w,) FC算法改进的Co-FKM(collaborative fuzzy k- means)算法,4)Tzortzis等基于核聚类方法提出 sL.0≤≤1,0< ∑<N 的两种多视角聚类算法MVKKM(multi-view kernel (1) k-means)MVSpec(multi-view spectral cluste- 式中:m是模糊系数,参数a,的计算公式为 ring)。尽管上述方法已使得一些传统聚类算法获得 了多视角聚类的能力,但各方法在视角权重和视角 内特征权重优化问题上的考量还是欠缺的,如基于 协同学习思想提出的Co-EM、Co-FC及Co-FKM 求解目标函数式(1)得到隶属度和聚类中心表 算法均未考虑视角权重和视角内特征权重优化问 达式为 题,而MVKKM和MVSpec算法仅管采用了视角权 uii exp (2) 重优化方法但在视角内特征权重优化问题上又未涉 N 及。此外,上述大部分的算法是以FCM算法为基 =) (3) 础提出的,鲁棒性较一般。为此,必须在多视角聚 类领域提出一种新的具备较强鲁棒性及多视角聚类 1.2 PCM算法处理多视角聚类任务 能力且兼顾视角权重及视角内特征权重优化问题的 随着多视角应用场景不断出现,传统聚类算法 新聚类算法。为达此目的,本文拟针对传统PCM 的单视角学习模式的局限性导致其在处理多视角聚 算法开展多视角聚类方面的模型优化工作,本文工 类问题时性能往往无法令人满意。如传统PCM 作的创新主要涵盖以下几点: 算法在处理多视角聚类任务时,其聚类原理如下: 1)针对传统可能性(PCM)算法无法解决多视 将多视角数据中每一个视角数据独立出来,作 角聚类场景的问题,提出了多视角PCM算法: 为多个不相干的样本进行独立聚类分析。具体实施 2)多视角PCM算法各视角之间的视角权重是 时是将各视角的样本直接使用传统PCM算法聚类 一致的,这与客观事实不符。针对各视角之间视角 以分别获取各视角的划分结果U.(0<k≤K),K为视 权重应该不同的问题,引入视角间模糊加权机制; 角数。最后,对多个划分结果进行整合(如使用加 3)多视角PCM算法各视角内的属性权重默认 权平均等策略),最终得到一个划分,进而根据该划 是一致的,这也与客观事实不符。针对各视角内的 分确定样本所归属的类别。传统PCM算法处理多 属性权重应该不同的问题,引入视角内属性模糊加 视角数据的原理图如图1。 权机制。 根据上述分析及图1所示的原理图可以看出, 1相关工作 传统PCM算法在对多视角数据进行聚类任务时, 存在以下问题:1)将各视角数据完全独立开来进行 为了更好地说明本文所提之算法,首先本小节 单独聚类,未考虑各视角间数据的关联性信息;2) 将对传统的PCM算法进行回顾,其次说明传统 对各视角聚类结果进行融合时,未考虑不同视角数
means) 算法[13-16]为代表的划分型聚类算法, 还有以 AP(affinity propagation) 算法[17-18]为代表的图论型聚 类算法等。相对于其他聚类模型,基于划分的聚类 算法模型结构简单,优化过程亦不复杂,经常被用 于实际应用。但在以 FCM 算法为族群的各种基于 划分的算法中,如 MEC(maximum entropy clustering, MEC) 算法[19-20]及 PCM(possibilistic c-means) 算 法 [21-22]等,经实验验证 PCM 算法较之其他算法具备 更好的噪声及孤立点鲁棒性,因此本文将以经典 PCM 算法模型为理论基础开展其在多视角学习场 景下的模型优化及应用问题的研究。 目前针对多视角聚类问题,已有一些代表性的 工作[2-5]被提出,如:1) 基于概率论方法的多视角协 同聚类 Co-EM(collaborative expectation maximization) 算法[2] ;2) 基于 FCM 算法模型的 Co-FC (collaborative fuzzy clustering) 算法[3] ;3) 针对 CoFC 算法改进的 Co-FKM(collaborative fuzzy kmeans) 算法[4] ;4) Tzortzis 等 [5]基于核聚类方法提出 的两种多视角聚类算法 MVKKM(multi-view kernel k-means) 和 MVSpec(multi-view spectral clustering)。尽管上述方法已使得一些传统聚类算法获得 了多视角聚类的能力,但各方法在视角权重和视角 内特征权重优化问题上的考量还是欠缺的,如基于 协同学习思想提出的 Co-EM、Co-FC 及 Co-FKM 算法均未考虑视角权重和视角内特征权重优化问 题,而 MVKKM 和 MVSpec 算法仅管采用了视角权 重优化方法但在视角内特征权重优化问题上又未涉 及。此外,上述大部分的算法是以 FCM 算法为基 础提出的,鲁棒性较一般。为此,必须在多视角聚 类领域提出一种新的具备较强鲁棒性及多视角聚类 能力且兼顾视角权重及视角内特征权重优化问题的 新聚类算法。为达此目的,本文拟针对传统 PCM 算法开展多视角聚类方面的模型优化工作,本文工 作的创新主要涵盖以下几点: 1) 针对传统可能性 (PCM) 算法无法解决多视 角聚类场景的问题,提出了多视角 PCM 算法; 2) 多视角 PCM 算法各视角之间的视角权重是 一致的,这与客观事实不符。针对各视角之间视角 权重应该不同的问题,引入视角间模糊加权机制; 3) 多视角 PCM 算法各视角内的属性权重默认 是一致的,这也与客观事实不符。针对各视角内的 属性权重应该不同的问题,引入视角内属性模糊加 权机制。 1 相关工作 为了更好地说明本文所提之算法,首先本小节 将对传统的 PCM 算法进行回顾,其次说明传统 PCM 算法在面对多视角聚类任务时所存在的问题, 最后引出具备最佳视角及最优特征划分能力的多视 角模糊双加权可能性聚类算法 (MV-FDW- PCM) 的 迫切性。 1.1 传统 PCM 算法 传统 PCM 算法于 1996 年被提出[1]。当时模糊 C 均值聚类 FCM 算法[2]是模糊聚类算法中最流行 的聚类算法之一。随着 FCM 算法使用的推广,一 些专家学者发现 FCM 算法中对隶属度的限制条件 增大了噪声、例外点对聚类结果的影响。为了消除 FCM 算法中隶属度之和为 1 的限制,R.Krishnapuram 等提出了 PCM 算法。该算法的优势在于去 除了隶属度之和为 1 的限制条件,从而降低了噪声 对聚类精度的影响。PCM 算法的目标函数式为 JPCM (U,V) = ∑C i=1 ∑N j=1 u m i j||xj −vi ||2 + ∑C i=1 αi ∑N j=1 ( 1−ui j)m s.t. 0 ⩽ ui j ⩽ 1,0 < ∑N j=1 ui j < N (1) 式中:m 是模糊系数,参数 αi 的计算公式为 αi = K ∑N j=1 ui j||xj −vi ||2 / ∑N j=1 ui j,K = 1 求解目标函数式 (1) 得到隶属度和聚类中心表 达式为 ui j = exp( − ||xj −vi ||2 αi ) (2) vi = ∑N j=1 u m i jxj/ ∑N j=1 u m i j (3) 1.2 PCM 算法处理多视角聚类任务 随着多视角应用场景不断出现,传统聚类算法 的单视角学习模式的局限性导致其在处理多视角聚 类问题时性能往往无法令人满意。如传统 PCM 算法在处理多视角聚类任务时,其聚类原理如下: Uk (0 < k ⩽ K) 将多视角数据中每一个视角数据独立出来,作 为多个不相干的样本进行独立聚类分析。具体实施 时是将各视角的样本直接使用传统 PCM 算法聚类 以分别获取各视角的划分结果 ,K 为视 角数。最后,对多个划分结果进行整合 (如使用加 权平均等策略),最终得到一个划分,进而根据该划 分确定样本所归属的类别。传统 PCM 算法处理多 视角数据的原理图如图 1。 根据上述分析及图 1 所示的原理图可以看出, 传统 PCM 算法在对多视角数据进行聚类任务时, 存在以下问题:1) 将各视角数据完全独立开来进行 单独聚类,未考虑各视角间数据的关联性信息;2) 对各视角聚类结果进行融合时,未考虑不同视角数 第 6 期 蒋亦樟,等:多视角模糊双加权可能性聚类算法 ·807·
·808· 智能系统学报 第12卷 据对聚类结果的差异化影响,即结果的融合策略采 角聚类过程中,各视角下样本特征的权重与视角权 用平均策略不符合客观事实。综上,传统PCM算 重一样也需要得到优化,采用最佳的特征权重关系 法受限于陈旧的聚类模式在处理多视角聚类任务时 将进一步使得聚类结果得到显著提升。 显得不再有效。 60 多视角样本架 40 20 -20 视角视角2视角3 视角 0 -40 -60 2 60 40 40 集成 20 -6 PCMPCMPCM PCM 函数 20-6200204060 30-10103050 (a)3维模拟数据 (b)XY视角 隶属度矩阵 60 50 50 40 40 30 图1传统PCM算法聚类多视角数据原理图 30 20 20 Fig.1 The principle diagram of traditional PCM algorithm 10 clustering multi-view data 0 -10 -20 20 60 -30-10 1030 50 2多视角模糊双加权可能性聚类算法 (c)Y-Z视角 (dX-Z视角 针对传统PCM算法在处理多视角数据聚类任 图2问题描述 务时效果不理想的问题,本节首先提出了多视角 Fig.2 Problem description PCM算法。考虑到实际的多视角聚类问题各视角 本文所用的符号说明如表1所示。 的聚类特性应有差异(如图1所示),因而所设计的 多视角聚类算法对于各视角的权重应根据实际情况 表1符号说明 进行优化获取,为此本节提出了视角间模糊加权机 Table 1 The explanation of some notations 制。又由子空间聚类的原理可知各视角内属性的权 符号 描述 重也应存在一定的差异性,于是本节又提出了视角 隶属度,山代表第弘个视角中第个数据属于 山 第个聚类中心的程度 内属性模糊加权机制。最后,基于上述两个机制, V达 聚类中心,代表第k个视角的第个聚类中心 提出了具备最佳视角及最优特征划分能力的多视角 模糊双加权可能性聚类算法。 沙 第个视角的第个样本 C 聚类数 2.1多视角聚类问题描述 N 样本总数 对于一个多视角聚类问题(如图2所示),其描 D 特征总数 述了一个3维(X维、Y维及Z维)的多视角模拟数 视角总数 据,若任意选择两维进行投影,可将一个3维数据 D 第k个视角数据的维数 变成2维且可视化程度更高的样本(如图2(b)~ m1,12,m3 模糊系数 (d),同理对于4维以上的数据亦可如此。在投影 Cik 第个视角下分歧项所占比重系数 后,可以清晰地发现由X维和Y维组成的X-Y视角 视角隶属度融合项的平衡系数 具备较之其他两视角更好的可分性,其类别结构清 gk 第k个视角所占权重 晰且类与类之间划分亦较为清晰。因此,对于任意 w 第个视角数据的第维属性所占权重 一个多视角聚类问题,各视角的权重应通过优化学 2.2 习得到而并非强制的一致对待。此外,根据子空间 多视角PCM算法 聚类理论可知样本特征的权重对于不同的聚类问 为了让PCM算法能够更好地适应多视角聚类 任务,本文首先提出了多视角PCM算法。该算法 题应是有差异的,这种特征权重的差异性反应到多 的目标函数式如下: 视角聚类问题中将进一步延伸为视角内部各特征的 权重也应是有所差异的,即同样以X-Y视角为例, JMV-rCM(U,V,W,O)= 若将X-Y视角的样本向X轴投影,那么“+”类将与 “*”类严重重叠而不易区分,但若向Y轴投影则得到 22u-nf+2…a-ar 的3类的区分度(可分性)更佳。由此可知,在多视
据对聚类结果的差异化影响,即结果的融合策略采 用平均策略不符合客观事实。综上,传统 PCM 算 法受限于陈旧的聚类模式在处理多视角聚类任务时 显得不再有效。 2 多视角模糊双加权可能性聚类算法 针对传统 PCM 算法在处理多视角数据聚类任 务时效果不理想的问题,本节首先提出了多视角 PCM 算法。考虑到实际的多视角聚类问题各视角 的聚类特性应有差异 (如图 1 所示),因而所设计的 多视角聚类算法对于各视角的权重应根据实际情况 进行优化获取,为此本节提出了视角间模糊加权机 制。又由子空间聚类的原理可知各视角内属性的权 重也应存在一定的差异性,于是本节又提出了视角 内属性模糊加权机制。最后,基于上述两个机制, 提出了具备最佳视角及最优特征划分能力的多视角 模糊双加权可能性聚类算法。 2.1 多视角聚类问题描述 对于一个多视角聚类问题 (如图 2 所示),其描 述了一个 3 维 (X 维、Y 维及 Z 维) 的多视角模拟数 据,若任意选择两维进行投影,可将一个 3 维数据 变成 2 维且可视化程度更高的样本 (如图 2 (b)~ (d)),同理对于 4 维以上的数据亦可如此。在投影 后,可以清晰地发现由 X 维和 Y 维组成的 X-Y 视角 具备较之其他两视角更好的可分性,其类别结构清 晰且类与类之间划分亦较为清晰。因此,对于任意 一个多视角聚类问题,各视角的权重应通过优化学 习得到而并非强制的一致对待。此外,根据子空间 聚类理论[12]可知样本特征的权重对于不同的聚类问 题应是有差异的,这种特征权重的差异性反应到多 视角聚类问题中将进一步延伸为视角内部各特征的 权重也应是有所差异的,即同样以 X-Y 视角为例, 若将 X-Y 视角的样本向 X 轴投影,那么“+”类将与 “*”类严重重叠而不易区分,但若向 Y 轴投影则得到 的 3 类的区分度 (可分性) 更佳。由此可知,在多视 角聚类过程中,各视角下样本特征的权重与视角权 重一样也需要得到优化,采用最佳的特征权重关系 将进一步使得聚类结果得到显著提升。 本文所用的符号说明如表 1 所示。 2.2 多视角 PCM 算法 为了让 PCM 算法能够更好地适应多视角聚类 任务,本文首先提出了多视角 PCM 算法。该算法 的目标函数式如下: JMV-PCM (U,V,W,Q) = ∑K k=1 ∑C i=1 ∑N j=1 [ u˜i j,k,θ xj,k −vi,k 2 ] + ∑C i=1 αi,k ∑N j=1 ( 1−ui j,k )m3 (4) 表 1 符号说明 Table 1 The explanation of some notations 符号 描述 ui j,k 隶属度,ui j,k代表第k个视角中第i个数据属于 第j个聚类中心的程度 vi,k 聚类中心,代表第k个视角的第i个聚类中心 xj,k 第k个视角的第j个样本 C 聚类数 N 样本总数 D 特征总数 K 视角总数 Dk 第k个视角数据的维数 m1,m2,m3 模糊系数 αi,k 第k个视角下分歧项所占比重系数 θ 视角隶属度融合项的平衡系数 qk 第k个视角所占权重 wl,k 第k个视角数据的第l维属性所占权重 䯲 ܩ ڔ ᅬ U 䯢ᆊᏒⴕ䭡 U1 U2 U3 UN …… 㻲㻾 1 㻲㻾 2 㻲㻾 3 㻲㻾 N ๆ㻲㻾ᵣ᱘䯲 PCM PCM PCM PCM … … 图 1 传统 PCM 算法聚类多视角数据原理图 Fig. 1 The principle diagram of traditional PCM algorithm clustering multi-view data −40−200 20 40 60 −20 0 20 40 60 −60 −40 −20 0 20 40 60 X Y Z (a) 3 㐠Ὅ᠋ᢚ −30 −10 10 30 50 −60 −40 −20 0 20 40 60 X X Y −60 −20 20 60 −10 0 10 20 30 40 50 60 Y Z −10 0 10 20 30 40 50 60 Z (b) X-Y 㻲㻾 (c) Y-Z 㻲㻾 (d) X-Z 㻲㻾 −30 −10 10 30 50 图 2 问题描述 Fig. 2 Problem description ·808· 智 能 系 统 学 报 第 12 卷
第6期 蒋亦樟,等:多视角模糊双加权可能性聚类算法 ·809· w=1-+2∑ (5) j:(U.V.Q) 2[22-f s1≤i≤C,1≤jsN1≤k≤K,0≤4≤l,0<∑<N。 2o-wr 式(⑤)为视角隶属度融合项,0为视角隶属度融 (8) 合项的平衡系数。根据式(4)、(⑤)得到每个视角最终 的隶属度矩阵。最终的划分结果用融合函数计算为 =(1-0显+K-之 (9) Ui= (6) 式(9)为视角隶属度融合项,0为视角隶属度融合项 的平衡系数。 2.3视角间模糊加权机制 2.5多视角模糊双加权可能性聚类算法 多视角PCM算法虽然改变了传统PCM算法 在多视角PCM基础上,通过引入视角间模糊 的单视角聚类模型,使其能够解决多视角聚类任 加权以及视角内属性模糊加权两种机制,本文提出 务,但该算法仍未考虑视角间的权重大小应当存在 了具备最佳视角及最优特征划分能力的多视角模糊 差异化的情况。因为现实生产生活中,多视角数据 双加权可能性聚类MV-FDW-PCM算法。该算法 的每一个视角的数据存在聚类特性不相同的情况, 的原理如图4所示。 即有些视角数据的聚类特性较好,有些视角数据的 多视角样本集 聚类特性较差。如果在聚类的过程中,无差别地将 视角更视角重视角3视角 所有视角数据的权重默许一致,这种计算策略显然 集成 是不科学的。考虑到以上因素,本节提出了一种可 MV-FDW-PCM 局 函数 U 行的视角间模糊加权机制。即赋予每一个视角一个 合理的权重且所有视角权重之和为1。该机制的示 隶属度矩阵 意图如图3所示。 U U 视角1 图4MV.FDW-PCM算法聚类多视角数据 Fig.4 The MV-FDW-PCM algorithm clustering multi-view 视角严 data 视角2 算法的目标函数式为 权重2 JMV-EDW-PCM(U,V,W,O)= 视角N (10) ti-r 图3视角间加权机制示意图 (11) Fig.3 The schematic diagram of weighting mechanism be- tween perspectives 视角间加权的表达式为 st含u=l含qm=le0,L0<宫<N.ud i=l [0,1],9k∈[0,1,1≤j≤N,1≤k≤K。 J(0,V,Q)= waU,VW,2》 (7) 由于式(10)采用了属性加权机制以及多视角 =1 隶属度融合机制,所以α的新优化项定义如下: 4e0,1,g4=1,1≤j≤N,1≤ks - k=1 = 2.4视角内属性模糊加权机制 利用拉格朗日最小化目标函数式(10),得到 考虑到各视角内各个属性权重默认相同的情况 聚类中心、隶属度、视角权重以及属性权重的计算 与客观现实不符,本文又提出了视角内属性加权机 式为 制。赋予聚类质量高的属性高的权重,聚类质量较 (12) 差的属性低的权重。具体表达式为
u˜i j,k,θ = (1−θ)u m3 i j,k + θ K −1 ∑K k ′,k,k ′=1 u m3 i j,k ′ (5) 1⩽i⩽ C 1⩽ j⩽ N 1 ⩽ k ⩽ K 0 ⩽ ui j,k ⩽ 1 0 < ∑N j=1 s.t. , , , , ui j,k < N。 式 (5) 为视角隶属度融合项,θ 为视角隶属度融 合项的平衡系数。根据式 (4)、(5) 得到每个视角最终 的隶属度矩阵。最终的划分结果用融合函数计算为 Ui j = K √∏ k∈k ui jk (6) 2.3 视角间模糊加权机制 多视角 PCM 算法虽然改变了传统 PCM 算法 的单视角聚类模型,使其能够解决多视角聚类任 务,但该算法仍未考虑视角间的权重大小应当存在 差异化的情况。因为现实生产生活中,多视角数据 的每一个视角的数据存在聚类特性不相同的情况, 即有些视角数据的聚类特性较好,有些视角数据的 聚类特性较差。如果在聚类的过程中,无差别地将 所有视角数据的权重默许一致,这种计算策略显然 是不科学的。考虑到以上因素,本节提出了一种可 行的视角间模糊加权机制。即赋予每一个视角一个 合理的权重且所有视角权重之和为 1。该机制的示 意图如图 3 所示。 视角间加权的表达式为 J1 (U,V,Q) = ∑K k=1 q m1 k (JMV-PCM (U,V,W,Q)) (7) qk ∈ [0,1] ∑K k=1 s.t. , qk = 1,1 ⩽ j ⩽ N,1 ⩽ k ⩽ K。 2.4 视角内属性模糊加权机制 考虑到各视角内各个属性权重默认相同的情况 与客观现实不符,本文又提出了视角内属性加权机 制。赋予聚类质量高的属性高的权重,聚类质量较 差的属性低的权重。具体表达式为 J2 (U,V,Q) = ∑K k=1 ∑C i=1 ∑N j=1 u˜i j,k,θ∑Dk l=1 w m2 l,k xjl,k −vil,k 2 + ∑C i=1 αi,k ∑N j=1 ( 1−ui j,k )m3 (8) u˜i j,k,θ = (1−θ)u m3 i j,k + θ K −1 ∑K k ′,k,k ′=1 u m3 i j,k ′ (9) 式 (9) 为视角隶属度融合项,θ 为视角隶属度融合项 的平衡系数。 2.5 多视角模糊双加权可能性聚类算法 在多视角 PCM 基础上,通过引入视角间模糊 加权以及视角内属性模糊加权两种机制,本文提出 了具备最佳视角及最优特征划分能力的多视角模糊 双加权可能性聚类 MV-FDW-PCM 算法。该算法 的原理如图 4 所示。 算法的目标函数式为 JMV-FDW-PCM (U,V,W,Q) = ∑K k=1 q m1 k ∑C i=1 ∑N j=1 u˜i j,k,θ∑Dk l=1 w m2 l,k xjl,k −vil,k 2 + ∑C i=1 αi,k ∑N j=1 ( 1−ui j,k )m3 (10) u˜i j,k,θ = (1−θ)u m3 i j,k + θ K −1 ∑K k ′,k,k ′=1 u m3 i j,k ′ (11) ∑Dk l=1 wl,k = 1 ∑K k=1 qk = 1 µi j,k ∈ [0,1] 0 < ∑N j=1 ui j,k < N wl,k ∈ [0,1] qk ∈ [0,1] 1 ⩽ j ⩽ N 1 ⩽ k ⩽ K s.t. , , , , , , , 。 αi,k 由于式 (10) 采用了属性加权机制以及多视角 隶属度融合机制,所以 的新优化项定义如下: αi,k = G ∑N j=1 u˜i j,k,θ∑Dk l=1 w m2 l,k xjl,k −vil,k 2 / ∑N j=1 u˜i j,k,θ,G = 1。 利用拉格朗日最小化目标函数式 (10),得到 聚类中心、隶属度、视角权重以及属性权重的计算 式为 vil,k = ∑N j=1 u˜i j,k,θw m2 l,k xjl,k/ ∑N j=1 u˜i j,k,θw m2 l,k (12) ᱯ䛹 1 ᱯ䛹 2 ᱯ䛹 N 㻲㻾V′ 㻲㻾 1 㻲㻾 2 㻲㻾 N … 图 3 视角间加权机制示意图 Fig. 3 The schematic diagram of weighting mechanism between perspectives 䯲 ۟も ܩ ڔ ᅬ U 䯢ᆊᏒⴕ䭡 U1 U2 U3 …… UN 㻲㻾 1 㻲㻾 2 㻲㻾 3 ๆ㻲㻾ᵣ᱘䯲 MV-FDW-PCM …㻲㻾 N 图 4 MV- FDW -PCM 算法聚类多视角数据 Fig. 4 The MV- FDW -PCM algorithm clustering multi-view data 第 6 期 蒋亦樟,等:多视角模糊双加权可能性聚类算法 ·809·
·810· 智能系统学报 第12卷 (13) (-02wlu-a+ 1+ ik 1 g= (14) 2a立(1-4) =1j=1 =1 +∑a∑(1-) =1 WL= (15) 3 实验与分析 2au-a 3.1实验环境及实验参数设置 C N 为了验证本文所提MV-FDW-PCM算法的性 最终的划分结果用式(16)融合函数进行计算: 能,本文在以下几个数据集上进行了实验分析,实 U,=∑4r 验数据集分别是:UCI标准数据集、Brodatz纹理图 (16) 像2以及一组关于我实验室老师的真实人脸图像的 MV-FDW-PCM算法步骤如下: 实际应用效果展示。实验采用的对比算法主要有: 1)给定聚类数C,样本总数N,视角总数K,聚 经典的适用于单视角聚类环境的可能性C均值聚 类精度c,最大迭代次数T,模糊系数m1,m2,m,初 类算法PCM(Possibilistic c-means)、具备多视角模糊 始化隶属度矩阵U和聚类中心: 聚类性能的协同模糊K均值算法CoFKM(Colla- 2)根据式(12)更新聚类中心: 3)根据式(13)更新隶属度: borative fuzzy K-means)、具备聚类任务组合能力的 4)根据式(14)更新视角间权重系数: K均值算法CombKM2(Combine K-means)、具有多 5)根据式(15)更新视角内属性权重系数; 视角聚类算法代表性的多视角谱聚类算法MVSpec 6)当IU(t+1)-U()训<ε或迭代次数达到最大迭 (Multi-view spectral clustering)。所有实验运行平台 代次数T时,算法运行终止,否则,返回2): 的配置如下:酷睿i33.6 GHz CPU,3.42GRAM,32位 7)算法收敛后,输出各视角的隶属度矩阵W: Windows7操作系统,MATLAB R2012b编程环境。 8)利用式(16)计算出最终的划分结果。 本文算法的评价指标如表2所示。 表2评价指标 Table 2 The evaluation index 评价指标 表达式 注释 Nuj logN-NuI N:-N N为第i个聚类与类j的契合程度,N为第i个聚类所包含的数 NMI ∑N:log N:/W.∑N;log N/N 据样本量,N,为类j所包含的数据样本量,N为样本总量 foo+fu 0为样本具有不同的类标签且属于不同类的配对数目,:则为样 RI N(W-1)/2 本具有相同的类标签且属于同一类的配对数目,N为样本总量 表中两种评价指标分别为归一化互信息(nor 中指数p通过从{1,1.1,…,1.9,2,3,…,6,7}中进行 malized mutual information,NM)和芮氏指标(rand 网络搜索来设置最优值。实验结果均为算法运行 index,.RI),这两种指标为常用的评价聚类结果评价 20次的平均值与均方差,因此实验结果部分对应的 指标四,其取值范围均在0,1儿,指标数值越大(越 NM-mean、NMl-std、RI-mean、RI-std分别为NM 接近1),代表该算法的性能表现越好。 和RI指标在20次运行后所得结果的均值和方差。 实验中相关参数设置如下:本文MV-FDW- 3.2UCI标准数据实验 PCM算法中参数m1,m2,m3均在{1.1,1.3,1.5,1.7, 本文使用了UCI数据集中经典的4种多视角 1.9,2.5}中寻优取得,参数0设为1。MVSpec算法 表达的数据集,分别是手写数据集(MF)、图像分割
ui j,k = 1 1+ (1−θ) ∑Dk l=1 w m2 l,k xjl,k −vil,k 2 + θ K−1 ∑K k ′,k,k ′=1 ∑Dk l=1 w m2 l,k ′ xjl,k ′ −vil,k ′ 2 αi,k 1 m 3 −1 (13) qk = 1 ∑K h=1 ( ∑C i=1 ∑N j=1 [ u˜i j,k,θ ∑Dr l=1 w m2 l,k xjl,k −vil,k 2 ] + ∑C i=1 αi,k ∑N j=1 ( 1−ui j,k )m3 ) ( ∑C i=1 ∑N j=1 [ u˜i j,h,θ ∑Dr l=1 w m2 l,h xjl,h −vil,h 2 ] + ∑C i=1 αi,k ∑N j=1 ( 1−ui j,k )m3 ) 1 m 1 −1 (14) wl,k = 1 ∑dk h=1 ∑C i=1 ∑N j=1 ( u˜i j,k,θ xjl,k −vil,k 2 ) ∑C i=1 ∑N j=1 ( u˜i j,k,θ xjh,k −vih,k 2 ) 1 m 2 −1 (15) 最终的划分结果用式 (16) 融合函数进行计算: Ui j = ∑K k=1 qkui j,k (16) MV-FDW-PCM 算法步骤如下: 1) 给定聚类数 C,样本总数 N,视角总数 K,聚 类精度 ε,最大迭代次数 T,模糊系数 m1,m2,m3,初 始化隶属度矩阵 U 和聚类中心 V; 2) 根据式 (12) 更新聚类中心; 3) 根据式 (13) 更新隶属度; 4) 根据式 (14) 更新视角间权重系数; 5) 根据式 (15) 更新视角内属性权重系数; 6) 当 ∥U(t+1)−U(t)∥ < ε 或迭代次数达到最大迭 代次数 T 时,算法运行终止,否则,返回 2); 7) 算法收敛后,输出各视角的隶属度矩阵 uij,k; 8) 利用式 (16) 计算出最终的划分结果。 3 实验与分析 3.1 实验环境及实验参数设置 为了验证本文所提 MV-FDW-PCM 算法的性 能,本文在以下几个数据集上进行了实验分析,实 验数据集分别是: UCI 标准数据集、Brodatz 纹理图 像 [23]以及一组关于我实验室老师的真实人脸图像的 实际应用效果展示。实验采用的对比算法主要有: 经典的适用于单视角聚类环境的可能性 C 均值聚 类算法 PCM(Possibilistic c-means)、具备多视角模糊 聚类性能的协同模糊 K 均值算法 CoFKM[4] (Collaborative fuzzy K-means)、具备聚类任务组合能力的 K 均值算法 CombKM[24] (Combine K-means)、具有多 视角聚类算法代表性的多视角谱聚类算法 MVSpec[5] (Multi-view spectral clustering)。所有实验运行平台 的配置如下:酷睿 i3 3.6 GHz CPU,3.42G RAM,32 位 Windows 7 操作系统,MATLAB R2012b 编程环境。 本文算法的评价指标如表 2 所示。 表中两种评价指标分别为归一化互信息 (normalized mutual information,NMI) 和芮氏指标 (rand index,RI),这两种指标为常用的评价聚类结果评价 指标[5, 12] ,其取值范围均在[0, 1],指标数值越大 (越 接近 1),代表该算法的性能表现越好。 实验中相关参数设置如下:本文 MV-FDWPCM 算法中参数 m1,m2,m3 均在{1.1, 1.3, 1.5, 1.7, 1.9, 2.5}中寻优取得,参数 θ 设为 1。MVSpec 算法 中指数 p 通过从{1, 1.1, ···, 1.9, 2, 3, ···, 6, 7}中进行 网络搜索来设置最优值。实验结果均为算法运行 20 次的平均值与均方差, 因此实验结果部分对应的 NMI-mean、NMI-std、RI-mean、RI-std 分别为 NMI 和 RI 指标在 20 次运行后所得结果的均值和方差。 3.2 UCI 标准数据实验 本文使用了 UCI 数据集中经典的 4 种多视角 表达的数据集,分别是手写数据集 (MF)、图像分割 表 2 评价指标 Table 2 The evaluation index 评价指标 表达式 注释 NMI ∑C i=1 ∑C j=1 Ni, j logN ·Ni, j /Ni ·Nj √ ∑C i=1 Ni logNi /N · ∑C j=1 Nj logNj /N Ni, j 为第 i 个聚类与类 j 的契合程度,Ni 为第 i 个聚类所包含的数 据样本量,Nj 为类 j 所包含的数据样本量,N为样本总量 RI f 00 + f 11 N(N −1)/2 f00 为样本具有不同的类标签且属于不同类的配对数目,f11 则为样 本具有相同的类标签且属于同一类的配对数目,N 为样本总量 ·810· 智 能 系 统 学 报 第 12 卷