第15卷第5期 智能系统学报 Vol.15 No.5 2020年9月 CAAI Transactions on Intelligent Systems Sep.2020 D0:10.11992/tis.201810028 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.tp.20190520.1631.016.html 可能性匹配知识迁移原型聚类算法 聂飞',高艳丽2,邓赵红,王士同 (1.江南大学数字媒体学院,江苏无锡214122:2.江南计算机技术研究所,江苏无锡214083) 摘要:针对迁移原型聚类的优化问题,本文以模糊知识匹配迁移原型聚类为基础,介绍了聚类场景中从源域 到目标域的迁移学习机制,明确了源域聚类中心辅助目标域得到更好的聚类效果。但目前此类迁移机制依然 面临如下的挑战:1)如何克服已有迁移原型聚类方法中不同类别间的知识强制性匹配带来的负作用。2)当源 域与目标域相似度较低时,如何避免模糊强制性匹配的不合理性以及过于依赖源域知识的缺陷被放大。为此, 研究了一种新的迁移原型聚类机制,即可能性匹配知识迁移原型机制,并基于此实现了2个具体的迁移聚类算 法。借鉴可能性匹配的思想,该算法可以自动选择和偏重有用的源域知识,克服了源域和目标域之间的强制性 匹配限制,具有较好的可调节性。研究结果表明:在不同迁移场景下模拟数据集和真实NG20 groups数据集上 的实验研究表明,提出的算法较已有的相关算法展现了更好的性能。 关键词:迁移原型聚类:迁移学习机制:强制性匹配;可能性匹配:原型聚类;可调节性 中图分类号:TP181 文献标志码:A文章编号:1673-4785(2020)05-0978-12 中文引用格式:聂飞,高艳丽,邓赵红,等.可能性匹配知识迁移原型聚类算法.智能系统学报,2020,15(⑤):978-989. 英文引用格式:NIE Fei,,GAO Yanli,DENG Zhaohong,etal.Possibility-matching based knowledge transfer prototype clustering algorithm[Jl.CAAI transactions on intelligent systems,2020,15(5):978-989. Possibility-matching based knowledge transfer prototype clustering algorithm NIE Fei',GAO Yanli',DENG Zhaohong',WANG Shitong (1.School of Digital Media,Jiangnan University,Wuxi 214122,China;2.Jiangnan Institute of Computing Technology,Wuxi 214083,China) Abstract:Aiming at the optimization problem of migration prototype clustering,this paper introduces a migration learn- ing mechanism from the source domain to the target domain in the clustering scene,considering fuzzy knowledge matching migration prototype clustering,and clarifies that the source domain clustering center assists the target domain to obtain better clustering effect.However,this method still faces the following challenges:1)how to overcome the neg- ative effect brought by knowledge matching among different classes in existing transfer prototype clustering methods. 2)when the similarity between the source domain and target domain is low,how to avoid the irrationality of fuzzy man- datory matching and the magnification of the defect of overdependence on knowledge from the source domain.There- fore,a new transfer prototype clustering mechanism called possibility matching-based knowledge transfer prototype clustering algorithm is proposed,and two transfer prototype clustering algorithms are further presented.Referring to the idea of possibility matching,the proposed algorithm can automatically select and focus on useful source domain know- ledge,overcome the constraint of mandatory matching between the source domain and target domain,and has better ad- justability.Experimental results on synthetic datasets and real NG20 text datasets in different transfer scenarios show that the proposed algorithms outperform the existing related algorithms. Keywords:transfer prototype clustering;transfer learning mechanism;mandatory matching;possibility matching;pro- totype clustering;adjustability 近年来,迁移学习山已经引起了广泛的关 的有用信息来辅助获得目标域的有效模型。其主 注和研究。迁移学习在学习过程中利用来自源域 要假设或特点可以总结如下:1)目标域中的数据 不足以生成良好的模型。2)源域与目标域不同但 收稿日期:2018-10-24.网络出版日期:2019-05-22 基金项目:国家自然科学基金面上项目(61170122). 在一定程度上相似,这使得源域上的训练模型不 通信作者:邓赵红.E-mail:dengzhaohong@jiangnan.edu.cn 能直接适用于目标域,但源域知识对于目标域模
DOI: 10.11992/tis.201810028 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.tp.20190520.1631.016.html 可能性匹配知识迁移原型聚类算法 聂飞1 ,高艳丽2 ,邓赵红1 ,王士同1 (1. 江南大学 数字媒体学院,江苏 无锡 214122; 2. 江南计算机技术研究所,江苏 无锡 214083) 摘 要:针对迁移原型聚类的优化问题,本文以模糊知识匹配迁移原型聚类为基础,介绍了聚类场景中从源域 到目标域的迁移学习机制,明确了源域聚类中心辅助目标域得到更好的聚类效果。但目前此类迁移机制依然 面临如下的挑战:1)如何克服已有迁移原型聚类方法中不同类别间的知识强制性匹配带来的负作用。2)当源 域与目标域相似度较低时,如何避免模糊强制性匹配的不合理性以及过于依赖源域知识的缺陷被放大。为此, 研究了一种新的迁移原型聚类机制,即可能性匹配知识迁移原型机制,并基于此实现了 2 个具体的迁移聚类算 法。借鉴可能性匹配的思想,该算法可以自动选择和偏重有用的源域知识,克服了源域和目标域之间的强制性 匹配限制,具有较好的可调节性。研究结果表明:在不同迁移场景下模拟数据集和真实 NG20groups 数据集上 的实验研究表明,提出的算法较已有的相关算法展现了更好的性能。 关键词:迁移原型聚类;迁移学习机制;强制性匹配;可能性匹配;原型聚类;可调节性 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2020)05−0978−12 中文引用格式:聂飞, 高艳丽, 邓赵红, 等. 可能性匹配知识迁移原型聚类算法 [J]. 智能系统学报, 2020, 15(5): 978–989. 英文引用格式:NIE Fei, GAO Yanli, DENG Zhaohong, et al. Possibility-matching based knowledge transfer prototype clustering algorithm[J]. CAAI transactions on intelligent systems, 2020, 15(5): 978–989. Possibility-matching based knowledge transfer prototype clustering algorithm NIE Fei1 ,GAO Yanli2 ,DENG Zhaohong1 ,WANG Shitong1 (1. School of Digital Media, Jiangnan University, Wuxi 214122, China; 2. Jiangnan Institute of Computing Technology, Wuxi 214083, China) Abstract: Aiming at the optimization problem of migration prototype clustering, this paper introduces a migration learning mechanism from the source domain to the target domain in the clustering scene, considering fuzzy knowledge matching migration prototype clustering, and clarifies that the source domain clustering center assists the target domain to obtain better clustering effect. However, this method still faces the following challenges: 1) how to overcome the negative effect brought by knowledge matching among different classes in existing transfer prototype clustering methods. 2) when the similarity between the source domain and target domain is low, how to avoid the irrationality of fuzzy mandatory matching and the magnification of the defect of overdependence on knowledge from the source domain. Therefore, a new transfer prototype clustering mechanism called possibility matching-based knowledge transfer prototype clustering algorithm is proposed, and two transfer prototype clustering algorithms are further presented. Referring to the idea of possibility matching, the proposed algorithm can automatically select and focus on useful source domain knowledge, overcome the constraint of mandatory matching between the source domain and target domain, and has better adjustability. Experimental results on synthetic datasets and real NG20 text datasets in different transfer scenarios show that the proposed algorithms outperform the existing related algorithms. Keywords: transfer prototype clustering; transfer learning mechanism; mandatory matching; possibility matching; prototype clustering; adjustability 近年来,迁移学习[ 1 ] 已经引起了广泛的关 注和研究。迁移学习在学习过程中利用来自源域 的有用信息来辅助获得目标域的有效模型。其主 要假设或特点可以总结如下:1) 目标域中的数据 不足以生成良好的模型。2) 源域与目标域不同但 在一定程度上相似,这使得源域上的训练模型不 能直接适用于目标域,但源域知识对于目标域模 收稿日期:2018−10−24. 网络出版日期:2019−05−22. 基金项目: 国家自然科学基金面上项目 (61170122). 通信作者:邓赵红. E-mail:dengzhaohong@jiangnan.edu.cn. 第 15 卷第 5 期 智 能 系 统 学 报 Vol.15 No.5 2020 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2020
第5期 聂飞,等:可能性匹配知识迁移原型聚类算法 ·979· 型的学习是有用的。3)迁移学习的关注点在于增 可调节性。在不同迁移场景下模拟数据集和真 强目标域的建模效果,源域仅用于辅助学习的 实NG20 groups数据集上的实验研究表明,提出的 功能。 算法较之已有的相关算法展现了更好的性能。 在过去的十年,迁移学习已被广泛地研究并 用于各种场景,如文本分类和室内WFi位置估 1基于模糊知识匹配迁移的原型聚 计。在已有研究中,从应用场景的角度迁移学 类算法 习一般可以分为如下4类:1)分类41,2)特征提 L.1模糊C均值聚类和迁移FCM聚类E-TFCM 取10,3)回归和4)聚类67。尽管现实世界 在众多原型聚类算法中,FCM是一个被广泛 中的聚类应用范围很广,较之于分类、回归和特 应用的算法。它的目标函数定义如下: 征抽取,聚类方面迁移学习技术的研究还非常 有限。 FCM:min JFCM ∑∑- 1j=1 作为一个重要的研究方向,聚类技术得到了 广泛的关注和研究。聚类算法大致可以划分以下 S.t. e0,1,∑断=1 几类:I)划分式聚类算法(partitioning method)1; 2)层次化聚类算法(hirearchical method)9.2;3)基 0<<N (1) 于网格和密度的聚类算法(gird-based and density-. based method)2i-2,4)其他聚类算法,如ACODF(ant 式中:C是聚类个数(i=1,2,…,C);W是数据样本 colony optimization with different favor,具有不同偏 个数;x;∈R是第j个样本点;表示第i个数据 好的蚁群算法)1。在这些传统聚类学习中,必须 x,属于第j类的模糊隶属度;”,表示第i类的聚 有足够可利用的训练样本才能够充分发挥算法应 类中心。 有的性能。对此,迁移学习技术可以有效地解决 为了让FCM具有迁移学习的能力,文献[25] 数据不充分给聚类带来的挑战。 提出了迁移FCM聚类算法E-TFCM(extended 为了使传统聚类算法适应样本不足的场景, transfer FCM)。该算法的优化目标函数如下: 已有一些迁移聚类算法被提出,并展现了一定的 有效性,如Dai等a%提出的Self--taught clustering E-TFCM =1=1 i=1l= (STC)自学习聚类,以及Hang等提出的trans-. S.t. 0,1∑=1,0<∑< fer affinity propagation clustering algorithm迁移近 邻传播聚类算法等聚类算法。特别地,文献[25] 提出了一个面向原型聚类的迁移聚类框架,并实 m=0,,a=1,0<ra<C (2) 现了几个具体的迁移原型聚类算法。提出的多个 式(2)中的各项作用如下: 迁移聚类算法较好地解决了在数据集不充分情景 1)第1项继承于经典的FCM,主要用于从目 下,如何利用相关场景知识辅助提高当前场景聚 标域的可用数据中学习; 类性能的问题。 2)第2项用于从源域知识中学习。在该项 虽然文献[25]中的几种迁移原型聚类展现出 中,表示目标域中的第i类和源域中的第1个类 了较好的迁移学习能力,但是其模糊知识匹配迁 之间的匹配度。这一项意味着,如果目标域中的 移学习机制,也还有一定的局限性,主要表现在: 第i类和源域中的第1类更相似,则目标域中的 1)源域和目标域间不同类别间的知识强制性匹配 第i类将从源域中的第1类学习更多的知识。 可能带来负作用。2)当源域与目标域相似度较低 E-TFCM算法的参数更新规则如下: 时,模糊强制性匹配的不合理性以及过于依赖源 C 域知识的缺陷被放大。 ∑+可 针对已有迁移原型聚类算法存在的上述不 (3) 足,本文提出一种新的迁移聚类知识匹配策略, +】 即可能性匹配知识,并基于此提出了2种具体的 = 算法。通过借鉴可能性度量的思想,提出的算法 可以自动选择和偏重有用的源域知识,克服了源 域和目标域之间的强制性匹配限制,具有较好的
型的学习是有用的。3) 迁移学习的关注点在于增 强目标域的建模效果,源域仅用于辅助学习的 功能。 在过去的十年,迁移学习已被广泛地研究并 用于各种场景,如文本分类[2] 和室内 WiFi 位置估 计 [3]。在已有研究中,从应用场景的角度迁移学 习一般可以分为如下 4 类:1) 分类[4-8] ; 2) 特征提 取 [9-10] ; 3) 回归[11-15] 和 4) 聚类[16-17]。尽管现实世界 中的聚类应用范围很广,较之于分类、回归和特 征抽取,聚类方面迁移学习技术的研究还非常 有限。 作为一个重要的研究方向,聚类技术得到了 广泛的关注和研究。聚类算法大致可以划分以下 几类:1) 划分式聚类算法 (partitioning method)[18] ; 2) 层次化聚类算法 (hirearchical method)[19-20] ;3) 基 于网格和密度的聚类算法 (gird-based and densitybased method)[21-22] ;4) 其他聚类算法,如 ACODF(ant colony optimization with different favor,具有不同偏 好的蚁群算法) [23]。在这些传统聚类学习中,必须 有足够可利用的训练样本才能够充分发挥算法应 有的性能。对此,迁移学习技术可以有效地解决 数据不充分给聚类带来的挑战。 为了使传统聚类算法适应样本不足的场景, 已有一些迁移聚类算法被提出,并展现了一定的 有效性,如 Dai 等 [16] 提出的 Self-taught clustering (STC) 自学习聚类,以及 Hang 等 [24] 提出的 transfer affinity propagation clustering algorithm 迁移近 邻传播聚类算法等聚类算法。特别地,文献 [25] 提出了一个面向原型聚类的迁移聚类框架,并实 现了几个具体的迁移原型聚类算法。提出的多个 迁移聚类算法较好地解决了在数据集不充分情景 下,如何利用相关场景知识辅助提高当前场景聚 类性能的问题。 虽然文献 [25] 中的几种迁移原型聚类展现出 了较好的迁移学习能力,但是其模糊知识匹配迁 移学习机制,也还有一定的局限性,主要表现在: 1) 源域和目标域间不同类别间的知识强制性匹配 可能带来负作用。2) 当源域与目标域相似度较低 时,模糊强制性匹配的不合理性以及过于依赖源 域知识的缺陷被放大。 针对已有迁移原型聚类算法存在的上述不 足,本文提出一种新的迁移聚类知识匹配策略, 即可能性匹配知识,并基于此提出了 2 种具体的 算法。通过借鉴可能性度量的思想,提出的算法 可以自动选择和偏重有用的源域知识,克服了源 域和目标域之间的强制性匹配限制,具有较好的 可调节性。在不同迁移场景下模拟数据集和真 实 NG20groups 数据集上的实验研究表明,提出的 算法较之已有的相关算法展现了更好的性能。 1 基于模糊知识匹配迁移的原型聚 类算法 1.1 模糊 C 均值聚类和迁移 FCM 聚类 E-TFCM 在众多原型聚类算法中,FCM 是一个被广泛 应用的算法。它的目标函数定义如下: FCM : min U,V JFCM = ∑C i=1 ∑N j=1 u m i j xj −vi 2 s.t. ui j ∈ [0,1], ∑C i=1 ui j = 1 0 < ∑N j=1 ui j < N (1) C (i = 1,2,··· ,C) N xj ∈ R d j ui j i xj j vi i 式中: 是聚类个数 ; 是数据样本 个数; 是第 个样本点; 表示第 个数据 属于第 类的模糊隶属度; 表示第 类的聚 类中心。 为了让 FCM 具有迁移学习的能力,文献 [25] 提出了迁移 FCM 聚类算法 E-TFCM(extended transfer FCM)。该算法的优化目标函数如下: min U,V,R JE−TFCM = ∑Ct i=1 ∑N j=1 u m1 i j xj −vi 2 +λ1 ∑Ct i=1 ∑N l=1 r m2 il ∥v˜l −vi∥ 2 s.t. ui j ∈ [0,1], ∑Ct i=1 ui j = 1,0 < ∑N j=1 ui j < N ril = [0,1], ∑Cs l=1 ril = 1,0 < ∑Cs l=1 ril < Cs (2) 式 (2) 中的各项作用如下: 1) 第 1 项继承于经典的 FCM,主要用于从目 标域的可用数据中学习; ril i l i l i l 2) 第 2 项用于从源域知识中学习。在该项 中, 表示目标域中的第 类和源域中的第 个类 之间的匹配度。这一项意味着,如果目标域中的 第 类和源域中的第 类更相似,则目标域中的 第 类将从源域中的第 类学习更多的知识。 E-TFCM 算法的参数更新规则如下: vi = ∑N j=1 u m1 i j xi j + ∑Cs l=1 λ1r m2 il v˜l ∑N j=1 u m1 i j + ∑Cs l=1 λ1r m2 il (3) ui j = 1 xj −vi 2 1 m1 −1 /∑Ct k=1 1 xj −vk 2 1 m1 −1 (4) 第 5 期 聂飞,等:可能性匹配知识迁移原型聚类算法 ·979·
·980· 智能系统学报 第15卷 (5) 法2)归一化源域和目标域相似度矩阵做法是有 一定缺陷的。这种强制性匹配的知识迁移,会让 ∑-r假-r) 不相关的源域知识对目标域产生较大的影响,甚 基于式(3(⑤),可以容易地实现E-TFCM算法。 至导致源域负相关知识在这情况下变得对目标域 1.2模糊子空间聚类FSC和迁移模糊子空间聚 的聚类影响会放大,进而由这些算法建立的模型 类E-TFSC 性能往往会达不到预期效果。2)该算法未充分考 近年来,基于原型的软子空间聚类得到越来 虑如何加强有用知识的迁移,削弱无用或有害知 越多的关注。与传统的基于中心的原型聚类相 识的迁移。从实际角度出发,应当是有选择的充 比,此类算法在高维数据上表现出更好的性能, 分利用源域知识,不应该强制性利用。从全局来 其聚类的原型不仅包含聚类中心还包含代表每类 看,迁移学习应当具有一定的自适应性,自动选 的软子空间权向量。一个代表性的软子空间聚类 择和偏重有用的源域知识,而不是简单的加强源 算法是FSC27,其目标函数定义为 域和目标域之间的联系。 牌-222-w22 2基于可能性知识匹配的迁移聚类 N 2.1模糊匹配和可能性匹配 s.t 4e0,1,∑4=1,0<∑4<N 针对已有迁移原型聚类方法存在的不足,本 文提出了基于可能性知识匹配的迁移聚类新方 法。我们借鉴经典的可能性聚类C均值聚类算 (possibilistic c-means clustering algorithm, 式中:W=w,w2,…,w「是加权向量矩阵:T是模 PCM)P]中的可能性度量机制,来搭建源域到目标 糊加权指数;=[lcxw是硬划分矩阵,其他参数 域之间的知识迁移桥梁,实现源域和目标域的可 可以参考式(1)。 能性知识匹配。 基于FSC,文献[26]提出了其迁移学习版本 提出的新方法针对上述挑战所采用的解决方 E-TFSC(extended transfer FSC),其目标函数如下: 案如下: 对于问题1),引入可能性理论。该理论建立 在模糊理论的基础之上2。此时,模糊性表现为 数据点对聚类中心的典型性隶属度,但该隶属度 之间并不一定满足概率约束关系,即放松相似度 的矩阵归一化约束。理论证明,典型性隶属度比 ,<N 归一化隶属度在噪声环境下性能要好,它能够自 =1 动降低噪声点和孤立点的影响。因此,不管源域 知识是“好的”、“一般的”、“较差的”,提出的新算 ra∈0,1],0< ra=1 法都更具有较好的适应性和稳定性。 对于问题2),在可能性理论基础之上,引入奖 w4e0,,∑w=1 (6) 惩因子,则是很好的辅助该问题的解决。显然, 对于有用的知识我们给予奖励,对于无用的知识 式中:师=(,…,)是源域的加权向量矩阵, 给予惩罚,继而更加精确的选择和偏重有用的源 =(①,2,…,)是源域的聚类心矩阵;C,是目标 域知识,最小化负相关的源域知识,从而更加合 域的聚类个数;C,是源域的聚类个数。基于式 理利用源域知识,辅助目标域获得更好的聚类效 (6),可以利用E-TFCM类似的优化技术得到其参 果。图1示出了强制性模糊知识匹配和可能性知 数学习规则和相应算法。 识匹配2种迁移策略的的思想及它们之间的区别。 13迁移原型聚类存在的不足 图1中显示了2类源域(左上)对3类目标域 虽然基于模糊知识匹配的迁移聚类算法提 (左下)的迁移学习。右边红色点代表源域聚类中 高了传统算法在面对不充分数据的聚类性能,但 心,蓝色点代表目标域聚类中心。右边白色的五 是,在处理源域和目标域之间的迁移关系上有两 角星为真实的目标域聚类中心点。从右上图可以 点亟需进一步改进。1)源域和目标域大都只是局 看出,基于强制性模糊知识匹配,导致2个源域知 部相似,意味着有些源域知识是无用的,显然,算 识对目标域五角星聚类中心分别以0.4、0.6比例
ril = 1 ∑Cs k=1 ( ∥v˜l −vi∥ 2 /∥v˜k −vi∥ 2 ) 1 m2 −1 (5) 基于式 (3)~(5),可以容易地实现 E-TFCM 算法。 1.2 模糊子空间聚类 FSC 和迁移模糊子空间聚 类 E-TFSC 近年来,基于原型的软子空间聚类得到越来 越多的关注[26]。与传统的基于中心的原型聚类相 比,此类算法在高维数据上表现出更好的性能, 其聚类的原型不仅包含聚类中心还包含代表每类 的软子空间权向量。一个代表性的软子空间聚类 算法是 FSC[27] ,其目标函数定义为 min U,V,W JFSC = ∑C i=1 ∑N j=1 ui j∑d k=1 w τ ik ( xjk −vik)2 +σ ∑C i=1 ∑d k=1 w τ ik s.t. ui j ∈ {0,1}, ∑C i=1 ui j = 1,0 < ∑N j=1 ui j < N wik ∈ [0,1], ∑d k=1 wik = 1.0 < ∑C i=1 wik < C W = [w1,w2,··· ,wc] T τ U = [ui j]C×N 式中: 是加权向量矩阵: 是模 糊加权指数; 是硬划分矩阵,其他参数 可以参考式 (1)。 基于 FSC,文献 [26] 提出了其迁移学习版本 E-TFSC(extended transfer FSC),其目标函数如下: min U,V,W JE−TFSC = ∑ct i=1 ∑N j=1 ui j∑d k=1 w α ik ( xjk −vik)2 + ε ∑ct i=1 ∑d k=1 w α ik +λ1 ∑ct i=1 ∑Cs l=1 r m1 il ∑d k=1 w˜ α ik (v˜lk −vik) 2 s.t. ui j ∈ [0,1], ∑Ct i=1 ui j = 1,0 < ∑N j=1 ui j < N ril ∈ [0,1],0 < ∑Cs i=1 ril < Ct , ∑Cs l=1 ril = 1 wik ∈ [0,1], ∑d k=1 wik = 1 (6) w˜ = ( w˜ α i1 ,w˜ α i2 ,··· ,w˜ α ik ) v˜ = (v˜l1, v˜l2,··· , v˜lk) Ct Cs 式中: 是源域的加权向量矩阵, 是源域的聚类心矩阵; 是目标 域的聚类个数; 是源域的聚类个数。基于式 (6),可以利用 E-TFCM 类似的优化技术得到其参 数学习规则和相应算法。 1.3 迁移原型聚类存在的不足 虽然基于模糊知识匹配的迁移聚类算法[25] 提 高了传统算法在面对不充分数据的聚类性能,但 是,在处理源域和目标域之间的迁移关系上有两 点亟需进一步改进。1) 源域和目标域大都只是局 部相似,意味着有些源域知识是无用的,显然,算 法 [25] 归一化源域和目标域相似度矩阵做法是有 一定缺陷的。这种强制性匹配的知识迁移,会让 不相关的源域知识对目标域产生较大的影响,甚 至导致源域负相关知识在这情况下变得对目标域 的聚类影响会放大,进而由这些算法建立的模型 性能往往会达不到预期效果。2) 该算法未充分考 虑如何加强有用知识的迁移,削弱无用或有害知 识的迁移。从实际角度出发,应当是有选择的充 分利用源域知识,不应该强制性利用。从全局来 看,迁移学习应当具有一定的自适应性,自动选 择和偏重有用的源域知识,而不是简单的加强源 域和目标域之间的联系。 2 基于可能性知识匹配的迁移聚类 2.1 模糊匹配和可能性匹配 针对已有迁移原型聚类方法存在的不足,本 文提出了基于可能性知识匹配的迁移聚类新方 法。我们借鉴经典的可能性聚类 C 均值聚类算 法 (possibilistic c-means clustering algorithm, PCM)[28] 中的可能性度量机制,来搭建源域到目标 域之间的知识迁移桥梁,实现源域和目标域的可 能性知识匹配。 提出的新方法针对上述挑战所采用的解决方 案如下: 对于问题 1),引入可能性理论。该理论建立 在模糊理论的基础之上[29]。此时,模糊性表现为 数据点对聚类中心的典型性隶属度,但该隶属度 之间并不一定满足概率约束关系,即放松相似度 的矩阵归一化约束。理论证明,典型性隶属度比 归一化隶属度在噪声环境下性能要好,它能够自 动降低噪声点和孤立点的影响。因此,不管源域 知识是“好的”、“一般的”、“较差的”,提出的新算 法都更具有较好的适应性和稳定性。 对于问题 2),在可能性理论基础之上,引入奖 惩因子,则是很好的辅助该问题的解决。显然, 对于有用的知识我们给予奖励,对于无用的知识 给予惩罚,继而更加精确的选择和偏重有用的源 域知识,最小化负相关的源域知识,从而更加合 理利用源域知识,辅助目标域获得更好的聚类效 果。图 1 示出了强制性模糊知识匹配和可能性知 识匹配 2 种迁移策略的的思想及它们之间的区别。 图 1 中显示了 2 类源域 (左上) 对 3 类目标域 (左下) 的迁移学习。右边红色点代表源域聚类中 心,蓝色点代表目标域聚类中心。右边白色的五 角星为真实的目标域聚类中心点。从右上图可以 看出,基于强制性模糊知识匹配,导致 2 个源域知 识对目标域五角星聚类中心分别以 0.4、0.6 比例 ·980· 智 能 系 统 学 报 第 15 卷
第5期 聂飞,等:可能性匹配知识迁移原型聚类算法 ·981· 产生负拉拽影响,使其偏离原来的位置更加严 能性分配给源域,显然对目标域的负影响进一步 重。右下图的可能性知识匹配则将以0.2、0.1可 降低。 FCM得到源域 4 。80 聚类中心 基于模糊知识匹配 的迁移聚类 0.6★ 0.4 00 基于可能性知识匹配 的迁移聚类 0.1 0 图1聚类任务需要迁移学习的情况 Fig.1 Clustering tasks need to transfer learning 2.2 基于可能性知识匹配的迁移FCM 基于式(9)(11),PM-TFCM算法描述如下: 本节通过引入可能性知识匹配,提出相应的 PM-TFCM算法: FCM(possibility matching based transfer FCM, 输入聚类个数C,最大迭代次数为tmx。随 PM-TFCM)聚类算法。其优化目标函数如下: 机初始化目标域聚类中心矩阵”,。以及利用 M-TFCM g,-f+ fcm获得源域聚类中心,由此计算n,并在当前 1j1 获得最好聚类效果时,才会更新。设定平衡参数 ,22-+22m1-r Cr C ,取值范围,迭代次数初始化为t=0、eror=1、 i11 Obj JPM-TFCM S.t. we0,,马=1,0<24,<Ne0,( 重复: =1 t=t+1; 对于式(7),其各项描述如下: 根据式(10)更新隶属度矩阵0: 1)第1项直接继承于经典的FCM,主要用于 根据式(11)更新相似矩阵R; 从目标域数据中学习; 根据式(9)更新目标域聚类中心: 2)第2项用于从源域知识中学习。这里使用 直到error=NewObj--Obj<10e5或者t=ta 了可能性匹配机制,放开了目标域知识到源域知 识匹配的归一化强制约束; 输出U、R、V。 3)第3项用于加强对源域有用知识的学习和 2.3基于可能性知识匹配的迁移FSC 削弱无用知识的学习。?为惩罚因子,辅助学习 本节通过引入可能性知识匹配,提出相应的 源域知识。 FSC(possibility matching based transfer FSC, 基于和PM-TFCM类似的优化策略,易得到 PM-TFSC)聚类算法。其优化目标函数如下: 提出的PM-TFCM的更新规则如下: ∑写+a 1=1k= V= (8) +22G2aa-w+ 2 1 1/m1-1) 1/m1-1) 名 (9) C st4e0,,4=1,0<y (12) (10) .11.0..1 类似于式(6),式(11)借鉴了可能性度量来实 K>0 (11) 现源域和目标域的可能性匹配。这里表示匹配的 可能性,对其不存在归一化强制匹配。利用类似 于PM-TFCM中的优化方法,可得PM-TFSC的参
产生负拉拽影响,使其偏离原来的位置更加严 重。右下图的可能性知识匹配则将以 0.2、0.1 可 能性分配给源域,显然对目标域的负影响进一步 降低。 FCM 得到源域 聚类中心 基于可能性知识匹配 的迁移聚类 0.6 0.4 0.2 0.1 基于模糊知识匹配 的迁移聚类 图 1 聚类任务需要迁移学习的情况 Fig. 1 Clustering tasks need to transfer learning 2.2 基于可能性知识匹配的迁移 FCM 本节通过引入可能性知识匹配,提出相应的 迁移 FCM(possibility matching based transfer FCM, PM-TFCM) 聚类算法。其优化目标函数如下: min U,V,R JPM−TFCM = ∑Ct i=1 ∑N j=1 u m1 i j xj −vi 2 + λ1 ∑Ct i=1 ∑Cs l=1 r m2 il ∥v˜l −vi∥ 2 +λ1 ∑Ct i=1 ∑Cs l=1 ηi(1−ril) m2 s.t. ui j ∈ [0,1], ∑Ct i=1 ui j = 1,0 < ∑N j=1 ui j < N,ri j ∈ [0,1] (7) 对于式 (7),其各项描述如下: 1) 第 1 项直接继承于经典的 FCM,主要用于 从目标域数据中学习; 2) 第 2 项用于从源域知识中学习。这里使用 了可能性匹配机制,放开了目标域知识到源域知 识匹配的归一化强制约束; η 3) 第 3 项用于加强对源域有用知识的学习和 削弱无用知识的学习。 为惩罚因子,辅助学习 源域知识。 基于和 PM-TFCM 类似的优化策略,易得到 提出的 PM-TFCM 的更新规则如下: vi = ∑N j=1 u m1 i j xj +λ1 ∑Cs l=1 r m2 il v˜l ∑N j=1 u m1 i j +λ1 ∑Cs l=1 r m2 il (8) ui j = 1 xj −vi 2 1/(m1−1)/∑Ct k=1 1 xj −vk 2 1/(m1−1) (9) ril = 1 / ( λ1 ηi ∥v˜l −vi∥ 2 )1/m2−1 +1 (10) ηi = K ∑Cs l=1 r m il ∥v˜l −vi∥ 2 ∑Cs s=1 r m is ,K > 0 (11) 基于式 (9)~(11),PM-TFCM 算法描述如下: PM-TFCM 算法: Ct tmax vt v˜l η λ1 t = 0 error = 1 Obj = JPM−TFCM 输入 聚类个数 ,最大迭代次数为 。随 机初始化目标域聚类中心矩阵 。以及利 用 fcm 获得源域聚类中心 ,由此计算 ,并在当前 获得最好聚类效果时,才会更新。设定平衡参数 取值范围,迭代次数初始化为 、 、 。 重复: t = t+1 ; 根据式 (10) 更新隶属度矩阵 U; 根据式 (11) 更新相似矩阵 R; 根据式 (9) 更新目标域聚类中心 V; error= NewObj−Obj 直 到 <10e t=tmax − 5 或 者 输出 U、R、V。 2.3 基于可能性知识匹配的迁移 FSC 本节通过引入可能性知识匹配,提出相应的 迁移 FSC(possibility matching based transfer FSC, PM-TFSC) 聚类算法。其优化目标函数如下: min U,V,W JPM−TFSC = ∑Ct i=1 ∑N j=1 ui j∑d k=1 w α ik ( xjk −vik)2 + ε ∑Ct i=1 ∑d k=1 w α ik +λ1 ∑Ct i=1 ∑Cs l=1 r m1 il ∑d k=1 w˜ α ik(v˜lk −vik) 2+ λ1 ∑Ct i=1 ∑Cs l=1 ηi(1−ril) m1 s.t. ui j ∈ [0,1], ∑Ct i=1 ui j = 1,0 < ∑N j=1 ui j < N ril ∈ [0,1],0 < ∑Cs l=1 ril < Cs ,wik ∈ [0,1], ∑d k=1 wik = 1 (12) 类似于式 (6),式 (11) 借鉴了可能性度量来实 现源域和目标域的可能性匹配。这里表示匹配的 可能性,对其不存在归一化强制匹配。利用类似 于 PM-TFCM 中的优化方法,可得 PM-TFSC 的参 第 5 期 聂飞,等:可能性匹配知识迁移原型聚类算法 ·981·
·982· 智能系统学报 第15卷 数更新规则如下: 根据式(16)更新权值W; 直到eror=NewObj--Obj<l0e5或者t=tma (13) 输出U、R、V、W。 3实验结果 wa(VR-Va 在本节中,将在合成数据集和真实世界数据 集上进行实验评估所提出的算法的聚类性能。首 a=1 1+ (14) 先描述了用于性能评价的指标和实验装置。然 后,对所提出的算法在合成和真实世界文本数据 集上的性能进行了报道和讨论,并与其他相关算 法进行了综合比较。所有算法都在MATLAB上 实现,实验在3.6 GHz CPU64-GB RAM的计算机 上运行。 3.1性能指标和实验设置 - (15) 本文采用2个评价指标,即兰德指数(R)和 归一化互信息NMⅫ),用于评估聚类算法的性能。 4-26-w RI通常被定义为 foo+fu RI=N(N-1)/2 式中:f0是具有不同类标签且属于不同簇的数据 点对的数目;N是整个数据集的大小。 立吸+a后 NM根据以下公式进行定义和计算: (16) ∑∑N,logNxN,/NxN i=l l NMI -+ N×logN/Wx ∑VxlogN,,N (17) 式中:N是簇i和类j之间的相同样本的数目;N: 会-+ 是簇i中数据点的数量:N是j类中数据点的数 量;N是整个数据集的大小。RI和NMI都在区 22qm 间[0,1]内取值。值越高,聚类性能越好。 7:= (18) 3.2合成数据集 在这项研究中,生成了几个合成数据集来评 估所提出的算法的性能。 基于式(14)(18),可以容易地获得PM-TF- 本部分分别生成了2组数据集来评估提出的 SC算法。 PM-TFCM和PM-TFSC算法。所有数据集都是由 PM-TFSC算法: 高斯分布函数生成。通过源域和目标域对应的类 输入聚类个数C,最大迭代次数为tx。随 别相似来构造源域和目标域,即均值相似以及方 机选择C,个点初始化目标域聚类中心矩阵1。 差相似。用于评估PM-TFCM的数据生成参数如 fcm获得源域聚类中心。随机初始化权值师,由 表1所示,生成的数据集如图2、3所示。用于评 此计算惩罚因子刀,同样也是在当前聚类效果最 估PM-TFSC的数据生成参数如表2所示,生成的 好时,才更新。设定平衡参数:取值范围,初始 数据集如图4、5所示。 化迭代次数1=0、eror=1、Obj=JM-Fco 在合成数据集的实验结果如表3、4所示。从 重复: 实验结果可以看出,在几种不同的情况下,所提 t=t+1; 新迁移聚类算法较之于传统原型聚类算法和已有 根据式(14)更新隶属度矩阵U: 的迁移原型聚类算法,性能都得到了一定程度的 根据式(13)更新相似矩阵R; 改进。这也说明本文引入的可能性匹配迁移学习 根据式(15)更新目标域聚类中心; 机制具有更好的适应性
数更新规则如下: vik = ∑N j=1 u m1 i j w τ ik xjk +λ1 ∑Cs l=1 r m2 il w τ ikv˜lk ∑N j=1 u m1 i j w τ ik +λ1 ∑Cs l=1 r m2 il w τ ik (13) ril = 1 / 1+ ∑d k=1 w˜lk(v˜lk −vik) 2 ηi 1/m2−1 (14) ui j = 1/ ∑d k=1 w τ ik 1/m1−1 ∑Ct s=1 1 ∑Ct s=1 w τ sk ( xjk −vsk)2 1/m1−1 −−−−−−−−−−−−−−−−−−−→ di j = ∑d k=1 w τ ik ( xjk −vik)2 = [ 1/di j]1/m1−1 / ∑Ct s=1 [ 1/ds j]1/m1−1 (15) vik = ∑N j=1 u m1 i j w τ ik xjk +λ1 ∑Cs l=1 r m2 il w˜ τ ikv˜lk ∑N j=1 u m1 i j w τ ik +λ1 ∑Cs l=1 r m2 il w˜ τ ik (16) wik = 1 / ∑N j=1 ui j( xjk −vik)2 +ε 1/α−1 ∑d s=1 1 /∑N j=1 ui j( xjs −vis)2 +ε 1/α−1 (17) ηi = ∑Cs l=1 r m1 il ∑d k=1 w˜ α lk (v˜lk −vik) 2 ∑Cs s=1 r m1 is (18) 基于式 (14)~(18),可以容易地获得 PM-TFSC 算法。 PM-TFSC 算法: Ct tmax Ct v˜l w˜ η λ1 t = 0 error = 1 Obj = JPM−TFSC 输入 聚类个数 ,最大迭代次数为 。随 机选择 个点初始化目标域聚类中心矩阵 Vt。 fcm 获得源域聚类中心 。随机初始化权值 ,由 此计算惩罚因子 ,同样也是在当前聚类效果最 好时,才更新。设定平衡参数 取值范围,初始 化迭代次数 、 、 。 重复: t = t+1 ; 根据式 (14) 更新隶属度矩阵 U; 根据式 (13) 更新相似矩阵 R; 根据式 (15) 更新目标域聚类中心 V; 根据式 (16) 更新权值 W; error= NewObj−Obj 直 到 <10e t=tmax − 5 或 者 输出 U、R、V、W。 3 实验结果 在本节中,将在合成数据集和真实世界数据 集上进行实验评估所提出的算法的聚类性能。首 先描述了用于性能评价的指标和实验装置。然 后,对所提出的算法在合成和真实世界文本数据 集上的性能进行了报道和讨论,并与其他相关算 法进行了综合比较。所有算法都在 MATLAB 上 实现,实验在 3.6 GHz CPU 64-GB RAM 的计算机 上运行。 3.1 性能指标和实验设置 本文采用 2 个评价指标,即兰德指数 (RI) 和 归一化互信息 (NMI),用于评估聚类算法的性能。 RI 通常被定义为 RI = f00 + f11 N(N −1)/2 式中: f00 是具有不同类标签且属于不同簇的数据 点对的数目;N 是整个数据集的大小。 NMI 根据以下公式进行定义和计算: NMI= ∑C i=1 ∑C j=1 Ni, j logN ×Ni, j/Ni ×Nj vt∑C i=1 Ni ×logNi/N × ∑C j=1 Nj ×logNj/N Ni j i j Ni i Nj j N 式中: 是簇 和类 之间的相同样本的数目; 是簇 中数据点的数量; 是 类中数据点的数 量; 是整个数据集的大小。RI 和 NMI 都在区 间 [0, 1] 内取值。值越高,聚类性能越好。 3.2 合成数据集 在这项研究中,生成了几个合成数据集来评 估所提出的算法的性能。 本部分分别生成了 2 组数据集来评估提出的 PM-TFCM 和 PM-TFSC 算法。所有数据集都是由 高斯分布函数生成。通过源域和目标域对应的类 别相似来构造源域和目标域,即均值相似以及方 差相似。用于评估 PM-TFCM 的数据生成参数如 表 1 所示,生成的数据集如图 2、3 所示。用于评 估 PM-TFSC 的数据生成参数如表 2所示,生成的 数据集如图 4、5 所示。 在合成数据集的实验结果如表 3、4 所示。从 实验结果可以看出,在几种不同的情况下,所提 新迁移聚类算法较之于传统原型聚类算法和已有 的迁移原型聚类算法,性能都得到了一定程度的 改进。这也说明本文引入的可能性匹配迁移学习 机制具有更好的适应性。 ·982· 智 能 系 统 学 报 第 15 卷