当前位置：和泉文库 > 电气与自动化 > 浏览文档

【机器学习】适合大规模数据集的增量式模糊聚类算法编辑部

文件格式：PDF，文件大小：633.79KB，售价：4.65元

文档详细内容（约12页）

第11卷第2期智能系统学报 Vol.11 No.2 2016年4月 CAAI Transactions on Intelligent Systems Apr.2016 D0I:10.11992/is.201507013 网络出版地址：http://www.cnki.net/kcms/detail/23.1538.TP.20160315.1239.014.html 适合大规模数据集的增量式模糊聚类算法李滔，王士同 (江南大学数字媒体学院，江苏无锡214122) 摘要：FCPM算法已被成功地应用到模糊系统建模上，但其在某一类的聚类中心已知的大规模数据上的聚类性能较差。为了避免这个缺点，参照单程模糊c均值(SPFCM)聚类算法、在线模糊c均值(OFCM)聚类算法，提出了适合大规模数据集的增量式模糊聚类算法(Incremental fuzz四y(c+p)-means clustering,IFCM(c+p))。通过在每个数据块中使用FCPM算法进行聚类，把每个数据块的聚类中心及其附近的一些样本点加入到下一个数据块参与聚类，同时添加平衡因子以提高算法聚类性能。同SPFCM、OFCM以及rseFCM算法相比，IFCM(c+p)对初始聚类中心不敏感。实验表明在没有花费很多运行时间的情况下，IFCM(c+p)算法的聚类性能比SPFCM算法和rseFCM算法更具优势，因此该算法更适合处理某一类聚类中心已知的大规模数据集。关键词：增量式模糊聚类；FCPM;IFCM(c+p);平衡因子；大规模数据集中图分类号：TP391.4文献标志码：A文章编号：1673-4785(2016)02-0188-12 中文引用格式：李滔，王士同.适合大规模数据集的增量式模糊聚类算法[J].智能系统学报，2016,11(2)：188-199. 英文引用格式：LITao,WANG Shitong.Incremental fuzzy(c+tp-means clustering for large data[J】.CAAI transactions on intelli- gent systems,2016,11(2):188-199. Incremental fuzzy (c+p)-means clustering for large data LI Tao,WANG Shitong (School of Digital Media,Jiangnan University,Wuxi 214122,China) Abstract:FCPM has been demonstrated to be successful in fuzzy system modeling,however,it will be ineffective for large data clustering tasks where the cluster centers of one class are known.In order to circumvent this draw- back,referring to single-pass fuzzy c-means (SPFCM)clustering algorithm and online fuzzy c-means (OFCM) clustering algorithm,the incremental fuzzy clustering algorithm for large data called IFCM(c+p)is proposed in this paper.FCPM algorithm is used to cluster for each data block at first,and then the clustering centers of data block and some of the sample points being near them are joined into the next block to be clustered,meanwhile the bal- ance factor is given to enhance the clustering performance.In contrast to SPFCM,OFCM and rseFCM,IFCM(c+ p)is not sensitive to the initial cluster centers.The experiments indicate the proposed clustering algorithm IFCM(c +p)is competitive to the clustering algorithms SPFCM and rseFCM in the clustering performance without the loss of running time a lot,hence it is especially suitable for large data clustering tasks where the cluster centers of one class are known. Keywords:incremental fuzzy clustering;FCPM;IFCM(c+p);balance factor;large data 聚类就是将物理或抽象的对象按照自己的某些属性聚集成类的过程，并尽可能使得类（或者簇）之间对象的差异程度最大，而类内（或者簇内）的相似收稿日期：2015-07-06.网络出版日期：2016-03-15 基金项目：国家自然科学基金项目(61272210). 程度达到最大。聚类过程没有先验知识指导，仅凭通信作者：李滔.E-mail:chasingdreaml19@163.com. 对象间的相似程度作为类属划分的准则，是无监督

第１１卷第２期智能系统学报Ｖｏｌ．１１ №．２２０１６年４月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＡｐｒ．２０１６ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１５０７０１３网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１６０３１５．１２３９．０１４．ｈｔｍｌ适合大规模数据集的增量式模糊聚类算法李滔，王士同（江南大学数字媒体学院，江苏无锡２１４１２２）摘要：ＦＣＰＭ算法已被成功地应用到模糊系统建模上，但其在某一类的聚类中心已知的大规模数据上的聚类性能较差。为了避免这个缺点，参照单程模糊ｃ均值（ＳＰＦＣＭ）聚类算法、在线模糊ｃ均值（ＯＦＣＭ）聚类算法，提出了适合大规模数据集的增量式模糊聚类算法（Ｉｎｃｒｅｍｅｎｔａｌｆｕｚｚｙ（ｃ＋ｐ）⁃ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇ，ＩＦＣＭ（ｃ＋ｐ））。通过在每个数据块中使用ＦＣＰＭ算法进行聚类，把每个数据块的聚类中心及其附近的一些样本点加入到下一个数据块参与聚类，同时添加平衡因子以提高算法聚类性能。同ＳＰＦＣＭ、ＯＦＣＭ以及ｒｓｅＦＣＭ算法相比，ＩＦＣＭ（ｃ＋ｐ）对初始聚类中心不敏感。实验表明在没有花费很多运行时间的情况下，ＩＦＣＭ（ｃ＋ｐ）算法的聚类性能比ＳＰＦＣＭ算法和ｒｓｅＦＣＭ算法更具优势，因此该算法更适合处理某一类聚类中心已知的大规模数据集。关键词：增量式模糊聚类；ＦＣＰＭ；ＩＦＣＭ（ｃ＋ｐ）；平衡因子；大规模数据集中图分类号：ＴＰ３９１．４文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１６）０２⁃０１８８⁃１２中文引用格式：李滔，王士同．适合大规模数据集的增量式模糊聚类算法［Ｊ］．智能系统学报，２０１６，１１（２）：１８８⁃１９９．英文引用格式：ＬＩＴａｏ，ＷＡＮＧＳｈｉｔｏｎｇ．Ｉｎｃｒｅｍｅｎｔａｌｆｕｚｚｙ（ｃ＋ｐ）⁃ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇｆｏｒｌａｒｇｅｄａｔａ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉ⁃ ｇｅｎｔｓｙｓｔｅｍｓ，２０１６，１１（２）：１８８⁃１９９．Ｉｎｃｒｅｍｅｎｔａｌｆｕｚｚｙ（ｃ＋ｐ） ⁃ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇｆｏｒｌａｒｇｅｄａｔａＬＩＴａｏ，ＷＡＮＧＳｈｉｔｏｎｇ（ＳｃｈｏｏｌｏｆＤｉｇｉｔａｌＭｅｄｉａ，ＪｉａｎｇｎａｎＵｎｉｖｅｒｓｉｔｙ，Ｗｕｘｉ２１４１２２，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：ＦＣＰＭｈａｓｂｅｅｎｄｅｍｏｎｓｔｒａｔｅｄｔｏｂｅｓｕｃｃｅｓｓｆｕｌｉｎｆｕｚｚｙｓｙｓｔｅｍｍｏｄｅｌｉｎｇ，ｈｏｗｅｖｅｒ，ｉｔｗｉｌｌｂｅｉｎｅｆｆｅｃｔｉｖｅｆｏｒｌａｒｇｅｄａｔａｃｌｕｓｔｅｒｉｎｇｔａｓｋｓｗｈｅｒｅｔｈｅｃｌｕｓｔｅｒｃｅｎｔｅｒｓｏｆｏｎｅｃｌａｓｓａｒｅｋｎｏｗｎ．Ｉｎｏｒｄｅｒｔｏｃｉｒｃｕｍｖｅｎｔｔｈｉｓｄｒａｗ⁃ ｂａｃｋ，ｒｅｆｅｒｒｉｎｇｔｏｓｉｎｇｌｅ⁃ｐａｓｓｆｕｚｚｙｃ⁃ｍｅａｎｓ（ＳＰＦＣＭ）ｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍａｎｄｏｎｌｉｎｅｆｕｚｚｙｃ⁃ｍｅａｎｓ（ＯＦＣＭ）ｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ，ｔｈｅｉｎｃｒｅｍｅｎｔａｌｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｆｏｒｌａｒｇｅｄａｔａｃａｌｌｅｄＩＦＣＭ（ｃ＋ｐ）ｉｓｐｒｏｐｏｓｅｄｉｎｔｈｉｓｐａｐｅｒ．ＦＣＰＭａｌｇｏｒｉｔｈｍｉｓｕｓｅｄｔｏｃｌｕｓｔｅｒｆｏｒｅａｃｈｄａｔａｂｌｏｃｋａｔｆｉｒｓｔ，ａｎｄｔｈｅｎｔｈｅｃｌｕｓｔｅｒｉｎｇｃｅｎｔｅｒｓｏｆｄａｔａｂｌｏｃｋａｎｄｓｏｍｅｏｆｔｈｅｓａｍｐｌｅｐｏｉｎｔｓｂｅｉｎｇｎｅａｒｔｈｅｍａｒｅｊｏｉｎｅｄｉｎｔｏｔｈｅｎｅｘｔｂｌｏｃｋｔｏｂｅｃｌｕｓｔｅｒｅｄ，ｍｅａｎｗｈｉｌｅｔｈｅｂａｌ⁃ ａｎｃｅｆａｃｔｏｒｉｓｇｉｖｅｎｔｏｅｎｈａｎｃｅｔｈｅｃｌｕｓｔｅｒｉｎｇｐｅｒｆｏｒｍａｎｃｅ．ＩｎｃｏｎｔｒａｓｔｔｏＳＰＦＣＭ，ＯＦＣＭａｎｄｒｓｅＦＣＭ，ＩＦＣＭ（ｃ＋ｐ）ｉｓｎｏｔｓｅｎｓｉｔｉｖｅｔｏｔｈｅｉｎｉｔｉａｌｃｌｕｓｔｅｒｃｅｎｔｅｒｓ．ＴｈｅｅｘｐｅｒｉｍｅｎｔｓｉｎｄｉｃａｔｅｔｈｅｐｒｏｐｏｓｅｄｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍＩＦＣＭ（ｃ＋ｐ）ｉｓｃｏｍｐｅｔｉｔｉｖｅｔｏｔｈｅｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓＳＰＦＣＭａｎｄｒｓｅＦＣＭｉｎｔｈｅｃｌｕｓｔｅｒｉｎｇｐｅｒｆｏｒｍａｎｃｅｗｉｔｈｏｕｔｔｈｅｌｏｓｓｏｆｒｕｎｎｉｎｇｔｉｍｅａｌｏｔ，ｈｅｎｃｅｉｔｉｓｅｓｐｅｃｉａｌｌｙｓｕｉｔａｂｌｅｆｏｒｌａｒｇｅｄａｔａｃｌｕｓｔｅｒｉｎｇｔａｓｋｓｗｈｅｒｅｔｈｅｃｌｕｓｔｅｒｃｅｎｔｅｒｓｏｆｏｎｅｃｌａｓｓａｒｅｋｎｏｗｎ．Ｋｅｙｗｏｒｄｓ：ｉｎｃｒｅｍｅｎｔａｌｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇ；ＦＣＰＭ；ＩＦＣＭ（ｃ＋ｐ）；ｂａｌａｎｃｅｆａｃｔｏｒ；ｌａｒｇｅｄａｔａ收稿日期：２０１５⁃０７⁃０６．网络出版日期：２０１６⁃０３⁃１５．基金项目：国家自然科学基金项目（６１２７２２１０）．通信作者：李滔．Ｅ⁃ｍａｉｌ：ｃｈａｓｉｎｇｄｒｅａｍ１１９＠１６３．ｃｏｍ．聚类就是将物理或抽象的对象按照自己的某些属性聚集成类的过程，并尽可能使得类（或者簇）之间对象的差异程度最大，而类内（或者簇内）的相似程度达到最大。聚类过程没有先验知识指导，仅凭对象间的相似程度作为类属划分的准则，是无监督

第2期李滔，等：适合大规模数据集的增量式模糊聚类算法 ·189· 分类学习的一部分。最为经典的模糊聚类算法之一 Jacek M.Leski对FCM算法进行了改进，提出了模就是J.C.Bezdek教授在20世纪80年代提出的模糊糊c+p均值聚类算法FCPM,并采用了新的方法初 c均值聚类算法[)，该算法被成功地应用到了在诸始化聚类中心[。对于某一类的聚类中心，它能吸多问题的解决上。引属于该类的样本并排斥属于其他类的样本，这样随着科学技术的发展，数据库中的数据更新速更清楚地确定了样本的“归属”问题。对于小样本度日益加快、数据容量不断增大，若仍然采用原来的数据，FCPM算法可以保持不错的聚类性能，但其在聚类算法对这样的大规模数据进行聚类将产生以下大规模数据集上的聚类性能明显降低而且有较大的几个问题：1)数据更新前得到的聚类结果可能与数时间花费，甚至可能由于无法加载进内存而导致算据更新后的聚类结果不匹配：2)对更新后的数据进法失效。对于以往的增量式模糊聚类算法，比如行重新聚类会导致较高的时间复杂度和计算资源的 SPFCM算法和OFCM算法都是通过对样本加权以浪费：3)还可能由于系统内存不足的原因而导致该影响每个数据块产生的聚类中心，但数据块间聚类算法失效。鉴于这些问题，Fazli Can教授在1990年中心的相互影响程度不明显甚至可能会由于上一次提出的增量式聚类算法]使得这些问题得以解决。聚类结果的加入而干扰新的数据进行聚类。为了解所谓增量式聚类是指利用前期数据已取得的聚类结决以上问题，通过FCPM算法计算每个数据块的聚果，对新增数据进行分批或者逐批次地进行聚类的类中心，把离聚类中心最近的一些样本点连同聚类过程。研究增量式模糊聚类算法对于避免重复聚类中心一起加入到下一个数据块中参与聚类，同时添造成的计算资源浪费，提高聚类性能等都具有十分加平衡项以提高聚类性能，文中提出了适合大规模重要的意义。数据集的增量式聚类算法FCM(c+p)。近几年，研究者们提出了很多关于增量式聚类 1 相关算法的算法。这些算法大致可以被分为3类：1)对大数据进行随机抽样获取小样本进行计算，例如，L 设N元样本集合X={x1,x2,…,xw},x(k= Kaufman等提出的CLARA),S.Guha等)提出的 1,2,…,N)表示其中的某一个样本，其中每一个样 CURE:2)按序将小样本加载进内存的单程算法本都有D={d,d2,…,dn}CR"一共n个特征，d (single--pass),具有代表性的有F.Can在文献[5]和 (j=1,2,…,n)表示其中的某一个特征。FCM算法 [6]中提出的增量式算法：3)采取类图表结构的数将N个样本按照它所固有的特征划分成c簇，用4 据转换算法，如T.Zhang等提出的BIRCH刀和R. 表示第k个样本隶属于第i簇的程度，那么划分成c Ng等[)提出的CLARANS,对于增量式模糊聚类算簇后得到的隶属度矩阵是U=u:}CRxw,i∈[1，法；B.U.Shankar等提出了快速模糊c均值算法 c],k∈[1，N]。对于模糊划分而言，所有的样本都 FFCM,T.Chengt]提出了多阶段的随机模糊c均值需要满足下面的条件：算法MRFCM,J.E.Kolen等[)提出了随机抽样模 MeN={U∈RexN I Lik∈[0,1]，糊c均值算法rsFCM,Dhanesh Kothari等I]提出了 i∈[1，c],k∈[1，N]}; 将随机抽样的结果扩展到整个数据集上的扩展随机抽样模糊c均值算法rseFCM。除此之外，还有基于 FCM的单程模糊c均值算法SPFCM)、在线模糊c N 均值算法OFCM1),以及在这基础上发展的基于核 Vk∈[1，N]; 4e(0,W,ie[1,c] k=1 的模糊c均值算法spkFCM和okFCMU1],Yangtao 由此可见，模糊划分矩阵U的每一列的和都必 Wang等i提出的基于多重中心的增量式模糊聚类须等于1，这样才能确保每一个样本都能够被完整算法在相关性大数据上的应用。最近Bhm等[) 地划分到它所属的簇中。受到动力学中同步现象的启发提出了一种新颖的同通过使用欧式距离寻求最小均方误差，可以得步聚类算法Symc,但是这种算法在大规模数据集上到FCM模型的目标函数（其中m为模糊指数）：的聚类受到了相当大的限制，基于此应文豪等]在此基础上提出了快速自适应同步聚类算法FAKCS。 J(U,V)= ZZx-v. (1)》 i=1k= 传统的F℃M算法对初始聚类中心敏感且容易在式(1)的条件下通过拉格朗日乘子法可以得陷入局部最优，同时也忽略了类间的相互影响。出隶属度矩阵U和聚类中心V的更新公式。由于

分类学习的一部分。最为经典的模糊聚类算法之一就是Ｊ．Ｃ．Ｂｅｚｄｅｋ教授在２０世纪８０年代提出的模糊ｃ均值聚类算法［１］，该算法被成功地应用到了在诸多问题的解决上。随着科学技术的发展，数据库中的数据更新速度日益加快、数据容量不断增大，若仍然采用原来的聚类算法对这样的大规模数据进行聚类将产生以下几个问题：１）数据更新前得到的聚类结果可能与数据更新后的聚类结果不匹配；２）对更新后的数据进行重新聚类会导致较高的时间复杂度和计算资源的浪费；３）还可能由于系统内存不足的原因而导致该算法失效。鉴于这些问题，ＦａｚｌｉＣａｎ教授在１９９０年提出的增量式聚类算法［２］使得这些问题得以解决。所谓增量式聚类是指利用前期数据已取得的聚类结果，对新增数据进行分批或者逐批次地进行聚类的过程。研究增量式模糊聚类算法对于避免重复聚类造成的计算资源浪费，提高聚类性能等都具有十分重要的意义。近几年，研究者们提出了很多关于增量式聚类的算法。这些算法大致可以被分为３类：１）对大数据进行随机抽样获取小样本进行计算，例如，Ｌ．Ｋａｕｆｍａｎ等提出的ＣＬＡＲＡ［３］，Ｓ．Ｇｕｈａ等［４］提出的ＣＵＲＥ；２）按序将小样本加载进内存的单程算法（ｓｉｎｇｌｅ⁃ｐａｓｓ），具有代表性的有Ｆ．Ｃａｎ在文献［５］和［６］中提出的增量式算法；３）采取类图表结构的数据转换算法，如Ｔ．Ｚｈａｎｇ等提出的ＢＩＲＣＨ［７］和Ｒ．Ｎｇ等［８］提出的ＣＬＡＲＡＮＳ，对于增量式模糊聚类算法；Ｂ．Ｕ．Ｓｈａｎｋａｒ等［９］提出了快速模糊ｃ均值算法ＦＦＣＭ，Ｔ．Ｃｈｅｎｇ［１０］提出了多阶段的随机模糊ｃ均值算法ＭＲＦＣＭ，Ｊ．Ｆ．Ｋｏｌｅｎ等［１１］提出了随机抽样模糊ｃ均值算法ｒｓＦＣＭ，ＤｈａｎｅｓｈＫｏｔｈａｒｉ等［１２］提出了将随机抽样的结果扩展到整个数据集上的扩展随机抽样模糊ｃ均值算法ｒｓｅＦＣＭ。除此之外，还有基于ＦＣＭ的单程模糊ｃ均值算法ＳＰＦＣＭ［１３］、在线模糊ｃ均值算法ＯＦＣＭ［１４］，以及在这基础上发展的基于核的模糊ｃ均值算法ｓｐｋＦＣＭ和ｏｋＦＣＭ［１５］，ＹａｎｇｔａｏＷａｎｇ等［１６］提出的基于多重中心的增量式模糊聚类算法在相关性大数据上的应用。最近Ｂöｈｍ等［１７］受到动力学中同步现象的启发提出了一种新颖的同步聚类算法Ｓｙｎｃ，但是这种算法在大规模数据集上的聚类受到了相当大的限制，基于此应文豪等［１８］在此基础上提出了快速自适应同步聚类算法ＦＡＫＣＳ。传统的ＦＣＭ算法对初始聚类中心敏感且容易陷入局部最优，同时也忽略了类间的相互影响。ＪａｃｅｋＭ．Ｌｅｓｋｉ对ＦＣＭ算法进行了改进，提出了模糊ｃ＋ｐ均值聚类算法ＦＣＰＭ，并采用了新的方法初始化聚类中心［１９］。对于某一类的聚类中心，它能吸引属于该类的样本并排斥属于其他类的样本，这样更清楚地确定了样本的“归属” 问题。对于小样本数据，ＦＣＰＭ算法可以保持不错的聚类性能，但其在大规模数据集上的聚类性能明显降低而且有较大的时间花费，甚至可能由于无法加载进内存而导致算法失效。对于以往的增量式模糊聚类算法，比如ＳＰＦＣＭ算法和ＯＦＣＭ算法都是通过对样本加权以影响每个数据块产生的聚类中心，但数据块间聚类中心的相互影响程度不明显甚至可能会由于上一次聚类结果的加入而干扰新的数据进行聚类。为了解决以上问题，通过ＦＣＰＭ算法计算每个数据块的聚类中心，把离聚类中心最近的一些样本点连同聚类中心一起加入到下一个数据块中参与聚类，同时添加平衡项以提高聚类性能，文中提出了适合大规模数据集的增量式聚类算法ＩＦＣＭ（ｃ＋ｐ）。１相关算法设Ｎ元样本集合Ｘ＝｛ｘ１，ｘ２，…，ｘＮ｝，ｘｋ（ｋ＝１，２，…，Ｎ）表示其中的某一个样本，其中每一个样本都有Ｄ＝｛ｄ１，ｄ２，…，ｄｎ｝ ⊂ Ｒｎ一共ｎ个特征，ｄｊ（ｊ＝１，２，…，ｎ）表示其中的某一个特征。ＦＣＭ算法将Ｎ个样本按照它所固有的特征划分成ｃ簇，用 μｉｋ表示第ｋ个样本隶属于第ｉ簇的程度，那么划分成ｃ簇后得到的隶属度矩阵是Ｕ＝｛μｉｋ｝ ⊂ Ｒｃ×Ｎ，ｉ ∈ ［１，ｃ］，ｋ ∈ ［１，Ｎ］。对于模糊划分而言，所有的样本都需要满足下面的条件：ＭｆｃＮ＝｛Ｕ ∈ Ｒｃ×Ｎ｜ μｉｋ ∈ ［０，１］， ∀ｉ ∈ ［１，ｃ］，ｋ ∈ ［１，Ｎ］｝； ∑ ｃｉ＝１ μｉｋ＝１， ∀ｋ ∈ ［１，Ｎ］；∑ Ｎｋ＝１ μｉｋ ∈ （０，Ｎ），∀ｉ ∈ ［１，ｃ］ ì î í ï ï ï ï ï ï ï ï 由此可见，模糊划分矩阵Ｕ的每一列的和都必须等于１，这样才能确保每一个样本都能够被完整地划分到它所属的簇中。通过使用欧式距离寻求最小均方误差，可以得到ＦＣＭ模型的目标函数（其中ｍ为模糊指数）：Ｊ（Ｕ，Ｖ）＝ ∑ ｃｉ＝１ ∑ Ｎｋ＝１ μ ｍｉｋ‖ ｘｋ－ｖｉ‖ ２（１）在式（１）的条件下通过拉格朗日乘子法可以得出隶属度矩阵Ｕ和聚类中心Ｖ的更新公式。由于第２期李滔，等：适合大规模数据集的增量式模糊聚类算法 ·１８９·

·190 智能系统学报第11卷篇幅有限，FCM算法的具体更新公式以及计算步骤献[19]详细介绍了新的聚类中心初始化方法及在此不做赘述。 FCPM算法，此处不再赘述。传统的F℃M算法让聚类中心尽可能地靠近样如文献[19]所示，FCPM算法在模糊系统建模本点，概率约束也只考虑了聚类中心之间的排斥力，上得到了很好的应用。该算法采用新的初始化聚类所有的样本重要性相同，同时对初始聚类中心敏感、中心的方法有效地避免了CM算法对初始聚类中容易陷入局部最优，得到的聚类结果往往不理想。心敏感的问题，通过先确定已知类聚类中心来求未 Jacek M.Leski考虑了类别间的相互影响，利用了新知类聚类中心的方法以提高算法的聚类性能。通过的方法初始化聚类中心，采用固定一类求其他类的实验可以发现，FCPM算法对一类已知的小样本数方法，在FCM算法的基础上提出了模糊c+p均值聚据集有着不错的聚类性能，但对现实中的大规模数类算法FCPM。据集而言，该算法的聚类性能会下降、算法效率会大 FCPM算法中来自其他类的样本对本类的聚类大降低甚至会由于样本过大而导致算法失效。基于会产生影响，在某一类中，聚类中心应该吸引属于该这些问题，本文提出了适合大规模数据集的增量式类的样本，而排斥其他类的样本。设有c个聚类中模糊聚类算法IFCM(c+p)。心来自一类，而p个聚类中心来自另一类，该算法把 N个样本划分成为c簇，可得目标函数为 2 适合大规模数据集的增量式模糊聚 J(U,T,V)= 名AI+ 类算法IFCM(c+p) 含区1 (2) 2.1FCM(c+p)算法在增量式模糊聚类算法中，对每一个数据块进式中：V表示第i簇的聚类中心，表示已知的聚类行聚类的算法起着举足轻重的作用。针对以往基于中心。对所有的样本而言，都应该满足如下关系： FCM的增量式模糊聚类算法对初始聚类中心敏感之4a+2a=14e[0,1]. 的问题，文中采用了FCPM算法中提到的特别的方 i=1 j=1 法初始化聚类中心。另外在传统的增量式模糊聚类 54∈[0,1]，Vk∈[1，N] (3) 算法中，不管是静态的还是动态的、单程的还是在线式中：“表示第k个样本属于第i簇的程度，t表的、一个中心或者是多个中心（多个中心形成了一示第k个样本属于第j簇的程度，利用拉格朗个约束对)等等的方法，都没有考虑数据块之间聚日乘子法，可以得到划分矩阵U、T以及聚类中心V 类中心的相互影响，提及的FCM(c+p)算法很好地的更新公式：解决了这些问题。 ‖x-:川为了增加数据块间聚类中心的相互影响程度，儿= 点1岳+名 1x4-2,Ⅱ房本文添加了一个平衡项“名I-旷，其中a Vk∈[1，N],ie[1,c] (4) 被称为平衡因子，往往它的取值与J(U,T,V)有川-子1品关。由此，可以得到提及算法的目标函数：三1出高+名1-21品 r=1 J0,I.V=U,70+21V-I3 Vk∈[1，N],je[1,P] (5) 立含宫11+名含G1 k=1 V= -,ie[1,c] (6) 名I%-rI (7) 式中："：表示第i簇的聚类中心，以表示第k个样针对FCM算法对初始聚类中心敏感的问题，本属于第i簇的程度，(.表示第k个样本属于第j FCPM算法采用了新的方法初始化聚类中心。通过簇的程度，乙表示已知的第j簇的聚类中心，：表该方法初始化未知类的聚类中心V,使用FCM算法示经过FCPM算法得到的上一个数据块的聚类中初始化已知类的聚类中心Z,再依次通过式(4)、心。对所有的样本而言，都应该满足式(3)所示的 (5)和(6)获取模糊划分矩阵U和聚类中心V。文关系

篇幅有限，ＦＣＭ算法的具体更新公式以及计算步骤在此不做赘述。传统的ＦＣＭ算法让聚类中心尽可能地靠近样本点，概率约束也只考虑了聚类中心之间的排斥力，所有的样本重要性相同，同时对初始聚类中心敏感、容易陷入局部最优，得到的聚类结果往往不理想。ＪａｃｅｋＭ．Ｌｅｓｋｉ考虑了类别间的相互影响，利用了新的方法初始化聚类中心，采用固定一类求其他类的方法，在ＦＣＭ算法的基础上提出了模糊ｃ＋ｐ均值聚类算法ＦＣＰＭ。ＦＣＰＭ算法中来自其他类的样本对本类的聚类会产生影响，在某一类中，聚类中心应该吸引属于该类的样本，而排斥其他类的样本。设有ｃ个聚类中心来自一类，而ｐ个聚类中心来自另一类，该算法把Ｎ个样本划分成为ｃ簇，可得目标函数为Ｊ（Ｕ，Ｔ，Ｖ）＝ ∑ ｃｉ＝１ ∑ Ｎｋ＝１ μ ｍｉｋ ‖ ｘｋ－ｖｉ‖２＋ ∑ ｐｊ＝１ ∑ Ｎｋ＝１ ζ ｍｊｋ ‖ ｘｋ－ｚｊ‖２（２）式中：Ｖｉ表示第ｉ簇的聚类中心，ｚｊ表示已知的聚类中心。对所有的样本而言，都应该满足如下关系： ∑ ｃｉ＝１ μｉｋ＋ ∑ ｐｊ＝１ ζｊｋ＝１，μｉｋ ∈ ［０，１］， ζｊｋ ∈ ［０，１］，∀ｋ ∈ ［１，Ｎ］（３）式中： μｉｋ表示第ｋ个样本属于第ｉ簇的程度， ζｊｋ表示第ｋ个样本属于第ｊ簇的程度，利用拉格朗日乘子法，可以得到划分矩阵Ｕ、Ｔ以及聚类中心Ｖ的更新公式： μｉｋ＝ ‖ ｘｋ－ｖｉ‖ ２１－ｍ ∑ ｃｌ＝１ ‖ ｘｋ－ｖｌ‖ ２１－ｍ＋ ∑ ｐｒ＝１ ‖ ｘｋ－ｚｒ‖ ２１－ｍ ∀ｋ ∈ ［１，Ｎ］，ｉ ∈ ［１，ｃ］（４） ζｊｋ＝ ‖ｘｋ－ｚｊ‖ ２１－ｍ ∑ ｃｌ＝１ ‖ ｘｋ－ｖｌ‖ ２１－ｍ＋ ∑ ｐｒ＝１ ‖ ｘｋ－ｚｒ‖ ２１－ｍ ∀ｋ ∈ ［１，Ｎ］，ｊ ∈ ［１，ｐ］（５）ｖｉ＝ ∑ Ｎｋ＝１ μ ｍｉｋｘｋ ∑ Ｎｋ＝１ μ ｍｉｋ，∀ｉ ∈ ［１，ｃ］（６）针对ＦＣＭ算法对初始聚类中心敏感的问题，ＦＣＰＭ算法采用了新的方法初始化聚类中心。通过该方法初始化未知类的聚类中心Ｖ，使用ＦＣＭ算法初始化已知类的聚类中心Ｚ，再依次通过式（４）、（５）和（６）获取模糊划分矩阵Ｕ和聚类中心Ｖ。文献［１９］详细介绍了新的聚类中心初始化方法及ＦＣＰＭ算法，此处不再赘述。如文献［１９］所示，ＦＣＰＭ算法在模糊系统建模上得到了很好的应用。该算法采用新的初始化聚类中心的方法有效地避免了ＦＣＭ算法对初始聚类中心敏感的问题，通过先确定已知类聚类中心来求未知类聚类中心的方法以提高算法的聚类性能。通过实验可以发现，ＦＣＰＭ算法对一类已知的小样本数据集有着不错的聚类性能，但对现实中的大规模数据集而言，该算法的聚类性能会下降、算法效率会大大降低甚至会由于样本过大而导致算法失效。基于这些问题，本文提出了适合大规模数据集的增量式模糊聚类算法ＩＦＣＭ（ｃ＋ｐ）。２适合大规模数据集的增量式模糊聚类算法ＩＦＣＭ（ｃ＋ｐ）２．１ＩＦＣＭ（ｃ＋ｐ）算法在增量式模糊聚类算法中，对每一个数据块进行聚类的算法起着举足轻重的作用。针对以往基于ＦＣＭ的增量式模糊聚类算法对初始聚类中心敏感的问题，文中采用了ＦＣＰＭ算法中提到的特别的方法初始化聚类中心。另外在传统的增量式模糊聚类算法中，不管是静态的还是动态的、单程的还是在线的、一个中心或者是多个中心（多个中心形成了一个约束对）等等的方法，都没有考虑数据块之间聚类中心的相互影响，提及的ＩＦＣＭ（ｃ＋ｐ）算法很好地解决了这些问题。为了增加数据块间聚类中心的相互影响程度，本文添加了一个平衡项 α∑ ｃｉ＝１ ‖ ｖｉ－ｖｏｉ ‖２，其中 α 被称为平衡因子，往往它的取值与Ｊ（Ｕ，Ｔ，Ｖ）有关。由此，可以得到提及算法的目标函数：Ｊ（Ｕ，Ｔ，Ｖ，α）＝Ｊ（Ｕ，Ｔ，Ｖ）＋ α∑ ｃｉ＝１ ‖ Ｖｉ－Ｖｏｉ ‖２＝ ∑ ｃｉ＝１ ∑ Ｎｋ＝１ μ ｍｉｋ ‖ ｘｋ－ｖｉ‖２＋ ∑ ｐｊ＝１ ∑ Ｎｋ＝１ ζ ｍｊｋ ‖ ｘｋ－ｚｊ‖２＋ α∑ ｃｉ＝１ ‖ ｖｉ－ｖｏｉ ‖２（７）式中：ｖｉ表示第ｉ簇的聚类中心， μｉｋ表示第ｋ个样本属于第ｉ簇的程度， ζｊｋ表示第ｋ个样本属于第ｊ簇的程度，ｚｊ表示已知的第ｊ簇的聚类中心，Ｖｏｉ表示经过ＦＣＰＭ算法得到的上一个数据块的聚类中心。对所有的样本而言，都应该满足式（３）所示的关系。 ·１９０· 智能系统学报第１１卷

第2期李滔，等：适合大规模数据集的增量式模糊聚类算法 ·191· 下面采用拉格朗日极值法求模糊划分矩阵U、整个数据集的聚类中心。 T以及聚类中心V的更新公式。 α=0时的情况仅仅考虑了某一数据块的聚类 G(U.T.V,A)= 中心及其周围的o个样本点对下一个数据块的聚 J〔U,T,a)-a(h4+-= 类性能的影响，这样得出的聚类效果并不理想。为 j=I 了提高聚类性能，应该考虑数据块间聚类中心的相 J(U,T,V)+a 互影响即α≠0时的情况，此时平衡项的加入很好地提高了聚类性能。 A(∑u 如下所述为IFCM(c+p)算法的具体计算步骤。 j=1 输入：X,c,P,m,no,E; 输出：聚类中心V。 i= 1)把样本集x随机划分成大小相等的s个子集即x={X,X2,…,X} i=1 Hk∈[1，N] (8) 2)定义一个空的集合Xnn和Xm; 对G(U,T,V,入)中的各个变量分别求偏导并 3)遍历所有的数据块获取聚类中心：令其等于零得： forl=1,2,…,s ①初始化未知类和已知类的聚类中心V、Z: u山=m2g1x-:2-A=0 ②把从上一数据块获得的样本X添加到当 i=1 前数据块，即X,={X,UXae}; pu=m立1-名2-A=0 ③使用式(4)、(5)和(10)计算当前数据块的聚类中心V,; -1=0 ④取出距当前数据块的聚类中心最近的n。个 i=1 i=1 样本点存入Xm中；》=-2∑44x4-:‖+ ⑤把聚类中心V,及其附近的n。个样本点存人 8. i=1 Xn中，即Xm={V,UX}; 2a∑Iy:-I=0 end for i=1 上述算法步骤2)的X用以存放每一个数据 (9) 块产生的聚类中心及其附近的n。个样本点Xm, 通过(9)可以很容易地求出模糊划分矩阵的更 3)对这s个数据块进行遍历，求其聚类中心。3)中新公式u和，如式(4)、(5)所示。可以发现，模的主要迭代过程在每个数据块中使用FCPM算法计糊划分矩阵U和T与平衡因子α无关。算聚类中心，使用欧氏距离求距聚类中心最近的o 由式(9)第4个等式可得个样本点，并把它们一同加入到下一个数据块中去参与聚类。注意在初始化聚类中心时，采用前面提 ∑x4+a 到的FCPM算法的初始化方法对已知类和未知类的 k= V:= -,ie[1,c] (10) 聚类中心Z、V进行初始化，聚类中心V和模糊隶属 ∑a+a k=1 度矩阵U的更新公式分别为(10)、(4)，‖·‖表从式(10)可以看出，根据平衡因子α是否等于示求欧氏距离。FCPM算法的迭代终止于聚类中心 0,又可以分为两种情况。的连续变化值的Frobenius范数小于ε。整个IFCM 当α=0即不考虑数据块间聚类中心的相互影 (c+p)算法终止于所有的数据块遍历结束并获得最响时，在每一个数据块的聚类过程中，将某个数据块终的聚类中心。产生的聚类中心加入下一个数据块中参与聚类，为 2.2算法的可行性分析了增大对数据块间聚类效果的影响程度，把距聚类正如传统的增量式聚类算法一样，IFCM(c+p)算中心最近的n。个样本点也一同加入下一个数据块法对每个数据块进行聚类。在IFCM(c+p)算法中，参与聚类，以此类推，直至计算出最后一个数据块的没有添加平衡项时，将每个数据块的c个聚类中心及聚类中心，这个最终的聚类中心就是我们所要求的距其最近的。个样本点作为一次聚类结果的历史信

下面采用拉格朗日极值法求模糊划分矩阵Ｕ、Ｔ以及聚类中心Ｖ的更新公式。Ｇ（Ｕ，Ｔ，Ｖ，λ）＝Ｊ（Ｕ，Ｔ，Ｖ，α）－ λ（∑ ｃｉ＝１ μｉｋ＋ ∑ ｐｊ＝１ ζｊｋ－１）＝Ｊ（Ｕ，Ｔ，Ｖ）＋ α∑ ｃｉ＝１ ‖ ｖｉ－ｖｏｉ ‖２－ λ（∑ ｃｉ＝１ μｉｋ＋ ∑ ｐｊ＝１ ζｊｋ－１）＝ ∑ ｃｉ＝１ μ ｍｉｋ ‖ ｘｋ－ｖｉ‖２＋ ∑ ｐｊ＝１ ζ ｍｊｋ ‖ ｘｋ－ｚｊ‖２＋ α∑ ｃｉ＝１ ‖ ｖｉ－ｖｏｉ ‖２－ λ（∑ ｃｉ＝１ μｉｋ＋ ∑ ｐｊ＝１ ζｊｋ－１） ∀ｋ ∈ ［１，Ｎ］（８）对Ｇ（Ｕ，Ｔ，Ｖ，λ）中的各个变量分别求偏导并令其等于零得： ∂Ｊ（Ｕ，Ｔ，Ｖ，λ） ∂μｉｋ＝ｍ∑ ｃｉ＝１ μ ｍ－１ｉｋ ‖ ｘｋ－ｖｉ‖２－ λ ＝０ ∂Ｊ（Ｕ，Ｔ，Ｖ，λ） ∂ζｉｋ＝ｍ∑ ｃｉ＝１ ζ ｍ－１ｊｋ ‖ ｘｋ－ｚｊ‖２－ λ ＝０ ∂Ｊ（Ｕ，Ｔ，Ｖ，λ） ∂λ ＝ ∑ ｃｉ＝１ μｉｋ＋ ∑ ｐｊ＝１ ζｊｋ－１＝０ ∂Ｊ（Ｕ，Ｔ，Ｖ，λ） ∂ｖｉ＝－２∑ ｃｉ＝１ μ ｍｉｋ‖ ｘｋ－ｖｉ‖ ＋２α∑ ｃｉ＝１ ‖ ｖｉ－ｖｏｉ ‖ ＝０ ì î í ï ï ï ï ï ï ï ï ï ï ï ï ï ï ïï （９）通过（９）可以很容易地求出模糊划分矩阵的更新公式 μｉｋ和 ζｊｋ，如式（４）、（５）所示。可以发现，模糊划分矩阵Ｕ和Ｔ与平衡因子 α 无关。由式（９）第４个等式可得ｖｉ＝ ∑ Ｎｋ＝１ μ ｍｉｋｘｋ＋ α ｖｏｉ ∑ Ｎｋ＝１ μ ｍｉｋ＋ α ，∀ｉ ∈ ［１，ｃ］（１０）从式（１０）可以看出，根据平衡因子 α 是否等于０，又可以分为两种情况。当 α ＝０即不考虑数据块间聚类中心的相互影响时，在每一个数据块的聚类过程中，将某个数据块产生的聚类中心加入下一个数据块中参与聚类，为了增大对数据块间聚类效果的影响程度，把距聚类中心最近的ｎ０个样本点也一同加入下一个数据块参与聚类，以此类推，直至计算出最后一个数据块的聚类中心，这个最终的聚类中心就是我们所要求的整个数据集的聚类中心。 α ＝０时的情况仅仅考虑了某一数据块的聚类中心及其周围的ｎ０个样本点对下一个数据块的聚类性能的影响，这样得出的聚类效果并不理想。为了提高聚类性能，应该考虑数据块间聚类中心的相互影响即 α ≠ ０时的情况，此时平衡项的加入很好地提高了聚类性能。如下所述为ＩＦＣＭ（ｃ＋ｐ）算法的具体计算步骤。输入：Ｘ，ｃ，ｐ，ｍ，ｎ０，ε ；输出：聚类中心Ｖ。１）把样本集ｘ随机划分成大小相等的ｓ个子集即ｘ＝｛Ｘ１，Ｘ２，…，Ｘｓ｝；２）定义一个空的集合Ｘｉｎｃｒｅ和Ｘｎｅａｒ；３）遍历所有的数据块获取聚类中心：ｆｏｒｌ＝１，２，…，ｓ ①初始化未知类和已知类的聚类中心Ｖ、Ｚ； ②把从上一数据块获得的样本Ｘｉｎｃｒｅ添加到当前数据块，即Ｘｌ＝｛Ｘｌ ∪ Ｘｉｎｃｒｅ｝； ③使用式（４）、（５）和（１０）计算当前数据块的聚类中心Ｖｌ； ④取出距当前数据块的聚类中心最近的ｎ０个样本点存入Ｘｎｅａｒ中； ⑤把聚类中心Ｖｌ及其附近的ｎ０个样本点存入Ｘｉｎｃｒｅ中，即Ｘｉｎｃｒｅ＝｛Ｖｌ ∪ Ｘｎｅａｒ｝；ｅｎｄｆｏｒ上述算法步骤２）的Ｘｉｎｃｒｅ用以存放每一个数据块产生的聚类中心及其附近的ｎ０个样本点Ｘｎｅａｒ，３）对这ｓ个数据块进行遍历，求其聚类中心。３）中的主要迭代过程在每个数据块中使用ＦＣＰＭ算法计算聚类中心，使用欧氏距离求距聚类中心最近的ｎ０个样本点，并把它们一同加入到下一个数据块中去参与聚类。注意在初始化聚类中心时，采用前面提到的ＦＣＰＭ算法的初始化方法对已知类和未知类的聚类中心Ｚ、Ｖ进行初始化，聚类中心Ｖ和模糊隶属度矩阵Ｕ的更新公式分别为（１０）、（４）， ‖·‖ 表示求欧氏距离。ＦＣＰＭ算法的迭代终止于聚类中心的连续变化值的Ｆｒｏｂｅｎｉｕｓ范数小于 ε。整个ＩＦＣＭ（ｃ＋ｐ）算法终止于所有的数据块遍历结束并获得最终的聚类中心。２．２算法的可行性分析正如传统的增量式聚类算法一样，ＩＦＣＭ（ｃ＋ｐ）算法对每个数据块进行聚类。在ＩＦＣＭ（ｃ＋ｐ）算法中，没有添加平衡项时，将每个数据块的ｃ个聚类中心及距其最近的ｎ０个样本点作为一次聚类结果的历史信第２期李滔，等：适合大规模数据集的增量式模糊聚类算法 ·１９１·

·192· 智能系统学报第11卷息加入到新增数据中，即每次都有c+n。个样本点加 3 相关实验研究入到新增数据中参与聚类，那么这些历史信息的加入势必将影响新增数据的聚类效果。如果历史信息恰 3.1评价指标好位于新增数据附近，则其聚类效果将变好，如果历为了公正地对各聚类算法的聚类效果做出合理史信息远离它们，历史信息的加入反而会导致一个很的评价，本文采用如下3种评价指标进行算法的性差的聚类效果。对于SPFCM算法和OFCM算法而能分析。言，它们通过添加样本权值以增加聚类效果，在一定 3.l.1算法运行时间的加速比speedup 程度上比仅仅添加历史信息得到的聚类效果要好，但该指标反映了聚类算法在指定数据集下运行时也存在上面所提到的一些问题。为了克服以上问题，间的比较情况。定义加速比：提到的FCM(c+p)算法添加了平衡项，通过平衡项 speedup =tfall/tineremental 中的平衡因子去改变数据块间聚类中心的相互影响式中：t表示在整个数据集下采用FCPM算法所运程度，此时即便历史信息远离新增数据，通过合理调行的时间；incremea表示采用增量式算法比如SPF 节平衡因子α的取值也可以使得聚类中心吸引它周 CM、IFCM(c+p)等所运行的时间。围的新增数据，从而提高聚类效果。 2)归一化互信息(normalized mutual informa- tion,NMI)[20-21] 2.3算法复杂度文献[I5]详细介绍了rseFCM、SPFCM算法的时间和空间复杂度，如表1所示，本文提到的CPM NMI 及FCM(c+p)算法的时间和空间复杂度也如表I 会N·会g 所示。其中t表示非增量式算法的迭代次数，t表示增量式算法中每个数据块的平均迭代次数，d表式中：N表示样本总数，N表示经本文聚类算法之后第i簇的样本总数，N表示真实数据集的第j类示数据集维数，c表示未知类的聚类个数，p表示已的样本总数，M表示第i簇与第j类的契合程度，即知类的聚类个数，s表示数据块的个数，。表示在二者共有的样本总数。 IFCM(c+p)算法中距每个数据块的聚类中心最近的 3)芮氏指标(rand index,RI)[20-2] 样本点个数。表1各算法的时间、空间复杂度 foo +f RI = -N(N-1)/2 Table 1 Time and space complexity of algorithms 式中：∫表示样本点具有不同的类标签并且属于不算法时间复杂度空间复杂度同类的配对样本数目，∫，则表示样本点具有相同的 FCPM O(tnd(c p)+te) O(n(d+c+p)) 类标签并且属于同一类的配对样本数目，N表示样 rseFCM 0(te'dn/s) O((d+c)n/s) 本总数。 SPFCM 0(nd'c2) 0((d+c)n/s) 以上NMI、I两种指标，其取值范围均为[O, 1],且取值越靠近1越能反映该聚类算法在某数据 IFCM(c+p)0(t'nd(c p)+t'c)O((d +e+p+no)n/'s) 集下的聚类效果越好，反之越靠近0则反映该聚类如表1所示，本文提到的算法均在相同环境下算法的聚类效果越差。加速比speedup越大反映了运行，都对同一数据集X进行处理，时间复杂度都增量式聚类算法的运行时间越短。为O(n)。然而从第3部分的实验可以看出，各算 3.2实验结果法的运行时间存在着显著不同。对于增量式模糊聚 1)实验环境类算法，由于它们在每个数据块的处理中能够快速本文所有的实验均在如表2的环境中进行。收敛因而可以使得算法总的运行时间减少。 2)实验数据集本文提到的增量式模糊聚类算法都是对数据进实验所选取的数据集包括人工数据集2D15 行分块处理，因此需要计算每个数据块所占用的空 http://www.uef.fi/en/sipu/datasets)UCI http:// 间即为n/s。如表1所示，同seFCM和SPFCM算 archive.ics.uci.edu/ml/datasets..html)、标准数据集法相比，由于IFCM(c+p)算法需要存储聚类中心及 waveform、forest和手写数字数据集MNIST(htp:/ 其周围的一些样本，因此需要占用相对较多的存储 yann.lecun.com/exdb/mnist/)。各数据集的分布情空间，也就拥有相对高的空间复杂度。况如表3

息加入到新增数据中，即每次都有ｃ＋ｎ０个样本点加入到新增数据中参与聚类，那么这些历史信息的加入势必将影响新增数据的聚类效果。如果历史信息恰好位于新增数据附近，则其聚类效果将变好，如果历史信息远离它们，历史信息的加入反而会导致一个很差的聚类效果。对于ＳＰＦＣＭ算法和ＯＦＣＭ算法而言，它们通过添加样本权值以增加聚类效果，在一定程度上比仅仅添加历史信息得到的聚类效果要好，但也存在上面所提到的一些问题。为了克服以上问题，提到的ＩＦＣＭ（ｃ＋ｐ）算法添加了平衡项，通过平衡项中的平衡因子去改变数据块间聚类中心的相互影响程度，此时即便历史信息远离新增数据，通过合理调节平衡因子 α 的取值也可以使得聚类中心吸引它周围的新增数据，从而提高聚类效果。２．３算法复杂度文献［１５］详细介绍了ｒｓｅＦＣＭ、ＳＰＦＣＭ算法的时间和空间复杂度，如表１所示，本文提到的ＦＣＰＭ及ＩＦＣＭ（ｃ＋ｐ）算法的时间和空间复杂度也如表１所示。其中ｔ表示非增量式算法的迭代次数，ｔ＇表示增量式算法中每个数据块的平均迭代次数，ｄ表示数据集维数，ｃ表示未知类的聚类个数，ｐ表示已知类的聚类个数，ｓ表示数据块的个数，ｎ０表示在ＩＦＣＭ（ｃ＋ｐ）算法中距每个数据块的聚类中心最近的样本点个数。表１各算法的时间、空间复杂度Ｔａｂｌｅ１Ｔｉｍｅａｎｄｓｐａｃｅｃｏｍｐｌｅｘｉｔｙｏｆａｌｇｏｒｉｔｈｍｓ算法时间复杂度空间复杂度ＦＣＰＭＯ（ｔｎｄ（ｃ＋ｐ）＋ｔｃ）Ｏ（ｎ（ｄ＋ｃ＋ｐ））ｒｓｅＦＣＭＯ（ｔｃ２ｄｎ／ｓ）Ｏ（（ｄ＋ｃ）ｎ／ｓ）ＳＰＦＣＭＯ（ｎｄｔ′ｃ２）Ｏ（（ｄ＋ｃ）ｎ／ｓ）ＩＦＣＭ（ｃ＋ｐ）Ｏ（ｔ′ｎｄ（ｃ＋ｐ）＋ｔ′ｃ）Ｏ（（ｄ＋ｃ＋ｐ＋ｎ０）ｎ／ｓ）如表１所示，本文提到的算法均在相同环境下运行，都对同一数据集Ｘ进行处理，时间复杂度都为Ｏ（ｎ）。然而从第３部分的实验可以看出，各算法的运行时间存在着显著不同。对于增量式模糊聚类算法，由于它们在每个数据块的处理中能够快速收敛因而可以使得算法总的运行时间减少。本文提到的增量式模糊聚类算法都是对数据进行分块处理，因此需要计算每个数据块所占用的空间即为ｎ／ｓ。如表１所示，同ｒｓｅＦＣＭ和ＳＰＦＣＭ算法相比，由于ＩＦＣＭ（ｃ＋ｐ）算法需要存储聚类中心及其周围的一些样本，因此需要占用相对较多的存储空间，也就拥有相对高的空间复杂度。３相关实验研究３．１评价指标为了公正地对各聚类算法的聚类效果做出合理的评价，本文采用如下３种评价指标进行算法的性能分析。３．１．１算法运行时间的加速比ｓｐｅｅｄｕｐ该指标反映了聚类算法在指定数据集下运行时间的比较情况。定义加速比：ｓｐｅｅｄｕｐ＝ｔｆｕｌｌ／ｔｉｎｃｒｅｍｅｎｔａｌ式中：ｔｆｕｌｌ表示在整个数据集下采用ＦＣＰＭ算法所运行的时间；ｔｉｎｃｒｅｍｅｎｔａｌ表示采用增量式算法比如ＳＰＦ⁃ ＣＭ、ＩＦＣＭ（ｃ＋ｐ）等所运行的时间。２）归一化互信息（ｎｏｒｍａｌｉｚｅｄｍｕｔｕａｌｉｎｆｏｒｍａ⁃ ｔｉｏｎ，ＮＭＩ）［２０⁃２１］ＮＭＩ＝ ∑ ｃｉ＝１ ∑ ｃｊ＝１ＮｊｉｌｏｇＮ·ＮｊｉＮｉ·Ｎｊ æ è ç ö ø ÷ ∑ ｃｉ＝１ＮｉｌｏｇＮｉＮ æ è ç ö ø ÷ · ∑ ｃｊ＝１ＮｊｌｏｇＮｊＮ æ è ç ö ø ÷ 式中：Ｎ表示样本总数，Ｎｉ表示经本文聚类算法之后第ｉ簇的样本总数，Ｎｊ表示真实数据集的第ｊ类的样本总数，Ｎｊｉ表示第ｉ簇与第ｊ类的契合程度，即二者共有的样本总数。３）芮氏指标（ｒａｎｄｉｎｄｅｘ，ＲＩ）［２０⁃２２］ＲＩ＝ｆ００＋ｆ１１Ｎ（Ｎ－１）／２式中：ｆ００表示样本点具有不同的类标签并且属于不同类的配对样本数目，ｆ１１则表示样本点具有相同的类标签并且属于同一类的配对样本数目，Ｎ表示样本总数。以上ＮＭＩ、ＲＩ两种指标，其取值范围均为［０，１］，且取值越靠近１越能反映该聚类算法在某数据集下的聚类效果越好，反之越靠近０则反映该聚类算法的聚类效果越差。加速比ｓｐｅｅｄｕｐ越大反映了增量式聚类算法的运行时间越短。３．２实验结果１）实验环境本文所有的实验均在如表２的环境中进行。２）实验数据集实验所选取的数据集包括人工数据集２Ｄ１５（ｈｔｔｐ：／／ｗｗｗ．ｕｅｆ．ｆｉ／ｅｎ／ｓｉｐｕ／ｄａｔａｓｅｔｓ）、ＵＣＩ（ｈｔｔｐ：／／ａｒｃｈｉｖｅ．ｉｃｓ．ｕｃｉ．ｅｄｕ／ｍｌ／ｄａｔａｓｅｔｓ．ｈｔｍｌ）、标准数据集ｗａｖｅｆｏｒｍ、ｆｏｒｅｓｔ和手写数字数据集ＭＮＩＳＴ（ｈｔｔｐ：／／ｙａｎｎ．ｌｅｃｕｎ．ｃｏｍ／ｅｘｄｂ／ｍｎｉｓｔ／）。各数据集的分布情况如表３。 ·１９２· 智能系统学报第１１卷

点击进入文档下载页（PDF格式）

共12页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录