当前位置：和泉文库 > 电气与自动化 > 浏览文档

【人工智能基础】基于可拓距的改进k-means聚类算法

文件格式：PDF，文件大小：4.68MB，售价：3.12元

文档详细内容（约8页）

第15卷第2期智能系统学报 Vol.15 No.2 2020年3月 CAAI Transactions on Intelligent Systems Mar.2020 D0:10.11992/tis.201811020 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20190829.1004.004html 基于可拓距的改进k-means聚类算法赵燕伟，朱芬，桂方志，任设东2，谢智伟，徐晨 (1.浙江工业大学特种装备制造与先进加工技术教育部/汾江省重点实验室，浙江杭州310014,2.浙江业大学计算机科学与技术学院，浙江杭州310014) 摘要：针对现有聚类算法在初始聚类中心优化过程中存在首个初始聚类中心点落于边界非密集区域的不足，导致出现算法聚类效果不均衡问题，提出一种基于可拓距优选初始聚类中心的改进k-meas算法。将样本经典距离向可拓区间映射，并通过可拓侧距计算方法得到可拓左侧距及可拓右侧距：引入平均可拓侧距概念，将平均可拓左侧距和平均可拓右侧距分别作为样本密集度和聚类中心疏远度的量化指标：在此基础上，给出初始聚类中心选取准则。通过与传统k-means聚类算法进行对比，结果表明改进后的k-means聚类算法选取的初始聚类中心分布更加均匀，聚类效果更好，尤其在对高维数据聚类时具有更高的聚类准确率和更好的均衡性。关键词：可拓距；k-means聚类算法；缩放因子；初始聚类中心；密集度；疏远度中图分类号：TP181文献标志码：A 文章编号：1673-4785(2020)02-0344-08 中文引用格式：赵燕伟，朱芬，桂方志，等.基于可拓距的改进k-means聚类算法.智能系统学报，2020,15(2)：344-351. 英文引用格式：ZHAO Yanwei,,ZHU Fen,GUI Fangzhi,,etal.Improved k-means algorithm based on extension distance.CAAl transactions on intelligent systems,2020,15(2):344-351. Improved k-means algorithm based on extension distance ZHAO Yanwei',ZHU Fen',GUI Fangzhi',REN Shedong',XIE Zhiwei',XU Chen' (1.Key Lab of Special Purpose Equipment and Advanced Manufacturing Technology,Ministry of Education Zhejiang Province, Zhejiang University of Technology,Hangzhou 310014,China;2.College of Computer Science and Technology,Zhejiang University of Technology,Hangzhou 310014,China) Abstract:An improved k-means algorithm optimizing the initial cluster centers based on extension distance was pro- posed to solve several problems that lead to clustering imbalance of the algorithm,such as the poor quality of initial cluster center selection or the first initial cluster center easily falling into the non-dense area of the data boundary.First, the classical distance of the sample was mapped onto the extension interval,and the extension left-side and right-side distances were obtained using the extension distance calculation method.Then,the average extension side distance was determined,and the extension left-side and right-side distances were taken as the quantitative indicators of sample dens- ity and cluster center distance,respectively.Subsequently,the selection criteria of the initial cluster center were given. Finally,compared with the traditional k-means algorithm,the improved k-means algorithm obtained higher clustering accuracy and better balance,particularly in high-dimensional data clustering. Keywords:extension distance;k-means clustering algorithm;scaling factor;initial cluster center;intensity;alienation 聚类是数据分析的重要手段，将数据集分为有明显区别，使得相似性最小，在数据挖掘、图像若干类，使得簇内紧密且相似性大，簇与簇之间处理等领域被广泛应用。k-means聚类算法是收稿日期：2018-11-26.网络出版日期：2019-08-29 一种常用的动态聚类算法，具有聚类速度快，操基金项目：国家自然科学基金项目(51875524)：浙江省公益技做简单，效率高等特点，但其同时存在对初始聚术应用研究计划项目(2017C31072). 通信作者：赵燕伟(1959-，.E-mail:ywz@zjut.edu.cn. 类中心点较敏感、全局搜索能力弱的缺点，使得

DOI: 10.11992/tis.201811020 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190829.1004.004.html 基于可拓距的改进 k-means 聚类算法赵燕伟1 ，朱芬1 ，桂方志1 ，任设东2 ，谢智伟1 ，徐晨1 （1. 浙江工业大学特种装备制造与先进加工技术教育部/浙江省重点实验室，浙江杭州 310014; 2. 浙江业大学计算机科学与技术学院，浙江杭州 310014）摘要：针对现有聚类算法在初始聚类中心优化过程中存在首个初始聚类中心点落于边界非密集区域的不足，导致出现算法聚类效果不均衡问题，提出一种基于可拓距优选初始聚类中心的改进 k-means 算法。将样本经典距离向可拓区间映射，并通过可拓侧距计算方法得到可拓左侧距及可拓右侧距；引入平均可拓侧距概念，将平均可拓左侧距和平均可拓右侧距分别作为样本密集度和聚类中心疏远度的量化指标；在此基础上，给出初始聚类中心选取准则。通过与传统 k-means 聚类算法进行对比，结果表明改进后的 k-means 聚类算法选取的初始聚类中心分布更加均匀，聚类效果更好，尤其在对高维数据聚类时具有更高的聚类准确率和更好的均衡性。关键词：可拓距；k-means 聚类算法；缩放因子；初始聚类中心；密集度；疏远度中图分类号：TP181 文献标志码：A 文章编号：1673−4785(2020)02−0344−08 中文引用格式：赵燕伟, 朱芬, 桂方志, 等. 基于可拓距的改进 k-means 聚类算法 [J]. 智能系统学报, 2020, 15(2): 344–351. 英文引用格式：ZHAO Yanwei, ZHU Fen, GUI Fangzhi, et al. Improved k-means algorithm based on extension distance[J]. CAAI transactions on intelligent systems, 2020, 15(2): 344–351. Improved k-means algorithm based on extension distance ZHAO Yanwei1 ，ZHU Fen1 ，GUI Fangzhi1 ，REN Shedong2 ，XIE Zhiwei1 ，XU Chen1 (1. Key Lab of Special Purpose Equipment and Advanced Manufacturing Technology, Ministry of Education & Zhejiang Province, Zhejiang University of Technology, Hangzhou 310014, China; 2. College of Computer Science and Technology, Zhejiang University of Technology, Hangzhou 310014, China) Abstract: An improved k -means algorithm optimizing the initial cluster centers based on extension distance was proposed to solve several problems that lead to clustering imbalance of the algorithm, such as the poor quality of initial cluster center selection or the first initial cluster center easily falling into the non-dense area of the data boundary. First, the classical distance of the sample was mapped onto the extension interval, and the extension left-side and right-side distances were obtained using the extension distance calculation method. Then, the average extension side distance was determined, and the extension left-side and right-side distances were taken as the quantitative indicators of sample density and cluster center distance, respectively. Subsequently, the selection criteria of the initial cluster center were given. Finally, compared with the traditional k-means algorithm, the improved k-means algorithm obtained higher clustering accuracy and better balance, particularly in high-dimensional data clustering. Keywords: extension distance; k-means clustering algorithm; scaling factor; initial cluster center; intensity; alienation 聚类是数据分析的重要手段，将数据集分为若干类，使得簇内紧密且相似性大，簇与簇之间有明显区别，使得相似性最小，在数据挖掘、图像处理等领域被广泛应用[1-4]。k-means 聚类算法是一种常用的动态聚类算法，具有聚类速度快，操做简单，效率高等特点，但其同时存在对初始聚类中心点较敏感、全局搜索能力弱的缺点，使得收稿日期：2018−11−26. 网络出版日期：2019−08−29. 基金项目：国家自然科学基金项目 (51875524)；浙江省公益技术应用研究计划项目 (2017C31072). 通信作者：赵燕伟 (1959-). E-mail：ywz@zjut.edu.cn. 第 15 卷第 2 期智能系统学报 Vol.15 No.2 2020 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2020

第2期赵燕伟，等：基于可拓距的改进k-means聚类算法 ·345· 聚类效率低，准确性差。因此，很多学者为得到间的距离为零，即“类内即为同”，无法将事物内稳定、高效的聚类效果，对k-means聚类算法的局部的“质变”、“量变”表达出来。因此，为了描述限性进行了改进与研究。类内事物（区间内的点）的区别，在可拓学中规何熊熊等提出一种基于密度和网格的簇心定：实轴上任意一点x与区间X=<a,b>之距为可确定聚类算法，通过网格对象的密度值进行划分以完成聚类；李亚等6引入轮廓系数作为聚类 P(x.Xo)=k-atb_b-a a-x,xsatb 2 2 效果评价指标，并将改进的算法应用到台折损率 r-bx≥ab (1) 2 的计算中：邢长征等针对聚类结果对孤立点敏当实例点在区间中点时，该实例最符合要求；感的问题，提出了一种基于平均密度优化初始聚 (a,b)可以是开区间、闭区间、半开区间。类中心的k-means算法；张天骐等1提出一种基但在实际工作中，却不全如此，例如，误差要于k-means聚类改进的软扩频信号伪码序列盲估求越小越好；成本要求越低越好；性价比越高越计算法，利用相似度从分段数据中寻找初始聚类好；洗衣机的洗净率越大越好等，一般而言，实例中心，并通过平均轮廓系数估计规模数：李晓瑜点并不是越在区间中点越好，因此在可拓距的基等9提出了一种基于Hadoop的分布式改进k- 础上，引入可拓侧距的概念： means算法，通过引入Canopy算法初始化k-means a+b 给定区间X=a,b),∈(a,2称算法的聚类中心；Tzortzis G等io提出了MinMax a-x, k-means算法，在初始化不好的情况下通过赋予方 b-xo x≤a ix,xo.Xo) (x-a), x∈(a,xo) (2) 差权重以优化目标提高聚类效果；Laith Moham- a-Xo x-b. x≥X0 mad Abualigah等u将k-means算法采用和声搜索为x与区间X关于x的左侧距。方法进行优化并应用于文本聚类中，提高了聚类精度；Li Yanyan等)提出一种基于粒子群优化给定区间X=a,b),<a 2,,称的k-means算法，并将其应用在岩体不连续数据 a-xx≤0 分类中；Khanmohammadi等i)为克服对初始聚类 Pr(x,xo,Xo) a-xo(b-x). x∈(xo,b) (3) b-0 中心的敏感问题，提出了一种混合k-谐波均值和 x-b. x≥b 重叠k均值算法的混合方法来克服缺点。以上改为x与区间X关于x的右侧距。进算法都起到了较好的聚类效果，但在初始聚类 1.2k-means聚类算法基本原理中心选取问题上仍存在首个初始聚类中心点落于 k-means聚类算法基本思想是将样本划分成稀疏边界的缺陷。多个类，使得各簇内对象具有尽可能大的相似基于此，本文提出一种基于可拓距的改进k- 度，同时使簇间的相似度尽可能的小2o。k-means means聚类算法，将可拓学思想与k-means算法有聚类算法的处理过程如下：效的结合，通过引入可拓侧距和缩放因子，对首 1)从数据集X中随机选择k个对象，分别作个初始聚类中心点进行优化，选出一组最优初始为k个类别的初始聚类中心：聚类中心点，并通过仿真对比检验本文改进算法 2)计算剩余每个对象与各个聚类中心的距的可行性。通过实验验证，该方法具有更好的聚离，并将其划分到距离最近的子类中：类效果。 3)重新计算每个子类中所有对象的平均值，将其作为新的聚类中心。 1基本知识重复上述过程，直到聚类中心不再改变四。 1.1可拓距相关知识 l.3k-means聚类算法的不足分析可拓学是以蔡文教授为首的我国学者们创立 k-means算法中，对于k个初始中心点的选取的新学科，近年来，可拓学在计算机，人工智能、是随机完成的，而初始中心点选取的不同会导致检测、控制等领域进行的应用取得了良好的成不同的聚类效果，从而引起聚类结果的不稳定绩。其中，可拓距在实例检索领域应用较为广性。针对该不足，一些学者提出用密集度、差异泛，通过可拓距构造关联函数，依据样本间关联度等22]概念对初始聚类中心进行优化，都无法度识别案例类别s1,显著提高了案例检索效率避免初始聚类中心点落在边界非密集区域，因此与正确率。本文将从初始中心点选取方面对k-means算法提在经典数学中，当点在区间内时，默认点与区出相应的改进措施

聚类效率低，准确性差。因此，很多学者为得到稳定、高效的聚类效果，对 k-means 聚类算法的局限性进行了改进与研究。何熊熊等[5] 提出一种基于密度和网格的簇心可确定聚类算法，通过网格对象的密度值进行划分以完成聚类；李亚等[6] 引入轮廓系数作为聚类效果评价指标，并将改进的算法应用到台折损率的计算中；邢长征等[7] 针对聚类结果对孤立点敏感的问题，提出了一种基于平均密度优化初始聚类中心的 k-means 算法；张天骐等[8] 提出一种基于 k-means 聚类改进的软扩频信号伪码序列盲估计算法，利用相似度从分段数据中寻找初始聚类中心，并通过平均轮廓系数估计规模数；李晓瑜等 [ 9 ] 提出了一种基于 Hadoop 的分布式改进 kmeans 算法，通过引入 Canopy 算法初始化 k-means 算法的聚类中心；Tzortzis G 等 [10] 提出了 MinMax k-means 算法，在初始化不好的情况下通过赋予方差权重以优化目标提高聚类效果；Laith Mohammad Abualigah 等 [11] 将 k-means 算法采用和声搜索方法进行优化并应用于文本聚类中，提高了聚类精度；Li Yanyan 等 [12] 提出一种基于粒子群优化的 k-means 算法，并将其应用在岩体不连续数据分类中；Khanmohammadi 等 [13] 为克服对初始聚类中心的敏感问题，提出了一种混合 k-谐波均值和重叠 k 均值算法的混合方法来克服缺点。以上改进算法都起到了较好的聚类效果，但在初始聚类中心选取问题上仍存在首个初始聚类中心点落于稀疏边界的缺陷。基于此，本文提出一种基于可拓距的改进 kmeans 聚类算法，将可拓学思想与 k-means 算法有效的结合，通过引入可拓侧距和缩放因子，对首个初始聚类中心点进行优化，选出一组最优初始聚类中心点，并通过仿真对比检验本文改进算法的可行性。通过实验验证，该方法具有更好的聚类效果。 1 基本知识 1.1 可拓距相关知识可拓学是以蔡文教授为首的我国学者们创立的新学科，近年来，可拓学在计算机，人工智能、检测、控制等领域进行的应用取得了良好的成绩 [14]。其中，可拓距在实例检索领域应用较为广泛，通过可拓距构造关联函数，依据样本间关联度识别案例类别[15-19] ，显著提高了案例检索效率与正确率。在经典数学中，当点在区间内时，默认点与区间的距离为零，即“类内即为同”，无法将事物内部的“质变”、“量变”表达出来。因此，为了描述类内事物 (区间内的点) 的区别，在可拓学中规定：实轴上任意一点 x 与区间 X0=<a, b>之距为[14] ρ(x,X0) = |x− a+b 2 | − b−a 2 =    a− x, x ⩽ a+b 2 x−b, x ⩾ a+b 2 (1) ⟨a,b⟩ 当实例点在区间中点时，该实例最符合要求；可以是开区间、闭区间、半开区间。但在实际工作中，却不全如此，例如，误差要求越小越好；成本要求越低越好；性价比越高越好；洗衣机的洗净率越大越好等，一般而言，实例点并不是越在区间中点越好，因此在可拓距的基础上，引入可拓侧距的概念[14] ： ⟨a,b⟩ x0 ∈ (a, a+b 2 给定区间 X ⟩ 0= ，，称 ρl(x, x0 ,X0) =    a− x, b− x0 a− x0 (x−a), x−b, x ⩽ a x ∈ ⟨a, x0⟩ x ⩾ x0 (2) 为 x 与区间 X0 关于 x0 的左侧距。 ⟨a, b⟩ x0 ∈< a+b 2 给定区间 X ,b) 0= ，，称 ρr(x, x0 ,X0) =    a− x, a− x0 b− x0 (b− x), x−b, x ⩽ x0 x ∈ ⟨x0,b⟩ x ⩾ b (3) 为 x 与区间 X0 关于 x0 的右侧距。 1.2 k-means 聚类算法基本原理 k-means 聚类算法基本思想是将样本划分成多个类，使得各簇内对象具有尽可能大的相似度，同时使簇间的相似度尽可能的小[20]。k-means 聚类算法的处理过程如下： 1) 从数据集 X 中随机选择 k 个对象，分别作为 k 个类别的初始聚类中心； 2) 计算剩余每个对象与各个聚类中心的距离，并将其划分到距离最近的子类中； 3) 重新计算每个子类中所有对象的平均值，将其作为新的聚类中心。重复上述过程，直到聚类中心不再改变[21]。 1.3 k-means 聚类算法的不足分析 k-means 算法中，对于 k 个初始中心点的选取是随机完成的，而初始中心点选取的不同会导致不同的聚类效果，从而引起聚类结果的不稳定性。针对该不足，一些学者提出用密集度、差异度等[22-23] 概念对初始聚类中心进行优化，都无法避免初始聚类中心点落在边界非密集区域，因此本文将从初始中心点选取方面对 k-means 算法提出相应的改进措施。第 2 期赵燕伟，等：基于可拓距的改进 k-means 聚类算法 ·345·

·346· 智能系统学报第15卷 2可拓距改进的k-means聚类算法况对左右侧距平均值的影响，将经典平均距离映射为两个平均侧距值，如图2所示，其中平均左侧 2.1基本思想距值相对中心点靠左分布，平均右侧距值相对中为便于表述，首先定义距离区间、距离可拓心点靠右分布。特别指出，当数据在区间对称分侧距、距离平均可拓侧距3个概念。对于n个样布时，左右平均可拓侧距值重合于一点。将可拓本的集合X={,2,…,x山，其中x为m维向量(i= 平均左侧距可作为衡量密集度指标，可拓平均右 1,2,…,),有如下定义：侧距可，作为衡量疏远度指标，首个大于可拓平均定义1样本集合X的距离区间Z为左侧距可所对应中心坐标作为第一个聚类中心， Z=[A,B][min(D),max(D)] (4) 下一待选取初始聚类中心点需满足与各已确定初始聚类中心点间可拓距均大于可拓右侧平均距其中，两两样本间距可，方可作为聚类中心点。离集合。初始中心点定义2根据式(2)和式(3)定义两样本x,和 x(切的距离d对区间Z的左、右侧距分别为 A-d,d<A 左侧距：p=p(d,A,Z)= A: d=A d-B.d>A 0, A生Z 其中：A,=p(A,A,Z)= A-B, A∈Z 0⑧(A-B),A使Z且A∈Z. (5) A-d,d<B 右侧距：p,=p,(d,B,Z= B., d=B d-B.d>B. 0 B使Z 其中：B=P,(B,B,Z= A-B B∈Z 图1初始中心点展示图 0⑧(A-B),B使Z且B∈Z. Fig.1 The display map of first initial center point (6) 定义3 根据定义2可计算所有两两样本的 avg X1 经典距可拓侧距，则平均左、右侧距为 p= 户i+1e1 (7) C2 其中，C?表示从n个样本中任意取2个样本的组 p 合数。可拓距针对传统k-means算法初始中心点随机选取图2经典距向可拓距映射 Fig.2 Mapping of classical distances to extension distances 所引起聚类算法稳定性差问题，现有的改进算法虽取得了一定的效果，但仍无法避免初始聚类中当选出初始聚类中心点数未达到所要求个数心点落在边界非密集区域如图1所示，取样本间时，引入缩放因子？如式（⑦）所示，对可拓平均右距离最小值所对应中心坐标作为首个初始聚类侧距进行缩放，选出满足个数的初始聚类中心点。点，因下一初始聚类中心点的选取决定于首个初 1+ Cr-k' K≠K 1= (8) 始中心的位置，当该点位于边界非密集区域，既 1,K=K 降低了剩余初始聚类中心点质量，又会出现最终其中，K为每次遍历后，所获得的初始聚类中心个聚类集合中样本数为0或1的情况，使得聚类效数；K为指定聚类中心数。果不均衡。最后按传统聚类算法进行聚类。选取的一组初始聚类中心的选取，不仅要求分布在较密最优初始聚类中心点克服了中心点出现于边界非集的范围内，还需要保证各初始聚类中心尽可能密集区域缺陷，最大限度分布在密集区且各聚类分散。针对上述问题，利用可拓距中数据分布情中心点均匀分布

2 可拓距改进的 k-means 聚类算法 2.1 基本思想 X = {x1, x2,··· , xn} 1,2,··· ,n) 为便于表述，首先定义距离区间、距离可拓侧距、距离平均可拓侧距 3 个概念。对于 n 个样本的集合，其中 xi 为 m 维向量 (i = ，有如下定义：定义 1 样本集合 X 的距离区间 Z 为 Z = [A,B] = [min(D),max(D)] (4) D =    d d = vt∑m p=1 ( x p i − x p j )2    其中，为两两样本间距离集合。 , 定义 2 根据式 (2) 和式 (3) 定义两样本 xi 和 xj (i j) 的距离 d 对区间 Z 的左、右侧距分别为左侧距 : ρ (i, j) l = ρl(d,A,Z) =    A−d, Az , d − B, d < A d = A d > A 其中 : Az=ρl(A,A,Z)=    0, A− B, 0⊗(A− B), A < Z A ∈ Z A < Z且A ∈ Z. (5) 右侧距 : ρ (i, j) r = ρr(d,B,Z) =    A−d, Bz , d − B, d < B d = B d > B. 其中 : Bz=ρr(B,B,Z)=    0, A− B, 0⊗(A− B), B < Z B ∈ Z B < Z且B ∈ Z. (6) 定义 3 根据定义 2 可计算所有两两样本的可拓侧距，则平均左、右侧距为 ρ = ∑n j=i+1 ∑n−1 i=1 ρ (i, j) C2 n (7) C 2 其中， n 表示从 n 个样本中任意取 2 个样本的组合数。针对传统 k-means 算法初始中心点随机选取所引起聚类算法稳定性差问题，现有的改进算法虽取得了一定的效果，但仍无法避免初始聚类中心点落在边界非密集区域如图 1 所示，取样本间距离最小值所对应中心坐标作为首个初始聚类点，因下一初始聚类中心点的选取决定于首个初始中心的位置，当该点位于边界非密集区域，既降低了剩余初始聚类中心点质量，又会出现最终聚类集合中样本数为 0 或 1 的情况，使得聚类效果不均衡。初始聚类中心的选取，不仅要求分布在较密集的范围内，还需要保证各初始聚类中心尽可能分散。针对上述问题，利用可拓距中数据分布情 ρl ρr ρl ρr 况对左右侧距平均值的影响，将经典平均距离映射为两个平均侧距值，如图 2 所示，其中平均左侧距值相对中心点靠左分布，平均右侧距值相对中心点靠右分布。特别指出，当数据在区间对称分布时，左右平均可拓侧距值重合于一点。将可拓平均左侧距作为衡量密集度指标，可拓平均右侧距作为衡量疏远度指标，首个大于可拓平均左侧距所对应中心坐标作为第一个聚类中心，下一待选取初始聚类中心点需满足与各已确定初始聚类中心点间可拓距均大于可拓右侧平均距，方可作为聚类中心点。初始中心点图 1 初始中心点展示图 Fig. 1 The display map of first initial center point x0 avg o x1 ρ0 o ρ1 经典距可拓距 ρl ρr 图 2 经典距向可拓距映射 Fig. 2 Mapping of classical distances to extension distances η 当选出初始聚类中心点数未达到所要求个数时，引入缩放因子如式 (7) 所示，对可拓平均右侧距进行缩放，选出满足个数的初始聚类中心点。 η =    1+ C 2 n −k ′ C2 n k ′ , K 1 , k ′ = K (8) k 其中， ′ 为每次遍历后，所获得的初始聚类中心个数；K 为指定聚类中心数。最后按传统聚类算法进行聚类。选取的一组最优初始聚类中心点克服了中心点出现于边界非密集区域缺陷，最大限度分布在密集区且各聚类中心点均匀分布。 ·346· 智能系统学报第 15 卷

第2期赵燕伟，等：基于可拓距的改进k-means聚类算法 ·347· 2.2改进k-means算法初始聚类中心选取流程 3实验与分析根据上述思想，得到改进k-means算法初始聚类中心选取的具体实施步骤如下：为了验证本文所提出算法的有效性，将本文 1)按式(4)计算出两两样本间距离及等效密算法与传统k-means算法及文献[22-23]所提出的集距离区间[A,B]: 改进聚类算法进行对比分析。 2)按式(5)和式(6)将距离映射为可拓左侧距实验所用的测试数据集为UCI数据库中用于 pD及可拓右侧距P,D,将p按从小到大顺序测试聚类的Iris数据集和Wine数据集，各数据的依次排序，同时按式(7)计算样本间可拓平均左特征如表1所示。侧距可及可拓平均右侧距p; 表1 各数据集的基本特征 Table 1 Characteristics of datasets 3)遍历排序好的可拓距，将其中首个大于样数据集样本维数本间可拓平均左侧距可的可拓距对应中心点坐样本个数分类数标作为第一个初始聚类中心。 Iris 150 4)计算排好序可拓距中下一个值对应中心点 Wine 179 3 坐标并依次计算出其与已确定的初始聚类中心的基于本文提出算法对Iris、Wine数据进行初可拓距，将其与样本平均可拓右侧距F进行比始中心点选取，特别指出，为了观察初始聚类中较，若其均大于可，则该中心点坐标作为下一个心点选取位置的大体远近及分散程度，本文为节初始聚类中心；否则重新执行步骤4)。省篇幅，只展示数据集两属性的二维图3和图4。 5)如果遍历一次后，初始聚类中心未达到K, 从图3和图4中可看出本文提出改进算法选取的则按式(8)计算出缩小因子，动态缩小样本平均初始聚类中心点，对低维与高维数据选取的初始可拓右侧距可，重新回到步骤3)。聚类中心点，相较于其他改进算法分布更均匀， 6)若聚类中心数达到K时，则完成初始聚类位于边界区域初始聚类中心点，其周围数据点也中心的选取。相对密集。 4.5r 4.5 4.5 840 号4.0 84.0 35 35 35 3.0 3.0 3.0 25 2.5 2.0 2.0上 2.0 4.55.05.56.06.57.07.58.0 4.55.05.56.06.57.07.58.0 4.55.05.56.06.57.07.58.0 花萼长度/cm 花萼长度/cm 花萼长度/cm (a)基于可拓距方法 (b)基于密集度方法 (c)基于平均差异度方法图3基于Iis数据的初始聚类中心点分布对比 Fig.3 Comparison of distribution of initial cluster centers based on Iris dataset 6 6 6 5 5 5 …… 34 2 2 3 1 11.0 12.013.014.0 15.0 11.012.013.0 14.015.0 11.0 12.013.014.015.0 乙醇乙醇乙醇 (a)基于可拓距方法 (b)基于密集度方法 (c)基于平均差异度方法图4基于Wine数据的初始聚类中心点分布对比 Fig.4 Comparison of distribution of initial cluster centers based on Wine dataset 为了定量描述初始聚类中心点选取的质量，情况和现有改进算法聚类情况进行对比，其聚类本文先将所选中心点聚类，将其与样本实际聚类效果图5和图6

2.2 改进 k-means 算法初始聚类中心选取流程根据上述思想，得到改进 k-means 算法初始聚类中心选取的具体实施步骤如下： 1）按式 (4) 计算出两两样本间距离及等效密集距离区间 [A,B]； ρl (i, j) ρr (i, j) ρl (i, j) ρl ρr 2）按式 (5) 和式 (6) 将距离映射为可拓左侧距及可拓右侧距，将按从小到大顺序依次排序，同时按式 (7) 计算样本间可拓平均左侧距及可拓平均右侧距； ρl 3）遍历排序好的可拓距，将其中首个大于样本间可拓平均左侧距的可拓距对应中心点坐标作为第一个初始聚类中心。 ρr ρr 4）计算排好序可拓距中下一个值对应中心点坐标并依次计算出其与已确定的初始聚类中心的可拓距，将其与样本平均可拓右侧距进行比较，若其均大于，则该中心点坐标作为下一个初始聚类中心；否则重新执行步骤 4）。 η ρr 5）如果遍历一次后，初始聚类中心未达到 K，则按式 (8) 计算出缩小因子，动态缩小样本平均可拓右侧距，重新回到步骤 3）。 6）若聚类中心数达到 K 时，则完成初始聚类中心的选取。 3 实验与分析为了验证本文所提出算法的有效性，将本文算法与传统 k-means 算法及文献 [22-23] 所提出的改进聚类算法进行对比分析。实验所用的测试数据集为 UCI 数据库中用于测试聚类的 Iris 数据集和 Wine 数据集，各数据的特征如表 1 所示。表 1 各数据集的基本特征 Table 1 Characteristics of datasets 数据集样本个数样本维数分类数 Iris 150 4 3 Wine 179 13 3 基于本文提出算法对 Iris、Wine 数据进行初始中心点选取，特别指出，为了观察初始聚类中心点选取位置的大体远近及分散程度，本文为节省篇幅，只展示数据集两属性的二维图 3 和图 4。从图 3 和图 4 中可看出本文提出改进算法选取的初始聚类中心点，对低维与高维数据选取的初始聚类中心点，相较于其他改进算法分布更均匀，位于边界区域初始聚类中心点，其周围数据点也相对密集。 (a) 基于可拓距方法 4.5 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 4.0 3.5 3.0 花萼宽度/cm 花萼长度/cm 2.5 2.0 (c) 基于平均差异度方法 4.5 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 4.0 3.5 3.0 花萼宽度/cm 花萼长度/cm 2.5 2.0 (b) 基于密集度方法 4.5 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 4.0 3.5 3.0 花萼宽度/cm 花萼长度/cm 2.5 2.0 图 3 基于 Iris 数据的初始聚类中心点分布对比 Fig. 3 Comparison of distribution of initial cluster centers based on Iris dataset (a) 基于可拓距方法 6 11.0 12.0 13.0 14.0 15.0 5 4 3 苹果酸乙醇 2 1 (b) 基于密集度方法 6 11.0 12.0 13.0 14.0 15.0 5 4 3 苹果酸乙醇 2 1 (c) 基于平均差异度方法 6 11.0 12.0 13.0 14.0 15.0 5 4 3 苹果酸乙醇 2 1 图 4 基于 Wine 数据的初始聚类中心点分布对比 Fig. 4 Comparison of distribution of initial cluster centers based on Wine dataset 为了定量描述初始聚类中心点选取的质量，本文先将所选中心点聚类，将其与样本实际聚类情况和现有改进算法聚类情况进行对比，其聚类效果图 5 和图 6。第 2 期赵燕伟，等：基于可拓距的改进 k-means 聚类算法 ·347·

点击进入文档下载页（PDF格式）

共8页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录