当前位置：和泉文库 > 电气与自动化 > 浏览文档

机器学习：基于密度的统计合并聚类算法编辑部

文件格式：PDF，文件大小：2.19MB，售价：3.9元

文档详细内容（约10页）

第10卷第5期智能系统学报 Vol.10 No.5 2015年10月 CAAI Transactions on Intelligent Systems 0ct.2015 D0I:10.11992/is.201410028 网s络出版地址：htp://ww.cmki.net/kcms/detail/23.1538.tp.20150930.1556.016.html 基于密度的统计合并聚类算法刘贝贝，马儒宁1，丁军娣2 (1.南京航空航天大学理学院，江苏南京211100：2.南京理工大学计算机科学与技术学院，江苏南京210094) 摘要：针对现有聚类算法处理噪声能力差和速度较慢的问题，提出了一种基于密度的统计合并聚类算法(DSMC)。该算法将数据点的每一个特征看作一组独立随机变量，根据独立有限差分不等式得出统计合并判定准则：同时，结合数据点的密度信息，把密度从大到小的排序作为凝聚过程中的合并顺序，实现了各类数据点的统计合并。人工数据集和真实数据集的实验结果表明，DSMC算法不仅可以处理凸状数据集，对于非凸、重叠、加入噪声的数据集也有良好的聚类效果，充分表明了该算法的适用性和有效性。关键词：数据点：密度：随机变量：合并：聚类：噪声中图分类号：0235：TP311文献标志码：A文章编号：1673-4785(2015)05-0712-10 中文引用格式：刘贝贝，马儒宁，丁军娣.基于密度的统计合并聚类算法[J].智能系统学报，2015,10(5)：712-721. 英文写引用格式：LIU Beibei,MA Runing,DINGJundi.Density-based statistical merging clustering algorithm[J].CAAI Transac- tions on Intelligent Systems,2015,10(5):712-721. Density-based statistical merging clustering algorithm LIU Beibei',MA Runing',DING Jundi2 (1.College of Science,Nanjing University of Aeronautics and Astronautics,Nanjing 211100,China:2.School of Computer Science and Technology,Nanjing University of Science and Technology,Nanjing 210094,China) Abstract:The ability of existing clustering algorithms to deal with noise is poor,and the speed is slow,instead this paper proposes a density-based statistical merging clustering algorithm (DSMC).The new algorithm takes each group of data points as a set of independent random variables,and gathers statistical criteria from the independent bounded difference inequality.Meanwhile,combined with the density information of the data points,the DSMC al- gorithm takes the descending order of the density as the merging order in the process of condensation,and thereby achieves statistical merging of different types of data points.The experimental results with both artificial datasets and real datasets show that the DSMC algorithm can not only deal with convex data set,and also has good clustering effects on nonconvex shaped,overlapped and noisy,data sets.This proves that the algorithm has good applicability and validity. Keywords:data points;density;random variable;merging;clustering algorithm;noise 聚类2]是数据挖掘领域中十分重要的数据分算法，它的主要特点是在对数据集进行分类之前，需析技术。具体来说，聚类就是将给定的数据集划分要事先确定聚类个数，然后将数据集划分到确定好成互不相交的非空子集的过程。由于初始条件和聚的各类别中。根据划分过程中数据点类别归属的明类准则的不唯一性，使得各种各样的聚类算法应运确性，又可将分割聚类分为硬聚类和模糊聚类4]。而生。根据算法形成方式的不同，可以将其分为2 硬聚类中数据点的类别归属是明确的。每个数大类：基于划分的聚类算法和基于层次的聚类算据点对各类别的隶属度取0或1，即一个数据点必法[)。基于划分的聚类算法也可以称为分割聚类须属于某一类别且只能属于该类别。硬聚类的数学定义描述如下：设给定的数据集为X={x1,x2,…, 收稿日期：201410-21.网络出版日期：2015-09-30. xn}∈Rx,x,(i=1,2,…,n)表示第i个数据点。预基金项目：国家自然科学基金资助项目(61103058). 通信作者：丁军娣.E-mail:dingjundi2010@njust..cdu.cn. 先确定将X划分为k个子集C={C,C2,…,C}

第１０卷第５期智能系统学报Ｖｏｌ．１０ №．５２０１５年１０月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＯｃｔ．２０１５ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１４１００２８网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ｔｐ．２０１５０９３０．１５５６．０１６．ｈｔｍｌ基于密度的统计合并聚类算法刘贝贝１，马儒宁１，丁军娣２（１．南京航空航天大学理学院，江苏南京２１１１００；２．南京理工大学计算机科学与技术学院，江苏南京２１００９４）摘要：针对现有聚类算法处理噪声能力差和速度较慢的问题，提出了一种基于密度的统计合并聚类算法（ＤＳＭＣ）。该算法将数据点的每一个特征看作一组独立随机变量，根据独立有限差分不等式得出统计合并判定准则；同时，结合数据点的密度信息，把密度从大到小的排序作为凝聚过程中的合并顺序，实现了各类数据点的统计合并。人工数据集和真实数据集的实验结果表明，ＤＳＭＣ算法不仅可以处理凸状数据集，对于非凸、重叠、加入噪声的数据集也有良好的聚类效果，充分表明了该算法的适用性和有效性。关键词：数据点；密度；随机变量；合并；聚类；噪声中图分类号：Ｏ２３５；ＴＰ３１１文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１５）０５⁃０７１２⁃１０中文引用格式：刘贝贝，马儒宁，丁军娣．基于密度的统计合并聚类算法［Ｊ］．智能系统学报，２０１５，１０（５）：７１２⁃７２１．英文引用格式：ＬＩＵＢｅｉｂｅｉ，ＭＡＲｕｎｉｎｇ，ＤＩＮＧＪｕｎｄｉ．Ｄｅｎｓｉｔｙ⁃ｂａｓｅｄｓｔａｔｉｓｔｉｃａｌｍｅｒｇｉｎｇｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃ⁃ ｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１５，１０（５）：７１２⁃７２１．Ｄｅｎｓｉｔｙ⁃ｂａｓｅｄｓｔａｔｉｓｔｉｃａｌｍｅｒｇｉｎｇｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍＬＩＵＢｅｉｂｅｉ１，ＭＡＲｕｎｉｎｇ１，ＤＩＮＧＪｕｎｄｉ２（１．ＣｏｌｌｅｇｅｏｆＳｃｉｅｎｃｅ，ＮａｎｊｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＡｅｒｏｎａｕｔｉｃｓａｎｄＡｓｔｒｏｎａｕｔｉｃｓ，Ｎａｎｊｉｎｇ２１１１００，Ｃｈｉｎａ；２．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＮａｎｊｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，Ｎａｎｊｉｎｇ２１００９４，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｈｅａｂｉｌｉｔｙｏｆｅｘｉｓｔｉｎｇｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓｔｏｄｅａｌｗｉｔｈｎｏｉｓｅｉｓｐｏｏｒ，ａｎｄｔｈｅｓｐｅｅｄｉｓｓｌｏｗ，ｉｎｓｔｅａｄｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｓａｄｅｎｓｉｔｙ⁃ｂａｓｅｄｓｔａｔｉｓｔｉｃａｌｍｅｒｇｉｎｇｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ（ＤＳＭＣ）．Ｔｈｅｎｅｗａｌｇｏｒｉｔｈｍｔａｋｅｓｅａｃｈｇｒｏｕｐｏｆｄａｔａｐｏｉｎｔｓａｓａｓｅｔｏｆｉｎｄｅｐｅｎｄｅｎｔｒａｎｄｏｍｖａｒｉａｂｌｅｓ，ａｎｄｇａｔｈｅｒｓｓｔａｔｉｓｔｉｃａｌｃｒｉｔｅｒｉａｆｒｏｍｔｈｅｉｎｄｅｐｅｎｄｅｎｔｂｏｕｎｄｅｄｄｉｆｆｅｒｅｎｃｅｉｎｅｑｕａｌｉｔｙ．Ｍｅａｎｗｈｉｌｅ，ｃｏｍｂｉｎｅｄｗｉｔｈｔｈｅｄｅｎｓｉｔｙｉｎｆｏｒｍａｔｉｏｎｏｆｔｈｅｄａｔａｐｏｉｎｔｓ，ｔｈｅＤＳＭＣａｌ⁃ ｇｏｒｉｔｈｍｔａｋｅｓｔｈｅｄｅｓｃｅｎｄｉｎｇｏｒｄｅｒｏｆｔｈｅｄｅｎｓｉｔｙａｓｔｈｅｍｅｒｇｉｎｇｏｒｄｅｒｉｎｔｈｅｐｒｏｃｅｓｓｏｆｃｏｎｄｅｎｓａｔｉｏｎ，ａｎｄｔｈｅｒｅｂｙａｃｈｉｅｖｅｓｓｔａｔｉｓｔｉｃａｌｍｅｒｇｉｎｇｏｆｄｉｆｆｅｒｅｎｔｔｙｐｅｓｏｆｄａｔａｐｏｉｎｔｓ．ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｗｉｔｈｂｏｔｈａｒｔｉｆｉｃｉａｌｄａｔａｓｅｔｓａｎｄｒｅａｌｄａｔａｓｅｔｓｓｈｏｗｔｈａｔｔｈｅＤＳＭＣａｌｇｏｒｉｔｈｍｃａｎｎｏｔｏｎｌｙｄｅａｌｗｉｔｈｃｏｎｖｅｘｄａｔａｓｅｔ，ａｎｄａｌｓｏｈａｓｇｏｏｄｃｌｕｓｔｅｒｉｎｇｅｆｆｅｃｔｓｏｎｎｏｎｃｏｎｖｅｘｓｈａｐｅｄ，ｏｖｅｒｌａｐｐｅｄａｎｄｎｏｉｓｙ，ｄａｔａｓｅｔｓ．Ｔｈｉｓｐｒｏｖｅｓｔｈａｔｔｈｅａｌｇｏｒｉｔｈｍｈａｓｇｏｏｄａｐｐｌｉｃａｂｉｌｉｔｙａｎｄｖａｌｉｄｉｔｙ．Ｋｅｙｗｏｒｄｓ：ｄａｔａｐｏｉｎｔｓ；ｄｅｎｓｉｔｙ；ｒａｎｄｏｍｖａｒｉａｂｌｅ；ｍｅｒｇｉｎｇ；ｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ；ｎｏｉｓｅ收稿日期：２０１４⁃１０⁃２１．网络出版日期：２０１５⁃０９⁃３０．基金项目：国家自然科学基金资助项目（６１１０３０５８）．通信作者：丁军娣．Ｅ⁃ｍａｉｌ：ｄｉｎｇｊｕｎｄｉ２０１０＠ｎｊｕｓｔ．ｅｄｕ．ｃｎ．聚类［１⁃２］是数据挖掘领域中十分重要的数据分析技术。具体来说，聚类就是将给定的数据集划分成互不相交的非空子集的过程。由于初始条件和聚类准则的不唯一性，使得各种各样的聚类算法应运而生。根据算法形成方式的不同，可以将其分为２大类：基于划分的聚类算法和基于层次的聚类算法［３］。基于划分的聚类算法也可以称为分割聚类算法，它的主要特点是在对数据集进行分类之前，需要事先确定聚类个数，然后将数据集划分到确定好的各类别中。根据划分过程中数据点类别归属的明确性，又可将分割聚类分为硬聚类和模糊聚类［４］。硬聚类中数据点的类别归属是明确的。每个数据点对各类别的隶属度取０或１，即一个数据点必须属于某一类别且只能属于该类别。硬聚类的数学定义描述如下：设给定的数据集为Ｘ＝｛ｘ１，ｘ２，…，ｘｎ｝∈Ｒｎ×ｄ，ｘｉ（ｉ＝１，２，…，ｎ）表示第ｉ个数据点。预先确定将Ｘ划分为ｋ个子集Ｃ＝｛Ｃ１，Ｃ２，…，Ｃｋ｝

第5期刘贝贝，等：基于密度的统计合并聚类算法 ·713· (k≤n),则C:满足如下条件：1)C≠⑦，(i=1,2, 凝聚式层次聚类算法[o采用“自底向上”的方 …,k),即每一子集至少含有一个数据点；2)C:∩C= 式进行。一开始将数据集的每个数据点看作一类， ☑，(1≤i≠j≤k),即每个数据点只能属于一个子集：然后进行一系列的合并操作，直到满足终止条件或 3)UC,=X,即每个数据点必须归属于某一子集。所有数据点归为一类时停止凝聚。大部分层次聚类数据点x,(=1,2,…,n)对子集C(i=1,2,…,k)的算法都是采用凝聚式聚类，代表性的算法有基于代隶属关系可用隶属函数u:表示，当u:=1时，x:∈ 表点的CURE算法I]、基于稠密点的DBSCAN算 C:,当u=0时，x华C:,其中隶属函数u∈{0,1}且法I2J、NBC(neighborhood based clustering)算法B] 满足∑4，=1，j,0<∑西，<n,i。硬聚以及基于核心点的MulCA(multilevel core--sets based aggregation)算法[4]等。类的代表算法有K-means算法s]和Ncuts(normal- 随着信息技术的迅猛发展，数据源开始不断膨 ized cuts)算法[6]。二者都是致力于得到使目标函胀，数据结构也变得日渐复杂，具有类内相异、类间数达到最值的最优聚类。K-means算法取误差平方相似、噪声和重叠现象的数据集层出不穷，这对于计和函数作为目标函数，对初始聚类中心和异常点较算机领域中一些易受噪声点和数据集大小影响的经为敏感，且面对非凸数据集易陷入局部最优。Ncuts 典聚类算法（如K-means、Ncuts等）来说，是一种巨算法取规范割函数为目标函数，将数据集的聚类问大的挑战。题转化为空间中带权无向图的最优划分问题。在寻求更优的聚类算法的道路上，人们开始将 Ncuts算法可以聚类任意形状的数据，但大数据聚类其他专业领域的知识同聚类算法相结合，统计思想问题对其相似性矩阵的存储和特征向量的计算都是逐步被应用于聚类算法中。早期统计聚类方法有种挑战。 GMDD算法[1s]和EM算法[16]等。GMDD算法将数在模糊聚类中，数据点的类别归属是不明确的，据点和噪声点看作是由不同混合高斯分布生成的点一个数据点可以属于所有类别。模糊聚类隶属度的集，利用一个增强的模型模拟估计含有噪声点的原取值由硬聚类中只能取0或1变为可以取[0,1]的始模型。EM算法是一种迭代算法，用于含有隐变任意值，该值用来表示每个数据点属于各个类别的量的概率参数模型的最大似然估计或极大后验概率可能性，仍然满足任意数据点对所有类别的隶属度估计。2004年，针对复杂的图像分割问题，NoCk和之和为1。代表性的模糊聚类算法有FCM算法[刀 Nielsen提出了统计区域合并算法(statistical region 和PCM(possibilitic C means)算法[8]。FCM算法利 merging,SRM)u7]。具体地，该算法将像素点作为用数据点对每一类别的隶属度构成了一个隶属矩最基本的区域，把像素的3个颜色特征看做3组独阵，然后将算法的目标函数转变为一个与隶属矩阵立随机变量，对每一组独立随机变量，根据独立有限相关的函数，通过优化该目标函数完成聚类。为克差分不等式得出合并的判定准则，利用像素点梯度服FCM对噪声敏感的缺点，Krishnapuram和Keller 值从小到大的排序获得合并顺序，依据合并准则和提出了PCM算法。该算法舍弃了FCM算法中每一合并顺序，结合像素或区域进行迭代生长。通过控点对各类别隶属度总和为1的约束条件，使得噪声制每组独立随机变量的个数，SRM算法实现了对复点具有很小的隶属度值，从而增加了算法对噪声的杂图像中目标的快速分割和有效提取。鲁棒性。受SRM方法的启发，本文提出了一种基于密度层次聚类算法又称为树聚类算法。它的主要思的统计合并聚类算法(density-based statistical mer- 想是对给定的数据集依照相似性矩阵进行层次分 ging clustering,DSMC),该算法主要包括2个步骤：解，使得聚类结果可以由二叉树或系统树图来描述， 1)根据数据点的密度信息获得合并顺序及每即树状嵌套结构为H={H,H2,…,H,},（q≤ 数据点的k邻域。首先利用数据点的空间位置信 n),n为数据点的个数，当C:∈Hm,CeH,且m>l, 息及多维特征信息，计算数据点之间的相似性得到有C:∈C,或C:∩C=对所有i成立，j≠i,m,l= 相似性矩阵，确定每一数据点的k邻域。然后将稠 1,2,…,9。层次聚类算法又分为分裂式和凝聚式密点与其k邻域中所有点的相似性的最小值作为数 2种。据点的密度信息，将密度从大到小的排序作为合并分裂式层次聚类算法采用“自顶向下”的方式的顺序。进行。将数据集看作一类，根据类内最大相似性的 2)按照合并顺序依次将稠密点与其k邻域中原则将数据集逐渐细分，直到满足终止条件或每一的数据点进行合并判定。将数据点的每个特征看作个数据点构成一类时停止分裂，例如MONA(mono- 一组独立随机变量，根据独立有限差分不等式得出 thetic analysis)算法[9]和DIANA(divisive analysis) 的合并判定准则判断两点是否合并。当2个数据点算法[9]等。对其任意的特征具有相同的期望时，划分为同一类

（ｋ≤ｎ），则Ｃｉ满足如下条件：１）Ｃｉ ≠∅，（ｉ＝１，２， …，ｋ），即每一子集至少含有一个数据点；２）Ｃｉ∩Ｃｊ＝ ∅，（１≤ｉ≠ｊ≤ｋ），即每个数据点只能属于一个子集；３）∪ｋｉ＝１Ｃｉ＝Ｘ，即每个数据点必须归属于某一子集。数据点ｘｊ（ｊ＝１，２，…，ｎ）对子集Ｃｉ（ｉ＝１，２，…，ｋ）的隶属关系可用隶属函数ｕｉｊ表示，当ｕｉｊ＝１时，ｘｊ∈ Ｃｉ，当ｕｉｊ＝０时，ｘｊ∉Ｃｉ，其中隶属函数ｕｉｊ∈｛０，１｝且满足 ∑ ｋｉ＝１ｕｉｊ＝１，∀ｊ，０＜ ∑ ｎｊ＝１ｕｉｊ＜ｎ，∀ｉ。硬聚类的代表算法有Ｋ⁃ｍｅａｎｓ算法［５］和Ｎｃｕｔｓ（ｎｏｒｍａｌ⁃ ｉｚｅｄｃｕｔｓ）算法［６］。二者都是致力于得到使目标函数达到最值的最优聚类。Ｋ⁃ｍｅａｎｓ算法取误差平方和函数作为目标函数，对初始聚类中心和异常点较为敏感，且面对非凸数据集易陷入局部最优。Ｎｃｕｔｓ算法取规范割函数为目标函数，将数据集的聚类问题转化为空间中带权无向图的最优划分问题。Ｎｃｕｔｓ算法可以聚类任意形状的数据，但大数据聚类问题对其相似性矩阵的存储和特征向量的计算都是种挑战。在模糊聚类中，数据点的类别归属是不明确的，一个数据点可以属于所有类别。模糊聚类隶属度的取值由硬聚类中只能取０或１变为可以取［０，１］的任意值，该值用来表示每个数据点属于各个类别的可能性，仍然满足任意数据点对所有类别的隶属度之和为１。代表性的模糊聚类算法有ＦＣＭ算法［７］和ＰＣＭ（ｐｏｓｓｉｂｉｌｉｔｉｃＣｍｅａｎｓ）算法［８］。ＦＣＭ算法利用数据点对每一类别的隶属度构成了一个隶属矩阵，然后将算法的目标函数转变为一个与隶属矩阵相关的函数，通过优化该目标函数完成聚类。为克服ＦＣＭ对噪声敏感的缺点，Ｋｒｉｓｈｎａｐｕｒａｍ和Ｋｅｌｌｅｒ提出了ＰＣＭ算法。该算法舍弃了ＦＣＭ算法中每一点对各类别隶属度总和为１的约束条件，使得噪声点具有很小的隶属度值，从而增加了算法对噪声的鲁棒性。层次聚类算法又称为树聚类算法。它的主要思想是对给定的数据集依照相似性矩阵进行层次分解，使得聚类结果可以由二叉树或系统树图来描述，即树状嵌套结构为Ｈ＝｛Ｈ１，Ｈ２，…，Ｈｑ｝，（ｑ≤ ｎ），ｎ为数据点的个数，当Ｃｉ∈Ｈｍ，Ｃｊ∈Ｈｌ且ｍ＞ｌ，有Ｃｉ∈Ｃｊ或Ｃｉ∩Ｃｊ＝ ∅对所有ｉ成立，ｊ≠ｉ，ｍ，ｌ＝１，２，…，ｑ。层次聚类算法又分为分裂式和凝聚式２种。分裂式层次聚类算法采用“自顶向下” 的方式进行。将数据集看作一类，根据类内最大相似性的原则将数据集逐渐细分，直到满足终止条件或每一个数据点构成一类时停止分裂，例如ＭＯＮＡ（ｍｏｎｏ⁃ ｔｈｅｔｉｃａｎａｌｙｓｉｓ）算法［９］和ＤＩＡＮＡ（ｄｉｖｉｓｉｖｅａｎａｌｙｓｉｓ）算法［９］等。凝聚式层次聚类算法［１０］采用“自底向上”的方式进行。一开始将数据集的每个数据点看作一类，然后进行一系列的合并操作，直到满足终止条件或所有数据点归为一类时停止凝聚。大部分层次聚类算法都是采用凝聚式聚类，代表性的算法有基于代表点的ＣＵＲＥ算法［１１］、基于稠密点的ＤＢＳＣＡＮ算法［１２］、ＮＢＣ（ｎｅｉｇｈｂｏｒｈｏｏｄｂａｓｅｄｃｌｕｓｔｅｒｉｎｇ）算法［１３］、以及基于核心点的ＭｕｌＣＡ（ｍｕｌｔｉｌｅｖｅｌｃｏｒｅ⁃ｓｅｔｓｂａｓｅｄａｇｇｒｅｇａｔｉｏｎ）算法［１４］等。随着信息技术的迅猛发展，数据源开始不断膨胀，数据结构也变得日渐复杂，具有类内相异、类间相似、噪声和重叠现象的数据集层出不穷，这对于计算机领域中一些易受噪声点和数据集大小影响的经典聚类算法（如Ｋ⁃ｍｅａｎｓ、Ｎｃｕｔｓ等）来说，是一种巨大的挑战。在寻求更优的聚类算法的道路上，人们开始将其他专业领域的知识同聚类算法相结合，统计思想逐步被应用于聚类算法中。早期统计聚类方法有ＧＭＤＤ算法［１５］和ＥＭ算法［１６］等。ＧＭＤＤ算法将数据点和噪声点看作是由不同混合高斯分布生成的点集，利用一个增强的模型模拟估计含有噪声点的原始模型。ＥＭ算法是一种迭代算法，用于含有隐变量的概率参数模型的最大似然估计或极大后验概率估计。２００４年，针对复杂的图像分割问题，Ｎｏｃｋ和Ｎｉｅｌｓｅｎ提出了统计区域合并算法（ｓｔａｔｉｓｔｉｃａｌｒｅｇｉｏｎｍｅｒｇｉｎｇ，ＳＲＭ）［１７］。具体地，该算法将像素点作为最基本的区域，把像素的３个颜色特征看做３组独立随机变量，对每一组独立随机变量，根据独立有限差分不等式得出合并的判定准则，利用像素点梯度值从小到大的排序获得合并顺序，依据合并准则和合并顺序，结合像素或区域进行迭代生长。通过控制每组独立随机变量的个数，ＳＲＭ算法实现了对复杂图像中目标的快速分割和有效提取。受ＳＲＭ方法的启发，本文提出了一种基于密度的统计合并聚类算法（ｄｅｎｓｉｔｙ⁃ｂａｓｅｄｓｔａｔｉｓｔｉｃａｌｍｅｒ⁃ ｇｉｎｇｃｌｕｓｔｅｒｉｎｇ，ＤＳＭＣ），该算法主要包括２个步骤：１）根据数据点的密度信息获得合并顺序及每一数据点的ｋ邻域。首先利用数据点的空间位置信息及多维特征信息，计算数据点之间的相似性得到相似性矩阵，确定每一数据点的ｋ邻域。然后将稠密点与其ｋ邻域中所有点的相似性的最小值作为数据点的密度信息，将密度从大到小的排序作为合并的顺序。２）按照合并顺序依次将稠密点与其ｋ邻域中的数据点进行合并判定。将数据点的每个特征看作一组独立随机变量，根据独立有限差分不等式得出的合并判定准则判断两点是否合并。当２个数据点对其任意的特征具有相同的期望时，划分为同一类第５期刘贝贝，等：基于密度的统计合并聚类算法 ·７１３·

·714 智能系统学报第10卷别：当2个数据点对其特征至少有一个期望显著不该统计模型对数据点及数据点特征的取样是相同时，划分为不同类别。遍历所有的稠密点，实现对互独立的。对于Q个独立随机变量的分布没有特数据集的分类。定要求，即独立不一定同分布。Q的传统取值一般相比于上述基于密度的凝聚聚类算法（如DB- 为1，即数据点的每个特征只由一个随机变量表示， SCAN、NBC)DSMC算法在数据点生长合并的过程但是这一取值对于较小的数据集难以获得可靠的估中，不仅利用了数据点的密度信息，还利用了根据统计信息。当Q增大时，数据点的特征可以被描述的计判定准则得出的数据点每一个特征的差异性信更加细致，因此，Q成为该算法的重要参数之一。调息。因此，该算法对噪声具有更好的鲁棒性，也对不整参数Q,不仅可以改变算法的统计复杂性，还可以规则形状的数据集和密度不均匀的数据集具有更好控制分类的精确度。将Q的取值从小调大，可以建的聚类效果。立一个层次由粗到细的数据聚类结果。 1 DSM 1.2统计合并判定 DSM算法对数据点的合并由一个特定的统计 1.1统计模型的建立合并判定准则决定。为了简单起见，先只考虑含有设给定的数据集为X,包含n个数据点，每个数一个特征信息的数据集，即一个数据点用一组独立据点含有多个特征信息，用2={A,B,C,…}表示特随机变量表示。在此基础上，将得到的结果扩展到征集合，每个特征的取值范围为[L,U:](i=A,B, 具有更多的特征信息的数据集中。 C,…)。为方便应用，对数据集X作整体移动（特征为了得出统计合并判定准则，介绍定理如下：信息整体改变不影响分类)，使得特征的取值范围定理1（独立有限差分不等式[8]）设X= 变为[0，g](i=A,B,C,…),其中g:=IU,-Ll。 (X1,X2,…,X)是一组独立随机变量，X的取值范然后，将数据点的每一个特征用Q个独立随机变量围为A(k=1,2,…,n)。假设存在一个定义在表示，每一个随机变量对应一个分布。以特征A为 Π4：的实值函数f,当变量X与X'仅在第k个条件例，其可表示为A=（A1,A2,…,A),随机变量A (G=1,2,…,Q)对应第j个分布。由于Q个独立不同时，满足fX)-f(X)1≤r4,则Hr≥0，有随机变量和的取值应属于[0，g:](i=A,B,C,…), PfX)-u≥)≤exp(-2x2/∑.()) 则每一个随机变量的取值为[0，g,/Q](i=A,B,C, 式中：4为f代X)的期望，即μ=EfX)。 …)。这样，一个数据点的特征信息就由多组独立根据定理1，可以推出给定数据集X中的不同随机变量表示。类别的绝对偏差不等式。记C为数据集X中的类对于给定的数据集X,假设存在具有完美聚类别（单个数据点可作为一个类别），1C1为类别内数结果的数据集X·,那么在X·中，最优的聚类结果据点的个数，C表示类别C与其他类别合并时的代具有如下性质：1)同一类别中的数据点，对于任意表点，E(C)表示该类别相关数据点Q个独立随机给定的数据特征都具有相同的期望：2)不同的类别变量期望和的期望。中的数据点，对于任意给定的数据特征至少有一个期望不同。这一性质在合并判定过程中起到非常重推论1考虑数据集X中的类别组合(C1,C2), V0<δ≤1，下面不等式成立的概率不超过6：要的作用。 I(C-C)-E(G-C)l≥ 数据点x的特征A G*a 11 2 当E(A,=∑E(A).xy 式中：g=max(g:)(i=A,B,C,…)。 =E(A).=∑E(A) 属于同一类别证明已知类别C,中的数据点可由Q1C,I个数据点的特征A 当E(4A)f∑E(A)xy 属于同一类别独立随机变量表示，类别C2中的数据点可由Q1C2 个独立随机变量表示。(C-C)为实值函数，由于 =E(A)=∑E(A) C,C分别是C1,C,的代表点，若变动C中的变量，「的最大取值为g/(Q1C,I),若变动C2中的变图12个数据点任一特征聚类的统计说明量，4的最大取值为g/(Q1C2I)。 Fig.I The statistical description of two data points 记rc,=g/(QC,),6,=g/(Q|C,l),则 clustering about any feature ∑()2=Q(IC,le,)2+IC2lr)2)=

别；当２个数据点对其特征至少有一个期望显著不同时，划分为不同类别。遍历所有的稠密点，实现对数据集的分类。相比于上述基于密度的凝聚聚类算法（如ＤＢ⁃ ＳＣＡＮ、ＮＢＣ）ＤＳＭＣ算法在数据点生长合并的过程中，不仅利用了数据点的密度信息，还利用了根据统计判定准则得出的数据点每一个特征的差异性信息。因此，该算法对噪声具有更好的鲁棒性，也对不规则形状的数据集和密度不均匀的数据集具有更好的聚类效果。１ＤＳＭ１．１统计模型的建立设给定的数据集为Ｘ，包含ｎ个数据点，每个数据点含有多个特征信息，用 Ω＝｛Ａ，Ｂ，Ｃ，…｝表示特征集合，每个特征的取值范围为［Ｌｉ，Ｕｉ］（ｉ＝Ａ，Ｂ，Ｃ，…）。为方便应用，对数据集Ｘ作整体移动（特征信息整体改变不影响分类），使得特征的取值范围变为［０，ｇｉ］（ｉ＝Ａ，Ｂ，Ｃ，…），其中ｇｉ＝｜Ｕｉ－Ｌｉ｜。然后，将数据点的每一个特征用Ｑ个独立随机变量表示，每一个随机变量对应一个分布。以特征Ａ为例，其可表示为Ａ＝（Ａ１，Ａ２，…，ＡＱ），随机变量Ａｊ（ｊ＝１，２，…，Ｑ）对应第ｊ个分布。由于Ｑ个独立随机变量和的取值应属于［０，ｇｉ］（ｉ＝Ａ，Ｂ，Ｃ，…），则每一个随机变量的取值为［０，ｇｉ／Ｑ］（ｉ＝Ａ，Ｂ，Ｃ， …）。这样，一个数据点的特征信息就由多组独立随机变量表示。对于给定的数据集Ｘ，假设存在具有完美聚类结果的数据集Ｘ ∗ ，那么在Ｘ ∗ 中，最优的聚类结果具有如下性质：１）同一类别中的数据点，对于任意给定的数据特征都具有相同的期望；２）不同的类别中的数据点，对于任意给定的数据特征至少有一个期望不同。这一性质在合并判定过程中起到非常重要的作用。图１２个数据点任一特征聚类的统计说明Ｆｉｇ．１Ｔｈｅｓｔａｔｉｓｔｉｃａｌｄｅｓｃｒｉｐｔｉｏｎｏｆｔｗｏｄａｔａｐｏｉｎｔｓｃｌｕｓｔｅｒｉｎｇａｂｏｕｔａｎｙｆｅａｔｕｒｅ该统计模型对数据点及数据点特征的取样是相互独立的。对于Ｑ个独立随机变量的分布没有特定要求，即独立不一定同分布。Ｑ的传统取值一般为１，即数据点的每个特征只由一个随机变量表示，但是这一取值对于较小的数据集难以获得可靠的估计信息。当Ｑ增大时，数据点的特征可以被描述的更加细致，因此，Ｑ成为该算法的重要参数之一。调整参数Ｑ，不仅可以改变算法的统计复杂性，还可以控制分类的精确度。将Ｑ的取值从小调大，可以建立一个层次由粗到细的数据聚类结果。１．２统计合并判定ＤＳＭ算法对数据点的合并由一个特定的统计合并判定准则决定。为了简单起见，先只考虑含有一个特征信息的数据集，即一个数据点用一组独立随机变量表示。在此基础上，将得到的结果扩展到具有更多的特征信息的数据集中。为了得出统计合并判定准则，介绍定理如下：定理１（独立有限差分不等式［１８］）设Ｘ＝（Ｘ１，Ｘ２，…，Ｘｎ）是一组独立随机变量，Ｘｋ的取值范围为Ａｋ（ｋ＝１，２，…，ｎ）。假设存在一个定义在 ∏ｋＡｋ的实值函数ｆ，当变量Ｘ与Ｘ′仅在第ｋ个条件不同时，满足｜ｆ(Ｘ) －ｆ（Ｘ′）｜≤ｒｋ，则∀τ≥０，有Ｐ(ｆ(Ｘ) － μ ≥ τ) ≤ ｅｘｐ－２τ ２／ ∑ｋｒｋ ( ) ２ ( ) 式中：μ 为ｆ（Ｘ）的期望，即 μ ＝Ｅｆ（Ｘ）。根据定理１，可以推出给定数据集Ｘ中的不同类别的绝对偏差不等式。记Ｃ为数据集Ｘ中的类别（单个数据点可作为一个类别），｜Ｃ｜为类别内数据点的个数，Ｃ ( 表示类别Ｃ与其他类别合并时的代表点，Ｅ（Ｃ）表示该类别相关数据点Ｑ个独立随机变量期望和的期望。推论１考虑数据集Ｘ中的类别组合（Ｃ１，Ｃ２）， ∀０＜δ≤１，下面不等式成立的概率不超过 δ：Ｃ１ ( －Ｃ２ ( ( ) －ＥＣ１ ( －Ｃ２ ( ( ) ≥ ｇ１２Ｑ１Ｃ１＋１Ｃ２ æ è ç ö ø ÷ ｌｎ２ δ 式中：ｇ＝ｍａｘｇｉ ( ) （ｉ＝Ａ，Ｂ，Ｃ，…）。证明已知类别Ｃ１中的数据点可由Ｑ｜Ｃ１｜个独立随机变量表示，类别Ｃ２中的数据点可由Ｑ｜Ｃ２｜个独立随机变量表示。Ｃ１ ( －Ｃ２ ( ( ) 为实值函数，由于Ｃ１ ( ，Ｃ２ ( 分别是Ｃ１，Ｃ２的代表点，若变动Ｃ１中的变量，ｒｋ的最大取值为ｇ／（Ｑ｜Ｃ１｜），若变动Ｃ２中的变量，ｒｋ的最大取值为ｇ／（Ｑ｜Ｃ２｜）。记ｒＣ１＝ｇ／（ＱＣ１），ｒＣ２＝ｇ／（ＱＣ２），则 ∑ｋｒｋ ( ) ２＝ＱＣ１ｒＣ１ ( ) ２＋Ｃ２ｒＣ２ ( ) ２ ( ) ＝ ·７１４· 智能系统学报第１０卷

第5期刘贝贝，等：基于密度的统计合并聚类算法 ·715· 由上述合并顺序的获取过程可以看出，k邻域大小的选择直接影响了数据点密度的大小，进而影 1(11 2 响了DSMC算法的合并顺序。因此，k邻域的大小根据定理1，取=gG十Gg血谷>0，也被看作是DSMC算法的一个重要参数。则在该算法中，密度的大小不仅受到k邻域的影 P(I(C-C)-E(G-C)l≥ 响，也会受到距离度量(x,y)的影响。针对不同特征的数据集，选取合适的f(x,y)可以得到更好的聚 171 类结果。在算法中较为常见的距离度量有欧式距离，马氏距离，最大/最小值距离等。本文实验中主 2r2 < 要应用一种距离度量，它利用数据点最大特征差异 2 进行排序，使得d=max,eks(max(x:-y:),(i=A, 推论得证。 B,C,…),K(x)表示点x的k邻域。随机生成含由推论1可知，当δ取值接近于零时（本文有20个点的数据集，选取k邻域大小为4，利用上若未特别标明，8取为1/(61X12),类别组合述距离度量，得到DSMC算法的合并顺序如图2 (C,C2)满足不等式1(C-C3)-E(C,-C)1≤ 所示。 b(C1,C2)的概率接近于1，其中b(C1,C2)= 20TG,7G方：若(G,G)可以合并，说 1 明在数据集X·中2者属于同一类别，则有 E(C,-C,)=0。根据这2个前提条件得到如下统计合并判定准则： ● M(C1,C2)= |ue,1(G-C)l≤b(C,c) false,其他当类别组合(C,C,)满足|(C-C)|≤ (a)原图 b(C1,C2)时，则合并(C1,C2);反之则不然。将该准则扩展到具有多个特征信息的数据集中，形式如下： ftue,a∈{A,B,…f, M(C,C2上 I(G-Ca)|≤b(C,G) false,其他 1.3合并顺序建立合适的合并准则后，聚类算法的结果受合并顺序的影响。与随机选取数据点进行合并判定的算法不同，DSMC算法利用了数据点的密度信息以获得合并顺序。获取过程可叙述如下：首先，计算数 (b)k=4时的合并顺序图2DSMC算法的合并顺序据集中任意2点之间的距离度量（例如欧式距离、 Fig.2 Merging order of DSMC algorithm 最大/最小距离、马氏距离等)，获得度量矩阵：然后，确定每一数据点的k邻域，选取k邻域中所有点 2DSMC算法的实现与稠密点距离度量的最大值，作为稠密点的局部密度信息：最后，根据获得的局部密度信息，将所有数 2.1DSMC算法的实现细节据点按密度从大到小排序，得到算法的合并顺序。通过对DSMC算法的详细介绍可知，DSMC算在整个算法过程中，基于密度的合并顺序保证了在法主要通过2个步骤实现：步骤1是根据数据点的任意2个不同的类别进行合并判定时，其自身已经密度信息获得合并顺序及每一数据点的k邻域：步完成所有可能的合并。骤2是按照合并顺序依次将稠密点与其k邻域中的

ｇ２Ｑ１Ｃ１＋１Ｃ２ æ è ç ö ø ÷ 根据定理１，取 τ ＝ｇ１２Ｑ１Ｃ１＋１Ｃ２ æ è ç ö ø ÷ｌｎ２ δ ＞０，则ＰＣ１ ( －Ｃ２ ( ( ) －ＥＣ１ ( －Ｃ２ ( ( ( ) ≥ ｇ１２Ｑ１Ｃ１＋１Ｃ２ æ è ç ö ø ÷ ｌｎ２ δ ö ø ÷ ≤ ｅｘｐ－２τ ２ ∑ｋｒｋ ( ) ２ æ è çç ö ø ÷÷ ＝ δ ２＜ δ 推论得证。由推论１可知，当 δ 取值接近于零时（本文若未特别标明， δ 取为１／（６｜Ｘ｜２），类别组合（Ｃ１，Ｃ２）满足不等式｜Ｃ１ ( －Ｃ２ ( ( ) －ＥＣ１ ( －Ｃ２ ( ( ) ｜ ≤ ｂ（Ｃ１，Ｃ２）的概率接近于１，其中ｂＣ１，Ｃ２ ( ) ＝ｇ１２Ｑ（１Ｃ１＋１Ｃ２）ｌｎ２ δ ；若（Ｃ１，Ｃ２）可以合并，说明在数据集Ｘ ∗ 中２者属于同一类别，则有Ｅ（Ｃ１ ( －Ｃ２ ( ）＝０。根据这２个前提条件得到如下统计合并判定准则：ＭＣ１，Ｃ２ ( ) ＝ｔｒｕｅ，Ｃ１ ( －Ｃ１ ( ( ) ≤ ｂＣ１，Ｃ２ ( ) ｆａｌｓｅ，其他 { 当类别组合（Ｃ１，Ｃ２）满足Ｃ１ ( －Ｃ２ ( ( ) ≤ ｂ（Ｃ１，Ｃ２）时，则合并（Ｃ１，Ｃ２）；反之则不然。将该准则扩展到具有多个特征信息的数据集中，形式如下：ＭＣ１，Ｃ２ ( )＝ｔｒｕｅ， ∀ａ ∈｛Ａ，Ｂ，…｝，Ｃａ１ ( －Ｃａ２ ( ( ) ≤ｂ（Ｃ１，Ｃ２）ｆａｌｓｅ，其他 ì î í ï ï ï ï １．３合并顺序建立合适的合并准则后，聚类算法的结果受合并顺序的影响。与随机选取数据点进行合并判定的算法不同，ＤＳＭＣ算法利用了数据点的密度信息以获得合并顺序。获取过程可叙述如下：首先，计算数据集中任意２点之间的距离度量（例如欧式距离、最大／最小距离、马氏距离等），获得度量矩阵；然后，确定每一数据点的ｋ邻域，选取ｋ邻域中所有点与稠密点距离度量的最大值，作为稠密点的局部密度信息；最后，根据获得的局部密度信息，将所有数据点按密度从大到小排序，得到算法的合并顺序。在整个算法过程中，基于密度的合并顺序保证了在任意２个不同的类别进行合并判定时，其自身已经完成所有可能的合并。由上述合并顺序的获取过程可以看出，ｋ邻域大小的选择直接影响了数据点密度的大小，进而影响了ＤＳＭＣ算法的合并顺序。因此，ｋ邻域的大小也被看作是ＤＳＭＣ算法的一个重要参数。在该算法中，密度的大小不仅受到ｋ邻域的影响，也会受到距离度量ｆ（ｘ，ｙ）的影响。针对不同特征的数据集，选取合适的ｆ（ｘ，ｙ）可以得到更好的聚类结果。在算法中较为常见的距离度量有欧式距离，马氏距离，最大／最小值距离等。本文实验中主要应用一种距离度量，它利用数据点最大特征差异进行排序，使得ｄ＝ｍａｘｙ∈Ｋ（ｘ）ｍａｘｘｉ－ｙｉ ( ( ) ) ，（ｉ＝Ａ，Ｂ，Ｃ，…），Ｋ（ｘ）表示点ｘ的ｋ邻域。随机生成含有２０个点的数据集，选取ｋ邻域大小为４，利用上述距离度量，得到ＤＳＭＣ算法的合并顺序如图２所示。（ａ）原图（ｂ）ｋ＝４时的合并顺序图２ＤＳＭＣ算法的合并顺序Ｆｉｇ．２ＭｅｒｇｉｎｇｏｒｄｅｒｏｆＤＳＭＣａｌｇｏｒｉｔｈｍ２ＤＳＭＣ算法的实现２．１ＤＳＭＣ算法的实现细节通过对ＤＳＭＣ算法的详细介绍可知，ＤＳＭＣ算法主要通过２个步骤实现：步骤１是根据数据点的密度信息获得合并顺序及每一数据点的ｋ邻域；步骤２是按照合并顺序依次将稠密点与其ｋ邻域中的第５期刘贝贝，等：基于密度的统计合并聚类算法 ·７１５·

·716 智能系统学报第10卷数据点进行合并判定，通过遍历所有的稠密点完成计合并判定得到聚类结果：过程③根据临近数据点数据的聚类。其中，为更好地处理噪声点，在步骤2 的类别对噪声点进行聚类，比较其k邻域中各类别中只对a比例的数据（本文默认α=0.9）进行统计点的个数，将它归为点数最多类别。判定，剩余数据点根据临近数据点的类别标号。根 200 200 据这2个步骤的内容，具体说明DSMC算法的聚类 150 150 过程如下。 100 。=.100 步骤1：计算数据点的合并顺序并获得数据点 50 的k邻域。 ①504 %⊙j 输入：数据集X;k邻域中数据点个数k。 1000100 200300-1000100200300 1)计算数据集中任意两个点距离，存入矩 1② 阵D。 2)将矩阵D按列进行升序排列，存入矩阵D, 200 200. 其第k行按升序排列，得到密度从大到小的顺序d。 150 150 3)根据顺序d确定数据点的k邻域。 a.100 。.100 输出：合并顺序d:k邻域矩阵W。 ③50 步骤2：将稠密点与其k邻域中的数据点进行合并判定，然后合并剩余点完成聚类。 100 0100 200300-1000100200300 x 输入：数据集X;合并顺序d:k邻域矩阵W。图3DSMC算法的聚类过程 1)对数据集中90%的数据点（稠密点）进行合 Fig.3 Clustering process of DSMC algorithm 并判定。 2.2计算复杂度分析 a)根据合并顺序d确定当前稠密点C,然后依由上述聚类过程可知，DSMC算法的计算量主次选定其k邻域内的点作为当前合并点C,判断要集中于2个步骤： 1)构建数据点的距离度量矩阵： CC的类别归属： 2)统计合并判定时对稠密点及其k邻域的 b)计算统计判定准则的临界值b(C,C2)(推迭代。论1)，若满足统计合并判定准则，则合并C,C,:若不对于步骤1)，给定含有n个点的数据集，距离满足，则进行下一组合并判断，直到遍历完k邻域内度量矩阵的计算复杂度为0(n2):对于步骤2)，遍所有的点：历数据集中所有稠密点，将当前稠密点依次与其k c)重复步骤a)和b),直到遍历完数据集X中邻域中的点进行统计合并判定，由于k邻域内点的所有的稠密点。最大迭代次数为k,因此，步骤2)的计算复杂度为 2)对剩余的10%的数据点进行近邻合并。 O(km)。一般地，k的取值远小于n,则DSMC算法的计算复杂度可近似于距离度量矩阵的计算复杂度 a)根据合并顺序d确定当前点C; 0(n2)。 b)判断其k邻域内点的分类情况。若有已分类的点，且其k邻域中属于该类别的点数最多，则将 3实验比较与评价 C归于该类别：若没有已分类的点，则C,不作改变：将DSMC算法同3种经典聚类算法作比较，它 c)重复步骤a)和b),直到遍历完剩余所有的们分别是通过聚类中心实现的K-means算法、基于数据点。图论的Ncuts算法和基于密度的DBSCAN算法。针 3)计算数据集X的分类个数nbcluster。对具有不同形状，不同重叠程度和不同噪声点数的输出：聚类个数nbcluster. 人工数据集以及部分真实数据集进行实验。进一步由高斯分布随机生成一个可被分为2类的数据地，对本文提出的DSMC算法的参数选择进行了实集X,其含40个数据点。用DSMC算法（参数k和验分析。 Q取为5,15)对数据集X进行聚类，具体过程如图3 由于不同的算法具有不同的参数，在3.1~3.5 所示。过程①对于给定的数据集X计算合并顺序，节的实验中，实验参数设置如下：得到首要稠密点及其k邻域：过程②按照数据集的 1)K-means和Ncuts算法：只有1个参数，即想合并顺序，依次对稠密点和其k邻域中的点进行统要达到的聚类个数。一般地，实验中将数据集真实的聚类个数取为参数值

数据点进行合并判定，通过遍历所有的稠密点完成数据的聚类。其中，为更好地处理噪声点，在步骤２中只对 α 比例的数据（本文默认 α ＝０．９）进行统计判定，剩余数据点根据临近数据点的类别标号。根据这２个步骤的内容，具体说明ＤＳＭＣ算法的聚类过程如下。步骤１：计算数据点的合并顺序并获得数据点的ｋ邻域。输入：数据集Ｘ；ｋ邻域中数据点个数ｋ。１）计算数据集中任意两个点距离，存入矩阵Ｄ。２）将矩阵Ｄ按列进行升序排列，存入矩阵Ｄ１，其第ｋ行按升序排列，得到密度从大到小的顺序ｄ。３）根据顺序ｄ确定数据点的ｋ邻域。输出：合并顺序ｄ；ｋ邻域矩阵Ｗ。步骤２：将稠密点与其ｋ邻域中的数据点进行合并判定，然后合并剩余点完成聚类。输入：数据集Ｘ；合并顺序ｄ；ｋ邻域矩阵Ｗ。１）对数据集中９０％的数据点（稠密点）进行合并判定。ａ）根据合并顺序ｄ确定当前稠密点Ｃ１ ( ，然后依次选定其ｋ邻域内的点作为当前合并点Ｃ２ ( ，判断Ｃ１ ( Ｃ２ ( 的类别归属；ｂ）计算统计判定准则的临界值ｂ（Ｃ１，Ｃ２）（推论１），若满足统计合并判定准则，则合并Ｃ１ ( Ｃ２ ( ；若不满足，则进行下一组合并判断，直到遍历完ｋ邻域内所有的点；ｃ）重复步骤ａ）和ｂ），直到遍历完数据集Ｘ中所有的稠密点。２）对剩余的１０％的数据点进行近邻合并。ａ）根据合并顺序ｄ确定当前点Ｃ１ ( ；ｂ）判断其ｋ邻域内点的分类情况。若有已分类的点，且其ｋ邻域中属于该类别的点数最多，则将Ｃ１ ( 归于该类别；若没有已分类的点，则Ｃ１ ( 不作改变；ｃ）重复步骤ａ）和ｂ），直到遍历完剩余所有的数据点。３）计算数据集Ｘ的分类个数ｎｂｃｌｕｓｔｅｒ。输出：聚类个数ｎｂｃｌｕｓｔｅｒ。由高斯分布随机生成一个可被分为２类的数据集Ｘ，其含４０个数据点。用ＤＳＭＣ算法（参数ｋ和Ｑ取为５，１５）对数据集Ｘ进行聚类，具体过程如图３所示。过程①对于给定的数据集Ｘ计算合并顺序，得到首要稠密点及其ｋ邻域；过程②按照数据集的合并顺序，依次对稠密点和其ｋ邻域中的点进行统计合并判定得到聚类结果；过程③根据临近数据点的类别对噪声点进行聚类，比较其ｋ邻域中各类别点的个数，将它归为点数最多类别。图３ＤＳＭＣ算法的聚类过程Ｆｉｇ．３ＣｌｕｓｔｅｒｉｎｇｐｒｏｃｅｓｓｏｆＤＳＭＣａｌｇｏｒｉｔｈｍ２．２计算复杂度分析由上述聚类过程可知，ＤＳＭＣ算法的计算量主要集中于２个步骤：１）构建数据点的距离度量矩阵；２）统计合并判定时对稠密点及其ｋ邻域的迭代。对于步骤１），给定含有ｎ个点的数据集，距离度量矩阵的计算复杂度为Ｏ（ｎ２）；对于步骤２），遍历数据集中所有稠密点，将当前稠密点依次与其ｋ邻域中的点进行统计合并判定，由于ｋ邻域内点的最大迭代次数为ｋ，因此，步骤２）的计算复杂度为Ｏ（ｋｎ）。一般地，ｋ的取值远小于ｎ，则ＤＳＭＣ算法的计算复杂度可近似于距离度量矩阵的计算复杂度Ｏ（ｎ２）。３实验比较与评价将ＤＳＭＣ算法同３种经典聚类算法作比较，它们分别是通过聚类中心实现的Ｋ⁃ｍｅａｎｓ算法、基于图论的Ｎｃｕｔｓ算法和基于密度的ＤＢＳＣＡＮ算法。针对具有不同形状，不同重叠程度和不同噪声点数的人工数据集以及部分真实数据集进行实验。进一步地，对本文提出的ＤＳＭＣ算法的参数选择进行了实验分析。由于不同的算法具有不同的参数，在３．１～３．５节的实验中，实验参数设置如下：１）Ｋ⁃ｍｅａｎｓ和Ｎｃｕｔｓ算法：只有１个参数，即想要达到的聚类个数。一般地，实验中将数据集真实的聚类个数取为参数值。 ·７１６· 智能系统学报第１０卷

点击进入文档下载页（PDF格式）

共10页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录