当前位置：和泉文库 > 电气与自动化 > 浏览文档

【机器学习】基于稠密子图的社区发现算法编辑部

文件格式：PDF，文件大小：1.36MB，售价：2.73元

文档详细内容（约7页）

第11卷第3期智能系统学报 Vol.11 No.3 2016年6月 CAAI Transactions on Intelligent Systems Jun.2016 D0I:10.11992.tis.201603045 网络出版地址：http://www.enki..net/kcms/detail/23.1538.TP.20160513.0923.022.html 基于稠密子图的社区发现算法郑文萍12，张浩杰，王杰12 (1.山西大学计算机与信息技术学院，山西太原030006；2.山西大学计算智能与中文信息处理教育部重点实验室，山西太原030006) 摘要：基于密度的图聚类算法在社区发现中得到了广泛应用，然而由于其通过搜索网络中局部稠密子图来识别社区，使得大量结点因不能构成稠密子图而未被聚类。针对此问题，给出了一种基于稠密子图的软聚类算法(comu- nity detection based dense subgraphs,BDSG)。首先给出一种中心社区发现方法；进而定义了一种结点的社区归属度，并给出中心社区扩展策略；最终得到聚类结果。通过与CPM(clique percolation method),k-dense算法在空手道俱乐部，海豚社交网络、大学生足球网络、电子邮件网络和合作网络等数据进行比较，表明BDSG算法在模块性指标与时间效率方面体现了良好性能，同时中心社区扩展策略能在一定程度上提高CPM、k-dense等基于密度算法的聚类有效性。关键词：复杂网络：社区发现；图聚类；软聚类：密度：中心扩展策略；点介数：模块性中图分类号：TP18文献标志码：A文章编号：1673-4785(2016)03-0426-07. 中文引用格式：郑文萍，张浩杰，王杰.基于稠密子图的社区发现算法[J].智能系统学报，2016,11(3)：426432. 英文引用格式：ZHENG Wenping,ZHANG Haojie,WANG Jie.Community detection algorithm based on dense subgraphs[J]. CAAI transactions on intelligent systems,2016,11(3):426-432. Community detection algorithm based on dense subgraphs ZHENG Wenping'2,ZHANG Haojie',WANG Jie2 (1.School of Computer and Information Technology,Shanxi University,Taiyuan 030006,China;2.Key Laboratory of Computation In- telligence and Chinese Information Processing,Ministry of Education,Shanxi University,Taiyuan 030006,China) Abstract:The density-based graph clustering algorithm has been widely used in community detection.However, because it identifies a community by searching a partially dense subgraph in the network,many nodes do not consti- tute a dense subgraph and are therefore difficult to cluster.In this paper,we present a soft clustering algorithm based on dense subgraphs(BDSG)for detecting communities in complex networks.First,we propose a method for detecting the central communities.Next,we define the degree of community attribution of a node,and put forward a core community extended strategy.Finally,we obtain the clustering results of a network.Compared with the clique percolation method(CPM),k-dense algorithms from Zachary's Karate Club,the dolphin social network, the American college football network,the email network,and the collaboration network,BDSG shows considerably better performance with respect to modularity and time efficiency.In addition,the proposed core community extend- ed strategy may improve the effectiveness of the clustering-methods-based density,such as that in CPM,k-dense algorithms,and others. Keywords:complex network;community detection;graph clustering;soft clustering;density;core extended strat- egy;vertex betweenness;modularity 收稿日期：2016-03-19.网络出版日期：2016-05-13. 近年来，对各种复杂网络的研究是许多领域的基金项目：国家自然科学基金项目(61572005,61272004)，山西省煤基研究热点之一[d),如生物网络、社交网络、电子邮重点科技攻关项目(M02014-09). 通信作者：郑文萍.E-mail:wpzheng(@sxu.edu.cm 件网络、引文网络等已成为众多学者的主要研究对

第１１卷第３期智能系统学报Ｖｏｌ．１１ №．３２０１６年６月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＪｕｎ．２０１６ＤＯＩ：１０．１１９９２．ｔｉｓ．２０１６０３０４５网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１６０５１３．０９２３．０２２．ｈｔｍｌ基于稠密子图的社区发现算法郑文萍１，２，张浩杰１，王杰１，２（１．山西大学计算机与信息技术学院，山西太原０３０００６；２．山西大学计算智能与中文信息处理教育部重点实验室，山西太原０３０００６）摘要：基于密度的图聚类算法在社区发现中得到了广泛应用，然而由于其通过搜索网络中局部稠密子图来识别社区，使得大量结点因不能构成稠密子图而未被聚类。针对此问题，给出了一种基于稠密子图的软聚类算法（ｃｏｍｍｕ⁃ ｎｉｔｙｄｅｔｅｃｔｉｏｎｂａｓｅｄｄｅｎｓｅｓｕｂｇｒａｐｈｓ，ＢＤＳＧ）。首先给出一种中心社区发现方法；进而定义了一种结点的社区归属度，并给出中心社区扩展策略；最终得到聚类结果。通过与ＣＰＭ（ｃｌｉｑｕｅｐｅｒｃｏｌａｔｉｏｎｍｅｔｈｏｄ）、ｋ⁃ｄｅｎｓｅ算法在空手道俱乐部、海豚社交网络、大学生足球网络、电子邮件网络和合作网络等数据进行比较，表明ＢＤＳＧ算法在模块性指标与时间效率方面体现了良好性能，同时中心社区扩展策略能在一定程度上提高ＣＰＭ、ｋ⁃ｄｅｎｓｅ等基于密度算法的聚类有效性。关键词：复杂网络；社区发现；图聚类；软聚类；密度；中心扩展策略；点介数；模块性中图分类号：ＴＰ１８文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１６）０３⁃０４２６⁃０７．中文引用格式：郑文萍，张浩杰，王杰．基于稠密子图的社区发现算法［Ｊ］．智能系统学报，２０１６，１１（３）：４２６⁃４３２．英文引用格式：ＺＨＥＮＧＷｅｎｐｉｎｇ，ＺＨＡＮＧＨａｏｊｉｅ，ＷＡＮＧＪｉｅ．Ｃｏｍｍｕｎｉｔｙｄｅｔｅｃｔｉｏｎａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｄｅｎｓｅｓｕｂｇｒａｐｈｓ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１６，１１（３）：４２６⁃４３２．ＣｏｍｍｕｎｉｔｙｄｅｔｅｃｔｉｏｎａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｄｅｎｓｅｓｕｂｇｒａｐｈｓＺＨＥＮＧＷｅｎｐｉｎｇ１，２，ＺＨＡＮＧＨａｏｊｉｅ１，ＷＡＮＧＪｉｅ１，２（１．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒａｎｄＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ，ＳｈａｎｘｉＵｎｉｖｅｒｓｉｔｙ，Ｔａｉｙｕａｎ０３０００６，Ｃｈｉｎａ；２．ＫｅｙＬａｂｏｒａｔｏｒｙｏｆＣｏｍｐｕｔａｔｉｏｎＩｎ⁃ ｔｅｌｌｉｇｅｎｃｅａｎｄＣｈｉｎｅｓｅＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇ，ＭｉｎｉｓｔｒｙｏｆＥｄｕｃａｔｉｏｎ，ＳｈａｎｘｉＵｎｉｖｅｒｓｉｔｙ，Ｔａｉｙｕａｎ０３０００６，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｈｅｄｅｎｓｉｔｙ－ｂａｓｅｄｇｒａｐｈｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｈａｓｂｅｅｎｗｉｄｅｌｙｕｓｅｄｉｎｃｏｍｍｕｎｉｔｙｄｅｔｅｃｔｉｏｎ．Ｈｏｗｅｖｅｒ，ｂｅｃａｕｓｅｉｔｉｄｅｎｔｉｆｉｅｓａｃｏｍｍｕｎｉｔｙｂｙｓｅａｒｃｈｉｎｇａｐａｒｔｉａｌｌｙｄｅｎｓｅｓｕｂｇｒａｐｈｉｎｔｈｅｎｅｔｗｏｒｋ，ｍａｎｙｎｏｄｅｓｄｏｎｏｔｃｏｎｓｔｉ⁃ ｔｕｔｅａｄｅｎｓｅｓｕｂｇｒａｐｈａｎｄａｒｅｔｈｅｒｅｆｏｒｅｄｉｆｆｉｃｕｌｔｔｏｃｌｕｓｔｅｒ．Ｉｎｔｈｉｓｐａｐｅｒ，ｗｅｐｒｅｓｅｎｔａｓｏｆｔｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｄｅｎｓｅｓｕｂｇｒａｐｈｓ（ＢＤＳＧ）ｆｏｒｄｅｔｅｃｔｉｎｇｃｏｍｍｕｎｉｔｉｅｓｉｎｃｏｍｐｌｅｘｎｅｔｗｏｒｋｓ．Ｆｉｒｓｔ，ｗｅｐｒｏｐｏｓｅａｍｅｔｈｏｄｆｏｒｄｅｔｅｃｔｉｎｇｔｈｅｃｅｎｔｒａｌｃｏｍｍｕｎｉｔｉｅｓ．Ｎｅｘｔ，ｗｅｄｅｆｉｎｅｔｈｅｄｅｇｒｅｅｏｆｃｏｍｍｕｎｉｔｙａｔｔｒｉｂｕｔｉｏｎｏｆａｎｏｄｅ，ａｎｄｐｕｔｆｏｒｗａｒｄａｃｏｒｅｃｏｍｍｕｎｉｔｙｅｘｔｅｎｄｅｄｓｔｒａｔｅｇｙ．Ｆｉｎａｌｌｙ，ｗｅｏｂｔａｉｎｔｈｅｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓｏｆａｎｅｔｗｏｒｋ．Ｃｏｍｐａｒｅｄｗｉｔｈｔｈｅｃｌｉｑｕｅｐｅｒｃｏｌａｔｉｏｎｍｅｔｈｏｄ（ＣＰＭ），ｋ－ｄｅｎｓｅａｌｇｏｒｉｔｈｍｓｆｒｏｍＺａｃｈａｒｙ＇ｓＫａｒａｔｅＣｌｕｂ，ｔｈｅｄｏｌｐｈｉｎｓｏｃｉａｌｎｅｔｗｏｒｋ，ｔｈｅＡｍｅｒｉｃａｎｃｏｌｌｅｇｅｆｏｏｔｂａｌｌｎｅｔｗｏｒｋ，ｔｈｅｅｍａｉｌｎｅｔｗｏｒｋ，ａｎｄｔｈｅｃｏｌｌａｂｏｒａｔｉｏｎｎｅｔｗｏｒｋ，ＢＤＳＧｓｈｏｗｓｃｏｎｓｉｄｅｒａｂｌｙｂｅｔｔｅｒｐｅｒｆｏｒｍａｎｃｅｗｉｔｈｒｅｓｐｅｃｔｔｏｍｏｄｕｌａｒｉｔｙａｎｄｔｉｍｅｅｆｆｉｃｉｅｎｃｙ．Ｉｎａｄｄｉｔｉｏｎ，ｔｈｅｐｒｏｐｏｓｅｄｃｏｒｅｃｏｍｍｕｎｉｔｙｅｘｔｅｎｄ⁃ ｅｄｓｔｒａｔｅｇｙｍａｙｉｍｐｒｏｖｅｔｈｅｅｆｆｅｃｔｉｖｅｎｅｓｓｏｆｔｈｅｃｌｕｓｔｅｒｉｎｇ－ｍｅｔｈｏｄｓ－ｂａｓｅｄｄｅｎｓｉｔｙ，ｓｕｃｈａｓｔｈａｔｉｎＣＰＭ，ｋ－ｄｅｎｓｅａｌｇｏｒｉｔｈｍｓ，ａｎｄｏｔｈｅｒｓ．Ｋｅｙｗｏｒｄｓ：ｃｏｍｐｌｅｘｎｅｔｗｏｒｋ；ｃｏｍｍｕｎｉｔｙｄｅｔｅｃｔｉｏｎ；ｇｒａｐｈｃｌｕｓｔｅｒｉｎｇ；ｓｏｆｔｃｌｕｓｔｅｒｉｎｇ；ｄｅｎｓｉｔｙ；ｃｏｒｅｅｘｔｅｎｄｅｄｓｔｒａｔ⁃ ｅｇｙ；ｖｅｒｔｅｘｂｅｔｗｅｅｎｎｅｓｓ；ｍｏｄｕｌａｒｉｔｙ收稿日期：２０１６⁃０３⁃１９．网络出版日期：２０１６⁃０５⁃１３．基金项目：国家自然科学基金项目（６１５７２００５，６１２７２００４），山西省煤基重点科技攻关项目（ＭＱ２０１４⁃０９）．通信作者：郑文萍．Ｅ⁃ｍａｉｌ：ｗｐｚｈｅｎｇ＠ｓｘｕ．ｅｄｕ．ｃｎ．近年来，对各种复杂网络的研究是许多领域的研究热点之一［１⁃３］，如生物网络、社交网络、电子邮件网络、引文网络等已成为众多学者的主要研究对

第3期郑文萍，等：基于稠密子图的社区发现算法 ·427. 象。大量研究表明，复杂网络中存在着一种普遍特面的性能表现。基于归属度的中心社区扩展策略也征—社区结构。复杂网络中社区发现)不仅将应用在CPM、k-dense等基于密度的图聚类算法有助于深入研究整个网络的拓扑结构、功能模块以中，对未聚类结点进一步处理，以提高聚类有效性。及动力学特性，同时在生物蛋白质的性能与互作用的分析6、社会组织结构的网络分析)、搜索引 1背景知识擎[]及推荐系统[)等方面均有广泛的应用前景，因通常，一个复杂网络可以表示为图G=(V,E), 此具有十分重要的理论意义和应用价值。其中顶点集V={1,2,…,vn},n=V;边集E中每目前，社区发现算法的研究主要分为基于图划条边e,对应V中一对顶点(：，心)之间的连接关系，分的聚类算法[1o)、基于谱分析的聚类算法[2]、基 m=IEI。顶点v的邻域Nc()={u|(v,u)∈E}, 于层次的聚类算法[)]和基于密度的聚类算法[) 表示图G中与顶点v相邻的顶点集合，简记为V,。等。其中基于密度的聚类算法通过搜索网络中稠密结点：的度记为k,。除非特别指明，以下仅考虑简子图1能较好地发现网络中的功能模块，因此在社区发现中得到了广泛应用。2005年，Palla等161提单无向图，因此k.=NI。令UCV(G),用[U]G表出派系过滤算法(clique percolation method,CPM), 示G的结点子集U的导出子图，在不发生混淆时，首先挖掘网络中结点数大于k的所有派系（完全记为[U]。记顶点子集[U]在G中的邻域为图)，然后将重叠结点大于k-1的派系合并得到k Nc(U)={ulu∈Nc(x)Ax∈U}o 派系社区。2006年，Saito等[]提出k-dense子图结在复杂网络中，图G的密度[20]记为De= 构，通过寻找网络中的k-dense结构进行社区检测。 m 2009年，Sun等18以CPM为基础，通过改进寻找派 n(n-1)2。可以看出，D。∈【0，]，当D。越趋近于系的方法提高算法效率，提出迭代派系过滤算法 1,图G中的边数越多；当Dc=1时，图G为完全图。 iterative-clique percolation method,ICPM)2010 结点的点介数2B()可以用来度量结点年，Liu等I]提出基于极大团的聚类算法(cluste- 在网络G中的重要性。如果一对结点(：，)间共 ring-based on maximal cliques,CMC),通过搜索网络有L条不同的最短路径，其中有L()条经过中的所有极大团，并依据相互连接度合并重叠率较结点4，那么结点对结点对(：，)的贡献为高的极大团得到网络的社区结构。由于这些算法要搜索网络中的相对稠密子图来进行聚类，当网络中 L)/L0定义结点的点介数B(): 存在包含大量结点的稀疏子图时，这些结点可能最 B(u)= L两 (1)》终成为未聚类结点，造成了聚类结果的不完全覆盖。这些未聚类结点构成的稀疏子图可能具有某种功通常一个结点的点介数越大，则该结点对网络能，或者与某些稠密子图共同行使功能，因此需要对结构的影响越大。点介数是网络中结点重要性度量网络中的部分未聚类结点进行进一步分析，判断其指标之一。是否属于某一社区或形成新的社区。针对基于密度算法中大量未聚类结点问题，提 2结点对社区的归属度定义出一种基于稠密子图的社区发现算法(community 基于密度的图聚类算法中可能存在大量不属于 detection based on dense subgraphs,BDSG)。首先通任何已有社区的未聚类结点，为了将这些结点聚类过搜索网络中的相对稠密子图得到中心社区：对于到合适的社区，需要定义未聚类结点和社区的关联未聚类结点，定义了结点v对社区C的归属度b(, 强度，称为结点v对于社区C的归属度b(v,C)。归 C)来度量结点和社区的连接倾向程度：基于归属属度的定义对聚类结果的影响至关重要，结点，对度，给出一种中心社区扩展策略(core community ex- 于社区C的归属度越大，则结点属于社区C的可 tended strateg罗，CE),对未聚类结点进一步处理。 BDSG算法中，一个结点可能属于多个社区，是一种能性越大。软聚类方法。通过在空手道俱乐部、海豚社交网络、 Cui等2基于结点v与社区C关联边数定义了大学生足球网络、电子邮件网络和合作网络5个真结点对于社区C的归属度6，(，C)=N,nC,其实网络上与CPM、k-dense算法进行比较，评估和分 k 析BDSG算法在未聚类结点分配和社区模块性等方中N,∩C={ul(u,u)∈E,u∈C}表示结点v在社区

象。大量研究表明，复杂网络中存在着一种普遍特征———社区结构［４］。复杂网络中社区发现［５］不仅有助于深入研究整个网络的拓扑结构、功能模块以及动力学特性，同时在生物蛋白质的性能与互作用的分析［６］、社会组织结构的网络分析［７］、搜索引擎［８］及推荐系统［９］等方面均有广泛的应用前景，因此具有十分重要的理论意义和应用价值。目前，社区发现算法的研究主要分为基于图划分的聚类算法［１０⁃１１］、基于谱分析的聚类算法［１２］、基于层次的聚类算法［１３］和基于密度的聚类算法［１４］等。其中基于密度的聚类算法通过搜索网络中稠密子图［１５］能较好地发现网络中的功能模块，因此在社区发现中得到了广泛应用。２００５年，Ｐａｌｌａ等［１６］提出派系过滤算法（ｃｌｉｑｕｅｐｅｒｃｏｌａｔｉｏｎｍｅｔｈｏｄ，ＣＰＭ），首先挖掘网络中结点数大于ｋ的所有派系（完全图），然后将重叠结点大于ｋ－１的派系合并得到ｋ派系社区。２００６年，Ｓａｉｔｏ等［１７］提出ｋ⁃ｄｅｎｓｅ子图结构，通过寻找网络中的ｋ⁃ｄｅｎｓｅ结构进行社区检测。２００９年，Ｓｕｎ等［１８］以ＣＰＭ为基础，通过改进寻找派系的方法提高算法效率，提出迭代派系过滤算法（ｉｔｅｒａｔｉｖｅ⁃ｃｌｉｑｕｅｐｅｒｃｏｌａｔｉｏｎｍｅｔｈｏｄ，ＩＣＰＭ）。２０１０年，Ｌｉｕ等［１９］提出基于极大团的聚类算法（ｃｌｕｓｔｅ⁃ ｒｉｎｇ⁃ｂａｓｅｄｏｎｍａｘｉｍａｌｃｌｉｑｕｅｓ，ＣＭＣ），通过搜索网络中的所有极大团，并依据相互连接度合并重叠率较高的极大团得到网络的社区结构。由于这些算法要搜索网络中的相对稠密子图来进行聚类，当网络中存在包含大量结点的稀疏子图时，这些结点可能最终成为未聚类结点，造成了聚类结果的不完全覆盖。这些未聚类结点构成的稀疏子图可能具有某种功能，或者与某些稠密子图共同行使功能，因此需要对网络中的部分未聚类结点进行进一步分析，判断其是否属于某一社区或形成新的社区。针对基于密度算法中大量未聚类结点问题，提出一种基于稠密子图的社区发现算法（ｃｏｍｍｕｎｉｔｙｄｅｔｅｃｔｉｏｎｂａｓｅｄｏｎｄｅｎｓｅｓｕｂｇｒａｐｈｓ，ＢＤＳＧ）。首先通过搜索网络中的相对稠密子图得到中心社区；对于未聚类结点，定义了结点ｖ对社区Ｃ的归属度ｂ（ｖ，Ｃ）来度量结点和社区的连接倾向程度；基于归属度，给出一种中心社区扩展策略（ｃｏｒｅｃｏｍｍｕｎｉｔｙｅｘ⁃ ｔｅｎｄｅｄｓｔｒａｔｅｇｙ，ＣＥ），对未聚类结点进一步处理。ＢＤＳＧ算法中，一个结点可能属于多个社区，是一种软聚类方法。通过在空手道俱乐部、海豚社交网络、大学生足球网络、电子邮件网络和合作网络５个真实网络上与ＣＰＭ、ｋ⁃ｄｅｎｓｅ算法进行比较，评估和分析ＢＤＳＧ算法在未聚类结点分配和社区模块性等方面的性能表现。基于归属度的中心社区扩展策略也将应用在ＣＰＭ、ｋ⁃ｄｅｎｓｅ等基于密度的图聚类算法中，对未聚类结点进一步处理，以提高聚类有效性。１背景知识通常，一个复杂网络可以表示为图Ｇ＝ (Ｖ，Ｅ) ，其中顶点集Ｖ＝ｖ１，ｖ２，…，ｖｎ { } ，ｎ＝Ｖ；边集Ｅ中每条边ｅｉ，ｊ对应Ｖ中一对顶点（ｖｉ，ｖｊ）之间的连接关系，ｍ＝｜Ｅ｜。顶点ｖ的邻域ＮＧ (ｖ) ＝ {ｕ｜ (ｖ，ｕ) ∈ Ｅ} ，表示图Ｇ中与顶点ｖ相邻的顶点集合，简记为Ｎｖ。结点ｖ的度记为ｋｖ。除非特别指明，以下仅考虑简单无向图，因此ｋｖ＝｜Ｎｖ｜。令Ｕ⊆Ｖ(Ｇ) ，用 [Ｕ] Ｇ表示Ｇ的结点子集Ｕ的导出子图，在不发生混淆时，记为 [Ｕ] 。记顶点子集 [Ｕ] 在Ｇ中的邻域为ＮＧ（Ｕ）＝｛ｕ｜ｕ∈ＮＧ (ｘ) ∧ｘ∈Ｕ｝。在复杂网络中，图Ｇ的密度［２０］记为ＤＧ＝ｍｎ(ｎ－１) ／２。可以看出，ＤＧ∈ [０，１] ，当ＤＧ越趋近于１，图Ｇ中的边数越多；当ＤＧ＝１时，图Ｇ为完全图。结点ｖｋ的点介数［２１］Ｂｖｋ ( ) 可以用来度量结点ｖｋ在网络Ｇ中的重要性。如果一对结点（ｖｉ，ｖｊ）间共有Ｌｖｉ，ｖｊ条不同的最短路径，其中有Ｌｖｉ，ｖｊｖｋ ( ) 条经过结点ｖｋ，那么结点ｖｋ对结点对（ｖｉ，ｖｊ）的贡献为Ｌｖｉ，ｖｊｖｋ ( ) ／Ｌｖｉ，ｖｊ。定义结点ｖｋ的点介数Ｂｖｋ ( ) ：Ｂｖｋ ( ) ＝ ∑ ｎｉ＝１ ∑ ｎｊ＝ｉ＋１Ｌｖｉ，ｖｊｖｋ ( ) Ｌｖｉ，ｖｊ（１）通常一个结点的点介数越大，则该结点对网络结构的影响越大。点介数是网络中结点重要性度量指标之一。２结点对社区的归属度定义基于密度的图聚类算法中可能存在大量不属于任何已有社区的未聚类结点，为了将这些结点聚类到合适的社区，需要定义未聚类结点和社区的关联强度，称为结点ｖ对于社区Ｃ的归属度ｂ（ｖ，Ｃ）。归属度的定义对聚类结果的影响至关重要，结点ｖ对于社区Ｃ的归属度越大，则结点ｖ属于社区Ｃ的可能性越大。Ｃｕｉ等［２２］基于结点ｖ与社区Ｃ关联边数定义了结点ｖ对于社区Ｃ的归属度ｂｐ（ｖ，Ｃ）＝Ｎｖ∩Ｃｋｖ，其中Ｎｖ∩Ｃ＝ {ｕ｜ (ｖ，ｕ) ∈Ｅ，ｕ∈Ｃ} 表示结点ｖ在社区第３期郑文萍，等：基于稠密子图的社区发现算法 ·４２７·

.428 智能系统学报第11卷 C中相邻点的集合，k,是结点的度。然而结点 α=1（此时重要度对聚类结果不产生影响）时的未与社区C的关联强度不仅与关联边数有关，也和社聚类结点数(subordinate vertices)和模块性的比较结区C中v的相邻点在C中的重要性关系密切。果，表明通过重要度定义的归属度能够更加准确地如图1所示，当前聚类结果得到两个社区表示节点和社区的关系。 C,(▲)和C2(■)，其余结点为未聚类结点。表1不同x值时聚类结果的比较 Table 1 The comparison of the clustering results among 考虑结点g,可得b(g,C1)=bn(g,C2), different a N,nC,={u33,34},且Ng∩C2={w1,3}。此未聚类节点 0 时，社区C,中与结点。相邻结点的点介数比数据集 a=0.8 a=1 ax=0.8 a=1 ∑ 、B(u) 例为 e{e33,34} -=0.95,而社区C2中空手道 3 0.8205 0.7179 ∑.c,B(o) 俱乐部与结点，相邻结点的点介数比例为海豚 0 0.77350.7610 社交网络 =0.83。由于结点，在C,中的相大学生 ∑.ecBo） 0 0 0.6390 0.6150 足球网络邻点在网络中重要性更高，可以认为，更倾向归属电子于社区C1 34 41 0.72240.7151 邮件网络合作网络 657 661 0.78280.6473 3基于稠密子图的社区发现算法基于稠密子图的社区发现算法(BDSG)主要由 2部分构成：首先通过搜索网络中大于指定密度阈值d的稠密子图得到网络中心社区，确定聚类个数 k,不属于任何一个中心社区的结点为未聚类结点；图1空手道俱乐部中未聚类结点分析根据式(2)计算未聚类结点与已有社区的归属度， Fig.1 The analysis of subordinate vertices in zachary's 将一些未聚类结点划分到归属度大于指定阈值的社 karate club 区中，对当前中心社区进行扩展：更新剩余未聚类结因此，度量未聚类结点和已有社区的归属度，需点的归属度，若网络中所有未聚类结点对任意社区要综合考虑该结点与一个社区关联边数以及社区内的归属度都小于设定阈值，则算法结束。该结点的相邻结点的重要性。为了更准确地表示未 3.1确定聚类个数首先，寻找网络中的子图密度大于指定阈值d 聚类结点和社区的关系，首先给出结点，对社区C 的所有稠密子图。图2给出了d=0.9时，算法得到的归属度定义：的4个稠密子图，分别记为U1、U2、U3和U40 b(v.c)=ax Iyncl nB(u) +(1-a)× ke ∑，2B） (2) 式(2)中第1项表示结点与社区C关联边数，第 2项表示结点：连接社区C内结点的重要程度： B(u:)表示结点u,的点介数，通过式(1)计算得到； a∈[0,1]为调节参数。b(,C)越大，则u更倾向属于社区C。如果结点在社区C中无相邻结点，则图2BDSG算法在空手道俱乐部中得到的稠密子图 b(,C)=0。选择合理的调节参数α可以有效地减 Fig.2 The dense subgraphs in zachary's karate club obtained by BDSG 少最终聚类结果中的未聚类结点个数，提高聚类效果，表1给出了本文算法BDSG分别在=0.8和然后，建立子图重叠矩阵M,其中元素M.:=

Ｃ中相邻点的集合，ｋｖ是结点ｖ的度。然而结点ｖ与社区Ｃ的关联强度不仅与关联边数有关，也和社区Ｃ中ｖ的相邻点在Ｃ中的重要性关系密切。如图１所示，当前聚类结果得到两个社区Ｃ１（ ▲）和Ｃ２（ ■ ），其余结点为未聚类结点。考虑结点ｖ９，可得ｂｐ（ｖ９，Ｃ１）＝ｂｐ（ｖ９，Ｃ２），Ｎｖ９∩Ｃ１＝ｖ３３，ｖ３４ { } ，且Ｎｖ９ ∩ Ｃ２＝ｖ１，ｖ３ { } 。此时，社区Ｃ１中与结点ｖ９相邻结点的点介数比例为 ∑ｕ∈ ｖ３３，ｖ { ３４ } Ｂ (ｕ ) ∑ｗ∈Ｃ１Ｂ (ｗ ) ＝０．９５，而社区Ｃ２中与结点ｖ９相邻结点的点介数比例为 ∑ｕ∈ ｖ１，ｖ { ３ } Ｂ(ｕ) ∑ｗ∈Ｃ２Ｂ(ｗ) ＝０．８３。由于结点ｖ９在Ｃ１中的相邻点在网络中重要性更高，可以认为ｖ９更倾向归属于社区Ｃ１。图１空手道俱乐部中未聚类结点分析Ｆｉｇ．１Ｔｈｅａｎａｌｙｓｉｓｏｆｓｕｂｏｒｄｉｎａｔｅｖｅｒｔｉｃｅｓｉｎｚａｃｈａｒｙ􀆳ｓｋａｒａｔｅｃｌｕｂ因此，度量未聚类结点和已有社区的归属度，需要综合考虑该结点与一个社区关联边数以及社区内该结点的相邻结点的重要性。为了更准确地表示未聚类结点和社区的关系，首先给出结点ｖ对社区Ｃ的归属度定义：ｂ（ｖ，Ｃ）＝ α × Ｎｖ ∩ Ｃｋｖ＋ (１－ α) × ∑ｕｉ∈Ｎｖ∩ＣＢｕｉ ( ) ∑ｖｊ∈ＣＢｖｊ ( ) （２）式（２）中第１项表示结点ｖ与社区Ｃ关联边数，第２项表示结点ｖ连接社区Ｃ内结点的重要程度；Ｂｕｉ ( ) 表示结点ｕｉ的点介数，通过式（１）计算得到； α∈ [０，１] 为调节参数。ｂ（ｖ，Ｃ）越大，则ｖ更倾向属于社区Ｃ。如果结点ｖ在社区Ｃ中无相邻结点，则ｂ（ｖ，Ｃ）＝０。选择合理的调节参数 α 可以有效地减少最终聚类结果中的未聚类结点个数，提高聚类效果，表１给出了本文算法ＢＤＳＧ分别在 α ＝０．８和 α＝１（此时重要度对聚类结果不产生影响）时的未聚类结点数（ｓｕｂｏｒｄｉｎａｔｅｖｅｒｔｉｃｅｓ）和模块性的比较结果，表明通过重要度定义的归属度能够更加准确地表示节点和社区的关系。表１不同 α 值时聚类结果的比较Ｔａｂｌｅ１Ｔｈｅｃｏｍｐａｒｉｓｏｎｏｆｔｈｅｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓａｍｏｎｇｄｉｆｆｅｒｅｎｔ α 数据集未聚类节点Ｑ α＝０．８ α＝１ α＝０．８ α＝１空手道俱乐部１３０．８２０５０．７１７９海豚社交网络０１０．７７３５０．７６１０大学生足球网络０００．６３９００．６１５０电子邮件网络３４４１０．７２２４０．７１５１合作网络６５７６６１０．７８２８０．６４７３３基于稠密子图的社区发现算法基于稠密子图的社区发现算法（ＢＤＳＧ）主要由２部分构成：首先通过搜索网络中大于指定密度阈值ｄ的稠密子图得到网络中心社区，确定聚类个数ｋ，不属于任何一个中心社区的结点为未聚类结点；根据式（２）计算未聚类结点与已有社区的归属度，将一些未聚类结点划分到归属度大于指定阈值的社区中，对当前中心社区进行扩展；更新剩余未聚类结点的归属度，若网络中所有未聚类结点对任意社区的归属度都小于设定阈值，则算法结束。３．１确定聚类个数首先，寻找网络中的子图密度大于指定阈值ｄ的所有稠密子图。图２给出了ｄ＝０．９时，算法得到的４个稠密子图，分别记为Ｕ１、Ｕ２、Ｕ３和Ｕ４。图２ＢＤＳＧ算法在空手道俱乐部中得到的稠密子图Ｆｉｇ．２Ｔｈｅｄｅｎｓｅｓｕｂｇｒａｐｈｓｉｎｚａｃｈａｒｙ􀆳ｓｋａｒａｔｅｃｌｕｂｏｂｔａｉｎｅｄｂｙＢＤＳＧ然后，建立子图重叠矩阵Ｍ，其中元素Ｍｉ，ｉ＝ ·４２８· 智能系统学报第１１卷

第3期郑文萍，等：基于稠密子图的社区发现算法 ·429. 1V(U:)1表示子图U:中的顶点个数。元素M:= |V(U)nV(U)|,i≠j,表示子图U,和U,的公共顶 4实验与结果分析点数。对2个不同稠密子图，若M:> 为了分析研究BDSG算法在真实网络中社区发 min(U:l,U) 现的有效性，将BDSG算法分别应用于空手道俱乐则合并2个子图为一个新社区部(Karate)[]、海豚社交网络(Dolphin)[24]、大学生 U'=[V(U)UV(U)]c,此过程迭代进行，直到不产足球网络(Football)[2]、电子邮件网络(Email)[] 生新的社区。得到的社区称为初始中心社区，社区和合作网络(NetScience)I]等5个数据集。实验所个数k为算法的聚类个数。图2中4个稠密子图的用计算机配置为Inter Core i5CPU2.5GHz,6GB内存，Windows7操作系统。程序采用java编程语言重叠矩阵表示为并在Eclipse环境下运行。依经验选择密度阈值d= [42007 0.9,调节参数a=0.8。 240 0 M= 图3~5分别给出了本文BDSG算法在空手道 0054 俱乐部、海豚社交网络和大学生足球网络的聚类结 L0045 果。表2给出了BDSG算法与CPM、k-dense算法分进行稠密子图合并操作后可得到2个初始中心社别在聚类个数、未聚类结点数、社区模块性(Q)【测区：C,=[UUU2]c,C2=[U3UU]c,聚类个数k=2。以及运行时间等方面的比较结果。算法确定了聚类个数和初始中心社区数之后，不属于任何中心社区的结点就是未聚类结点。由于初始中心社区寻找过程中关注于网络中相对稠密的子图，网络中存在大量未聚类结点，需要设计合理的中心社区扩展策略，对未聚类结点进一步处理。 3.2中心社区扩展策略设聚类个数为k,当前中心社区分别为C1,C2,…, Ck,则当前未聚类结点集合T=V(G)-U,V(C:)。根图3BDSG算法在空手道俱乐部得到的聚类结果据式(2)给出的结点对社区的归属度定义，计算T Fig.3 Clustering results on zachary's karate club ob- 中结点与中心社区C:的归属度，并对相关中心社区 tained by BDSG 进行扩展，具体过程如算法1。算法1中心社区扩展算法(core community extended strategy,CE) 输入图G=(V,E),聚类个数k,初始中心社区集合Co)={Co),C),…,C)},其中CoSV。输出社区集合C={C,C2,…,C4}。 1)令集合To=V(G)-UV(Co),B。=0.7, t=0。 2)令t=t+1,对每个社区C),C-),…, 图4BDSG算法在海豚社交网络上得到的聚类结果 CD,执行下列操作： Fig.4 Clustering results on dolphins social network ob- tained by BDSG ①Co=C-)(1≤i≤k),Ne(C,)= {ulu∈Ne(x)Ax∈C,-D}。 ②对任意元素vETONc(C)(1≤i≤k),如果b(u,C-))≥B1,则C0=C0U{}。 ③令B.=B--0.1,T=V(G)-U(C), 若B,≥0.3，且T≠☑，返回步骤2)。 3)结束，输出社区集合C= {C0,C,…,C}。图3给出了BDSG算法在空手道俱乐部数据集图5BDSG算法在大学生足球网络上得到的聚类结果上的聚类结果，共得到2个社区，空白结，点表示未聚 Fig.5 Clustering results on college football network ob- 类结点。 tained by BDSG

｜Ｖ（Ｕｉ）｜表示子图Ｕｉ中的顶点个数。元素Ｍｉ，ｉ＝ＶＵｉ ( ) ∩ＶＵｊ ( ) ，ｉ≠ｊ，表示子图Ｕｉ和Ｕｊ的公共顶点数。对２个不同稠密子图，若Ｍｉ，ｉ＞ｍｉｎＵｉ，Ｕｊ ( ) ２，则合并２个子图为一个新社区Ｕ′＝［Ｖ（Ｕｉ）∪ＶＵｊ ( ) ］Ｇ，此过程迭代进行，直到不产生新的社区。得到的社区称为初始中心社区，社区个数ｋ为算法的聚类个数。图２中４个稠密子图的重叠矩阵表示为Ｍ＝４２００２４００００５４００４５ é ë ê ê ê ê ê ù û ú ú ú ú ú 进行稠密子图合并操作后可得到２个初始中心社区：Ｃ１＝［Ｕ１∪Ｕ２］Ｇ，Ｃ２＝［Ｕ３∪Ｕ４］Ｇ，聚类个数ｋ＝２。算法确定了聚类个数和初始中心社区数之后，不属于任何中心社区的结点就是未聚类结点。由于初始中心社区寻找过程中关注于网络中相对稠密的子图，网络中存在大量未聚类结点，需要设计合理的中心社区扩展策略，对未聚类结点进一步处理。３．２中心社区扩展策略设聚类个数为ｋ，当前中心社区分别为Ｃ１，Ｃ２，…，Ｃｋ，则当前未聚类结点集合Ｔ＝Ｖ（Ｇ）－∪ｋｉ＝１Ｖ（Ｃｉ）。根据式（２）给出的结点对社区的归属度定义，计算Ｔ中结点与中心社区Ｃｉ的归属度，并对相关中心社区进行扩展，具体过程如算法１。算法１中心社区扩展算法（ｃｏｒｅｃｏｍｍｕｎｉｔｙｅｘｔｅｎｄｅｄｓｔｒａｔｅｇｙ，ＣＥ）输入图Ｇ＝ (Ｖ，Ｅ) ，聚类个数ｋ，初始中心社区集合Ｃ (０ ) ＝Ｃ (０ ) １，Ｃ (０ ) ２，…，Ｃ (０ ) ｋ { } ，其中Ｃ (０ ) ｉ ⊆Ｖ。输出社区集合Ｃ＝Ｃ１，Ｃ２，…，Ｃｋ { } 。１）令集合Ｔ (０ ) ＝Ｖ(Ｇ) －∪ｋｉ＝１ＶＣ (０ ) ｉ ( ) ，β０＝０．７，ｔ＝０。２）令ｔ＝ｔ＋１，对每个社区Ｃ (ｔ－１ ) １，Ｃ (ｔ－１ ) ２，…，Ｃ (ｔ－１ ) ｋ，执行下列操作： ① Ｃ (ｔ) ｉ＝Ｃ (ｔ－１ ) ｉ (１≤ｉ≤ｋ) ，ＮＧＣ (ｔ－１ ) ｉ ( ) ＝｛ｕ｜ｕ∈ＮＧ (ｘ) ∧ｘ∈Ｃ (ｔ－１ ) ｉ｝。 ②对任意元素ｖ∈Ｔ∩ＮＧＣ (ｔ－１ ) ｉ ( ) (１≤ｉ≤ｋ) ，如果ｂ（ｖ，Ｃ (ｔ－１ ) ｉ）≥βｔ－１，则Ｃ (ｔ) ｉ＝Ｃ (ｔ) ｉ ∪{ｖ} 。 ③令 βｔ＝ βｔ－１－０．１，Ｔ (ｔ) ＝Ｖ (Ｇ) －∪ｋｉ＝１ＶＣ (ｔ) ｉ ( ) ，若 βｔ≥０．３，且Ｔ (ｔ) ≠∅，返回步骤２）。３）结束，输出社区集合Ｃ＝Ｃ (ｔ) １，Ｃ (ｔ) ２，…，Ｃ (ｔ) ｋ { } 。图３给出了ＢＤＳＧ算法在空手道俱乐部数据集上的聚类结果，共得到２个社区，空白结点表示未聚类结点。４实验与结果分析为了分析研究ＢＤＳＧ算法在真实网络中社区发现的有效性，将ＢＤＳＧ算法分别应用于空手道俱乐部（Ｋａｒａｔｅ）［２３］、海豚社交网络（Ｄｏｌｐｈｉｎ）［２４］、大学生足球网络（Ｆｏｏｔｂａｌｌ）［２５］、电子邮件网络（Ｅｍａｉｌ）［２６］和合作网络（ＮｅｔＳｃｉｅｎｃｅ）［２７］等５个数据集。实验所用计算机配置为ＩｎｔｅｒＣｏｒｅｉ５ＣＰＵ２．５ＧＨｚ，６ＧＢ内存，Ｗｉｎｄｏｗｓ７操作系统。程序采用ｊａｖａ编程语言并在Ｅｃｌｉｐｓｅ环境下运行。依经验选择密度阈值ｄ＝０．９，调节参数 α＝０．８。图３～５分别给出了本文ＢＤＳＧ算法在空手道俱乐部、海豚社交网络和大学生足球网络的聚类结果。表２给出了ＢＤＳＧ算法与ＣＰＭ、ｋ⁃ｄｅｎｓｅ算法分别在聚类个数、未聚类结点数、社区模块性（Ｑ）［２８］以及运行时间等方面的比较结果。图３ＢＤＳＧ算法在空手道俱乐部得到的聚类结果Ｆｉｇ．３Ｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓｏｎｚａｃｈａｒｙ􀆳ｓｋａｒａｔｅｃｌｕｂｏｂ⁃ ｔａｉｎｅｄｂｙＢＤＳＧ图４ＢＤＳＧ算法在海豚社交网络上得到的聚类结果Ｆｉｇ．４Ｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓｏｎｄｏｌｐｈｉｎｓｓｏｃｉａｌｎｅｔｗｏｒｋｏｂ⁃ ｔａｉｎｅｄｂｙＢＤＳＧ图５ＢＤＳＧ算法在大学生足球网络上得到的聚类结果Ｆｉｇ．５Ｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓｏｎｃｏｌｌｅｇｅｆｏｏｔｂａｌｌｎｅｔｗｏｒｋｏｂ⁃ ｔａｉｎｅｄｂｙＢＤＳＧ第３期郑文萍，等：基于稠密子图的社区发现算法 ·４２９·

·430 智能系统学报第11卷表2不同数据集上聚类结果的比较 Table 2 The comparison of the clustering results among different datasets 数据集顶点数边数原始社区个数算法聚类个数未聚类节点数 Q 运行时间/ms BDSG 2 0.8205 93 CPM 3 22 0.1923 87 空手道俱乐部 304 78 k-dense 2 22 0.2948 129 CPM+CE 3 3 0.4102 117 k-dense+CE 0.8205 165 BDSG 0 0.7735 149 CPM 4 34 0.4088 175 海豚社交网络 159 k-dense 4 34 04088 568 CPM+CE 4 16 0.5911 202 k-dense+CE 16 0.5911 599 BDSG 12 0 0.6390 480 CPM 13 2 0.5951 920 大学生 115 613 k-dense 12 2 0.6370 足球网络 1860 CPM+CE 13 0 0.6010 1028 k-dense+CE 12 0 0.6480 1986 BDSG 28 34 0.7224 60797 CPM 55 562 0.2687 592410 电子邮件网络 11335451 k-dense 6 558 0.2517 55240 CPM+CE 55 341 0.2897 601835 k-dense+CE 6 14 0.5034 63938 BDSG 134 657 0.7828 21273 CPM 159 843 0.5201 97161 合作网络 1589 2742 k-dense 91 843 0.7305 15352 CPM+CE 159 688 0.5675 120927 A-dense+CE 91 790 0.7631 23451 实验结果表明BDSG算法在这些网络数据上均类性能。实验结果（见表2）表明CPM与k-dense算具有较好的性能表现。BDSG算法在空手道俱乐部法的聚类有效性均显著提高。在空手道俱乐部、海和大学生足球网络上所得到社区个数与网络实际的豚社交网络、电子邮件网络和合作网络中，在CPM 社区个数相同，而电子邮件网络和合作网络缺乏原与k-dense算法运行时间略有增大的情况下，CE算始社区个数信息，无法进行比较：海豚社交网络和大法的加入使得其未聚类结点个数降幅较大，社区模学生足球网络中，BDSG算法所用时间明显少于块性具有较为明显的提高。同时CPM与k-dense算 CPM与k-dense算法：在电子邮件网络和合作网络法在加入扩展策略CE之后与BDSG算法相比，中，BDSG运行时间比k-dense算法慢，但最终未聚 BDSG算法在未聚类结点数以及社区模块性方面优类结点数少于k-dense算法：在这些实验数据集上，势依然较为明显。本算法所产生的未聚类结点个数明显较少、社区模综上所述，BDSG算法在空手道俱乐部、海豚社块性较高。交网络、大学生足球网络、电子邮件网络和合作网络此外，本文给出的中心社区扩展算法也可应用等数据集上，与CPM、k-dense算法相比运行时间较于CPM、k-dense等算法以处理未聚类节点，提高聚短、未聚类结点个数较少、社区模块性较高，具有良

表２不同数据集上聚类结果的比较Ｔａｂｌｅ２Ｔｈｅｃｏｍｐａｒｉｓｏｎｏｆｔｈｅｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓａｍｏｎｇｄｉｆｆｅｒｅｎｔｄａｔａｓｅｔｓ数据集顶点数边数原始社区个数算法聚类个数未聚类节点数Ｑ运行时间／ｍｓ空手道俱乐部３４７８２ＢＤＳＧ２１０．８２０５９３ＣＰＭ３２２０．１９２３８７ｋ⁃ｄｅｎｓｅ２２２０．２９４８１２９ＣＰＭ＋ＣＥ３３０．４１０２１１７ｋ⁃ｄｅｎｓｅ＋ＣＥ２１０．８２０５１６５海豚社交网络６２１５９２ＢＤＳＧ４００．７７３５１４９ＣＰＭ４３４０．４０８８１７５ｋ⁃ｄｅｎｓｅ４３４０４０８８５６８ＣＰＭ＋ＣＥ４１６０．５９１１２０２ｋ⁃ｄｅｎｓｅ＋ＣＥ４１６０．５９１１５９９大学生足球网络１１５６１３１２ＢＤＳＧ１２００．６３９０４８０ＣＰＭ１３２０．５９５１９２０ｋ⁃ｄｅｎｓｅ１２２０．６３７０１８６０ＣＰＭ＋ＣＥ１３００．６０１０１０２８ｋ⁃ｄｅｎｓｅ＋ＣＥ１２００．６４８０１９８６电子邮件网络１１３３５４５１ — ＢＤＳＧ２８３４０．７２２４６０７９７ＣＰＭ５５５６２０．２６８７５９２４１０ｋ⁃ｄｅｎｓｅ６５５８０．２５１７５５２４０ＣＰＭ＋ＣＥ５５３４１０．２８９７６０１８３５ｋ⁃ｄｅｎｓｅ＋ＣＥ６１４０．５０３４６３９３８合作网络１５８９２７４２ — ＢＤＳＧ１３４６５７０．７８２８２１２７３ＣＰＭ１５９８４３０．５２０１９７１６１ｋ⁃ｄｅｎｓｅ９１８４３０．７３０５１５３５２ＣＰＭ＋ＣＥ１５９６８８０．５６７５１２０９２７ｋ⁃ｄｅｎｓｅ＋ＣＥ９１７９００．７６３１２３４５１实验结果表明ＢＤＳＧ算法在这些网络数据上均具有较好的性能表现。ＢＤＳＧ算法在空手道俱乐部和大学生足球网络上所得到社区个数与网络实际的社区个数相同，而电子邮件网络和合作网络缺乏原始社区个数信息，无法进行比较；海豚社交网络和大学生足球网络中，ＢＤＳＧ算法所用时间明显少于ＣＰＭ与ｋ⁃ｄｅｎｓｅ算法；在电子邮件网络和合作网络中，ＢＤＳＧ运行时间比ｋ⁃ｄｅｎｓｅ算法慢，但最终未聚类结点数少于ｋ⁃ｄｅｎｓｅ算法；在这些实验数据集上，本算法所产生的未聚类结点个数明显较少、社区模块性较高。此外，本文给出的中心社区扩展算法也可应用于ＣＰＭ、ｋ⁃ｄｅｎｓｅ等算法以处理未聚类节点，提高聚类性能。实验结果（见表２）表明ＣＰＭ与ｋ⁃ｄｅｎｓｅ算法的聚类有效性均显著提高。在空手道俱乐部、海豚社交网络、电子邮件网络和合作网络中，在ＣＰＭ与ｋ⁃ｄｅｎｓｅ算法运行时间略有增大的情况下，ＣＥ算法的加入使得其未聚类结点个数降幅较大，社区模块性具有较为明显的提高。同时ＣＰＭ与ｋ⁃ｄｅｎｓｅ算法在加入扩展策略ＣＥ之后与ＢＤＳＧ算法相比，ＢＤＳＧ算法在未聚类结点数以及社区模块性方面优势依然较为明显。综上所述，ＢＤＳＧ算法在空手道俱乐部、海豚社交网络、大学生足球网络、电子邮件网络和合作网络等数据集上，与ＣＰＭ、ｋ⁃ｄｅｎｓｅ算法相比运行时间较短、未聚类结点个数较少、社区模块性较高，具有良 ·４３０· 智能系统学报第１１卷

点击进入文档下载页（PDF格式）

共7页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录