当前位置：和泉文库 > 电气与自动化 > 浏览文档

【机器学习】CMP上基于数据集划分的K-means多核优化算法编辑部

文件格式：PDF，文件大小：2.17MB，售价：3.12元

文档详细内容（约8页）

第10卷第4期智能系统学报 Vol.10 No.4 2015年8月 CAAI Transactions on Intelligent Systems Aug.2015 D0:10.3969/j.issn.1673-4785.201411036 网络出版地址：http://www.cnki.net/kcms/detail/23.1538.TP.20150630.1555.003.html CMP上基于数据集划分的K-means多核优化算法申彦12，朱玉全2 (1.江苏大学信息管理与信息系统系，江苏镇江212013：2.江苏大学计算机科学与通信工程学院，江苏镇江212013) 摘要：虽然现在多核CPU非常普及，但传统K-meas聚类算法由于没有专门进行并行化设计，不能充分利用现代 CPU的多核计算能力，算法针对大规模数据集的聚类效率有待进一步提高。因此，对K-meas算法进行CMP并行化改进，提出了一种Muli-core K-means(MC-K-means)算法。该算法对K-means的聚类任务进行了分解，设计了独立且均衡的聚类子任务并分配给各线程并行执行，以此利用现代CPU的多核计算能力。实验结果表明，MC-K-meas相比K-means获得了较高的多核加速比，提高了针对大规模数据集的聚类能力。关键词：K均值算法：聚类算法：单片多核：大规模数据集：数据挖掘：无监督学习：大数据中图分类号：TP181文献标志码：A文章编号：1673-4785(2015)04-0607-08 中文引用格式：申彦，朱玉全.CMP上基于数据集划分的K-means多核优化算法[J].智能系统学报，2015,10(4)：607-614. 英文引用格式：SHEN Yan,ZHU Yuquan..An optimized algorithm of K-means based on data set partition on CMP systems[J], CAAI Transactions on Intelligent Systems,2015,10(4):607-614. An optimized algorithm of K-means based on data set partition on CMP systems SHEN Yan'2,ZHU Yuquan2 (1.Department of Information Management and Information System,Jiangsu University,Zhenjiang 212013,China;2.School of Computer Science and Communication Engineering,Jiangsu University,Zhenjiang 212013,China) Abstract:The traditional K-means clustering algorithm is not designed to focus on parallelization,which can not make use of the multi-core computing capability of the modern CPU.Therefore,the clustering efficiency of the tra- ditional K-means for massive data set should be further improved.In this paper,a novel algorithm named Multi-core K-means (MC-K-means)after redesigning the original K-means that focuses on parallelization in a chip multi-pro- cessor CMP environment is proposed.In order to utilize the multi-core computing capability of the modern CPU, MC-K-means partitions the clustering tasks into some independent and balanced subtasks and distributes these sub- tasks to the threads to execute parallel.The experimental results showed that the MC-K-means algorithm received the relatively higher speedup rate compared to the K-means algorithm,which improves the handling capacity for massive data set. Keywords:k-means;clustering algorithm;CMP;massive data set;data mining;unsupervised learning;big data 聚类是一项重要的研究工作，已经成为数据挖PAM,WaveCluster等。其中K-means算法因其简掘、统计分析以及压缩算法等领域的研究重点。聚单、易于实现，获得了广泛的应用。现代数据挖掘技类研究领域有大量经典的算法涌现，如K-means,. 术的一个突出特点是需要处理大规模数据集。经典的K-means算法在处理大规模数据集时，无法一次收稿日期：2014-11-28.网络出版日期：2015-06-30. 性把数据集全部装载人内存，需要多次扫描硬盘上基金项目：国家自然科学基金资助项目(71271117)：国家科技支撑计划基金资助项目(2010BA88B00):江苏省自然科学基础研究计的数据，整个聚类过程相当耗时。因其应用的广泛划基金资助项目(BK2010331):江苏省博士研究生创新计划性，很多研究人员选择对其进行优化，使其适应大规基金资助项目(CXI10B_016X):江苏省博土后科研资助计划项目(1401056C). 模数据集聚类的应用需求。值得注意的是，在过去通信作者：申彦.E-mail:104186179@q4.com. 的几十年中，CPU的主频几乎每两年提高一倍，与

第１０卷第４期智能系统学报Ｖｏｌ．１０ №．４２０１５年８月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＡｕｇ．２０１５ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１６７３⁃４７８５．２０１４１１０３６网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１５０６３０．１５５５．００３．ｈｔｍｌＣＭＰ上基于数据集划分的Ｋ⁃ｍｅａｎｓ多核优化算法申彦１，２，朱玉全２（１．江苏大学信息管理与信息系统系，江苏镇江２１２０１３；２．江苏大学计算机科学与通信工程学院，江苏镇江２１２０１３）摘要：虽然现在多核ＣＰＵ非常普及，但传统Ｋ⁃ｍｅａｎｓ聚类算法由于没有专门进行并行化设计，不能充分利用现代ＣＰＵ的多核计算能力，算法针对大规模数据集的聚类效率有待进一步提高。因此，对Ｋ⁃ｍｅａｎｓ算法进行ＣＭＰ并行化改进，提出了一种Ｍｕｌｔｉ⁃ｃｏｒｅＫ⁃ｍｅａｎｓ（ＭＣ⁃Ｋ⁃ｍｅａｎｓ）算法。该算法对Ｋ⁃ｍｅａｎｓ的聚类任务进行了分解，设计了独立且均衡的聚类子任务并分配给各线程并行执行，以此利用现代ＣＰＵ的多核计算能力。实验结果表明，ＭＣ⁃Ｋ⁃ｍｅａｎｓ相比Ｋ⁃ｍｅａｎｓ获得了较高的多核加速比，提高了针对大规模数据集的聚类能力。关键词：Ｋ均值算法；聚类算法；单片多核；大规模数据集；数据挖掘；无监督学习；大数据中图分类号：ＴＰ１８１文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１５）０４⁃０６０７⁃０８中文引用格式：申彦，朱玉全．ＣＭＰ上基于数据集划分的Ｋ⁃ｍｅａｎｓ多核优化算法［Ｊ］．智能系统学报，２０１５，１０（４）：６０７⁃６１４．英文引用格式：ＳＨＥＮＹａｎ，ＺＨＵＹｕｑｕａｎ．ＡｎｏｐｔｉｍｉｚｅｄａｌｇｏｒｉｔｈｍｏｆＫ⁃ｍｅａｎｓｂａｓｅｄｏｎｄａｔａｓｅｔｐａｒｔｉｔｉｏｎｏｎＣＭＰｓｙｓｔｅｍｓ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１５，１０（４）：６０７⁃６１４．ＡｎｏｐｔｉｍｉｚｅｄａｌｇｏｒｉｔｈｍｏｆＫ⁃ｍｅａｎｓｂａｓｅｄｏｎｄａｔａｓｅｔｐａｒｔｉｔｉｏｎｏｎＣＭＰｓｙｓｔｅｍｓＳＨＥＮＹａｎ１，２，ＺＨＵＹｕｑｕａｎ２（１．ＤｅｐａｒｔｍｅｎｔｏｆＩｎｆｏｒｍａｔｉｏｎＭａｎａｇｅｍｅｎｔａｎｄＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍ，ＪｉａｎｇｓｕＵｎｉｖｅｒｓｉｔｙ，Ｚｈｅｎｊｉａｎｇ２１２０１３，Ｃｈｉｎａ；２．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＣｏｍｍｕｎｉｃａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＪｉａｎｇｓｕＵｎｉｖｅｒｓｉｔｙ，Ｚｈｅｎｊｉａｎｇ２１２０１３，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：ＴｈｅｔｒａｄｉｔｉｏｎａｌＫ⁃ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｉｓｎｏｔｄｅｓｉｇｎｅｄｔｏｆｏｃｕｓｏｎｐａｒａｌｌｅｌｉｚａｔｉｏｎ，ｗｈｉｃｈｃａｎｎｏｔｍａｋｅｕｓｅｏｆｔｈｅｍｕｌｔｉ⁃ｃｏｒｅｃｏｍｐｕｔｉｎｇｃａｐａｂｉｌｉｔｙｏｆｔｈｅｍｏｄｅｒｎＣＰＵ．Ｔｈｅｒｅｆｏｒｅ，ｔｈｅｃｌｕｓｔｅｒｉｎｇｅｆｆｉｃｉｅｎｃｙｏｆｔｈｅｔｒａ⁃ ｄｉｔｉｏｎａｌＫ⁃ｍｅａｎｓｆｏｒｍａｓｓｉｖｅｄａｔａｓｅｔｓｈｏｕｌｄｂｅｆｕｒｔｈｅｒｉｍｐｒｏｖｅｄ．Ｉｎｔｈｉｓｐａｐｅｒ，ａｎｏｖｅｌａｌｇｏｒｉｔｈｍｎａｍｅｄＭｕｌｔｉ⁃ｃｏｒｅＫ⁃ｍｅａｎｓ（ＭＣ⁃Ｋ⁃ｍｅａｎｓ）ａｆｔｅｒｒｅｄｅｓｉｇｎｉｎｇｔｈｅｏｒｉｇｉｎａｌＫ⁃ｍｅａｎｓｔｈａｔｆｏｃｕｓｅｓｏｎｐａｒａｌｌｅｌｉｚａｔｉｏｎｉｎａｃｈｉｐｍｕｌｔｉ⁃ｐｒｏ⁃ ｃｅｓｓｏｒＣＭＰｅｎｖｉｒｏｎｍｅｎｔｉｓｐｒｏｐｏｓｅｄ．Ｉｎｏｒｄｅｒｔｏｕｔｉｌｉｚｅｔｈｅｍｕｌｔｉ⁃ｃｏｒｅｃｏｍｐｕｔｉｎｇｃａｐａｂｉｌｉｔｙｏｆｔｈｅｍｏｄｅｒｎＣＰＵ，ＭＣ⁃Ｋ⁃ｍｅａｎｓｐａｒｔｉｔｉｏｎｓｔｈｅｃｌｕｓｔｅｒｉｎｇｔａｓｋｓｉｎｔｏｓｏｍｅｉｎｄｅｐｅｎｄｅｎｔａｎｄｂａｌａｎｃｅｄｓｕｂｔａｓｋｓａｎｄｄｉｓｔｒｉｂｕｔｅｓｔｈｅｓｅｓｕｂ⁃ ｔａｓｋｓｔｏｔｈｅｔｈｒｅａｄｓｔｏｅｘｅｃｕｔｅｐａｒａｌｌｅｌ．ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｅｄｔｈａｔｔｈｅＭＣ⁃Ｋ⁃ｍｅａｎｓａｌｇｏｒｉｔｈｍｒｅｃｅｉｖｅｄｔｈｅｒｅｌａｔｉｖｅｌｙｈｉｇｈｅｒｓｐｅｅｄｕｐｒａｔｅｃｏｍｐａｒｅｄｔｏｔｈｅＫ⁃ｍｅａｎｓａｌｇｏｒｉｔｈｍ，ｗｈｉｃｈｉｍｐｒｏｖｅｓｔｈｅｈａｎｄｌｉｎｇｃａｐａｃｉｔｙｆｏｒｍａｓｓｉｖｅｄａｔａｓｅｔ．Ｋｅｙｗｏｒｄｓ：ｋ⁃ｍｅａｎｓ；ｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ；ＣＭＰ；ｍａｓｓｉｖｅｄａｔａｓｅｔ；ｄａｔａｍｉｎｉｎｇ；ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ；ｂｉｇｄａｔａ收稿日期：２０１４⁃１１⁃２８．网络出版日期：２０１５⁃０６⁃３０．基金项目：国家自然科学基金资助项目（７１２７１１１７）；国家科技支撑计划基金资助项目（２０１０ＢＡＩ８８Ｂ００）；江苏省自然科学基础研究计划基金资助项目（ＢＫ２０１０３３１）；江苏省博士研究生创新计划基金资助项目（ＣＸ１０Ｂ＿０１６Ｘ）；江苏省博士后科研资助计划项目（１４０１０５６Ｃ）通信作者：申彦．Ｅ⁃ｍａｉｌ：１０４１８６１７９＠ｑｑ．ｃｏｍ．聚类是一项重要的研究工作，已经成为数据挖掘、统计分析以及压缩算法等领域的研究重点。聚类研究领域有大量经典的算法涌现，如Ｋ⁃ｍｅａｎｓ，ＰＡＭ，ＷａｖｅＣｌｕｓｔｅｒ等。其中Ｋ⁃ｍｅａｎｓ算法因其简单、易于实现，获得了广泛的应用。现代数据挖掘技术的一个突出特点是需要处理大规模数据集。经典的Ｋ⁃ｍｅａｎｓ算法在处理大规模数据集时，无法一次性把数据集全部装载入内存，需要多次扫描硬盘上的数据，整个聚类过程相当耗时。因其应用的广泛性，很多研究人员选择对其进行优化，使其适应大规模数据集聚类的应用需求。值得注意的是，在过去的几十年中，ＣＰＵ的主频几乎每两年提高一倍，与．

·608. 智能系统学报第10卷此相对应的内存频率却没有相对应的提高。内存与 1.2相关的研究工作 CPU之间处理数据的能力差距越来越大，极大地影为了解决K-means算法对大规模数据集聚类效响了应用程序的性能。同时，工程师们开始认识到，率较低的问题，有研究者提出了只需要扫描一遍原仅仅提高单核芯片的频率会产生过多热量且无法带始数据集即产生聚类结果的算法。这些算法只需读来希望的性能改善。于是，CMP(chip multi-proces- 入大规模数据集中的一部分进入主存或者分批读入 sor)成为了先进处理器的发展趋势。CMP可以在大数据集进行聚类，扫描数据集一遍即完成聚类。相幅提高处理性能的同时降低CPU主频，减少能源消应的算法有random-kmeans,Dynamic incremental K- 耗。然而仅简单提供CMP环境并不能直接带来应 meanst2),Single pass kernel K-meanst3,scalable- 用程序性能的提高，需要研发人员针对CMP环境对 kmeanst),等。其中，由Microsoft Research的Red- 有关算法进行优化，才能使得应用程序更好的利用 mond等提出的scalable-kmeans算法性能优越，受到 CPU的多核计算能力，提高程序的运行效率[)。了广泛的重视，并被集成到SQL SERVER2008中。本文针对提高大规模数据集聚类效率的问题，类似研究的主要目的是优化K-means算法，减少数着重研究单机多核环境下(CMP)K-means算法的并据集的读取次数。有研究者从优化K-means聚类初行化改进，提出了一种Multi-core K-means(MC-K- 始条件设置的角度，利用自适应技术、启发式算法以 means)算法。该算法对原K-means算法的聚类任务及半监督技术等实现K-means初始聚类中心或者聚进行了分解，设计了相互独立且均衡的聚类子任务类个数的优化选择，加速K-means聚类的收敛过程，交由各线程并行执行，能够充分利用现代CPU的多提高聚类的效率以及结果的质量5。有研究人员核计算能力，提高大规模数据集的聚类效率。从减少大规模数据集数据维度的角度，降低聚类迭代过程的计算量，提高K-means聚类算法的效 1 研究背景率[8]。以上相关的研究工作切实提高了K-means 1.1确定性聚类的基本概念聚类的效率，然而这些新算法并没有利用分布式环金属橡胶隔振器在飞机液压管道上的应用如图境提高聚类的效率。最近有研究人员进行了SMP 1所示，从图1看出，金属橡胶放置在外围卡箍的凹 DMP环境下的集群多处理器K-means聚类的研究槽内，传统管道固定一般直接与外围卡箍接触或之工作，提高了大规模数据集的聚类效率101。直接间有薄的橡胶垫作为隔振装。针对共享内存多处理器系统以及分布式内存多处理器环境进行K-means的并行化，需要考虑复杂的数 Cluster1 Thread2 据划分、节点容错等并行化的基本问题且需要消耗事 Data Set I hread 大量的节点间同步以及数据网络传输的时间。随着类似Google MapReduce以及Apache的Hadoop的出 Cluster2 Threadl 现和广泛使用，在这些编程模型的基础之上进行分 ·Thread2 布式开发变得相对容易，分布式的基本问题可以依 o Threadl 靠基础编程模型来解决。很多研究人员利用Ma ●Thread2 pReduce的算法模型，针对K-means聚类过程的并图1MC-K-means算法示意行化进行了大量深入的研究工作，取得了很多重要 Fig.1 Illustration of MC-K-means 的研究成果，使得K-means算法可用于大规模数据定义1确定性聚类的输入可以用一组有序对集聚类的应用场合。然而这些算法更多考虑的是多 (X,s)或(X,d)来表示，这里X表示一组样本，s和处理器分布式场景下的K-means并行化，较少考虑 d分别是度量样本间相似度或相异度（距离）的标到单机CPU的多核利用。除此之外，并不是所有的准。确定性聚类系统的输出是一个个分区，例如C= 聚类算法都适合以MapReduce的形式进行并行化 {C,C2,…,C},其中C,(i=1,2…,K)是X的子的，且为了适应MapReduce的编程架构，有时反而集，且满足：C1UC2U,…,UCk=X;C:∩C= 会增加额外的计算量与通信量[214。 ☑，i为。现代CPU技术的发展，使得单机的运行环境也 C中的成员C,C2,…,C.叫做类或簇(Cus- 发生了极大的变化。多核处理器的出现提高了 ter),每一个类或簇都是通过一些特征描述的，通常 CPU的计算性能，降低了CPU的功耗。尽管如此，有如下几种表示方式：传统的算法并不能直接从多核CPU中获益，需要针 1)通过它们的中心或类的边界点表示空间的对多核CPU的特点进行并行化改进与优化，才能充类点。分利用多核CPU的计算能力。因此，研究单机CMP 2)使用聚类树中的结点，图形化地表示一个类。环境下K-means算法的并行化方法对提高单机K 3)使用样本属性的逻辑表达式表示类。 means算法的聚类效率具有重要的现实意义，并且

此相对应的内存频率却没有相对应的提高。内存与ＣＰＵ之间处理数据的能力差距越来越大，极大地影响了应用程序的性能。同时，工程师们开始认识到，仅仅提高单核芯片的频率会产生过多热量且无法带来希望的性能改善。于是，ＣＭＰ（ｃｈｉｐｍｕｌｔｉ⁃ｐｒｏｃｅｓ⁃ ｓｏｒ）成为了先进处理器的发展趋势。ＣＭＰ可以在大幅提高处理性能的同时降低ＣＰＵ主频，减少能源消耗。然而仅简单提供ＣＭＰ环境并不能直接带来应用程序性能的提高，需要研发人员针对ＣＭＰ环境对有关算法进行优化，才能使得应用程序更好的利用ＣＰＵ的多核计算能力，提高程序的运行效率［１］。本文针对提高大规模数据集聚类效率的问题，着重研究单机多核环境下（ＣＭＰ）Ｋ⁃ｍｅａｎｓ算法的并行化改进，提出了一种Ｍｕｌｔｉ⁃ｃｏｒｅＫ⁃ｍｅａｎｓ（ＭＣ⁃Ｋ⁃ ｍｅａｎｓ）算法。该算法对原Ｋ⁃ｍｅａｎｓ算法的聚类任务进行了分解，设计了相互独立且均衡的聚类子任务交由各线程并行执行，能够充分利用现代ＣＰＵ的多核计算能力，提高大规模数据集的聚类效率。１研究背景１．１确定性聚类的基本概念金属橡胶隔振器在飞机液压管道上的应用如图１所示，从图１看出，金属橡胶放置在外围卡箍的凹槽内，传统管道固定一般直接与外围卡箍接触或之间有薄的橡胶垫作为隔振装。图１ＭＣ⁃Ｋ⁃ｍｅａｎｓ算法示意Ｆｉｇ．１ＩｌｌｕｓｔｒａｔｉｏｎｏｆＭＣ⁃Ｋ⁃ｍｅａｎｓ定义１确定性聚类的输入可以用一组有序对（Ｘ，ｓ）或（Ｘ，ｄ）来表示，这里Ｘ表示一组样本，ｓ和ｄ分别是度量样本间相似度或相异度（距离）的标准。确定性聚类系统的输出是一个个分区，例如Ｃ＝｛Ｃ１，Ｃ２，…，Ｃｋ｝，其中Ｃｉ（ｉ＝１，２…，Ｋ）是Ｘ的子集，且满足：Ｃ１ ∪ Ｃ２ ∪，… ， ∪ Ｃｋ＝Ｘ；Ｃｉ ∩ Ｃｊ＝ ⌀，ｉ ¹ｊ。Ｃ中的成员Ｃ１，Ｃ２，…，Ｃｋ叫做类或簇（Ｃｌｕｓ⁃ ｔｅｒ），每一个类或簇都是通过一些特征描述的，通常有如下几种表示方式：１）通过它们的中心或类的边界点表示空间的一类点。２）使用聚类树中的结点，图形化地表示一个类。３）使用样本属性的逻辑表达式表示类。１．２相关的研究工作为了解决Ｋ⁃ｍｅａｎｓ算法对大规模数据集聚类效率较低的问题，有研究者提出了只需要扫描一遍原始数据集即产生聚类结果的算法。这些算法只需读入大规模数据集中的一部分进入主存或者分批读入数据集进行聚类，扫描数据集一遍即完成聚类。相应的算法有ｒａｎｄｏｍ⁃ｋｍｅａｎｓ，ＤｙｎａｍｉｃｉｎｃｒｅｍｅｎｔａｌＫ⁃ ｍｅａｎｓ［２］，ＳｉｎｇｌｅｐａｓｓｋｅｒｎｅｌＫ⁃ｍｅａｎｓ［３］，ｓｃａｌａｂｌｅ⁃ ｋｍｅａｎｓ［４］，等。其中，由ＭｉｃｒｏｓｏｆｔＲｅｓｅａｒｃｈ的Ｒｅｄ⁃ ｍｏｎｄ等提出的ｓｃａｌａｂｌｅ⁃ｋｍｅａｎｓ算法性能优越，受到了广泛的重视，并被集成到ＳＱＬＳＥＲＶＥＲ２００８中。类似研究的主要目的是优化Ｋ⁃ｍｅａｎｓ算法，减少数据集的读取次数。有研究者从优化Ｋ⁃ｍｅａｎｓ聚类初始条件设置的角度，利用自适应技术、启发式算法以及半监督技术等实现Ｋ⁃ｍｅａｎｓ初始聚类中心或者聚类个数的优化选择，加速Ｋ⁃ｍｅａｎｓ聚类的收敛过程，提高聚类的效率以及结果的质量［５⁃７］。有研究人员从减少大规模数据集数据维度的角度，降低聚类迭代过程的计算量，提高Ｋ⁃ｍｅａｎｓ聚类算法的效率［８⁃９］。以上相关的研究工作切实提高了Ｋ⁃ｍｅａｎｓ聚类的效率，然而这些新算法并没有利用分布式环境提高聚类的效率。最近有研究人员进行了ＳＭＰ、ＤＭＰ环境下的集群多处理器Ｋ⁃ｍｅａｎｓ聚类的研究工作，提高了大规模数据集的聚类效率［１０⁃１１］。直接针对共享内存多处理器系统以及分布式内存多处理器环境进行Ｋ⁃ｍｅａｎｓ的并行化，需要考虑复杂的数据划分、节点容错等并行化的基本问题且需要消耗大量的节点间同步以及数据网络传输的时间。随着类似ＧｏｏｇｌｅＭａｐＲｅｄｕｃｅ以及Ａｐａｃｈｅ的Ｈａｄｏｏｐ的出现和广泛使用，在这些编程模型的基础之上进行分布式开发变得相对容易，分布式的基本问题可以依靠基础编程模型来解决。很多研究人员利用Ｍａ⁃ ｐＲｅｄｕｃｅ的算法模型，针对Ｋ⁃ｍｅａｎｓ聚类过程的并行化进行了大量深入的研究工作，取得了很多重要的研究成果，使得Ｋ⁃ｍｅａｎｓ算法可用于大规模数据集聚类的应用场合。然而这些算法更多考虑的是多处理器分布式场景下的Ｋ⁃ｍｅａｎｓ并行化，较少考虑到单机ＣＰＵ的多核利用。除此之外，并不是所有的聚类算法都适合以ＭａｐＲｅｄｕｃｅ的形式进行并行化的，且为了适应ＭａｐＲｅｄｕｃｅ的编程架构，有时反而会增加额外的计算量与通信量［１２⁃１４］。现代ＣＰＵ技术的发展，使得单机的运行环境也发生了极大的变化。多核处理器的出现提高了ＣＰＵ的计算性能，降低了ＣＰＵ的功耗。尽管如此，传统的算法并不能直接从多核ＣＰＵ中获益，需要针对多核ＣＰＵ的特点进行并行化改进与优化，才能充分利用多核ＣＰＵ的计算能力。因此，研究单机ＣＭＰ环境下Ｋ⁃ｍｅａｎｓ算法的并行化方法对提高单机Ｋ⁃ ｍｅａｎｓ算法的聚类效率具有重要的现实意义，并且 ·６０８· 智能系统学报第１０卷

第4期申彦，等：CMP上基于数据集划分的K-means多核优化算法 ·609· 与DMP、SMP环境下的K-means聚类过程可以有效簇尽可能的紧凑和独立。的结合，作为DMP、SMP环境下K-means聚类算法算法lK-means(Dataset D,ClusterNumber K) 的有效补充。也有研究人员开始着手研究CMP环输入：事务数据库D,聚类簇的数量K 境下K-menas算法的并行化，但是相关研究尚处于输出：K个聚类，使得平方误差准则E最小起步阶段，算法实现仍存在进一步改进的空 1)assign initial value for means; 间15.16 /任意选择k个对象作为初始的簇中心 1.3多核处理器的出现 2)REPEAT: 2005年，当主频接近4GHz时，CPU的主要制 3)FORj =1 to n DO assign each x;to the closest 造厂商英特尔和AMD公司发现单纯的主频提升已 clusters mean; 经无法明显提升系统整体性能。由于CPU片内流 /根据簇中对象的平均值将每个对象分配给最水线过长，使得单位频率效能低下，加上由于缓存的近的簇增加和对漏电流控制的不利，造成CPU功耗大幅度增加。随着功耗的增大，散热问题也越来越成为一 4))FOR=1okD0G∑6：个无法逾越的障碍。于是，出现了多核心CPU的解 //更新簇的平均值，即计算每个簇中对象的平决方案。均值其实较早以前已经有研究人员提出了利用单芯片多核心处理器(CMP)技术来代替复杂度越来越 5)ComputeE=∑∑lx-x； i=i xeC 高的单核心CPU。BM、P、SUN等企业也在服务器 /计算准则函数E 领域投入了一定的多核CPU进行商用。然而由于 6)Until E.-E=<E,e为预先设定的一个当时的服务器多核CPU价格过于昂贵、应用面窄、较小的值：并没有真正发展起来。 //表示E不再产生明显的变化 2006年，多核CPU进入了迅猛的发展时期，In- K-means是解决聚类问题的一种经典算法，该 tel的Core,Xeon以及AMD的Athlon,Barcelona等算法实现起来较为简单且有非常好的可扩展性。因受到了广泛的欢迎。这些CPU在性能得到极大提此，很多科研人员在研究针对大规模数据集的高效升的同时，功耗反而得到了降低。聚类算法时，往往会以K-means算法作为首选进行值得注意的是OS并不能自动的让某个应用程改进和优化。序直接利用CPU的多核，而是需要进行有关算法的分析K-means算法的时间复杂度，其运行时间 CMP并行化改进。对于数据挖掘中的聚类、关联规主要消耗在：1)数据集读取所产生的/0：2)判断每则挖掘等计算密集型、/0密集型应用而言，对原有一个数据点（数据记录）的所属类别；3)计算每一个算法进行并行化改进，提高算法的执行效率，尽快给类别（簇）的中心；4)计算准则函数E。而这4个阶出挖掘结果成为了当务之急。研究具有较强的现实段均可以很好地并行化，以此利用现代CPU的多核意义山特性，最大化的发挥CPU的性能，提高聚类效率。 2K-means算法详细描述为此，本文提出了一种Muli-core K-means算法 (MC-K-means),该算法对上述4个过程分别进行并 K-means算法，也被称为K-平均或K-均值算行化，充分利用CPU的多核特性，进一步提高K 法，是目前得到广泛应用的一种聚类算法)。其相 means算法的聚类效率。新算法可作为SMP、DMP 似度的计算根据一个簇中对象的平均值来进行。K 分布式环境下聚类算法以及增量OneScan聚类算法 means算法以k为参数，把n个数据点分为k个簇，的有效补充，提高单节点的聚类效率，从而提高整体使得簇内具有较高的相似度，而簇间的相似度较低。的聚类效率。算法首先随机地选择k个对象，每个对象初始 3 CMP上基于数据集划分的大规模地代表了一个簇的平均值或中心。对剩余的每个对数据集K-means多核优化算法象根据其与各个簇中心的距离，将它赋予最近的簇， 3.1MC-K-means算法详细描述然后重新计算每个簇的平均值。这个过程不断重在CMP环境下对K-means聚类算法进行改进复，直到准则函数收敛。准则函数定义为：E= 以适应大规模数据集，关键是要改进原有算法的串三三：-。这里的准测西数E是数据集中所行执行部分为并行执行。分析K-means算法可以发现，在较为消耗资源的数据集读取阶段、数据点所属有数据点的平方误差总和，x是数据集空间中的点，类别判断阶段、每个新簇的簇中心计算阶段以及准 x:是簇C:的平均值。准则函数E使得生成的结果则函数的计算阶段，这些阶段均可进行并行化改进

与ＤＭＰ、ＳＭＰ环境下的Ｋ⁃ｍｅａｎｓ聚类过程可以有效的结合，作为ＤＭＰ、ＳＭＰ环境下Ｋ⁃ｍｅａｎｓ聚类算法的有效补充。也有研究人员开始着手研究ＣＭＰ环境下Ｋ⁃ｍｅｎａｓ算法的并行化，但是相关研究尚处于起步阶段，算法实现仍存在进一步改进的空间［１５⁃１６］。１．３多核处理器的出现２００５年，当主频接近４ＧＨｚ时，ＣＰＵ的主要制造厂商英特尔和ＡＭＤ公司发现单纯的主频提升已经无法明显提升系统整体性能。由于ＣＰＵ片内流水线过长，使得单位频率效能低下，加上由于缓存的增加和对漏电流控制的不利，造成ＣＰＵ功耗大幅度增加。随着功耗的增大，散热问题也越来越成为一个无法逾越的障碍。于是，出现了多核心ＣＰＵ的解决方案。其实较早以前已经有研究人员提出了利用单芯片多核心处理器（ＣＭＰ）技术来代替复杂度越来越高的单核心ＣＰＵ。ＩＢＭ、ＩＰ、ＳＵＮ等企业也在服务器领域投入了一定的多核ＣＰＵ进行商用。然而由于当时的服务器多核ＣＰＵ价格过于昂贵、应用面窄、并没有真正发展起来。２００６年，多核ＣＰＵ进入了迅猛的发展时期，Ｉｎ⁃ ｔｅｌ的Ｃｏｒｅ，Ｘｅｏｎ以及ＡＭＤ的Ａｔｈｌｏｎ，Ｂａｒｃｅｌｏｎａ等受到了广泛的欢迎。这些ＣＰＵ在性能得到极大提升的同时，功耗反而得到了降低。值得注意的是ＯＳ并不能自动的让某个应用程序直接利用ＣＰＵ的多核，而是需要进行有关算法的ＣＭＰ并行化改进。对于数据挖掘中的聚类、关联规则挖掘等计算密集型、Ｉ／Ｏ密集型应用而言，对原有算法进行并行化改进，提高算法的执行效率，尽快给出挖掘结果成为了当务之急。研究具有较强的现实意义［１］。２Ｋ⁃ｍｅａｎｓ算法详细描述Ｋ⁃ｍｅａｎｓ算法，也被称为Ｋ⁃平均或Ｋ⁃均值算法，是目前得到广泛应用的一种聚类算法［１７］。其相似度的计算根据一个簇中对象的平均值来进行。Ｋ⁃ ｍｅａｎｓ算法以ｋ为参数，把ｎ个数据点分为ｋ个簇，使得簇内具有较高的相似度，而簇间的相似度较低。算法首先随机地选择ｋ个对象，每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象根据其与各个簇中心的距离，将它赋予最近的簇，然后重新计算每个簇的平均值。这个过程不断重复，直到准则函数收敛。准则函数定义为：Ｅ＝ ∑ ｋｉ＝１ ∑ｘ∈Ｃｉｘ－ｘｉ２。这里的准则函数Ｅ是数据集中所有数据点的平方误差总和，ｘ是数据集空间中的点，ｘｉ是簇Ｃｉ的平均值。准则函数Ｅ使得生成的结果簇尽可能的紧凑和独立。算法１Ｋ⁃ｍｅａｎｓ（ＤａｔａｓｅｔＤ，ＣｌｕｓｔｅｒＮｕｍｂｅｒＫ）输入：事务数据库Ｄ，聚类簇的数量Ｋ输出：Ｋ个聚类，使得平方误差准则Ｅ最小１）ａｓｓｉｇｎｉｎｉｔｉａｌｖａｌｕｅｆｏｒｍｅａｎｓ；／／任意选择ｋ个对象作为初始的簇中心２）ＲＥＰＥＡＴ；３）ＦＯＲｊ＝１ｔｏｎＤＯａｓｓｉｇｎｅａｃｈｘｊｔｏｔｈｅｃｌｏｓｅｓｔｃｌｕｓｔｅｒｓｍｅａｎ；／／根据簇中对象的平均值将每个对象分配给最近的簇４）ＦＯＲｉ＝１ｔｏｋＤＯｘｉ＝１Ｃｉ ∑ｘ∈Ｃｉｘ；／／更新簇的平均值，即计算每个簇中对象的平均值５）ＣｏｍｐｕｔｅＥ＝ ∑ ｋｉ＝１ ∑ｘ∈Ｃｉｘ－ｘｉ２；／／计算准则函数Ｅ６）ＵｎｔｉｌＥｎｅｗ－Ｅｌａｓｔ＜ ε ， ε 为预先设定的一个较小的值；／／表示Ｅ不再产生明显的变化Ｋ⁃ｍｅａｎｓ是解决聚类问题的一种经典算法，该算法实现起来较为简单且有非常好的可扩展性。因此，很多科研人员在研究针对大规模数据集的高效聚类算法时，往往会以Ｋ⁃ｍｅａｎｓ算法作为首选进行改进和优化。分析Ｋ⁃ｍｅａｎｓ算法的时间复杂度，其运行时间主要消耗在：１）数据集读取所产生的Ｉ／Ｏ；２）判断每一个数据点（数据记录）的所属类别；３）计算每一个类别（簇）的中心；４）计算准则函数Ｅ。而这４个阶段均可以很好地并行化，以此利用现代ＣＰＵ的多核特性，最大化的发挥ＣＰＵ的性能，提高聚类效率。为此，本文提出了一种Ｍｕｌｔｉ⁃ｃｏｒｅＫ⁃ｍｅａｎｓ算法（ＭＣ⁃Ｋ⁃ｍｅａｎｓ），该算法对上述４个过程分别进行并行化，充分利用ＣＰＵ的多核特性，进一步提高Ｋ⁃ ｍｅａｎｓ算法的聚类效率。新算法可作为ＳＭＰ、ＤＭＰ分布式环境下聚类算法以及增量ＯｎｅＳｃａｎ聚类算法的有效补充，提高单节点的聚类效率，从而提高整体的聚类效率。３ＣＭＰ上基于数据集划分的大规模数据集Ｋ⁃ｍｅａｎｓ多核优化算法３．１ＭＣ⁃Ｋ⁃ｍｅａｎｓ算法详细描述在ＣＭＰ环境下对Ｋ⁃ｍｅａｎｓ聚类算法进行改进以适应大规模数据集，关键是要改进原有算法的串行执行部分为并行执行。分析Ｋ⁃ｍｅａｎｓ算法可以发现，在较为消耗资源的数据集读取阶段、数据点所属类别判断阶段、每个新簇的簇中心计算阶段以及准则函数的计算阶段，这些阶段均可进行并行化改进，第４期申彦，等：ＣＭＰ上基于数据集划分的Ｋ⁃ｍｅａｎｓ多核优化算法 ·６０９·

·610 智能系统学报第10卷且由于其所需计算的性质，都可以较好的做到多核 partly,ji=1,2,…,n,i=1,2,…,k; 之间的负载均衡。 19)until every equally data_set,is finished; 改进后的MC-K-means算法详细描述如下。其 20)join the results of every task to get total_E;= 中关键步骤如图1所示，为了方便描述，图中以2线程为例进行说明，可推广到n线程的情形。 (,)i=1,2 算法2MC-K-means(Dataset D,ClusterNumber K) 输入：事务数据库D,聚类的簇的数量K 2DE=芝alE: i=1 输出：K个聚类，使得平方误差准则E最小 22)until Ee-Ei<s,s is a preset very small 1)random assign initial value for means; threshold /任意选择k个对象作为初始的簇中心在读入外存数据时，考虑到数据源可能存在于 2)thread_count=Runtime.getRunTime().avail- 网络数据库中，在读取时会有一定的延时，多开线程 abkleProcessors/(1-blockCoefficient);0<=blockCoef- 可有效利用CPU的多核，因此考虑设置Runtime.ge ficient<1; tRunTime ()availabkleProcessors/(1-blockCoeffi- /计算线程数 cient)大小的线程池，其中blockCoeff伍cient=数据记 3)executeService service Excute.new- 录/0阻塞时间/数据记录处理时间，在运行时可根 FixedThreadPool(thread_count); 据数据源的延时动态凋整。 1/创建线程池在装载数据之后，判断每一数据点的所属类别 4)divide the data set into n parts equally and cre- 时采用的是欧几里得距离的平方d(x,y)2= ate n tasks to read every data set,where n=thread [∑1x,一，P门。该计算对于每个数据点的计算 count; /装载数据量均是相同的，等分数据即可做到负载平衡。除此 5)thread_count Runtime.getRunTime().avail- 之外，该过程是计算密集型的，多开线程对提高效率 abkleProcessors; 无益，反而会因为CPU频繁的线程切换而降低运行 6)threadPool Excute.newFixedThreadPool 效率。因此开设线程个数与CPU核心数avail-. (thread_count); abkleProcessors相同的线程池：又因为距离计算任务 /创建线程池，计算准则函数E 的计算量对每个数据点是一样的，所以MC-K-means 7)divide the data set into n parts equally and cre- 算法等分数据，创建availabkleProcessors个任务进 ate n tasks to compute the category,where n thread_ 行数据点类别判断的计算，并交由线程池调度执行。 count; 计算每一个聚类簇的簇中心，仍然是一个计算 8)repeat 密集型的任务，因此在此阶段开设线程数与CPU核 9)for every data_seti 心数相同的线程池。MC-K-means算法针对之前等 10)let one task;to assign each data point of the 分的数据集，每个线程广计算被分配的数据集归属 data_set,to the closest clusters center and record the 于每个分类i的sum,以及num:,并汇总j个线程的 category; 结果得到total_sum与以及total_num与，最终得到 11)until every data_set,is finished; cluster_center:,。采用针对等分数据集的方法使得 12)for every equally data_.set//计算每个簇的簇簇中心计算的各任务相对均衡。在准则函数E的中心；计算过程中也采用了同样的负载均衡的方法。 13)let one task;to compute the sum;and num of CMP系统是共享内存的，上述MC-K-means算 data_set,partly,j=1,2,…n,i=1,2,…k; 法仅在访问共享变量及每部分数据处理完毕时需要 14)until every equally data_set,is finished; 进行同步，避免了数据集通过网络在节点之间传输 15)join the results of every task,to get total_sum= 造成的时间消耗，算法具有较高的执行效率。 (um）,almm=(um,）,i=1,2: 4实验结果以及分析 j=1 j=1 16)cluster_center;total_sum,/total_num;,i= 为了验证算法的有效性，依据前述MC-K-means 1,2,…,k; 算法的主要思想，使用Java语言实现了MC-K //每个线程均可访问中心值，以便再次划分数据 means以及K-means算法1-i9。实验平台为HP 17)for every equally data_set,//计算每个簇部分 PR03380MT,Window XP_SP3,4GB内存，jdk7u51 准则函数以及HP ProLiant DL388pGen8,RedHat9.0,32GB 18)let one task,to compute the E of data_set 内存，jdk7u51。因为是做CPU多核加速的有关实

且由于其所需计算的性质，都可以较好的做到多核之间的负载均衡。改进后的ＭＣ⁃Ｋ⁃ｍｅａｎｓ算法详细描述如下。其中关键步骤如图１所示，为了方便描述，图中以２线程为例进行说明，可推广到ｎ线程的情形。算法２ＭＣ⁃Ｋ⁃ｍｅａｎｓ（ＤａｔａｓｅｔＤ，ＣｌｕｓｔｅｒＮｕｍｂｅｒＫ）输入：事务数据库Ｄ，聚类的簇的数量Ｋ输出：Ｋ个聚类，使得平方误差准则Ｅ最小１）ｒａｎｄｏｍａｓｓｉｇｎｉｎｉｔｉａｌｖａｌｕｅｆｏｒｍｅａｎｓ；／／任意选择ｋ个对象作为初始的簇中心２）ｔｈｒｅａｄ＿ｃｏｕｎｔ＝Ｒｕｎｔｉｍｅ．ｇｅｔＲｕｎＴｉｍｅ（）．ａｖａｉｌ⁃ ａｂｋｌｅＰｒｏｃｅｓｓｏｒｓ／（１－ｂｌｏｃｋＣｏｅｆｆｉｃｉｅｎｔ）；０＜＝ｂｌｏｃｋＣｏｅｆ⁃ ｆｉｃｉｅｎｔ＜１；／／计算线程数３）ｅｘｅｃｕｔｅＳｅｒｖｉｃｅｓｅｒｖｉｃｅ＝Ｅｘｃｕｔｅ．ｎｅｗ⁃ ＦｉｘｅｄＴｈｒｅａｄＰｏｏｌ（ｔｈｒｅａｄ＿ｃｏｕｎｔ）；／／创建线程池４）ｄｉｖｉｄｅｔｈｅｄａｔａｓｅｔｉｎｔｏｎｐａｒｔｓｅｑｕａｌｌｙａｎｄｃｒｅ⁃ ａｔｅｎｔａｓｋｓｔｏｒｅａｄｅｖｅｒｙｄａｔａｓｅｔ，ｗｈｅｒｅｎ＝ｔｈｒｅａｄ＿ｃｏｕｎｔ；／／装载数据５）ｔｈｒｅａｄ＿ｃｏｕｎｔ＝Ｒｕｎｔｉｍｅ．ｇｅｔＲｕｎＴｉｍｅ（）．ａｖａｉｌ⁃ ａｂｋｌｅＰｒｏｃｅｓｓｏｒｓ；６）ｔｈｒｅａｄＰｏｏｌ＝Ｅｘｃｕｔｅ．ｎｅｗＦｉｘｅｄＴｈｒｅａｄＰｏｏｌ（ｔｈｒｅａｄ＿ｃｏｕｎｔ）；／／创建线程池，计算准则函数Ｅ７）ｄｉｖｉｄｅｔｈｅｄａｔａｓｅｔｉｎｔｏｎｐａｒｔｓｅｑｕａｌｌｙａｎｄｃｒｅ⁃ ａｔｅｎｔａｓｋｓｔｏｃｏｍｐｕｔｅｔｈｅｃａｔｅｇｏｒｙ，ｗｈｅｒｅｎ＝ｔｈｒｅａｄ＿ｃｏｕｎｔ；８）ｒｅｐｅａｔ９）ｆｏｒｅｖｅｒｙｄａｔａ＿ｓｅｔｊ１０）ｌｅｔｏｎｅｔａｓｋｊｔｏａｓｓｉｇｎｅａｃｈｄａｔａｐｏｉｎｔｏｆｔｈｅｄａｔａ＿ｓｅｔｊｔｏｔｈｅｃｌｏｓｅｓｔｃｌｕｓｔｅｒｓｃｅｎｔｅｒａｎｄｒｅｃｏｒｄｔｈｅｃａｔｅｇｏｒｙ；１１）ｕｎｔｉｌｅｖｅｒｙｄａｔａ＿ｓｅｔｊｉｓｆｉｎｉｓｈｅｄ；１２）ｆｏｒｅｖｅｒｙｅｑｕａｌｌｙｄａｔａ＿ｓｅｔｊ／／计算每个簇的簇中心；１３）ｌｅｔｏｎｅｔａｓｋｊｔｏｃｏｍｐｕｔｅｔｈｅｓｕｍｉｊａｎｄｎｕｍｉｊｏｆｄａｔａ＿ｓｅｔｊｐａｒｔｌｙ，ｊ＝１，２，…ｎ，ｉ＝１，２，…ｋ；１４）ｕｎｔｉｌｅｖｅｒｙｅｑｕａｌｌｙｄａｔａ＿ｓｅｔｊｉｓｆｉｎｉｓｈｅｄ；１５）ｊｏｉｎｔｈｅｒｅｓｕｌｔｓｏｆｅｖｅｒｙｔａｓｋｊｔｏｇｅｔｔｏｔａｌ＿ｓｕｍｉ＝（∑ ｊ＝ｎｊ＝１ｓｕｍｉｊ），ｔｏｔａｌ＿ｎｕｍｉ＝（∑ ｊ＝ｎｊ＝１ｎｕｍｉｊ），ｉ＝１，２，…，ｋ；１６）ｃｌｕｓｔｅｒ＿ｃｅｎｔｅｒｉ＝ｔｏｔａｌ＿ｓｕｍｉ／ｔｏｔａｌ＿ｎｕｍｉ，ｉ＝１，２，…，ｋ；／／每个线程均可访问中心值，以便再次划分数据１７）ｆｏｒｅｖｅｒｙｅｑｕａｌｌｙｄａｔａ＿ｓｅｔｊ／／计算每个簇部分准则函数１８）ｌｅｔｏｎｅｔａｓｋｊｔｏｃｏｍｐｕｔｅｔｈｅＥｉｊｏｆｄａｔａ＿ｓｅｔｊｐａｒｔｌｙ，ｊ＝１，２，…，ｎ，ｉ＝１，２，…，ｋ；１９）ｕｎｔｉｌｅｖｅｒｙｅｑｕａｌｌｙｄａｔａ＿ｓｅｔｊｉｓｆｉｎｉｓｈｅｄ；２０）ｊｏｉｎｔｈｅｒｅｓｕｌｔｓｏｆｅｖｅｒｙｔａｓｋｊｔｏｇｅｔｔｏｔａｌ＿Ｅｉ＝（∑ ｊ＝ｎｊ＝１Ｅｉｊ），ｉ＝１，２，…，ｋ；２１）Ｅ＝ ∑ ｉ＝ｋｉ＝１ｔｏｔａｌ＿Ｅｉ；２２）ｕｎｔｉｌＥｎｅｗ－Ｅｌａｓｔ＜ ε ， ε ｉｓａｐｒｅｓｅｔｖｅｒｙｓｍａｌｌｔｈｒｅｓｈｏｌｄ在读入外存数据时，考虑到数据源可能存在于网络数据库中，在读取时会有一定的延时，多开线程可有效利用ＣＰＵ的多核，因此考虑设置Ｒｕｎｔｉｍｅ．ｇｅ⁃ ｔＲｕｎＴｉｍｅ（）．ａｖａｉｌａｂｋｌｅＰｒｏｃｅｓｓｏｒｓ／（１⁃ｂｌｏｃｋＣｏｅｆｆｉ⁃ ｃｉｅｎｔ）大小的线程池，其中ｂｌｏｃｋＣｏｅｆｆｉｃｉｅｎｔ＝数据记录Ｉ／Ｏ阻塞时间／数据记录处理时间，在运行时可根据数据源的延时动态调整。在装载数据之后，判断每一数据点的所属类别时采用的是欧几里得距离的平方ｄ（ｘ，ｙ）２＝ ∑ ｎｉ＝１ｘｉ－ｙｉ２ [ ] 。该计算对于每个数据点的计算量均是相同的，等分数据即可做到负载平衡。除此之外，该过程是计算密集型的，多开线程对提高效率无益，反而会因为ＣＰＵ频繁的线程切换而降低运行效率。因此开设线程个数与ＣＰＵ核心数ａｖａｉｌ⁃ ａｂｋｌｅＰｒｏｃｅｓｓｏｒｓ相同的线程池；又因为距离计算任务的计算量对每个数据点是一样的，所以ＭＣ⁃Ｋ⁃ｍｅａｎｓ算法等分数据，创建ａｖａｉｌａｂｋｌｅＰｒｏｃｅｓｓｏｒｓ个任务进行数据点类别判断的计算，并交由线程池调度执行。计算每一个聚类簇的簇中心，仍然是一个计算密集型的任务，因此在此阶段开设线程数与ＣＰＵ核心数相同的线程池。ＭＣ⁃Ｋ⁃ｍｅａｎｓ算法针对之前等分的数据集，每个线程ｊ计算被分配的数据集归属于每个分类ｉ的ｓｕｍｉｊ以及ｎｕｍｉｊ，并汇总ｊ个线程的结果得到ｔｏｔａｌ＿ｓｕｍｉｊ以及ｔｏｔａｌ＿ｎｕｍｉｊ，最终得到ｃｌｕｓｔｅｒ＿ｃｅｎｔｅｒｉ。采用针对等分数据集的方法使得簇中心计算的各任务相对均衡。在准则函数Ｅ的计算过程中也采用了同样的负载均衡的方法。ＣＭＰ系统是共享内存的，上述ＭＣ⁃Ｋ⁃ｍｅａｎｓ算法仅在访问共享变量及每部分数据处理完毕时需要进行同步，避免了数据集通过网络在节点之间传输造成的时间消耗，算法具有较高的执行效率。４实验结果以及分析为了验证算法的有效性，依据前述ＭＣ⁃Ｋ⁃ｍｅａｎｓ算法的主要思想，使用Ｊａｖａ语言实现了ＭＣ⁃Ｋ⁃ ｍｅａｎｓ以及Ｋ⁃ｍｅａｎｓ算法［１８⁃１９］。实验平台为ＨＰＰＲＯ３３８０ＭＴ，ＷｉｎｄｏｗＸＰ＿ＳＰ３，４ＧＢ内存，ｊｄｋ７ｕ５１以及ＨＰＰｒｏＬｉａｎｔＤＬ３８８ｐＧｅｎ８，ＲｅｄＨａｔ９．０，３２ＧＢ内存，ｊｄｋ７ｕ５１。因为是做ＣＰＵ多核加速的有关实 ·６１０· 智能系统学报第１０卷

第4期申彦，等：CMP上基于数据集划分的K-means多核优化算法 ·611- 验，所以需要针对不同实验平台中不同类型的CPU 个数据点的所属类别、计算簇中心以及计算准则函进行测试。HPPR03380MT平台采用的CPU是数E这4个阶段均进行了并行化改进。且在这4个 Intel i3-3240@3.40GHz,核心类型为Ivy Bridge,64 阶段中，每个数据点的任务量是相当的，因此MC-K- 位CPU,双核，四线程，支持超线程技术，3MB三级 means算法所采取的等分数据集的方法可以取得较缓存，双通道。HP ProLiant DL388pGen8平台采用好的负载均衡性，算法取得了对比算法中最高的加的CPU是Intel Xeon E5-2609@2.40GHz,核心类型速率。为Sandy Bridge,64位CPU,四核，四线程，10MB三 PKMeans_.MT算法取得了较低的加速率。分析级缓存，四通道。算法可知，该算法仅在读取数据集以及迭代计算每对比算法为文献[l5]描述的基于MapReduce 个数据点的归属时利用parfor函数进行了并行化。的并行K-means算法(PKMeans_MR)以及文献[l6] 对新分类中心点的计算及准则函数的计算均没有并描述的PKMeans_.MT算法。在实验中根据上述文行化，且算法需要依托MATLAB平台，故取得了较献描述的算法思想分别实现了各算法进行对比实低的加速率。验。因为相同初始化条件下各算法最终聚类的结果 PKMeans_.MR算法在对比算法中取得了最低的是一样的，所以实验主要对比分析相关算法的执行加速率。分析算法可知，PKMeans_.MR算法改进原时间以及加速率情况。 K-means算法，使其以MapReduce方式运行，节点之 4.1人工生成数据集测试间在迭代时需要多次通信、多次同步，且算法需适应人工生成数据集由数据生成程序根据K个高 MapReduce固有模式，降低了算法的运行效率，因此斯分布随机产生，每个高斯分布设置一个随机权重取得了最低的加速率。但对比原K-means算法仍提来确定是否产生数据。每一个高斯分布的中心是随高了一倍多的运行效率。机产生的，区间为[-5,5]。数据点每个维度值的产可以看出，对K-means进行并行化改进，适应了生区间为[0.7,1.5]。产生的人工数据集包含100 多核CPU的发展趋势，可以极大程度提高算法的运维，180000个数据点，数据集使用二进制bin文件行效率，满足处理大规模数据集的需要。保存。本次实验因为数据集以及聚类测试算法是在同一台计算机上的，所以读取数据集时的阻塞系数 30 28.24 25.28 blockCoefficient设置为0。聚类簇数量设置为k=5。整个实验随机产生5个不同的人工生成数据 20 =5 集，针对每个数据集，分别执行MC-K-means、PK- 15 11.47 :水 PKMeans MR 10 1001 9.029.35 Means_.MR、PKMeans_MT以及K-means算法各I0 7.028 oK-means 次，各自共运行50次，最后以聚类时间的平均值作 5 为算法聚类效率的评价。实验结果如图2、3所示。 Intel Xeon E5-2609Intel i3-3240 该数据集较为规整，算法运行收敛较快。从实操作平台验结果可以看出：针对服务器领域的Xeon E5-2609, 图2运行时间对比虽然主频较低，但依靠较大的L3缓存以及四通道 Fig.2 Comparison of run time 的内存控制器，使得各算法取得了较高的执行效率。 4.00r 3.60 K-means算法在该平台环境下执行消耗了25.28s, 3.50 3.10 PKMeans_.MR消耗了10.01s,PKMeans_MT消耗了 3.00 3.133.02 2.53 2.16 =5 2.50 8.15s,MC-K-means则需要7.02s。而在i3-3240所 2.00 MC-K-means 在平台环境下，K-means算法消耗了28.24s,PK- 翼 PKMeans MT 1.50 PKMeans MR 1.00 Means_MR消耗了11.47s,PKMeans_MT消耗了 0.50 9.35s,MC-K-means在该平台则需要9.02s。从并 0 Intel Xeon E5-2609 Intel i3-3240 行化改造后各算法的执行结果来看，在Xeon E5- 操作平台 2609所在平台，算法获得了更高的加速比。这主要图3加速率对比是由于Xeon E5-2609是四核四线程的，拥有真实的 Fig.3 Comparison of speedup rate 四核心，可以更好地并行完成各并行化算法划分的逐步增大生成数据集的规模，生成的人工数据多任务聚类工作。而3-3240是双核心的，依靠超集为100维，分别包含180000个数据点，360000 线程技术实现的四线程并行，但是CPU的双物理核个数据点，540000个数据点，720000个数据点，心需要频繁的进行线程上下文的切换，消耗了一部 900000个数据点。在Intel Xeon E5-2609平台测试分的运行时间，获得了较低的加速比。每个算法的加速率。实验每次随机产生2个相同大其中，MC-Kmeans算法在读取数据集、判断每

验，所以需要针对不同实验平台中不同类型的ＣＰＵ进行测试。ＨＰＰＲＯ３３８０ＭＴ平台采用的ＣＰＵ是Ｉｎｔｅｌｉ３⁃３２４０＠３．４０ＧＨｚ，核心类型为ＩｖｙＢｒｉｄｇｅ，６４位ＣＰＵ，双核，四线程，支持超线程技术，３ＭＢ三级缓存，双通道。ＨＰＰｒｏＬｉａｎｔＤＬ３８８ｐＧｅｎ８平台采用的ＣＰＵ是ＩｎｔｅｌＸｅｏｎＥ５⁃２６０９＠２．４０ＧＨｚ，核心类型为ＳａｎｄｙＢｒｉｄｇｅ，６４位ＣＰＵ，四核，四线程，１０ＭＢ三级缓存，四通道。对比算法为文献［１５］描述的基于ＭａｐＲｅｄｕｃｅ的并行Ｋ⁃ｍｅａｎｓ算法（ＰＫＭｅａｎｓ＿ＭＲ）以及文献［１６］描述的ＰＫＭｅａｎｓ＿ＭＴ算法。在实验中根据上述文献描述的算法思想分别实现了各算法进行对比实验。因为相同初始化条件下各算法最终聚类的结果是一样的，所以实验主要对比分析相关算法的执行时间以及加速率情况。４．１人工生成数据集测试人工生成数据集由数据生成程序根据Ｋ个高斯分布随机产生，每个高斯分布设置一个随机权重来确定是否产生数据。每一个高斯分布的中心是随机产生的，区间为［－５，５］。数据点每个维度值的产生区间为［０．７，１．５］。产生的人工数据集包含１００维，１８００００个数据点，数据集使用二进制ｂｉｎ文件保存。本次实验因为数据集以及聚类测试算法是在同一台计算机上的，所以读取数据集时的阻塞系数ｂｌｏｃｋＣｏｅｆｆｉｃｉｅｎｔ设置为０。聚类簇数量设置为ｋ＝５。整个实验随机产生５个不同的人工生成数据集，针对每个数据集，分别执行ＭＣ⁃Ｋ⁃ｍｅａｎｓ、ＰＫ⁃ Ｍｅａｎｓ＿ＭＲ、ＰＫＭｅａｎｓ＿ＭＴ以及Ｋ⁃ｍｅａｎｓ算法各１０次，各自共运行５０次，最后以聚类时间的平均值作为算法聚类效率的评价。实验结果如图２、３所示。该数据集较为规整，算法运行收敛较快。从实验结果可以看出：针对服务器领域的ＸｅｏｎＥ５⁃２６０９，虽然主频较低，但依靠较大的Ｌ３缓存以及四通道的内存控制器，使得各算法取得了较高的执行效率。Ｋ⁃ｍｅａｎｓ算法在该平台环境下执行消耗了２５．２８ｓ，ＰＫＭｅａｎｓ＿ＭＲ消耗了１０．０１ｓ，ＰＫＭｅａｎｓ＿ＭＴ消耗了８．１５ｓ，ＭＣ⁃Ｋ⁃ｍｅａｎｓ则需要７．０２ｓ。而在ｉ３⁃３２４０所在平台环境下，Ｋ⁃ｍｅａｎｓ算法消耗了２８．２４ｓ，ＰＫ⁃ Ｍｅａｎｓ＿ＭＲ消耗了１１．４７ｓ，ＰＫＭｅａｎｓ＿ＭＴ消耗了９．３５ｓ，ＭＣ⁃Ｋ⁃ｍｅａｎｓ在该平台则需要９．０２ｓ。从并行化改造后各算法的执行结果来看，在ＸｅｏｎＥ５⁃ ２６０９所在平台，算法获得了更高的加速比。这主要是由于ＸｅｏｎＥ５⁃２６０９是四核四线程的，拥有真实的四核心，可以更好地并行完成各并行化算法划分的多任务聚类工作。而ｉ３⁃３２４０是双核心的，依靠超线程技术实现的四线程并行，但是ＣＰＵ的双物理核心需要频繁的进行线程上下文的切换，消耗了一部分的运行时间，获得了较低的加速比。其中，ＭＣ⁃Ｋｍｅａｎｓ算法在读取数据集、判断每个数据点的所属类别、计算簇中心以及计算准则函数Ｅ这４个阶段均进行了并行化改进。且在这４个阶段中，每个数据点的任务量是相当的，因此ＭＣ⁃Ｋ⁃ ｍｅａｎｓ算法所采取的等分数据集的方法可以取得较好的负载均衡性，算法取得了对比算法中最高的加速率。ＰＫＭｅａｎｓ＿ＭＴ算法取得了较低的加速率。分析算法可知，该算法仅在读取数据集以及迭代计算每个数据点的归属时利用ｐａｒｆｏｒ函数进行了并行化。对新分类中心点的计算及准则函数的计算均没有并行化，且算法需要依托ＭＡＴＬＡＢ平台，故取得了较低的加速率。ＰＫＭｅａｎｓ＿ＭＲ算法在对比算法中取得了最低的加速率。分析算法可知，ＰＫＭｅａｎｓ＿ＭＲ算法改进原Ｋ⁃ｍｅａｎｓ算法，使其以ＭａｐＲｅｄｕｃｅ方式运行，节点之间在迭代时需要多次通信、多次同步，且算法需适应ＭａｐＲｅｄｕｃｅ固有模式，降低了算法的运行效率，因此取得了最低的加速率。但对比原Ｋ⁃ｍｅａｎｓ算法仍提高了一倍多的运行效率。可以看出，对Ｋ⁃ｍｅａｎｓ进行并行化改进，适应了多核ＣＰＵ的发展趋势，可以极大程度提高算法的运行效率，满足处理大规模数据集的需要。图２运行时间对比Ｆｉｇ．２Ｃｏｍｐａｒｉｓｏｎｏｆｒｕｎｔｉｍｅ图３加速率对比Ｆｉｇ．３Ｃｏｍｐａｒｉｓｏｎｏｆｓｐｅｅｄｕｐｒａｔｅ逐步增大生成数据集的规模，生成的人工数据集为１００维，分别包含１８００００个数据点，３６００００个数据点，５４００００个数据点，７２００００个数据点，９０００００个数据点。在ＩｎｔｅｌＸｅｏｎＥ５⁃２６０９平台测试每个算法的加速率。实验每次随机产生２个相同大第４期申彦，等：ＣＭＰ上基于数据集划分的Ｋ⁃ｍｅａｎｓ多核优化算法 ·６１１·

点击进入文档下载页（PDF格式）

共8页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录