当前位置：和泉文库 > 工程 > 基于MapReduce的大规模文本聚类并行化

基于MapReduce的大规模文本聚类并行化

建立快速有效的针对大规模文本数据的聚类分析方法是当前数据挖掘研究和应用领域中的一个热点问题.为了同时保证聚类效果和提高聚类效率，提出基于"互为最小相似度文本对"搜索的文本聚类算法及分布式并行计算模型.首先利用向量空间模型提出一种文本相似度计算方法；其次，基于"互为最小相似度文本对"搜索选择二分簇中心，提出通过一次划分实现簇质心寻优的二分K-means聚类算法；最后，基于MapReduce框架设计面向云计算应用的大规模文本并行聚类模型.在Hadoop平台上运用真实文本数据的实验表明：提出的聚类算法与原始二分K-means相比，在获得相当聚类效果的同时，具有明显效率优势；并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性.

文件格式：PDF，文件大小：458.36KB，售价：3.24元

文档详细内容（约9页）

第36卷第10期北京科技大学学报 Vol.36 No.10 2014年10月 Journal of University of Science and Technology Beijing 0ct.2014 基于MapReduce的大规模文本聚类并行化武森，冯小东，杨杰，张晓楠北京科技大学东凌经济管理学院，北京100083 ☒通信作者，E-mail:wusen@manage.ustb.cdu.cn 摘要建立快速有效的针对大规模文本数据的聚类分析方法是当前数据挖掘研究和应用领域中的一个热点问题.为了同时保证聚类效果和提高聚类效率，提出基于“互为最小相似度文本对”搜索的文本聚类算法及分布式并行计算模型.首先利用向量空间模型提出一种文本相似度计算方法：其次，基于“互为最小相似度文本对”搜索选择二分簇中心，提出通过一次划分实现簇质心寻优的二分K-means聚类算法；最后，基于MapReduce框架设计面向云计算应用的大规模文本并行聚类模型. 在Hadoop平台上运用真实文本数据的实验表明：提出的聚类算法与原始二分K-means相比，在获得相当聚类效果的同时，具有明显效率优势：并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性. 关键词云计算：文本：聚类；相似度分类号TP391 Parallel clustering of very large document datasets with MapReduce WU Sen,FENG Xiao-dong,YANG Jie,ZHANG Xiao-nan Dongling School of Economics and Management,University of Science and Technology Beijing,Beijing 100083,China Corresponding author,E-mail:usen@manage.ustb.edu.cn ABSTRACT To develop fast and efficient methods to cluster mass document data is one of the hot issues of current data mining research and applications.In order to ensure the clustering result and simultaneously improve the clustering efficiency,a document clustering algorithm was proposed based on searching a document pair with minimum similarity for each other and its distributed parallel computing models were provided.Firstly a document similarity measure was presented using a vector space model (VSM);then bisec- ting clustering was raised combining the bisecting K-means and the proposed initial cluster center selection approach to find the optimized cluster centroids by once partitioning:finally a distributed parallel document clustering model was designed for cloud compu- ting based on MapReduce framework.Experiments on Hadoop platform,using real document datasets,showed the obvious efficiency advantages of the novel document clustering algorithm compared to the original bisecting K-means with an equivalent clustering result, and the scalability of parallel clustering with different data sizes and different computation node numbers was also evaluated. KEY WORDS cloud computing:documents:clustering:similarity 文本挖掘是数据挖掘在文本类型数据上扩展的数据的快速增长和商业分析的迫切需求，使得文本研究，是以文本数据作为研究对象，利用数据挖掘相挖掘的重要性和紧迫性也日益增强，其中在不需要关方法，从中寻找文本信息的结构、模型、模式等隐训练集和预定义类别的情况下，从给定的文本集合含的具有潜在价值的知识的过程，结合了数据挖掘、中找到合理的文本簇划分的文本聚类研究是文本挖机器学习、自然语言处理、信息检索和知识管理等不掘领域的一个重要研究方向同领域的研究成果口.以互联网应用为载体的文本随着互联网各种应用（微博、电子商务和搜索收稿日期：201309-30 基金项目：国家自然科学基金资助项目(71271027)：高等学校博士学科点专项科研基金资助项目(20120006110037)：中央高校基本科研业务费专项资金资助项目(FRF-TP-10-OO6B) DOI:10.13374/j.issn1001-053x.2014.10.019:http://journals.ustb.edu.cn

第 36 卷第 10 期 2014 年 10 月北京科技大学学报 Journal of University of Science and Technology Beijing Vol． 36 No． 10 Oct． 2014 基于 MapＲeduce 的大规模文本聚类并行化武森，冯小东，杨杰，张晓楠北京科技大学东凌经济管理学院，北京 100083  通信作者，E-mail: wusen@ manage． ustb． edu． cn 摘要建立快速有效的针对大规模文本数据的聚类分析方法是当前数据挖掘研究和应用领域中的一个热点问题．为了同时保证聚类效果和提高聚类效率，提出基于“互为最小相似度文本对”搜索的文本聚类算法及分布式并行计算模型．首先利用向量空间模型提出一种文本相似度计算方法; 其次，基于“互为最小相似度文本对”搜索选择二分簇中心，提出通过一次划分实现簇质心寻优的二分 K-means 聚类算法; 最后，基于 MapＲeduce 框架设计面向云计算应用的大规模文本并行聚类模型．在 Hadoop 平台上运用真实文本数据的实验表明: 提出的聚类算法与原始二分 K-means 相比，在获得相当聚类效果的同时，具有明显效率优势; 并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性．关键词云计算; 文本; 聚类; 相似度分类号 TP 391 Parallel clustering of very large document datasets with MapＲeduce WU Sen ，FENG Xiao-dong，YANG Jie，ZHANG Xiao-nan Dongling School of Economics and Management，University of Science and Technology Beijing，Beijing 100083，China  Corresponding author，E-mail: usen@ manage． ustb． edu． cn ABSTＲACT To develop fast and efficient methods to cluster mass document data is one of the hot issues of current data mining research and applications． In order to ensure the clustering result and simultaneously improve the clustering efficiency，a document clustering algorithm was proposed based on searching a document pair with minimum similarity for each other and its distributed parallel computing models were provided． Firstly a document similarity measure was presented using a vector space model ( VSM) ; then bisecting clustering was raised combining the bisecting K-means and the proposed initial cluster center selection approach to find the optimized cluster centroids by once partitioning; finally a distributed parallel document clustering model was designed for cloud computing based on MapＲeduce framework． Experiments on Hadoop platform，using real document datasets，showed the obvious efficiency advantages of the novel document clustering algorithm compared to the original bisecting K-means with an equivalent clustering result， and the scalability of parallel clustering with different data sizes and different computation node numbers was also evaluated． KEY WOＲDS cloud computing; documents; clustering; similarity 收稿日期: 2013--09--30 基金项目: 国家自然科学基金资助项目( 71271027) ; 高等学校博士学科点专项科研基金资助项目( 20120006110037) ; 中央高校基本科研业务费专项资金资助项目( FＲF--TP--10--006B) DOI: 10． 13374 /j． issn1001--053x． 2014． 10． 019; http: / /journals． ustb． edu． cn 文本挖掘是数据挖掘在文本类型数据上扩展的研究，是以文本数据作为研究对象，利用数据挖掘相关方法，从中寻找文本信息的结构、模型、模式等隐含的具有潜在价值的知识的过程，结合了数据挖掘、机器学习、自然语言处理、信息检索和知识管理等不同领域的研究成果［1］．以互联网应用为载体的文本数据的快速增长和商业分析的迫切需求，使得文本挖掘的重要性和紧迫性也日益增强，其中在不需要训练集和预定义类别的情况下，从给定的文本集合中找到合理的文本簇划分的文本聚类研究是文本挖掘领域的一个重要研究方向．随着互联网各种应用( 微博、电子商务和搜索

·1412 北京科技大学学报第36卷引擎)的大规模发展，如何快速有效地挖掘应用产目前的文本聚类算法主要扩展传统的聚类算法，根生的大规模文本己成为数据挖掘研究和应用领域所据采用的聚类算法的不同可分为划分文本聚类算法面临的一个巨大挑战.分布式并行计算在面对大规和层次文本聚类算法.其中，最常用划分聚类算法模数据时计算能力强大且实现简单方便，因此将分是基于余弦相似度扩展经典K-means聚类算法n 布式并行计算引入文本挖掘领域所产生的分布式文 (称为球面K-means聚类，Spherical K-means)).在此本挖掘技术是近年来的研究热点.云计算的兴起为基础上，为了克服K-means算法本身局限的文本聚分布式并行计算提供了更多的框架，其中Google提类研究有：K-means++d通过一个特定的基于概出的MapReduce框架回允许用户通过定义Map和率的中心点初始化选择策略，能以(ogk)的算法复 Reduce任务将大规模数据计算任务分配到多个计杂性，取得与经过优化的K-means接近的聚类结果；算节点上而获得计算效率的提高，面向云计算的开基于文本最小相似度的中心选取方法的选择相似源Hadoop平台的出现更是为基于MapReduce的分度最小的两个文本分别作为初始的两个中心，然后布式并行计算模型实现提供了便利，并且有学者开依次选择到已知中心相似度最小的样本作为其他类发了针对机器学习和数据挖掘算法的Mahout类库. 的中心：在线球面K-means通过使用竞争学习技本文面向云计算平台上的大规模文本挖掘应术加速聚类算法的速度，获得与球面K-means接近用，研究文本聚类方法及其并行化计算模型，提出了甚至更好的结果：对于线性不可分数据，基于该方法高效的文本聚类算法，并针对该算法设计了在的K-means算法m利用该函数将原始的特征空间 MapReduce框架下的分布式并行计算模型，运用映射到一个高维的线性可分空间进行聚类：基于自 Hadoop平台实现并行聚类框架并验证算法的性能. 组织映射的文本聚类算法阁将文本映射到二维的平面上，以图的方式展示不同文本之间的关系.受相关研究分析划分聚类算法本身限制，该类文本聚类方法产生的文本聚类指根据文本内容的相关性对整个文本聚类结果不稳定且受噪声数据影响较大. 集合进行簇划分的过程，其中的重要问题包括文本在层次文本聚类研究方面，文献9]最早在文表示模型建立、文本相似度衡量及文本聚类过程. 本聚类中利用凝聚层次聚类方法，然而不同的凝聚首先，文本挖掘算法不能直接对原始文本形式层次聚类在计算类别间相似度时采用不同的策略，进行处理，需要将非结构化文本信息转化为计算机代表性的算法有单连通，完全连通，类间平均连通识别的结构化模型，即建立文本结构表示模型.文等，其中UPGMA20)(unweighted pair grouping method 本挖掘中常用文本表示模型包括向量空间模型 wit山h arithmetic-mean)被认为是效果比较好的层次聚 (vector space model,VSM))、语义模型(semantic 类算法.此后有不同学者四对比研究了不同层次 indexing)、本体模型(ontology model)B-6和后缀聚类方法在文本聚类中的表现，均表明UPGMA层树模型(suffix tree model).其中，向量空间模次聚类算法可得到相对较好的文本聚类效果.但型圆是当前信息检索领域最常用的文本特征表示是，单独的层次聚类算法在进行文本合并或分裂之模型，广泛应用在以商业搜索引擎领域为代表的文后，无法进行调整，使两个较相似的文档容易被划分本挖掘研究和应，用中到不同的文本簇中，结合划分聚类多次迭代寻优和在文本表示模型基础上，聚类算法根据文本对层次聚类结果稳定的特点，二分K-means聚类象之间的相似性将文本聚集成簇，因此文本之间的 (bisecting K-means))不断分裂一个选定的簇直到相似程度的衡量是文本聚类研究的关键内容.目簇的数目达到指定的数目，然后将每个簇的质心作前，文本聚类中普遍采用的相似性衡量方法包括基为K-means算法的初始类中心再次进行聚类，获得于向量空间的相似度计算回（欧式距离、曼哈顿距了比K-means、UPGMA及其他凝聚层次聚类更好的离、明考斯基距离、余弦相似度等)、基于短语的相文本聚类效果，是目前较可靠的文本聚类算法.但似度计算@和基于本体的相似度计算.其中，源是，二分K-means聚类方法由于随机选择初始二分于几何空间中的向量内积思想的余弦相似度方簇中心，因此需要多次迭代划分寻找最优簇质心法☒计算效率较高，且能较准确地衡量文本之间的 (簇质心和二分簇中心分别表示簇本身的平均文本相似程度，广泛应用在各种文本聚类及其他文本挖中心及对该簇进行二分K-means聚类时的初始聚类掘过程中中心)，增加了计算时间复杂度.因此，可以考虑如文本聚类算法是形成文本簇划分的重要步骤，何通过一次迭代划分提高二分K-means的聚类

北京科技大学学报第 36 卷引擎) 的大规模发展，如何快速有效地挖掘应用产生的大规模文本已成为数据挖掘研究和应用领域所面临的一个巨大挑战．分布式并行计算在面对大规模数据时计算能力强大且实现简单方便，因此将分布式并行计算引入文本挖掘领域所产生的分布式文本挖掘技术是近年来的研究热点．云计算的兴起为分布式并行计算提供了更多的框架，其中 Google 提出的 MapＲeduce 框架［2］允许用户通过定义 Map 和Ｒeduce 任务将大规模数据计算任务分配到多个计算节点上而获得计算效率的提高，面向云计算的开源 Hadoop 平台的出现更是为基于 MapＲeduce 的分布式并行计算模型实现提供了便利，并且有学者开发了针对机器学习和数据挖掘算法的 Mahout 类库．本文面向云计算平台上的大规模文本挖掘应用，研究文本聚类方法及其并行化计算模型，提出了高效的文本聚类算法，并针对该算法设计了在 MapＲeduce框架下的分布式并行计算模型，运用 Hadoop平台实现并行聚类框架并验证算法的性能． 1 相关研究分析文本聚类指根据文本内容的相关性对整个文本集合进行簇划分的过程，其中的重要问题包括文本表示模型建立、文本相似度衡量及文本聚类过程．首先，文本挖掘算法不能直接对原始文本形式进行处理，需要将非结构化文本信息转化为计算机识别的结构化模型，即建立文本结构表示模型．文本挖掘中常用文本表示模型包括向量空间模型 ( vector space model，VSM) ［3］、语义模型( semantic indexing) ［4］、本体模型( ontology model) ［5--6］和后缀树模型［7］ ( suffix tree model) ．其中，向量空间模型［8］是当前信息检索领域最常用的文本特征表示模型，广泛应用在以商业搜索引擎领域为代表的文本挖掘研究和应用中．在文本表示模型基础上，聚类算法根据文本对象之间的相似性将文本聚集成簇，因此文本之间的相似程度的衡量是文本聚类研究的关键内容．目前，文本聚类中普遍采用的相似性衡量方法包括基于向量空间的相似度计算［9］( 欧式距离、曼哈顿距离、明考斯基距离、余弦相似度等) 、基于短语的相似度计算［10］和基于本体的相似度计算［11］．其中，源于几何空间中的向量内积思想的余弦相似度方法［12］计算效率较高，且能较准确地衡量文本之间的相似程度，广泛应用在各种文本聚类及其他文本挖掘过程中．文本聚类算法是形成文本簇划分的重要步骤，目前的文本聚类算法主要扩展传统的聚类算法，根据采用的聚类算法的不同可分为划分文本聚类算法和层次文本聚类算法．其中，最常用划分聚类算法是基于余弦相似度扩展经典 K-means 聚类算法［13］ ( 称为球面 K-means 聚类，Spherical K-means) ．在此基础上，为了克服 K-means 算法本身局限的文本聚类研究有: K-means + +［14］通过一个特定的基于概率的中心点初始化选择策略，能以( logk) 的算法复杂性，取得与经过优化的 K-means 接近的聚类结果; 基于文本最小相似度的中心选取方法［15］选择相似度最小的两个文本分别作为初始的两个中心，然后依次选择到已知中心相似度最小的样本作为其他类的中心; 在线球面 K-means［16］通过使用竞争学习技术加速聚类算法的速度，获得与球面 K-means 接近甚至更好的结果; 对于线性不可分数据，基于该方法的 K-means 算法［17］利用该函数将原始的特征空间映射到一个高维的线性可分空间进行聚类; 基于自组织映射的文本聚类算法［18］将文本映射到二维的平面上，以图的方式展示不同文本之间的关系．受划分聚类算法本身限制，该类文本聚类方法产生的聚类结果不稳定且受噪声数据影响较大．在层次文本聚类研究方面，文献［19］最早在文本聚类中利用凝聚层次聚类方法，然而不同的凝聚层次聚类在计算类别间相似度时采用不同的策略，代表性的算法有单连通，完全连通，类间平均连通等，其中 UPGMA［20］( unweighted pair grouping method with arithmetic-mean) 被认为是效果比较好的层次聚类算法．此后有不同学者［21］对比研究了不同层次聚类方法在文本聚类中的表现，均表明 UPGMA 层次聚类算法可得到相对较好的文本聚类效果．但是，单独的层次聚类算法在进行文本合并或分裂之后，无法进行调整，使两个较相似的文档容易被划分到不同的文本簇中．结合划分聚类多次迭代寻优和层次聚类结果稳定的特点，二分 K-means 聚类 ( bisecting K-means) ［22］不断分裂一个选定的簇直到簇的数目达到指定的数目，然后将每个簇的质心作为 K-means 算法的初始类中心再次进行聚类，获得了比 K-means、UPGMA 及其他凝聚层次聚类更好的文本聚类效果，是目前较可靠的文本聚类算法．但是，二分 K-means 聚类方法由于随机选择初始二分簇中心，因此需要多次迭代划分寻找最优簇质心 ( 簇质心和二分簇中心分别表示簇本身的平均文本中心及对该簇进行二分 K-means 聚类时的初始聚类中心) ，增加了计算时间复杂度．因此，可以考虑如何通过一次迭代划分提高二分 K-means 的聚类 · 2141 ·

第10期武森等：基于MapReduce的大规模文本聚类并行化 ·1413· 效率. 在并行聚类研究方面，MapReduce框架的出现 ",=〔×i通=lg(++1 (1) ni 使得大规模文本数据的并行聚类研究逐渐发展，研式中，f,指特征词t在文本d,中出现的频率，ng为文究者基于MapReduce框架进行的并行聚类研究包本d:中特征词t出现的次数，n:为文本d,含有的所有括：基于MapReduce的并行K-means聚类；基于特征词出现的总数：id出指特征词t在整个文本集中 MapReduce的快速K-center和K-median聚类：基的逆向文档频率，用来衡量特征词的出现范围，N为于MapReduce的大规模多维数据聚类：基于文本集合中总文本数量，V表示含有特征词t,的不 MapReduce的分布式文本聚类Pa.这些研究针对不同文本数量.显然，某个特征词在特定的文档中出同的聚类算法，通过定义不同的Ma即和Reduce任现的频率越高，该特征词在区分该文本内容属性方务实现大规模数据的并行聚类，获得了大规模数据面的能力越强(T℉)；在文本集中出现的范围越广，聚类挖掘效率的提高及良好的扩展性其区分文本内容的属性越低(DF). 本文针对目前具有较好文本聚类效果的二分定义2文本相似度.给定文本d,d,TA(d:, K-means算法的不足，在保证文本聚类效果的前提 d）={t1,t2,…,tu,…,th}表示d,d所含特征下，从如何提高二分K-means聚类效率及大规模文词的并集，h为并集中特征词的数目；TS(d:,d,)= 本挖掘问题入手，对文本聚类算法及其并行化进行 {t1,ta,…,t…,tu}表示d,d所含特征词的交了研究.首先，利用向量空间模型提出一种文本相集，l为交集中特征词的数目.文本d,d,在TS中的似度计算方法.其次，提出了基于“互为最小相似度每个特征词t4上的相似度sim(d:,d,t)定义为文本对”搜索算法的初始二分聚类簇中心选择方 sim(dd)=min() (2) 法，并对算法搜索的收敛性进行了证明.然后，结合 max (w,) 二分K-means算法的步骤和思想，给出一次划分实文本d,d的相似度SM(d,d)定义为现簇中心寻优的高效二分聚类过程及完整的文本聚 ∑sim(d:,d,tt) 类算法.此外，在针对提高大规模文本聚类的效率 SIM(d.,d)= 一，(3) I TA(d,d)I 方面，本文借鉴基于MapReduce的并行聚类研即两文本在所有共同特征词上的相似度之和与两文究-，利用MapReduce框架设计了面向云计算应本包含的所有特征词的个数之比.式(3)与经典的用的分布式并行二分K-means文本聚类模型.最余弦相似度(W:·W/(IW:1*1W1)计算方法相后，在Hadoop平台的真实数据实验验证了算法在保比，都首先利用了两个文本所包含的共同特征词计证聚类效果的前提下相比原始二分K-means算法的算公式的分子项，其次分母项均利用了除了共同特效率优势及并行聚类在不同数据规模和计算节点上征之外其余各自本文的特征词.不同的是，本文提的扩展性出的式(3)分别精确地计算了每个共同特征词的相似程度，而不是在夹角余弦中直接通过向量内积计 2基于初始簇中心的文本聚类算法算总体相似度. 本文首先采用文本特征表示模型提出了文本相定义3文本簇相似度均方.包括c个文本的似度计算模型，并提出了基于“互为最小相似度文文本簇C={d,d2,…,d,…,d}的簇相似度均方本对”搜索的初始二分簇中心选择方法，在此基础 MS(C)定义为所有文本与簇质心相似度平方的上给出结合二分K-means的文本聚类算法均值： 2.1文本特征表示及相似度模型 ∑sIM(d,d.)2 定义1文本特征表示模型.给定文本集合 MS(C)= (4) nc D={d,d2,,d,…,dw},d代表每个文本向量，其中，d为簇质心文本特征向量，即d。=(〈t1,w）, 采用向量空间模型可表示为d:=（l1,wa),〈2，〈t2,02）,…,〈t,0g）,…,〈tm,0em>）, 02〉，…，〈，0g〉，…，〈tm,0m）.其中：T={t1, 2,…,,…,tm}表示文本集中所有文本包含的所有特征词的集合，W:=(wa,02,…,0…,0m）表 We (5) nc 示文本d,在所有特征词上对应的权重向量.采用 2.2初始二分簇中心选择方法 TFDF计算方法网：原始的二分K-means方法在选择一个簇进行分

第 10 期武森等: 基于 MapＲeduce 的大规模文本聚类并行化效率．在并行聚类研究方面，MapＲeduce 框架的出现使得大规模文本数据的并行聚类研究逐渐发展，研究者基于 MapＲeduce 框架进行的并行聚类研究包括: 基于 MapＲeduce 的并行 K-means 聚类［23］; 基于 MapＲeduce 的快速 K-center 和 K-median 聚类［24］; 基于 MapＲeduce 的大规模多维数据聚类［25］; 基于 MapＲeduce的分布式文本聚类［26］．这些研究针对不同的聚类算法，通过定义不同的 Map 和Ｒeduce 任务实现大规模数据的并行聚类，获得了大规模数据聚类挖掘效率的提高及良好的扩展性．本文针对目前具有较好文本聚类效果的二分 K-means 算法的不足，在保证文本聚类效果的前提下，从如何提高二分 K-means 聚类效率及大规模文本挖掘问题入手，对文本聚类算法及其并行化进行了研究．首先，利用向量空间模型提出一种文本相似度计算方法．其次，提出了基于“互为最小相似度文本对”搜索算法的初始二分聚类簇中心选择方法，并对算法搜索的收敛性进行了证明．然后，结合二分 K-means 算法的步骤和思想，给出一次划分实现簇中心寻优的高效二分聚类过程及完整的文本聚类算法．此外，在针对提高大规模文本聚类的效率方面，本文借鉴基于 MapＲeduce 的并行聚类研究［23--25］，利用 MapＲeduce 框架设计了面向云计算应用的分布式并行二分 K-means 文本聚类模型．最后，在 Hadoop 平台的真实数据实验验证了算法在保证聚类效果的前提下相比原始二分 K-means 算法的效率优势及并行聚类在不同数据规模和计算节点上的扩展性． 2 基于初始簇中心的文本聚类算法本文首先采用文本特征表示模型提出了文本相似度计算模型，并提出了基于“互为最小相似度文本对”搜索的初始二分簇中心选择方法，在此基础上给出结合二分 K-means 的文本聚类算法． 2. 1 文本特征表示及相似度模型定义 1 文本特征表示模型．给定文本集合 D = { d1，d2，…，di，…，dN} ，di代表每个文本向量，采用向量空间模型可表示为 di = ( ? t1，wi1 ?，? t2， wi2 ?，…，?tj ，wij ?，…，? tm，wim ?) ．其中: T = { t1， t2，…，tj ，…，tm } 表示文本集中所有文本包含的所有特征词的集合，Wi = ( wi1，wi2，…，wij，…，wim ) 表示文本 di 在所有特征词上对应的权重向量．采用 TF-IDF 计算方法［8］: wij = tfi × idfj = nij ni ·log2 ( N Nj + 1 + 1 ) ． ( 1) 式中，tfij指特征词 tj在文本 di中出现的频率，nij为文本 di中特征词 tj出现的次数，ni为文本 di含有的所有特征词出现的总数; idfj指特征词 tj在整个文本集中的逆向文档频率，用来衡量特征词的出现范围，N 为文本集合中总文本数量，Nj表示含有特征词 tj的不同文本数量．显然，某个特征词在特定的文档中出现的频率越高，该特征词在区分该文本内容属性方面的能力越强( TF) ; 在文本集中出现的范围越广，其区分文本内容的属性越低( IDF) ．定义 2 文本相似度．给定文本 di，dj ，TA( di， dj ) = { ta1，ta2，…，tat，…，tah } 表示 di，dj所含特征词的并集，h 为并集中特征词的数目; TS( di，dj) = { ts1，ts2，…，tsk，…，tsl} 表示 di，dj所含特征词的交集，l 为交集中特征词的数目．文本 di，dj在 TS 中的每个特征词 tsk上的相似度 sim( di，dj ，tsk ) 定义为 sim( di，dj ，tsk ) = min( wisk，wjsk ) max( wisk，wjsk ) ， ( 2) 文本 di，dj的相似度 SIM( di，dj ) 定义为 SIM( di，dj ) = t ∑sk∈TS( di ，dj ) sim( di，dj ，tsk ) | TA( di，dj ) | ， ( 3) 即两文本在所有共同特征词上的相似度之和与两文本包含的所有特征词的个数之比．式( 3) 与经典的余弦相似度( Wi ·Wj / ( | Wi | * | Wj | ) ) 计算方法相比，都首先利用了两个文本所包含的共同特征词计算公式的分子项，其次分母项均利用了除了共同特征之外其余各自本文的特征词．不同的是，本文提出的式( 3) 分别精确地计算了每个共同特征词的相似程度，而不是在夹角余弦中直接通过向量内积计算总体相似度．定义 3 文本簇相似度均方．包括 nC个文本的文本簇 C = { d1，d2，…，di，…，dnC } 的簇相似度均方 MS( C) 定义为所有文本与簇质心相似度平方的均值: MS( C) = ∑di∈C SIM( di，de ) 2 nC ． ( 4) 其中，de为簇质心文本特征向量，即 de = ( ?t1，we1 ?， ?t2，we2 ?，…，?tj ，wej ?，…，?tm，wem ?) ， wej = ∑ n i = 1 wij nC ． ( 5) 2. 2 初始二分簇中心选择方法原始的二分 K-means 方法在选择一个簇进行分 · 3141 ·

·1414 北京科技大学学报第36卷裂后，利用K-means思想随机选取初始簇中心进行文本对” 二分聚类并多次迭代寻找最优划分.本文提出通过证明：设算法在n步搜索过程中得到的互不相搜索簇的“互为最小相似度文本对”选择二分聚类同的文本组成的序列DSd,d2,,d,…,dn〉的初始二分簇中心，其中簇的“互为最小相似度文 (n≥3)，即d:+1是文本簇C中与d,相似度最小的本对”定义如下文本：定义4互为最小相似度文本对.文本簇C= SIM (d;,d)min (SIM(d,d)}, {d,d2,…,d,…,d}的“互为最小相似度文本 i=1,2,…,n1, 对”定义为簇C中满足如下条件的两个文本d:,d: 相应的相似度值序列记为SS〈31，s2…,s。-1), SIM (d,,d,)min (SIM(d,,d))= 其中s:=SIM(d:,d:+i). min (SIM (d;,d), (6) 因为即d是文本簇中与d相似度最小的文本，同时d是 SIM (d;,di)min (SIM(d,,d)}, 该簇中与d相似度最小的文本. SIM(dd)=min(sIM(dd)) 本文提出根据搜索簇的“互为最小相似度文本 i=1,2,…,n-2, 对”确定初始二分簇中心，但根据定义4，显然一个所以SIM(d,d+1)≥SIM(d+1,d+2）,s:≥s+1,即文本簇中可能含有多于一对满足式(6)的“互为最 S1≥S2≥≥S:≥Si+1≥"≥$m-1 小相似度文本对”.因此，给出簇的“互为最小相似 (1)由算法终止条件知：若3i=1,2,…,n-2, 度文本”搜索的贪心算法如下使得s:=s:+1,则算法满足终止条件，停止搜索，输出算法1“互为最小相似度文本对”搜索算法. “互为最小相似度文本对”d,d 输入：文本簇C={d1,d2,…,d,…,dn},nc为 (2)若i=1,2,…,n-2,s:>5+1即s1>52> 文本簇C中文本的数量. …>S:>S:+1>…>5n-2>Sn-1,算法继续第n+1步输出：“互为最小相似度文本对”d,d 搜索，设搜索到文本簇C中与dn相似度最小的文本算法步骤：为d,则SIM(dn-1'dn）≥SlM(dn,d),即sn-1≥sn 步骤1在文本簇C中随机选取文本d,赋给 ①若SIM(dn-1,dn）=SIM(dn,d),算法满足 d,d←d 终止条件，停止搜索，输出“互为最小相似度文本步骤2在文本簇C中搜索与文本d,相似度最对”dn-'dn 小的文本d,即 ②若SM(dn-,dn)>SIM(dn,d),则i=1, SIM(dd,)=min (SIM (dd)) 2,…,n,d4≠d.因为：步骤3在文本簇C中搜索与文本d,相似度最首先，若3i=1,2,…,n-2,使得d=d,则小的文本d,即 s:>s-1>SIM (d,,d)=SIM (d;,di)>SIM(d, SIM (d,,d)min {SIM (d,,d,)}. d)SIM(d:,d+i）>SIM(dn,d:),这与“sIM(d:, d:ec 步骤4判断以下两个条件： d:+i)=min{SlM(d,d,)}(d,1是文本簇C中与d 4.1若d4=d或SM(d,d,)=SM(d,d,), 相似度最小的文本)”矛盾：则算法结束，输出d,d,为“互为最小相似度文本其次，显然有d≠dn,dn-1… 对”，即文本簇C的初始簇中心；即d与DS中所有文本均不相同，因此不存在 4.2若d≠d且SIM(d,d,)≠SM(d,d,), 因出现文本序列循环回路而无法终止算法的情况，则赋值d←d,d,←d,返回步骤3重新搜索可将新搜索的文本d,加入DS后继续搜索步骤5结束. 由①和②知在算法第n+1步搜索中，新搜索到由算法1的步骤可知，搜索文本的过程中可能的文本d或满足终止条件①，算法搜索结束：或与会出现循环，即无法收敛得到“互为最小相似度文已搜索到的长度为n的互不相同文本序列DS中所本对”的结果.下面通过定理证明算法1的收敛性. 有文本均不为同一文本，可添加到DS中形成长度定理1算法1的收敛性.经过有限步骤，算法为n+1的互不相同文本序列继续搜索；最坏的情 1必收敛，即对于任意文本簇C={d,d2,…,d,…, 况，当DS长度达到nc时，由于不存在与DS中所有 dnc},nc≥2，在有限的n步(n≤nc,nc为文本簇C 文本均互不相同的文本，无法满足②，此时必满足终中文本的数量)之内，总能寻找到“互为最小相似度止条件①，算法搜索结束

北京科技大学学报第 36 卷裂后，利用 K-means 思想随机选取初始簇中心进行二分聚类并多次迭代寻找最优划分．本文提出通过搜索簇的“互为最小相似度文本对”选择二分聚类的初始二分簇中心，其中簇的“互为最小相似度文本对”定义如下．定义 4 互为最小相似度文本对．文本簇 C = { d1，d2，…，di，…，dnC } 的“互为最小相似度文本对”定义为簇 C 中满足如下条件的两个文本 di，dj : SIM( di，dj ) = min dk∈C { SIM( di，dk ) } = min dk∈C { SIM( dj ，dk ) } ， ( 6) 即 di是文本簇中与 dj相似度最小的文本，同时 dj是该簇中与 di相似度最小的文本．本文提出根据搜索簇的“互为最小相似度文本对”确定初始二分簇中心，但根据定义 4，显然一个文本簇中可能含有多于一对满足式( 6) 的“互为最小相似度文本对”．因此，给出簇的“互为最小相似度文本”搜索的贪心算法如下．算法 1 “互为最小相似度文本对”搜索算法．输入: 文本簇 C = { d1，d2，…，di，…，dnC } ，nC为文本簇 C 中文本的数量．输出: “互为最小相似度文本对”dx，dy ．算法步骤: 步骤 1 在文本簇 C 中随机选取文本 di 赋给 dx，dx←di ．步骤 2 在文本簇 C 中搜索与文本 dx相似度最小的文本 dy，即 SIM( dx，dy ) = min dj ∈C { SIM( dx，dj ) } ．步骤 3 在文本簇 C 中搜索与文本 dy相似度最小的文本 dk，即 SIM( dy，dk ) = min dj ∈C { SIM( dy，dj ) } ．步骤 4 判断以下两个条件: 4. 1 若 dk = dx或 SIM( dx，dy ) = SIM( dk，dy ) ，则算法结束，输出 dx，dy 为“互为最小相似度文本对”，即文本簇 C 的初始簇中心; 4. 2 若 dk≠dx且 SIM( dx，dy ) ≠SIM( dk，dy ) ，则赋值 dx←dy，dy←dk，返回步骤 3 重新搜索．步骤 5 结束．由算法 1 的步骤可知，搜索文本的过程中可能会出现循环，即无法收敛得到“互为最小相似度文本对”的结果．下面通过定理证明算法 1 的收敛性．定理 1 算法 1 的收敛性．经过有限步骤，算法 1 必收敛，即对于任意文本簇 C = { d1，d2，…，di，…， dnC } ，nC≥2，在有限的 n 步( n≤nC，nC为文本簇 C 中文本的数量) 之内，总能寻找到“互为最小相似度文本对”．证明: 设算法在 n 步搜索过程中得到的互不相同的文本组成的序列 DS =? d1，d2，…，di，…，dn ? ( n≥3) ，即 di + 1 是文本簇 C 中与 di 相似度最小的文本: SIM( di，di + 1 ) = min dj ∈C { SIM( dj ，di ) } ， i = 1，2，…，n ’1，相应的相似度值序列记为 SS =? s1，s2 … ，sn － 1 ?，其中 si = SIM( di，di + 1 ) ．因为 SIM( di，di + 1 ) = min dj ∈C { SIM( dj ，di ) } ， SIM( di，di + 2 ) = min dj ∈C { SIM( dj ，di + 1 ) } ， i = 1，2，…，n － 2，所以 SIM( di，di + 1 ) ≥SIM( di + 1，di + 2 ) ，si≥si + 1，即 s1≥s2≥…≥si≥si + 1≥…≥sn － 1 ． ( 1) 由算法终止条件知: 若i = 1，2，…，n － 2，使得 si = si + 1，则算法满足终止条件，停止搜索，输出 “互为最小相似度文本对”ds，ds + 1 ． ( 2) 若i = 1，2，…，n － 2，si ＞ si + 1，即 s1 ＞ s2 ＞ … ＞ si ＞ si + 1 ＞ … ＞ sn － 2 ＞ sn － 1，算法继续第 n + 1 步搜索，设搜索到文本簇 C 中与 dn相似度最小的文本为 dk，则 SIM( dn － 1，dn ) ≥SIM( dn，dk ) ，即 sn － 1≥sn ． ① 若 SIM( dn － 1，dn ) = SIM( dn，dk ) ，算法满足终止条件，停止搜索，输出“互为最小相似度文本对”dn － 1，dn ; ② 若 SIM( dn － 1，dn ) ＞ SIM( dn，dk ) ，则i = 1， 2，…，n，dk≠di ．因为: 首先，若i = 1，2，…，n － 2，使得 dk = di，则 si ＞ sn － 1 ＞ SIM( dn，dk ) SIM( di，di + 1 ) ＞ SIM( dn， dk ) SIM( di，di + 1 ) ＞ SIM( dn，di ) ，这与“SIM( di， di + 1 ) = min dj ∈C { SIM( dj ，di ) } ( di + 1 是文本簇 C 中与 di 相似度最小的文本) ”矛盾; 其次，显然有 dk≠dn，dn － 1 ．即 dk与 DS 中所有文本均不相同，因此不存在因出现文本序列循环回路而无法终止算法的情况，可将新搜索的文本 dk加入 DS 后继续搜索．由①和②知在算法第 n + 1 步搜索中，新搜索到的文本 dk或满足终止条件①，算法搜索结束; 或与已搜索到的长度为 n 的互不相同文本序列 DS 中所有文本均不为同一文本，可添加到 DS 中形成长度为 n + 1 的互不相同文本序列继续搜索; 最坏的情况，当 DS 长度达到 nC时，由于不存在与 DS 中所有文本均互不相同的文本，无法满足②，此时必满足终止条件①，算法搜索结束． · 4141 ·

第10期武森等：基于MapReduce的大规模文本聚类并行化 ·1415· 综上，算法必在有限的n步(n≤nc,nc为文本循环需要计算新分裂的两个簇包含的所有文本与相簇C中文本的数量)之内收敛. 应簇中心的相似度平方，假设每一步划分均匀，则复证毕杂度为O(N2):第三步对第一步产生的另一簇分 2.3基于“互为最小相似度文本对”搜索的文本聚割，复杂度为O(N2),直到第K-1步为(N/2-1) 类算法或(N2-2).因此，总体复杂度T,≤0(K-1)N), 根据提出的初始簇中心选择方法，结合二分 K为类个数 K-means.算法思想，给出文本聚类算法步骤如下. (2)步骤3中，最差的情况下需要计算任意两算法2基于“互为最小相似度文本对”搜索的个文本的相似度，即时间复杂度T2=O(Nm)≤ 文本聚类算法 O(NW),m为搜索次数. 输入：文本集合D={d,d2,…,d,…,d}. (3)步骤4的时间复杂和步骤2类似，需要计参数：聚类的簇数K 算每次分割簇中所有文本与两个簇中心的相似度，输出：文本集合D的簇划分S={S1,S2,…, 时间复杂度T3≤0(2(K-1)N),并且步骤4和步骤 S4,…,Sx}; 2都需计算分割簇中所有文本与簇中心的相似度，算法步骤：因此只需计算一次存储即可，步骤2和步骤4的总步骤1初始化.将所有文本组成的集合D作体时间复杂度T,+T3=T3≤0(2(K-1)N). 为初始簇：S={S,},S。←-D (4)步骤6为标准的K-Means算法，复杂度步骤2根据式(4)从S中选择文本相似度均 T,=O(tKN),t为迭代次数方MS最小的簇S作为待分裂簇. 因此整个算法的时间复杂度T≤O(NW)+ 步骤3运用提出的算法1寻找待分裂簇S的 O(2(K-1)N)+O(tKN)≈O(NW),聚类个数K和初始二分簇中心文本对d,d 迭代次数t均远小于文本总数N.与原始的二分步骤4将待分类簇的所有文本S.={d1, K-means:算法相比，本文的算法主要通过步骤4提高 dn2,…,d,…,dnm}按照相似度最大原则分配到簇了效率，原始的算法需要多次迭代进行文本划分，时 S和S中：间复杂度为T:≤O(2t(K-1)N) rdnm∈Sx,SlM(dm,d）≥sim(dm,d,）; 值得一提的是，文献5]提出的基于最小相似 dS,,SIM (dd)<sim(d'd,) 度的文本聚类中心选取方法和本文提出的根据“互将S,和S,添加到簇划分S中，并将S.从S中为最小相似度文本对”选择初始二分聚类簇中心的删除过程并不相同.首先，从概念定义上，文献5]定义步骤5如果S中文本簇个数小于K,返回步骤的“最小相似度文本”指整个数据中相似度最小的 2:如果S中文本簇个数等于K,转向步骤6 两个文本，本文提出的“互为最小相似度文本对”指步骤6以S中K个簇的质心为初始簇中心对某个己经形成的文本簇中互为对方最小相似度的文所有文本利用球面K-means聚类得到文本簇划分本对，即文献5]中寻找“最小相似度文本”对应的 S,其中聚类过程中采用定义2的文本相似度计算文本相似度为整个数据集中任意两个文本相似度的方法. 最小值：本文中，簇的“互为最小相似度文本”对应步骤7结束的相似度不一定是为任意两个文本相似度的最小由算法2过程可知，本文提出的文本聚类算法值，即前者为全局最小值，后者为局部极小值.因此在搜索到初始二分簇中心后一次分配所有对象（步从搜索的时间复杂度上看，文献5]搜索“最小相骤4)，得到簇的划分，并无原始二分K-means算法似度文本”时间复杂度为O(NW)(全局最小，N为文中重复的迭代寻优过程，因此将有可能提高文本聚本数)：本文的时间复杂度O(Nm)≤O(NW),m为类的效率搜索次数，最差为O(NW).其次，从确定类中心过 2.4算法分析比较程上，文献15]针对K-means划分聚类寻找初始簇首先，分析算法2的时间复杂度.具体地，各步中心的问题，选择相似度最小的两个文本作为其中的时间复杂度如下两个初始中心，然后将这两个文本从文本集合中删 (1)步骤2中首先计算每个簇的相似度均方. 除，根据与己确定类中心之间相似度和最小的原则第一次循环中需计算每个文本与相应簇中心的相似从其余文本中选择其他类的中心，直到选出指定类度平方，因此复杂度为O(N),N为文本数：第二次别数目的中心点个数为止：本文提出的方法是针对

第 10 期武森等: 基于 MapＲeduce 的大规模文本聚类并行化综上，算法必在有限的 n 步( n≤nC，nC为文本簇 C 中文本的数量) 之内收敛．证毕． 2. 3 基于“互为最小相似度文本对”搜索的文本聚类算法根据提出的初始簇中心选择方法，结合二分 K-means算法思想，给出文本聚类算法步骤如下．算法 2 基于“互为最小相似度文本对”搜索的文本聚类算法．输入: 文本集合 D = { d1，d2，…，di，…，dN} ．参数: 聚类的簇数 K．输出: 文本集合 D 的簇划分 S = { S1，S2，…， Sk，…，SK } ; 算法步骤: 步骤 1 初始化．将所有文本组成的集合 D 作为初始簇: S = { S0 } ，S0←D．步骤 2 根据式( 4) 从 S 中选择文本相似度均方 MS 最小的簇 Sm作为待分裂簇．步骤 3 运用提出的算法 1 寻找待分裂簇 Sm的初始二分簇中心文本对 dx，dy ．步骤 4 将待分类簇的所有文本 Sm = { dm1， dm2，…，dmi，…，dmn } 按照相似度最大原则分配到簇 Sx和 Sy中: dmi∈Sx，SIM( dmi，dx ) ≥sim( dmi，dy ) ; dmi∈Sy，SIM( dmi，dx ) ＜ sim( dmi，dy { ) ．将 Sx和 Sy 添加到簇划分 S 中，并将 Sm从 S 中删除．步骤 5 如果 S 中文本簇个数小于 K，返回步骤 2; 如果 S 中文本簇个数等于 K，转向步骤 6．步骤 6 以 S 中 K 个簇的质心为初始簇中心对所有文本利用球面 K-means 聚类得到文本簇划分 S，其中聚类过程中采用定义 2 的文本相似度计算方法．步骤 7 结束．由算法 2 过程可知，本文提出的文本聚类算法在搜索到初始二分簇中心后一次分配所有对象( 步骤 4) ，得到簇的划分，并无原始二分 K-means 算法中重复的迭代寻优过程，因此将有可能提高文本聚类的效率． 2. 4 算法分析比较首先，分析算法 2 的时间复杂度．具体地，各步的时间复杂度如下． ( 1) 步骤 2 中首先计算每个簇的相似度均方．第一次循环中需计算每个文本与相应簇中心的相似度平方，因此复杂度为 O( N) ，N 为文本数; 第二次循环需要计算新分裂的两个簇包含的所有文本与相应簇中心的相似度平方，假设每一步划分均匀，则复杂度为 O( N /2) ; 第三步对第一步产生的另一簇分割，复杂度为 O( N /2) ，直到第 K － 1 步为( N /2K － 1 ) 或( N /2K － 2 ) ．因此，总体复杂度 T1≤O( ( K － 1) N) ， K 为类个数． ( 2) 步骤 3 中，最差的情况下需要计算任意两个文本的相似度，即时间复杂度 T2 = O ( Nm) ≤ O( NN) ，m 为搜索次数． ( 3) 步骤 4 的时间复杂和步骤 2 类似，需要计算每次分割簇中所有文本与两个簇中心的相似度，时间复杂度 T3≤O( 2( K － 1) N) ，并且步骤 4 和步骤 2 都需计算分割簇中所有文本与簇中心的相似度，因此只需计算一次存储即可，步骤 2 和步骤 4 的总体时间复杂度 T1 + T3 = T3≤O( 2( K － 1) N) ． ( 4) 步骤 6 为标准的 K-Means 算法，复杂度 T4 = O( tKN) ，t 为迭代次数．因此整个算法的时间复杂度 T≤O( NN) + O( 2( K － 1) N) + O( tKN) ≈O( NN) ，聚类个数 K 和迭代次数 t 均远小于文本总数 N．与原始的二分 K-means算法相比，本文的算法主要通过步骤 4 提高了效率，原始的算法需要多次迭代进行文本划分，时间复杂度为 T'3≤O( 2t( K － 1) N) ．值得一提的是，文献［15］提出的基于最小相似度的文本聚类中心选取方法和本文提出的根据“互为最小相似度文本对”选择初始二分聚类簇中心的过程并不相同．首先，从概念定义上，文献［15］定义的“最小相似度文本”指整个数据中相似度最小的两个文本，本文提出的“互为最小相似度文本对”指某个已经形成的文本簇中互为对方最小相似度的文本对，即文献［15］中寻找“最小相似度文本”对应的文本相似度为整个数据集中任意两个文本相似度的最小值; 本文中，簇的“互为最小相似度文本”对应的相似度不一定是为任意两个文本相似度的最小值，即前者为全局最小值，后者为局部极小值．因此从搜索的时间复杂度上看，文献［15］搜索“最小相似度文本”时间复杂度为 O( NN) ( 全局最小，N 为文本数) ; 本文的时间复杂度 O( Nm) ≤O( NN) ，m 为搜索次数，最差为 O( NN) ．其次，从确定类中心过程上，文献［15］针对 K-means 划分聚类寻找初始簇中心的问题，选择相似度最小的两个文本作为其中两个初始中心，然后将这两个文本从文本集合中删除，根据与已确定类中心之间相似度和最小的原则从其余文本中选择其他类的中心，直到选出指定类别数目的中心点个数为止; 本文提出的方法是针对 · 5141 ·

点击进入文档下载页（PDF格式）

共9页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录