基于MapReduce的大规模文本聚类并行化

建立快速有效的针对大规模文本数据的聚类分析方法是当前数据挖掘研究和应用领域中的一个热点问题.为了同时保证聚类效果和提高聚类效率,提出基于"互为最小相似度文本对"搜索的文本聚类算法及分布式并行计算模型.首先利用向量空间模型提出一种文本相似度计算方法;其次,基于"互为最小相似度文本对"搜索选择二分簇中心,提出通过一次划分实现簇质心寻优的二分K-means聚类算法;最后,基于MapReduce框架设计面向云计算应用的大规模文本并行聚类模型.在Hadoop平台上运用真实文本数据的实验表明:提出的聚类算法与原始二分K-means相比,在获得相当聚类效果的同时,具有明显效率优势;并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性.
文件格式:PDF,文件大小:458.36KB,售价:3.24元
文档详细内容(约9页)
点击进入文档下载页(PDF格式)
共9页,试读已结束,阅读完整版请下载
点击购买下载(PDF)

下载及服务说明

  • 购买前请先查看本文档预览页,确认内容后再进行支付;
  • 如遇文件无法下载、无法访问或其它任何问题,可发送电子邮件反馈,核实后将进行文件补发或退款等其它相关操作;
  • 邮箱:

文档浏览记录