一种面向网络长文本的话题检测方法

提出了一种面向网络长文本的话题检测方法.针对文本表示的高维稀疏性和忽略潜在语义的问题,提出了Word2vec&LDA(latent dirichlet allocation)的文本表示方法.将LDA提取的文本特征词隐含主题和Word2vec映射的特征词向量进行加权融合既能够进行降维的作用又可以较为完整的表示出文本信息.针对传统话题发现方法对长文本输入顺序敏感问题,提出了基于文本聚类的Single-Pass&HAC(hierarchical agglomerative clustering)的话题发现方法,在引入时间窗口和凝聚式层次聚类的基础上对于文本的输入顺序具有了更强的鲁棒性,同时提高了聚类的精度和效率.为了评估所提出方法的有效性,本文从某大学社交平台收集了来自真实世界的多源数据集,并基于此进行了大量的实验.实验结果证明,本文提出的方法相对于现有的方法,如VSM(state vector space model)、Single-Pass等拥有更好的效果,话题检测的精度提高了10%~20%.
文件格式:PDF,文件大小:1.12MB,售价:2.52元
文档详细内容(约7页)
点击进入文档下载页(PDF格式)
共7页,试读已结束,阅读完整版请下载
点击购买下载(PDF)

下载及服务说明

  • 购买前请先查看本文档预览页,确认内容后再进行支付;
  • 如遇文件无法下载、无法访问或其它任何问题,可发送电子邮件反馈,核实后将进行文件补发或退款等其它相关操作;
  • 邮箱:

文档浏览记录