通过文档词聚类构建主题 进行关键词抽取
通过文档词聚类构建主题 进行关键词抽取
研究动机与方法 ·动机:利用文档内部信息对文档主题进行建模 方法 ·在文档中选取候选关键词 计算候选关键词之间的语义相似度 ·对文档中的词进行聚类 在毎个聚类中选取聚类中心( exemplar)扩展出关键词
研究动机与方法 • 动机:利用文档内部信息对文档主题进行建模 • 方法 • 在文档中选取候选关键词 • 计算候选关键词之间的语义相似度 • 对文档中的词进行聚类 • 在每个聚类中选取聚类中心(exemplar)扩展出关键词
算法细节 ·候选关键词相似度度量 基于同现关系的相似度 ·基于维基百科的相似度 Cosine, Euclid, PMI, NGD 聚类方法选取 层次聚类( hierarchical cluster ing) 谱聚类( spectra| cluster ing) 消息传递聚类( Affinity propagation)
算法细节 • 候选关键词相似度度量 • 基于同现关系的相似度 • 基于维基百科的相似度 • Cosine,Euclid,PMI,NGD • 聚类方法选取 • 层次聚类(hierarchical clustering) • 谱聚类(spectral clustering) • 消息传递聚类(Affinity Propagation)
实验结果 数据集合:论文摘要 参数影响 Parameters Precision Recall Fl-measure Hierarchical Clustering n==n 0.3650.369 0.367 n=亏n 0.3650.3690.367 Parameters Precision Recall Fl-measure 几=n 0.3510.562 0.432 Cooccurrence-based Relatedness n=亏n 0.3460.6290.446 0.3310.626 0.433 n ==n 0.3400.657 0.448 0.3330.6210434 Spectral Clustering u=60.3310.6300.434 0.3850.409 0.397 80.3300.6230432 m=亏n 0.3740.4970.427 t=10 0.3330.6320436 0.3740.497 0.427 wikipedia-based Relatedness n=亏n 0.3500.660[0457 0.3480.655 0.455 m ==n 0.3400.679 0.453 euc 03440.6340.446 Affinity propagation 0.3440.6210.443 P=mar0.3310.6880.447 pinit 0.3440.6190.442 p=mean0.4330.0700.121 pm2 0.3500.6600.457 p= median0.4220.0780.132 ngd 0.3430.620 0.442 P=m2n 0.4190.0590.103
实验结果 • 数据集合:论文摘要 • 参数影响
实验结果 Keyphrases when m=n,号,是n unsupervis method: various unsupervis rank ·与其他算法的比较 method: exemplar term: state-of-the-art 举例 graph-bas rank method; keyphras: keyphras extract Keyphrases when m= an unsupervis method, manual assign, brief sum- mari: various unsupervis rank method: exem plar term; document; state-of-the-art graph-bas rank method; experi; keyphras: import score keyphras extract Assigned C orrect Method Total Mean Total Mean Precision Recall FI-measure Hulth's 7,81515.61,9733.9 0.252 0.5170.339 TextRank 6,78413.72,11642 0.312 0.4310.362 HC 7,30314.62,4945.00.3420.6570.449 SC 7,1581432,5055.00.3500.6600.457 AP 8,01316.02,6485.30.3300.6970.448
实验结果 • 与其他算法的比较 • 举例