关键词标注方法 二分类 有监督 多分类 关键词抽取 词频 无监督 图方法
关键词标注方法 关键词抽取 有监督 二分类 多分类 无监督 词频 图方法
有监督方法 转化为二分类问题 判断某个候选关键词是否为关键词 · Frank199.用朴素贝叶斯分类器 · Turney2000采用G4.5决策树分类器 转化为多分类多标签问题 ·传统文本分类方法 受限词表作为候选关键词集合(分类标签) 人工标注训练数据费时费力不适用于网络时代
有监督方法 • 转化为二分类问题 • 判断某个候选关键词是否为关键词 • Frank 1999采用朴素贝叶斯分类器 • Turney 2000采用C4.5决策树分类器 • 转化为多分类多标签问题 • 传统文本分类方法 • 受限词表作为候选关键词集合(分类标签) 人工标注训练数据 费时费力 不适用于网络时代
无监督方法 ·词频 基于 TFIDF及其变形对候选关键词进行排序 图方法 Rada 2004: PageRank TextRank Huang2006:复杂网络统计性质 Litvak and last 2007: hits
无监督方法 • 词频 • 基于TFIDF及其变形对候选关键词进行排序 • 图方法 • Rada 2004: PageRank ➔ TextRank • Huang 2006: 复杂网络统计性质 • Litvak and Last 2007: HITS
词频方法 Term-frequency inverse document-frequency(TF IDF TF: the importance of the term within the document I DF the informat i veness of the term in the document set D TFIDFw=tfw. log2 law]
词频方法 • Term-frequency inverse document-frequency (TFIDF) • TF: the importance of the term within the document • IDF: the informativeness of the term in the document set TFIDF 𝑤 = 𝑡𝑓𝑤 ∙ 𝑙𝑜𝑔2 𝐷 {𝑑𝑓𝑤}
TextRank 构建词网 PageRank 选取排序最高 的词为关键词 R()=A∑"o R()+(1-入 R(W):W的 Page Rank值 o(w:W的出度 eW,W:W→W边上的权重 v节点集合 Pagerank :平滑因子
TextRank 构建词网 PageRank 选取排序最高 的词为关键词 • R(w): w的PageRank值 • O(w): w的出度 • e(𝑤𝑗 , 𝑤𝑖 ): 𝑤𝑗 → 𝑤𝑖边上的权重 • V: 节点集合 • 𝜆: 平滑因子