一般性聚类任务 历些毛子种枝大” XIDIAN UNIVERSITY →相似性度量 ▣一般性相似性度量方法 ■空间角度相似性计算方法:余弦相似性(cosine similarity→ adjusted cosine similarity) Cosine Similarity 元可 sim(民,)=cos9=· ■集合元素相似性计算方法:Jaccard sir sim(X,Y)= XnYI IXUY] Union(A,B) {信男浓笔”】 -Intersection(A,B)= I Union (A,B)I =7 I Intersection (A,B)I=2 软件工程系
2017/4/25 软件工程系 一般性聚类任务 相似性度量 一般性相似性度量方法 空间角度相似性计算方法:余弦相似性 (cosine similarity adjusted cosine similarity) 集合元素相似性计算方法:Jaccard similarity 12 𝑠𝑖𝑚 𝑥 Ԧ , 𝑦 Ԧ = cos 𝜃 = 𝑥 Ԧ ∙ 𝑦 Ԧ 𝑥 Ԧ ∙ 𝑦 Ԧ 𝑠𝑖𝑚 𝑋, 𝑌 = |𝑋 ∩ 𝑌| |𝑋 ∪ 𝑌|
般性聚类任务 历安笔子代拔大” XIDIAN UNIVERSITY 补充(学科栈) ▣补充(学科栈:从机器(统计)学习的角度) ■有监督学习/无监督学习 有监督学习→分类(离散);回归(连续)等 机器学习 (数据有无 无监督学习→聚类、话题建模等 看黑板 label) 半监督学习→部分数据有labe! 数据有无label(粗略:有无训练集与测试集之分)】 2017/14/25 公 软件工程系
2017/4/25 软件工程系 一般性聚类任务 补充(学科栈) 补充(学科栈:从机器(统计)学习的角度) 有监督学习/无监督学习 13 机器学习 (数据有无 label) 有监督学习 分类(离散);回归(连续)等 数据有无label(粗略:有无训练集与测试集之分) 半监督学习 部分数据有label 无监督学习 聚类、话题建模等 看黑板
本节提纲 历些毛子种枝大学 XIDIAN UNIVERSITY ▣文本聚类(Text Clustering】 ■一般性聚类任务 >聚类任务引出;应用背景;相似性度量 ■文本聚类任务 >聚类对象与文本特征 >基于划分的方法(e.g,K-Means) >基于层次的方法 >基于密度的方法 (e.g.,DBScan 聚类效果评估 基于模型的方法(目前太难,不涉及 有兴趣,下来问我) 2017/14/25 软件工程系
2017/4/25 软件工程系 本节提纲 文本聚类(Text Clustering) 一般性聚类任务 ➢ 聚类任务引出;应用背景;相似性度量 文本聚类任务 ➢ 聚类对象与文本特征 ➢ 基于划分的方法(e.g., K-Means) ➢ 基于层次的方法 ➢ 基于密度的方法(e.g., DBScan) 聚类效果评估 14 基于模型的方法(目前太难,不涉及 ,有兴趣,下来问我)
文本聚类任务 历些毛子科枝大多 XIDIAN UNIVERSITY 对象与特征 口文本聚类:聚类对象 ■文档(段落、句子:少见) >一般即以一篇/个文档为聚类对象(文档,非文件) ■文本聚类目标 >簇内文档相似,簇外文档不同 ■文档表现形式(什么才是文档?多种多样) >不仅仅指普通文档,完整的一段文字均可 一篇普通文档 8a8esoa812agene838agcan 稿件/新闻 SN-42PX60U is not only an impressive plasma display,but it is the most of the top-ter plasma 本材*林8207 of the rs theupmo etench 342F the SN-42PX60U and its enmen 2017/4/25 一篇评论
2017/4/25 软件工程系 文本聚类任务 对象与特征 文本聚类:聚类对象 文档(段落、句子:少见) ➢ 一般即以一篇/个文档为聚类对象(文档,非文件) 文本聚类目标 ➢ 簇内文档相似,簇外文档不同 文档表现形式(什么才是文档?多种多样) ➢ 不仅仅指普通文档,完整的一段文字均可 15 一篇普通文档: 稿件/新闻 一篇评论
文本聚类任务 历些毛子种枝大学 XIDIAN UNIVERSITY 对象与特征 口文档表现形式(续) ■ 可长可短 长文档:论文 短文档:标题(几个字) THEa整TIMES 30 News Harpist brings touch of Glass to New York 语言可单一可多样 ■格式可复杂可简单 ■也可与其它媒体关联→多富媒体(网页) 口待聚类的文档组成文本集(Corpus) 2017/14/25
2017/4/25 软件工程系 文本聚类任务 对象与特征 文档表现形式(续) 可长可短 语言可单一可多样 格式可复杂可简单 也可与其它媒体关联 多/富媒体(网页) 长文档:论文 短文档:标题(几个字) 待聚类的文档组成文本集(Corpus)