本节提纲 历些毛子代枚大多 XIDIAN UNIVERSITY ▣文本聚类(Text Clustering) ■一般性聚类任务 >聚类任务引出;应用背景;相似性度量;学科栈 ■文本聚类任务 >聚类对象与文本特征 >基于划分的方法(e.g,K-Means) >基于层次的方法 >基于密度的方法((e.g,DBScan) 聚类效果评估 注意与一般性聚类任务的 异同 2017/14/25 软件工程系
2017/4/25 软件工程系 本节提纲 文本聚类(Text Clustering) 一般性聚类任务 ➢ 聚类任务引出;应用背景;相似性度量;学科栈 文本聚类任务 ➢ 聚类对象与文本特征 ➢ 基于划分的方法(e.g., K-Means) ➢ 基于层次的方法 ➢ 基于密度的方法(e.g., DBScan) 聚类效果评估 注意与一般性聚类任务的 异同
一 般性聚类任务 历些毛子种枝大等 XIDIAN UNIVERSITY )举例 口举例 ■形状分组 ●● 1 聚类的核 心即为自 问题:可分为 问题:一定是四组么? 分簇 几组?哪些形 每组内一定是现在的分 状应该在一组? 组方式么? 2017/4/25 软件工程系
2017/4/25 软件工程系 一般性聚类任务 举例 举例 形状分组 8 问题:可分为 几组?哪些形 状应该在一组? 问题:一定是四组么? 每组内一定是现在的分 组方式么? 聚类的核 心即为自 动分簇
般性聚类任务 历些毛子种枝大》 XIDIAN UNIVERSITY 范畴与目标 口聚类范畴 根据数据样本预先定义的相似性度量,将样本分成两个或多 个组簇/团的任务 口聚类目标 ■在同一个类内,数据之间具有高的相似性,不同类之间数据 具有低的相似性;即,类内相似性大,类间相似性小 可视化△△ ▣口 △△△ △△ 880 2017/4/25 9 软件工程系
2017/4/25 软件工程系 聚类范畴 根据数据样本预先定义的相似性度量,将样本分成两个或多 个组/簇/团的任务 聚类目标 在同一个类内,数据之间具有高的相似性,不同类之间数据 具有低的相似性;即,类内相似性大,类间相似性小 一般性聚类任务 范畴与目标 9 可视化
找到相关新闻约1,270.000篇 。新闻全文○新闻标题」按焦点排序 般性聚类 《丛民的名义》育良书记:导演让演祁同伟最想演李达康 →范畴与目标 中国吉年网2小时前 原标题:专访育良书记”张志坚:《人民的名义》传播了正确价值观采访 张志坚,有时候已经会条件反射似的脱口而出直呼其为育良书记”,他听 了也高兴,呵呵笑起来9条相同新闻·百度快照 口文本聚类与信 外媒评《人民的名义》:体现反腐自信不怕揭短 ■每一本信息检索 新浪新闻15小时前 参考消息网4月8日报道外媒称,有“史上最大尺度反腐剧之称的中国电 视剧《人民的名义》目前在中国热播。受访学者认为,此剧除了满足观 >发现相似网页(但 众的猎奇心理,并起到警示…42条相同新闻·百度快照 →去重,去噪,成网友认为《么民的名义》受欢迎源于照见现实 凤凰娱乐18小时前 →提升搜索体 近日,开年最大的一匹电视剧黑马《人民的名义》成为全国观众热议对 :品 象。在P偶像剧大行其道的市场环境下,反腐大剧《人民的名义》一举 →提升搜索结 拿下了某网站9.1的高分。剧中.…20条相同新闻·百度快照 >发现相关联网页 →提升排序质量:网页的相似性是重要的排序指标 →分析网络空间结构:相似网页的分布与来源 >其它作用:论文查重等 2017/14/25 o 软件工程系
2017/4/25 软件工程系 一般性聚类任务 范畴与目标 文本聚类与信息检索的关系 每一本信息检索的教材中都会讲到“文本聚类” ➢ 发现相似网页 (主要由文本组成) 去重,去噪,节省计算时间 提升搜索体验 提升搜索结果的多样性 10 ➢ 发现相关联网页 提升排序质量:网页的相似性是重要的排序指标 分析网络空间结构:相似网页的分布与来源 ➢ 其它作用:论文查重等
般性聚类任务 历些毛子科枚大》 XIDIAN UNIVERSITY →相似性度量 ▣相似性度量 ■如何得知两个数据点相似与否?回忆:聚类的目标 ■一般性相似性度量方法 >空间距离相似性计算方法:闵可夫斯基距离(Minkowski distance) dis(元,)= xi-yilP) p=2hTrr Euclidean Distance p=1 Eucidean C(-y月 2017/4/25 Manhattan distance
2017/4/25 软件工程系 一般性聚类任务 相似性度量 相似性度量 如何得知两个数据点相似与否?回忆:聚类的目标 一般性相似性度量方法 ➢ 空间距离相似性计算方法:闵可夫斯基距离 (Minkowski distance) 11 p=2: 欧氏距离 (Euclidean distance) p=1:曼哈顿距离(Manhattan distance) 𝑑𝑖𝑠 𝑥 Ԧ , 𝑦 Ԧ = ( 𝑖=1 𝑛 | 𝑥𝑖 − 𝑦𝑖 | 𝑝 ) 1 𝑝