信息检索与数据挖掘 2019/4/28 1 信息检索与数据挖掘 第11章文本聚类
信息检索与数据挖掘 2019/4/28 1 信息检索与数据挖掘 第11章 文本聚类
信息检索与数据挖掘 2019/4/28 3 本讲内容:文本聚类 ·聚类概述 ·什么是聚类?在R中如何用聚类?聚类的几个术语 ·K-均值聚类算法 ·K-均值聚类中的基本准则 ·K-均值算法中簇的个数 ·聚类评价 ·purity、NMI(Normalized Mutual Information,)、RI(Rand Index)、F measure ·基于模型的聚类 ·层次聚类简介 ·层次聚类的簇相似度计算 ·四种HAC算法:单连接、全连接、组平均、质心法
信息检索与数据挖掘 2019/4/28 3 本讲内容:文本聚类 • 聚类概述 • 什么是聚类?在IR中如何用聚类?聚类的几个术语 • K-均值聚类算法 • K-均值聚类中的基本准则 • K-均值算法中簇的个数 • 聚类评价 • purity、NMI(Normalized Mutual Information,)、RI(Rand Index)、F measure • 基于模型的聚类 • 层次聚类简介 • 层次聚类的簇相似度计算 • 四种HAC算法:单连接、全连接 、组平均、质心法
信息检索与数据挖掘 2019/4/28 4 聚类(Clustering)的定义 ·(文档)聚类是将一系列文档按照相似性聚团成子集 或者簇(cluster)的过程 ·簇内文档之间应该彼此相似 •簇间文档之间相似度不大 ·聚类是一种最常见的无监督学习(unsupervised learning)方法 ·无监督意味着没有已标注好的数据集 拉道
信息检索与数据挖掘 2019/4/28 4 聚类(Clustering)的定义 • (文档)聚类是将一系列文档按照相似性聚团成子集 或者簇(cluster)的过程 • 簇内文档之间应该彼此相似 • 簇间文档之间相似度不大 • 聚类是一种最常见的无监督学习(unsupervised learning)方法 • 无监督意味着没有已标注好的数据集
信息检索与数据挖掘 2019/4/28 5 回顾示例3:文档-词项矩阵SVD分解 词项、文档的聚类 奇异值分解就是把上面这样一个大矩阵,分解成三个小矩阵相乘,如下图 所示。比如把上面的例子中的矩阵分解成一个一百万乘以一百的矩阵X, 一个一百乘以一百的矩阵B,和一个一百乘以五十万的矩阵Y。这三个矩阵 的元素总数加起来也不过1.5亿,仅仅是原来的三千分之一。相应的存储量 和计算量都会小三个数量级以上。 B X 100·100100*500000 1.Dd0.e0503.c00 100.000·100 三个矩阵有非常清楚的物理含义。第一个矩阵X中的每一行表示意思相关 的一类词,其中的每个非零元素表示这类词中每个词的重要性(或者说 相关性),数值越大越相关。最后一个矩阵Y中的每一列表示同一主题 一类文章,其中每个元素表示这类文章中每篇文章的相关性。中间的矩 阵则表示类词和文章之间的相关性。因此,我们只要对关联矩阵A进 行一次奇异值分解,我们就可以同时完成了近义词分类和文章的分类
信息检索与数据挖掘 2019/4/28 5 回顾 示例3:文档-词项矩阵SVD分解 词项、文档的聚类 奇异值分解就是把上面这样一个大矩阵,分解成三个小矩阵相乘,如下图 所示。比如把上面的例子中的矩阵分解成一个一百万乘以一百的矩阵X, 一个一百乘以一百的矩阵B,和一个一百乘以五十万的矩阵Y。这三个矩阵 的元素总数加起来也不过1.5亿,仅仅是原来的三千分之一。相应的存储量 和计算量都会小三个数量级以上。 三个矩阵有非常清楚的物理含义。第一个矩阵X中的每一行表示意思相关 的一类词,其中的每个非零元素表示这类词中每个词的重要性(或者说 相关性),数值越大越相关。最后一个矩阵Y中的每一列表示同一主题 一类文章,其中每个元素表示这类文章中每篇文章的相关性。中间的矩 阵则表示类词和文章之间的相关性。因此,我们只要对关联矩阵A进 行一次奇异值分解,我们就可以同时完成了近义词分类和文章的分类
信息检索与数据挖掘 2019/4/28 8 一个具有清晰簇结构的数据集 •聚类算法的一个关键输 入是距离计算方法。图中, 计算距离时采用的是二维 O ● 平面上的距离计算方法。 基于这种距离计算方法在 o 图中得出了三个不同的簇。 在文档聚类当中,距离计 算方法往往采用欧氏距离。 o •不同的距离计算方法会 导致不同的聚类效果。因 ● 此,距离的计算方法是影 8 000 响聚类结果的一个重要因 素。 0.0 0.5 1.0 1.5 2.0
信息检索与数据挖掘 2019/4/28 8 一个具有清晰簇结构的数据集 •聚类算法的一个关键输 入是距离计算方法。图中, 计算距离时采用的是二维 平面上的距离计算方法。 基于这种距离计算方法在 图中得出了三个不同的簇。 在文档聚类当中,距离计 算方法往往采用欧氏距离。 •不同的距离计算方法会 导致不同的聚类效果。因 此,距离的计算方法是影 响聚类结果的一个重要因 素