14聚类分析(提纲) 14.1聚类分析概述 142相似性计算方法 143常用聚类方法 a143.1划分方法 ■k- means算法(k-均值算法) k- medoids算法(k-中心算法) a143.2层次方法 AGNES算法(合并聚类法) DIANA算法(分裂聚类法) 144孤立点分析
2 14 聚类分析(提纲) ◼ 14.1 聚类分析概述 ◼ 14.2 相似性计算方法 ◼ 14.3 常用聚类方法 ❑ 14.3.1 划分方法 ◼ k-means算法(k-均值算法) ◼ k-medoids算法(k-中心算法) ❑ 14.3.2 层次方法 ◼ AGNES算法(合并聚类法) ◼ DIANA算法(分裂聚类法) ◼ 14.4 孤立点分析
141聚类分析概述 聚类分析的定义 口聚类分析( Cluster Analysis)是一个将数据集中的 所有数据,按照相似性划分为多个类别( Cluster,簇)的过程; 簇是相似数据的集合 口聚类分析是一种无监督( Unsupervised learning) 分类方法:数据集中的数据没有预定义的类别 标号(无训练集和训练的过程) a要求:聚类分析之后,应尽可能保证类别相同 的数据之间具有较高的相似性,而类别不同的 数据之间具有较低的相似性
4 14.1 聚类分析概述 ◼ 聚类分析的定义 ❑ 聚类分析(Cluster Analysis)是一个将数据集中的 所有数据 ,按照相似性 划分为多个类 别 ( Cluster, 簇)的过程; ◼ 簇是相似数据的集合。 ❑ 聚类分析是一种无监督(Unsupervised Learning) 分类方法:数据集中的数据没有预定义的类别 标号(无训练集和训练的过程)。 ❑ 要求:聚类分析之后,应尽可能保证类别相同 的数据之间具有较高的相似性,而类别不同的 数据之间具有较低的相似性
141聚类分析概述 聚类分析在数据挖掘中的作用: 口作为一个独立的工具来获得数据集中数据的分 布情况 口作为其他数据挖掘算法的预处理步骤
5 14.1 聚类分析概述 ◼ 聚类分析在数据挖掘中的作用: ❑ 作为一个独立的工具来获得数据集中数据的分 布情况; ❑ 作为其他数据挖掘算法的预处理步骤
141聚类分析概述 聚类分析在数据挖掘中的作用: 口作为一个独立的工具来获得数据集中数据的分 布情况 首先,对数据集执行聚类,获得所有簇: 然后,根据每个簇中样本的数目获得数据集中每类数 据的大体分布情况 ¤作为其他数据挖掘算法的预处理步骤
6 14.1 聚类分析概述 ◼ 聚类分析在数据挖掘中的作用: ❑ 作为一个独立的工具来获得数据集中数据的分 布情况; ◼ 首先,对数据集执行聚类,获得所有簇; ◼ 然后,根据每个簇中样本的数目获得数据集中每类数 据的大体分布情况。 ❑ 作为其他数据挖掘算法的预处理步骤
141聚类分析概述 聚类分析在数据挖掘中的作用: 口作为一个独立的工具来获得数据集中数据的分 布情况 口作为其他数据挖掘算法的预处理步骤 首先,对数据进行聚类——一粗分类; 然后,分别对每个簇进行特征提取和细分类,可以有 效提高分类精度
7 14.1 聚类分析概述 ◼ 聚类分析在数据挖掘中的作用: ❑ 作为一个独立的工具来获得数据集中数据的分 布情况; ❑ 作为其他数据挖掘算法的预处理步骤。 ◼ 首先,对数据进行聚类——粗分类; ◼ 然后,分别对每个簇进行特征提取和细分类,可以有 效提高分类精度