第6章聚类分析 本章目标 ◆辨别类有不同表示法和相似度的不同量度标 准。 ◆比较凝聚聚类和分区聚类算法的基本特征 ◆用相似度的单链接或全链接度量标准实现凝 聚算法。 推导分区聚类的K平均法并分析其复杂性 ◇解释增量聚类算法的实现和它的优缺点
第6章 聚类分析 本章目标 ◆辩别类有不同表示法和相似度的不同量度标 准。 ◆比较凝聚聚类和分区聚类算法的基本特征。 ◆用相似度的单链接或全链接度量标准实现凝 聚算法。 ◆推导分区聚类的K-平均法并分析其复杂性。 ◆解释增量聚类算法的实现和它的优缺点
◆聚类分析是依据样本间关联的量度标 准将其自动分成几个群组,且使同 群组内的样本相似,而属于不同群组 的样本相异的一组方法。聚类分析的 附加的结果是对每个类的综合描 述,这种结果对于更进一步深入分析 数据集的特征是尤其重要
◆聚类分析是依据样本间关联的量度标 准将其自动分成几个群组,且使同一 群组内的样本相似,而属于不同群组 的样本相异的一组方法。聚类分析的 一个附加的结果是对每个类的综合描 述,这种结果对于更进一步深入分析 数据集的特征是尤其重要
61聚类概 聚类的样本是用度量指标的一个向量表示或 更正式的说法是用多维空间的一个点来表示 同类中的样本比属于不同类的样本彼此具有 更高的相似性。聚类方法尤其适合用来探讨 样本间的相互关联关系从而对一个样本结构 做一个初步的评价。人们能够对一维、二维 或三维的样本进行聚类分析,但是大多数现 实问题涉及到更高维的聚类
6.1 聚类概念 ◆聚类的样本是用度量指标的一个向量表示,或 更正式的说法是,用多维空间的一个点来表示。 同类中的样本比属于不同类的样本彼此具有 更高的相似性。聚类方法尤其适合用来探讨 样本间的相互关联关系从而对一个样本结构 做一个初步的评价。人们能够对一维、二维 或三维的样本进行聚类分析,但是大多数现 实问题涉及到更高维的聚类
◆例如:下表是一个简单聚类例子,包含了9个 顾客的信息,分三类,两个特征值(数量价 格) 类1:购少量高价商品,类2:购大量的高价品, 表6-1包含相似对象的类的样本集 商品的数量 价格 2000 2300 1800 类2 12 ;:4…;:2100 2500 士地0: 类3 2004 ::小:19m9:3501
◆例如:下表是一个简单聚类例子,包含了9个 顾客的信息,分三类,两个特征值(数量,价 格) 类1:购少量高价商品,类2:购大量的高价品, 类3:购小量的低价商品
聚类是一个非常难的问题因为在一个n维的 样本空间数据可以以不同的形状和大小揭示 类。 ◆下面基于欧几里得二维空间的聚类过程的 个示例。 初始数据 b)数据的三个类 数据的四个类 图6-1二维空间的点的聚类分析
◆聚类是一个非常难的问题,因为在一个n维的 样本空间数据可以以不同的形状和大小揭示 类。 ◆下面基于欧几里得二维空间的聚类过程的一 个示例