今三、聚类分析类型及方法 ◆1、聚类分析的类型有: 对样本分类,称为Q型聚类分析 对变量分类,称为R型聚类分析 Q型聚类是对样本进行聚类,它使具有相似性特征 的样本聚集在一起,使差异性大的样本分离开来。 R型聚类是对变量进行聚类,它使具有相似性的变 量聚集在一起,差异性大的变量分离开来,可在相 似变量中选择少数具有代表性的变量参与其他分析 实现减少变量个数,达到变量降维的目的。 2021/1/21
2021/1/21 11 cxt ❖ 三、聚类分析类型及方法 ❖ 1、聚类分析的类型有: 对样本分类,称为Q型聚类分析 对变量分类,称为R型聚类分析 Q型聚类是对样本进行聚类,它使具有相似性特征 的样本聚集在一起,使差异性大的样本分离开来。 R型聚类是对变量进行聚类,它使具有相似性的变 量聚集在一起,差异性大的变量分离开来,可在相 似变量中选择少数具有代表性的变量参与其他分析, 实现减少变量个数,达到变量降维的目的
2、聚类分析的方法 系统聚类(层次聚类) 非系统聚类(非层次聚类) ◆系统聚类法包括:凝聚方式聚类、分解方式聚类 令非系统聚类法包括:模湖聚类法、K-均值法(快 速聚类法)等等 2021/1/21
2021/1/21 12 cxt ❖ 2、聚类分析的方法: 系统聚类(层次聚类) 非系统聚类(非层次聚类) ❖ 系统聚类法包括:凝聚方式聚类、分解方式聚类 ❖ 非系统聚类法包括:模糊聚类法、K-均值法(快 速聚类法)等等
以系统聚类法为例 Agglomerative 0 1 2 3 5 凝聚式 (1,2,3.4.5,6) 34) 34.56) 5 (5.6) 分解式54 2 Divisive 2021/1/21
2021/1/21 13 cxt 凝聚式 分解式 以系统聚类法为例
3.2相似性度量 1、样本或变量的相似性程度的数量指标 (1)相似系数性质越接近的变量或样品,它们 的相似系数越接近于1或一,而彼此无关的变量或 样品它们的相似系数则越接近于0,相似的为—类 不相似的为不同类 (2)距离它是将每个样品看作p维空间的个 点,并用某种度量方法测量点与点之间的距离,距 离较近的归为一类,距离较远的点应属于不同的类 ☆样本分类(Q型聚类)常以距离刻画相似性 指标分类(R型聚类常以相似系数刻画相似性 2021/1/21
2021/1/21 14 cxt 3.2 相似性度量 ❖ 1、样本或变量的相似性程度的数量指标: (1)相似系数 性质越接近的变量或样品,它们 的相似系数越接近于1或一l,而彼此无关的变量或 样品它们的相似系数则越接近于0,相似的为一类 ,不相似的为不同类; (2)距离 它是将每一个样品看作p维空间的一个 点,并用某种度量方法测量点与点之间的距离,距 离较近的归为一类,距离较远的点应属于不同的类 。 ❖ 样本分类(Q型聚类)常以距离刻画相似性 ❖ 指标分类(R型聚类)常以相似系数刻画相似性
令距离和相似系数有着各种不同的定义,而这些定义 与变量类型有着非常密切的关系 令变量可分为定性变量和定量变量。若按测量尺度的 不同可以分为: (1)间隔尺度变量:变量用连续的量来表示,如长度 重量、速度、温度等。 (2)有序尺度变量:变量度量时不用明确的数量表示 而是用等级来表示,如产品分为一等品、二等品、三等 品等有次序关系。 (3)名义尺度变量:变量用既没有数量关系也没有次 序关系,只有一些特性状态,如性别、职业、产品的型 号等。 2021/1/21 15
2021/1/21 15 cxt ❖ 距离和相似系数有着各种不同的定义,而这些定义 与变量类型有着非常密切的关系。 ❖ 变量可分为定性变量和定量变量。若按测量尺度的 不同可以分为: (1)间隔尺度变量:变量用连续的量来表示,如长度、 重量、速度、温度等。 (2)有序尺度变量:变量度量时不用明确的数量表示, 而是用等级来表示,如产品分为一等品、二等品、三等 品等有次序关系。 (3)名义尺度变量:变量用既没有数量关系也没有次 序关系,只有一些特性状态,如性别、职业、产品的型 号等