什么是聚类分析? 1ATISTIG. (三 (按什么分类) 按对象的“相似”程度分类 ■根据样本的观测数据测度变量之间的相似性 程度可以使用夹角余弦、 Pearson相关系数 等工具,也称为相似系数 变量间的相似系数越大,说明它们越相近 根据变量来测度样本之间的相似程度则使用 “距离” 把离得比较近的归为一类,而离得比较远的放在 不同的类 2008年月
12 - 13 统计学 STATISTICS (第三版) 2008年8月 ◼ 按对象的“相似”程度分类 ◼ 根据样本的观测数据测度变量之间的相似性 程度可以使用夹角余弦、Pearson相关系数 等工具,也称为相似系数 ⚫ 变量间的相似系数越大,说明它们越相近 ◼ 根据变量来测度样本之间的相似程度则使用 “距离” ⚫ 把离得比较近的归为一类,而离得比较远的放在 不同的类 什么是聚类分析? (按什么分类)
12.1聚类分析的思想和原理 121.2相似性的度量
12.1.2 相似性的度量 12.1 聚类分析的思想和原理
1ATISTIG. 相似性的度量 (三 聚类分析中是用“距离”或“相似系数”来度量对象 之间的相似性 在第13章例13.1中,31个地区的人均GDP数据就是 直线上的31个点,每一个点对应一个地区 如果按照人均GDP对它们进行分类,就可以把在直线 上离得比较近的那些点归为一类。如果再考虑财政收 入,那么人均GDP和财政收入就是二维平面上的一个 点,31个地区就是平面中的31个点 多个变量就是高维空间中的一个点,31个地区就是高 维空间中的31个点 各个点之间距离的远近就是分类的依据 12-15 2008年月
12 - 15 统计学 STATISTICS (第三版) 2008年8月 ◼ 聚类分析中是用“距离”或“相似系数”来度量对象 之间的相似性 ◼ 在第13章例13.1中,31个地区的人均GDP数据就是 直线上的31个点,每一个点对应一个地区 ◼ 如果按照人均GDP对它们进行分类,就可以把在直线 上离得比较近的那些点归为一类。如果再考虑财政收 入,那么人均GDP和财政收入就是二维平面上的一个 点,31个地区就是平面中的31个点 ◼ 多个变量就是高维空间中的一个点,31个地区就是高 维空间中的31个点 ◼ 各个点之间距离的远近就是分类的依据 相似性的度量
相似性的度量 1ATISTIG. (三 (样本点间距离的计算方法) ■在对样本进行分类时,度量样本之间的相似 性使用点间距离 ■点间距离的计算方法主要有 ●欧氏距离( Euclidean distance) 平方欧氏距离 Squared Euc| dean distance) Bock距离( Block distance) Chebychev距离( Chebychev distance) ●马氏距离 Minkowski distance) 最常用的是平方欧氏距离 12-16 2008年月
12 - 16 统计学 STATISTICS (第三版) 2008年8月 ◼ 在对样本进行分类时,度量样本之间的相似 性使用点间距离 ◼ 点间距离的计算方法主要有 ⚫ 欧氏距离(Euclidean distance) ⚫ 平方欧氏距离(Squared Euclidean distance) ⚫ Block距离(Block distance) ⚫ Chebychev距离(Chebychev distance) ⚫ 马氏距离(Minkovski distance) ⚫ 最常用的是平方欧氏距离 相似性的度量 (样本点间距离的计算方法)
相似性的度量 1ATISTIG. (三 (样本点间距离的计算方法) Euclidean距离 (x-y)2 Squared Euclidean距离 ∑(x-y Block距离 ∑ Chebychev距离 maxxi-yi Minkowski距离 x:-
12 - 17 统计学 STATISTICS (第三版) 2008年8月 相似性的度量 (样本点间距离的计算方法) Euclidean距离 Squared Euclidean距离 Block距离 Chebychev距离 Minkovski距离 = − p i i i x y 1 2 ( ) q p i q i i x y = − 1 i i max x − y = − p i i i x y 1 2 ( ) = − p i i i x y 1