142相似性计算方法 在聚类分析中,样本之间的相似性通常采 用样本之间的距离来表示 口样本之间的距离是在样本的描述属性(特征) 上进行计算的 口在不同应用领域,样本的描述属性的类型可能 不同,因此相似性的计算方法也不尽相同。 ■连续型属性(如:重量、高度、年龄等) ■二值离散型属性(如:性别、考试是否通过等) 多值离散型属性(如:收入分为高、中、低等) 混合类型属性(上述类型的属性至少同时存在两种) 14
14 14.2 相似性计算方法 ◼ 在聚类分析中,样本之间的相似性通常采 用样本之间的距离来表示。 ❑ 样本之间的距离是在样本的描述属性(特征) 上进行计算的。 ❑ 在不同应用领域,样本的描述属性的类型可能 不同,因此相似性的计算方法也不尽相同。 ◼ 连续型属性(如:重量、高度、年龄等) ◼ 二值离散型属性(如:性别、考试是否通过等) ◼ 多值离散型属性(如:收入分为高、中、低等) ◼ 混合类型属性(上述类型的属性至少同时存在两种)
142相似性计算方法 142.1连续型属性的相似性计算方法 1422二值离散型属性的相似性计算方法 142.3多值离散型属性的相似性计算方法 14.24混合类型属性的相似性计算方法
15 14.2 相似性计算方法 ◼ 14.2.1 连续型属性的相似性计算方法 ◼ 14.2.2 二值离散型属性的相似性计算方法 ◼ 14.2.3 多值离散型属性的相似性计算方法 ◼ 14.2.4 混合类型属性的相似性计算方法
142相似性计算方法 14.2.1连续型属性的相似性计算方法 ■14.22二值离散型属性的相似性计算方法 142.3多值离散型属性的相似性计算方法 14.24混合类型属性的相似性计算方法 16
16 14.2 相似性计算方法 ◼ 14.2.1 连续型属性的相似性计算方法 ◼ 14.2.2 二值离散型属性的相似性计算方法 ◼ 14.2.3 多值离散型属性的相似性计算方法 ◼ 14.2.4 混合类型属性的相似性计算方法
1421连续型属性的相似性计算方法 假设两个样本X1和X分别表示成如下形式: X1=(x1 Xi=(x;jl, X;i2, a它们都是d维的特征向量,并且每维特征都是 个连续型数值。 对于连续型属性,样本之间的相似性通常 采用如下三种距离公式进行计算
17 14.2.1 连续型属性的相似性计算方法 ◼ 假设两个样本Xi和Xj分别表示成如下形式: ❑ Xi=(xi1, xi2, …, xid ) ❑ Xj=(xj1, xj2, …, xjd ) ❑ 它们都是d维的特征向量,并且每维特征都是一 个连续型数值。 ◼ 对于连续型属性,样本之间的相似性通常 采用如下三种距离公式进行计算
14.21连续型属性的相似性计算方法 欧氏距离( Euclidean distance) q=2 d( ik 曼哈顿距离( Manhattan distance) d d(xi,x )=∑x-x1 qi 闵可夫斯基距离( Minkowski distance) dxy)=x-x间
18 ◼ 欧氏距离(Euclidean distance) ◼ 曼哈顿距离(Manhattan distance) ◼ 闵可夫斯基距离(Minkowski distance) = = − d k 1 2 i j i k j k d(x ,x ) (x x ) = = − d k 1 i j xi k xj k d(x ,x ) 1/ q d k 1 q i j i k j k d(x ,x ) ( x x ) = = − 14.2.1 连续型属性的相似性计算方法 q=2 q=1