1421连续型属性的相似性计算方法 euclidean距离和 Manhattan距离的性质: 口d(i≥0 口d(1j)=a(1, ad(i≤l(,k+d(k,j 19
19 14.2.1 连续型属性的相似性计算方法 ◼ Euclidean距离和Manhattan距离的性质: ❑ d(i,j) 0 ❑ d(i,i) = 0 ❑ d(i,j) = d(j,i) ❑ d(i,j) d(i,k) + d(k,j)
14.21连续型属性的相似性计算方法 欧式距离的示例 point 2◆p1 0 2 0 0 23456 0 2.828 3.162 5.099 2 2.828 0 1414 3.162 3.162 1414 0 2 p5099316220 Distance matrix 20
20 14.2.1 连续型属性的相似性计算方法 ◼ 欧式距离的示例 0 1 2 3 0 1 2 3 4 5 6 p1 p2 p3 p4 point x y p1 0 2 p2 2 0 p3 3 1 p4 5 1 Distance Matrix p1 p2 p3 p4 p1 0 2.828 3.162 5.099 p2 2.828 0 1.414 3.162 p3 3.162 1.414 0 2 p4 5.099 3.162 2 0
14.21连续型属性的相似性计算方法 曼哈顿距离的示例 point 2◆p1 234 0235 0 0 01234 5 6 0 4 6 2 4 0 2 4 4 2 0 2 p464 20 Distance matrix 21
21 14.2.1 连续型属性的相似性计算方法 ◼ 曼哈顿距离的示例 0 1 2 3 0 1 2 3 4 5 6 p1 p2 p3 p4 point x y p1 0 2 p2 2 0 p3 3 1 p4 5 1 Distance Matrix p1 p2 p3 p4 p1 0 4 4 6 p2 4 0 2 4 p3 4 2 0 2 p4 6 4 2 0
142相似性计算方法 142.1连续型属性的相似性计算方法 1422二值离散型属性的相似性计算方法 142.3多值离散型属性的相似性计算方法 14.24混合类型属性的相似性计算方法 22
22 14.2 相似性计算方法 ◼ 14.2.1 连续型属性的相似性计算方法 ◼ 14.2.2 二值离散型属性的相似性计算方法 ◼ 14.2.3 多值离散型属性的相似性计算方法 ◼ 14.2.4 混合类型属性的相似性计算方法
142.2二值离散型属性的相似性计算方法 二值离散型属性只有0和1两个取值 口其中:0表示该属性为空,1表示该属性存在。 口例如:描述病人的是否抽烟的属性( smoker),取 值为1表示病人抽烟,取值0表示病人不抽烟。 假设两个样本X和X分别表示成如下形式: X1=(x1,x jj1, j2, p 口它们都是维的特征向量,并且每维特征都是 个二值离散型数值。 23
23 14.2.2 二值离散型属性的相似性计算方法 ◼ 二值离散型属性只有0和1两个取值。 ❑ 其中:0表示该属性为空,1表示该属性存在。 ❑ 例如:描述病人的是否抽烟的属性(smoker),取 值为1表示病人抽烟,取值0表示病人不抽烟。 ◼ 假设两个样本Xi和Xj分别表示成如下形式: ❑ Xi=(xi1, xi2, …, xip ) ❑ Xj=(xj1, xj2, …, xjp ) ❑ 它们都是p维的特征向量,并且每维特征都是一 个二值离散型数值