距离计算 ▣距离度量的性质: 非负性: dist(xi,xj)≥0 同一性: dist(x,c)=0当且仅当x= 对称性: dist(xi,xj)=dist(xj,xi) 直递性: dist(c,cj)≤dist(c,xk)+dist(ck,xj)
p 距离度量的性质: 非负性: 同一性: 当且仅当 对称性: 直递性:
距离计算 ▣距离度量的性质: 非负性: dist(xi,xj)≥0 同一性: dist(x,c)=0当且仅当x=x 对称性: dist(xi,xj)=dist(j,xi) 直递性: dist(xi,xj)<dist(xi,k)+dist(xk,j) 口常用距离: 闵可夫斯基距离(Minkowski distance): di,2)=(∑-P p=2:欧氏距离(Euclidean distance). p=l:曼哈顿距离(Manhattan distance)
p 距离度量的性质: 非负性: 同一性: 当且仅当 对称性: 直递性: p 常用距离: 闵可夫斯基距离(Minkowski distance): p=2: 欧氏距离(Euclidean distance). p=1:曼哈顿距离(Manhattan distance)
距离计算 口属性介绍 连续属性(continuous attribute) 在定义域上有无穷多个可能的取值 ●离散属性(categorical attribute) 在定义域上是有限个可能的取值
p 属性介绍 l 连续属性 (continuous attribute) 在定义域上有无穷多个可能的取值 l 离散属性 (categorical attribute) 在定义域上是有限个可能的取值
距离计算 口属性介绍 连续属性(continuous attribute) 在定义域上有无穷多个可能的取值 ●离散属性(categorical attribute) 在定义域上是有限个可能的取值 ●有序属性(ordinal attribute) 例如定义域为{1,2,3}的离散属性,“1”与“2”比较接近、与 “3”比较远,称为“有序属性”。闵可夫斯基距离可用于有序属性。 ●无序属性(non-ordinal attribute) 例如定义域为{飞机,火车,轮船}这样的离散属性,不能直接在属 性值上进行计算,称为“无序属性”。无序属性可采用VDM
p 属性介绍 l 连续属性 (continuous attribute) 在定义域上有无穷多个可能的取值 l 离散属性 (categorical attribute) 在定义域上是有限个可能的取值 l 有序属性 (ordinal attribute) 例如定义域为{1,2,3}的离散属性, “1”与“2”比较接近、与 “3”比较远,称为“有序属性” 。闵可夫斯基距离可用于有序属性。 l 无序属性 (non-ordinal attribute) 例如定义域为{飞机,火车,轮船}这样的离散属性,不能直接在属 性值上进行计算,称为“无序属性” 。无序属性可采用VDM
距离度量 ▣Value Difference Metric,VDM(处理无序属性): 令mu,a表示属性u上取值为a的样本数,mu,a,i表示在第i个样 本簇中在属性u上取值为a的样本数,k为样本数,则属性u上两个 离散值a与b之间的VDM距离为 vDaM,(a,-∑ mu,a,i mu,b,i mub
p Value Difference Metric, VDM(处理无序属性): 令 表示属性 上取值为 的样本数, 表示在第 个样 本簇中在属性 上取值为 的样本数, 为样本数,则属性 上两个 离散值 与 之间的VDM距离为