明考夫斯基距离主要有以下两个缺点: ①明氏距离的值与各指标的量纲有关,而 各指标计量单位的选择有一定的人为性和随意 性,各变量计量单位的不同不仅使此距离的实 际意义难以说清,而且,任何一个变量计量单 位的改变都会使此距离的数值改变从而使该距 离的数值依赖于各变量计量单位的选择 ②明氏距离的定义没有考虑各个变量之间 的相关性和重要性。实际上,明考夫斯基距离 是把各个变量都同等看待,将两个样品在各个 变量上的离差简单地进行了综合。 16
16 明考夫斯基距离主要有以下两个缺点: ①明氏距离的值与各指标的量纲有关,而 各指标计量单位的选择有一定的人为性和随意 性,各变量计量单位的不同不仅使此距离的实 际意义难以说清,而且,任何一个变量计量单 位的改变都会使此距离的数值改变从而使该距 离的数值依赖于各变量计量单位的选择。 ②明氏距离的定义没有考虑各个变量之间 的相关性和重要性。实际上,明考夫斯基距离 是把各个变量都同等看待,将两个样品在各个 变量上的离差简单地进行了综合
(2)杰氏距离 这是杰斐瑞和马突斯塔( Jeffreys& Matusita) 所定义的一种距离,其计算公式为:
17 (2)杰氏距离 这是杰斐瑞和马突斯塔(Jffreys & Matusita) 所定义的一种距离,其计算公式为: 1 2 1 2 ( ) ( ) = = − p k ij ik jk d J x x
(3)兰氏距离 这是兰思和维廉姆斯( Lance& Williams)所给 定的一种距离,其计算公式为: (L) k jk k=Ix, +x 这是一个自身标准化的量,由于它对大 的奇异值不敏感,这样使得它特别适合于高 度偏倚的数据。虽然这个距离有助于克服明 氏距离的第一个缺点,但它也没有考虑指标 之间的相关性。 18
18 (3)兰氏距离 这是兰思和维廉姆斯(Lance & Williams)所给 定的一种距离,其计算公式为: = + − = p k ik jk ik jk ij x x x x d L 1 ( ) 这是一个自身标准化的量,由于它对大 的奇异值不敏感,这样使得它特别适合于高 度偏倚的数据。虽然这个距离有助于克服明 氏距离的第一个缺点,但它也没有考虑指标 之间的相关性
(4)马氏距离 这是印度著名统计学家马哈拉诺比斯 (P.C. Mahalanobis)所定义的一种距离,其 计算公式为: d2=(x1-X)∑(x1-x,) 分别表示第个样品和第j样品的p指标观测值所 组成的列向量,即样本数据矩阵中第i个和第j个 向量的转置,Σ表示观测变量之间的协方差短阵。 在实践应用中,若总体协方差矩阵∑未知,则可用 样本协方差矩阵作为值计代计第
19 (4)马氏距离 这是印度著名统计学家马哈拉诺比斯 (P.C.Mahalanobis)所定义的一种距离,其 计算公式为: ( ) ( ) 2 i j 1 i j = x − x x − x − ij d 分别表示第i个样品和第j样品的p指标观测值所 组成的列向量,即样本数据矩阵中第i个和第j个行 向量的转置,表示观测变量之间的协方差短阵。 在实践应用中,若总体协方差矩阵未知,则可用 样本协方差矩阵作为估计代替计算
马氏距离又称为广义欧氏距离。显然,马氏距离与上 述各种距离的主要不同就是马氏距离考虑了观测变量之间 的相关性。如果假定各变量之间相互独立,即观测变量的 协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测 指标的标准差的倒数作为权数进行加权的欧氏距离。因此 马氏距离不仅考虑了观测变量之间的相关性,而且也考虑 到了各个观测指标取值的差异程度
20 马氏距离又称为广义欧氏距离。显然,马氏距离与上 述各种距离的主要不同就是马氏距离考虑了观测变量之间 的相关性。如果假定各变量之间相互独立,即观测变量的 协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测 指标的标准差的倒数作为权数进行加权的欧氏距离。因此, 马氏距离不仅考虑了观测变量之间的相关性,而且也考虑 到了各个观测指标取值的差异程度