若x,用mm作单位,x单位不变,则A坐标为(0,50), C坐标为(0,100) AB=√502+102=√260 CD=√10+2=100 2021/2/22 26
2021/2/22 26 cxt 2 1 若x mm x 用 作单位, 单 位 不 变,则 A 坐 标 为(0,50), C坐标为(0,100) 2 2 AB = + = 50 10 2600 2 2 CD = + = 100 1 10001
◆当各变量的单位不同或测量值范围相差很大时,不应直 接采用明氏距离、欧氏距离和绝对距离,而应先对各变 量的数据作标准化处理,然后用标准化后的数据计算距 离。常用的标准化处理: X-X l,2,…,nj= 其中x=为鎬个变量的样本均值; ∑(x2-x)2为第个变量的样本方差。 2021/2/22 cxt
2021/2/22 27 cxt ❖ 当各变量的单位不同或测量值范围相差很大时,不应直 接采用明氏距离、欧氏距离和绝对距离,而应先对各变 量的数据作标准化处理,然后用标准化后的数据计算距 离。常用的标准化处理: 其中 为第j个变量的样本均值; 为第j个变量的样本方差。 * 1,2, , 1,2, , ij j ij jj x x x i n j p s − − = = = 1 1 n j ij i x x n − = = 2 1 1 ( ) 1 n jj ij j i s x x n − = = − −
(3) Mahalanobis distance(马氏距离) dn=√(x-x)3s(x 4x-Sx一 mahalanobis distance compensates for the Intercorrelation among the variables 令优点:克服量纲的影响、克服指标间相关性的影响 今缺点:协方差矩阵难以确定 2021/2/22 28 cxt
2021/2/22 28 cxt (3 ) Mahalanobis Distance(马氏距离) ❖ Mahalanobis distance compensates for the intercorrelation among the variables. ❖ 优点:克服量纲的影响、克服指标间相关性的影响 ❖ 缺点:协方差矩阵难以确定 1 ( ) ( ) ij p d s− = − − i j i j x x x x
1 有两个正态总体G1:N(,a)和G2N(,a2),设有一个样 本,其值在A处,点A距离哪个总体近些(样本来自哪个总 体)? 2021/2/22 cxt
2021/2/22 29 cxt 有两个正态总体 和 ,设有一个样 本,其值在A处,点A距离哪个总体近些(样本来自哪个总 体) ? 1 2 1 2 A 2 1 1 1 G N: ( , ) 2 2 2 2 G N: ( , )
令例: Similarity Matrix containing Euclidean Distances 56 D12=(5-6)2+(5-6)2=2 D}=∑(x-x 2021/2/22 三30 cxt
2021/2/22 30 cxt ❖ 例:Similarity Matrix containing Euclidean Distances