若x)用mm作单位,x单位不变,则A标为(0,50), C坐标为(0,100) AB=V502+10=√2600 CD=00+2=000 2021/1/21 26
2021/1/21 26 cxt 2 1 若x mm x 用 作单位, 单 位 不 变,则 A 坐 标 为(0,50), C坐标为(0,100) 2 2 AB = + = 50 10 2600 2 2 CD = + = 100 1 10001
当各变量的单位不同或测量值范围相差很大时,不应直 接采用明氏距离、欧氏距离和绝对距离,而应先对各变 量的数据作标准化处理,然后用标准化后的数据计算距 离。常用的标准化处理 X-X i=1,2,…,nj=1,2 s 其中x=为鎬个变量的样本均值 ∑(x2-x)2为第个变量的样本方差。 2021/1/21 cXt
2021/1/21 27 cxt ❖ 当各变量的单位不同或测量值范围相差很大时,不应直 接采用明氏距离、欧氏距离和绝对距离,而应先对各变 量的数据作标准化处理,然后用标准化后的数据计算距 离。常用的标准化处理: 其中 为第j个变量的样本均值; 为第j个变量的样本方差。 * 1,2, , 1,2, , ij j ij jj x x x i n j p s − − = = = 1 1 n j ij i x x n − = = 2 1 1 ( ) 1 n jj ij j i s x x n − = = − −
(3) Mahalanobis distance(马氏距离) X: X-X dxi, x,=X-x mahalanobis distance compensates for the intercorrelation among the variables ◆优点:克服量纲的影响、克服指标间相关性的影响 令缺点:协方差矩阵难以确定 2021/1/21 28
2021/1/21 28 cxt (3 ) Mahalanobis Distance(马氏距离) ❖ Mahalanobis distance compensates for the intercorrelation among the variables. ❖ 优点:克服量纲的影响、克服指标间相关性的影响 ❖ 缺点:协方差矩阵难以确定 1 ( ) ( ) ij p d s− = − − i j i j x x x x
O A 12 有两个正态总体G:N(k12)和G2:N(A22),设有一个样 本,其值在A处,点A距离哪个总体近些(样本来自哪个总 体) 2021/1/21 29 cXt
2021/1/21 29 cxt 有两个正态总体 和 ,设有一个样 本,其值在A处,点A距离哪个总体近些(样本来自哪个总 体) ? 1 2 1 2 A 2 1 1 1 G N: ( , ) 2 2 2 2 G N: ( , )
令例: Similarity Matrix containing Euclidean Distances 习$的 D1=(5-6)2+(5-6)2=2 D;-∑(x-x 2021/1/21
2021/1/21 30 cxt ❖ 例:Similarity Matrix containing Euclidean Distances