相似性度量( Similarity Measure) .o Distance measures (for metric variables) Euclidean distance measures Minkowski metric mahalanobis distance Similarity coefficients correlation coefficients 2021/1/21 16
2021/1/21 16 cxt 二、相似性度量(Similarity Measure) ❖ Distance measures (for metric variables) Euclidean Distance measures Minkowski metric Mahalanobis distance ❖ Similarity coefficients Correlation coefficients
令样本或变量的相似性程度的数量指标: (1)相似系数性质越接近的变量或样品,它们 的相似系数越接近于1或一,而彼此无关的变量或 样品它们的相似系数则越接近于0,相似的为—类 不相似的为不同类 (2)距离它是将每个样品看作p维空间的个 点,并用某种度量方法测量点与点之间的距离,距 离较近的归为一类,距离较远的点应属于不同的类 ☆样本分类(Q型聚类)常以距离刻画相似性 指标分类(R型聚类常以相似系数刻画相似性 2021/1/21 cXt
2021/1/21 17 cxt ❖ 样本或变量的相似性程度的数量指标: (1)相似系数 性质越接近的变量或样品,它们 的相似系数越接近于1或一l,而彼此无关的变量或 样品它们的相似系数则越接近于0,相似的为一类 ,不相似的为不同类; (2)距离 它是将每一个样品看作p维空间的一个 点,并用某种度量方法测量点与点之间的距离,距 离较近的归为一类,距离较远的点应属于不同的类 。 ❖ 样本分类(Q型聚类)常以距离刻画相似性 ❖ 指标分类(R型聚类)常以相似系数刻画相似性
令1 Distance 设有n个样本单位,每个样本测有p个指标(变 量),原始资料阵为: 2 ip Yyy 21 22 X n2 2021/1/21 18
2021/1/21 18 cxt ❖ 1、 Distance 设有n个样本单位,每个样本测有p个指标(变 量),原始资料阵为: = n n n p p p x x x x x x x x x X 1 2 2 1 2 2 2 1 1 1 2 1
口每个样本都可以看成p维空间中的一点,n个 样本就是p维空间中的n个点。 口第个样本与第个样本之间的距离记为d 口聚类过程中,相距较近的点归为一类,相距 较远的点归为不同的类。 2021/1/21 19 cXt
2021/1/21 19 cxt 每个样本都可以看成p维空间中的一点,n个 样本就是p维空间中的n个点。 第i个样本与第j个样本之间的距离记为 聚类过程中,相距较近的点归为一类,相距 较远的点归为不同的类。 dij
令第个和第个样品之间的距离如下四个条件 d20对一切的利成立, d=0当且仅当=j成立 dn=dn对一切的成立 d≤dk+d对于一切的成立 2021/1/21 20 cXt
2021/1/21 20 cxt ❖ 第i个和第j个样品之间的距离 如下四个条件: 0 ; ij d i j 对一切的 和 成立 0 ; ij d i j = = 当且仅当 成立 ; d d i j ij ji = 对一切的 和 成立 . ij ik kj d d d i j + 对于一切的 和 成立