二、相似性度量( Similarity Measure) x Distance measures(for metric variables) Euclidean distance measures Minkowski metric Mahalanobis distance 8 Similarity coefficients Correlation coefficients 2021/2/22 16 cxt
2021/2/22 16 cxt 二、相似性度量(Similarity Measure) ❖ Distance measures (for metric variables) Euclidean Distance measures Minkowski metric Mahalanobis distance ❖ Similarity coefficients Correlation coefficients
令样本或变量的相似性程度的数量指标: (1)相似系数性质越接近的变量或样品,它们 的相似系数越接近于1或-,而彼此无关的变量或 样品它们的相似系数则越接近于0,相似的为一类 ,不相似的为不同类; (2)距离它是将每个样品看作p维空间的一个 点,并用某种度量方法测量点与点之间的距离,距 离较近的归为一类,距宮较远的点应属于不同的类 令样本分类(Q型聚类)常以距离刻画相似性 ◇指标分类(R型聚类)常以相似系数刻画相似性 2021/2/22 cxt
2021/2/22 17 cxt ❖ 样本或变量的相似性程度的数量指标: (1)相似系数 性质越接近的变量或样品,它们 的相似系数越接近于1或一l,而彼此无关的变量或 样品它们的相似系数则越接近于0,相似的为一类 ,不相似的为不同类; (2)距离 它是将每一个样品看作p维空间的一个 点,并用某种度量方法测量点与点之间的距离,距 离较近的归为一类,距离较远的点应属于不同的类 。 ❖ 样本分类(Q型聚类)常以距离刻画相似性 ❖ 指标分类(R型聚类)常以相似系数刻画相似性
令1、 Distance 设有n个样本单位,每个样本测有p个指标(变 量),原始资料阵为: X11 x12 '.XIp 21 22 P l 12 2021/2/22 18 cxt
2021/2/22 18 cxt ❖ 1、 Distance 设有n个样本单位,每个样本测有p个指标(变 量),原始资料阵为: = n n n p p p x x x x x x x x x X 1 2 2 1 2 2 2 1 1 1 2 1
口每个样本都可以看成p维空间中的一点,n个 样本就是p维空间中的n个点。 口第个样本与第个样本之间的距离记为d 口聚类过程中,相距较近的点归为一类,相距 较远的点归为不同的类。 2021/2/22 19 cxt
2021/2/22 19 cxt 每个样本都可以看成p维空间中的一点,n个 样本就是p维空间中的n个点。 第i个样本与第j个样本之间的距离记为 聚类过程中,相距较近的点归为一类,相距 较远的点归为不同的类。 dij
令第个和第个样品之间的距离如下四个条件 d120对一切的和成立; d=0当且仅当=成立 d=dn对一切的成立 d≤dk+d对于一切的i和成立 2021/2/22 20 cxt
2021/2/22 20 cxt ❖ 第i个和第j个样品之间的距离 如下四个条件: 0 ; ij d i j 对一切的 和 成立 0 ; ij d i j = = 当且仅当 成立 ; ij ji d d i j = 对一切的 和 成立 . ij ik kj d d d i j + 对于一切的 和 成立