绝对值距离是另一个应用很广泛的距离,使用时要注意的一个问题是它假设 变量之间是不相关的,如果变量之间相关,则聚类结果不可信。 (3)明科夫斯基距离( Minkowski metrics)。定义为 明科夫斯基距离是个通用的距离测度公式,当r为1时为绝对值距离,r等 于2时为欧氏距离 (4)马氏距离( Mahalanobis d)。定义为 dn=(X;-X)’E(x-X) 其中,X,X分别为案例i和案例j在各个变量上的值所组成的向量,E1 为聚类变量的协方差阵的逆矩阵。和前面所定义的距离测度所不同的是,马氏距 离考虑了聚类变量之间的相关,如果变量之间的相关为零,马氏距离等于平方欧 氏距离。 和相关测度所不同的是,距离测度更侧重于变量值的大小,不考虑案例在聚 类变量上的变化模式,认为靠得近的案例为相似的案例。表4-3给出了对于表 4-1中的数据计算出的简单欧氏距离。按照距离越近,相似程度越高的原则,案 例2,3应该归为一类,案例1,4,5归为另一类,这和用相关测度的聚类结果差 异很大,参照图4-1我们可以更清楚地看出相关测度和距离测度的差异。 表↓ 相似测度:欧氏距离 案例 8.7 2345 3.74 4.24 11.75 10.86 3.关联测度 关联测度用来度量聚类变量为分类变量的研究对象的相似性。有很多种关联 测度系数,其中只有三种得到了广泛的应用,它们分别是简单匹配系数(the Simple matching coefficient)、雅科比系数( Jaccards coefficient)和果瓦系数 ( Gowers coefficient),其中,简单匹配系数和雅科比系数只适用于二分类变量
果瓦系数可以用于各种测度的变量。 (1)简单匹配系数 对于二分类变量,关联测度的出发点是要估计研究对象在回答这些问题时的 致程度,所以最简单的关联测度是两个案例在所有的聚类变量上答案相同的情 况出现的频率,它被定义为简单匹配系数。 如果我们用1代表“是”,0代表“否”,任意两个案例的回答结果表示如下 案例2 案例1 0 1aC b 0 d 则简单匹配系数可以表示为 atd h+c+d S为两个案例之间的相似性,变化范围从0到1。 其中,a表示两个案例都回答是“1”的频数;b表示案例1回答是“I”,案 例2回答是“0”的频数;c表示案例1回答是“0”,案例2回答是“1”的频数; d表示两个案例都回答是“0”的频数 (2)雅科比系数 简单匹配系数的缺点是,两个案例相似可能是因为他们都共同拥有某些特 征,也可能是因为他们都缺乏某些特征。雅科比系数在简单匹配系数的基础上 做了一些改进,它把两个案例都回答“否”的部分从公式中去掉,只考虑回答 ¨是”的部分,计算公式为 b+ (3)果瓦系数 果瓦系数优于前两个关联测度之处在于它允许聚类变量可以是名义变量、序 次变量和间距测度变量。定义为
∑S 其中,S为案例和案例j在变量k上的相似性得分,Wi为加权变量 S和W的计算规则如下(见表4-4)。 对于二分类变量 在变量k上的值 案例i 案例j 0 0 0 W 1 0 即,只有当两个案例在某个变量上都取值为1时,S取值1,其他情况都取 值为0。对于二分类变量,果瓦系数等于雅科比系数。 对于序次变量:两个案例在变量上的取值相同时,S=1,取值不同时,S 对于间距测度或以上的变量 /RE 其中,x和x分别是案例和案例j在变量k上的值,R是变量k的全距 ( Range),即变量k的最大值与最小值之间的差。 4.数据的标准化问题 前面介绍的大部分相似测度,特别是距离测度,受聚类变量测量单位的影响 很大,其中数量级单位大的变量往往其变差也大,它对相似测度的贡献占主导地 位,这样就可能掩盖了其他变差小的变量的影响。另外,当变量的测量单位变化 时,相似测度的值也随之改变,有可能改变最终的聚类结果。下面我们通过一个 具体例子加以说明。 假设A、B、C三个案例在受教育年限和年收入两个变量上的值见表4-5 年收入可以分别用万元和元两种单位测量,表4-6给出了分别用这两种单位的 简单欧氏距离。当以万元为单位时,A和C之间的相似性最高,其次是A和B,B 和C之间的相似性最低,受教育年限变量在距离测度中起了主导作用。当年收入 以元为单位测量时,A和C之间的相似性变成了最低,A和B与B和C之间的相 似性相同,年收入的差异在相似性测度中占了绝对主导作用。 124
表4-5 原始数据2 受教育年限 年收入 年收入 案例 (年) (万元) (元) 20000 B 16 1.5 15000 10000 表4-6 变量取不同单位时的距离测度比较 距离 (万元) (元) A-B 6.02 5000 10000 10.01 000 为了克服变量测量单位的影响,在计算相似测度之前,一般对变量要做标准 化处理,通常是把变量变成均值为零、方差为1的标准化变量。常用的聚类分析 软件中都有这项功能,可以自动完成。 聚类方法 有很多种聚类方法,应用最广泛的有两类:层次聚类法( Hierarchical Cl Procedures)和迭代聚类法( Iterative Partitioning Procedures)。下面我们对每 类方法分别加以介绍。 1.层次聚类法 有两种层次聚类法:聚集法( Agglomerative Method)和分解法( Divisive Method)。聚集法是首先把每个案例各自看成一类,先把距离最近的两类合并 然后重新计算类与类之间的距离,再把距离最近的两类合并,每一步减少一类, 这个过程一直持续到所有的案例归为一类为止。分解法和聚集法的过程相反,首 先把所有的案例归为一类,然后把最不相似的案例分为两类,每一步增加一类, 直到每个案例都自成一类为止。分解法和聚集法相似,只是过程相反。所以,这 125
里我们只介绍常用的层次聚集法。层次聚集法是聚类分析中应用最广泛的聚类方 法,层次聚类法的聚类过程可以用一个树状图( Dendogram)表示出来,根据该 树状结构图可进行不同的分类处理。 层次聚类法中的一个核心问题是计算类与类之间的距离,有五种常用的方 法:(1)最短距离法( Single linkage);(2)最长距离法( Complete Linkage); (3)平均联结法( Average Linkage);(4)重心法( Centroid);(5)离差平方和法 (ward’' s Method)。下面我们逐一加以介绍。 1)最短距离法 最短距离法把两个类之间的距离定义为一个类中的所有案例与另一类中的所 有案例之间的距离最小者。 设x为类Gp中的任一案例,x,为类G中的任一案例,d1表示案例x;与案 例x之间的距离,Dx表示类Gn与G之间的距离,则最短距离法把Dx定义 为 min ∈Cn,∈( 图42给出了最短距离法的示意图。 图42最短距离法示意图 最短距离法的主要缺点是它有链接聚合的趋势,因为类与类之间的距离为所 有距离中的最短者,两类合并以后,它与其他类之间的距离缩小了,这样容易形 成一个比较大的类,大部分案例都被聚在一类中,在树状聚类图中,会看到一个