20 3.102.700 2.191471230 D=(d,)x9=|5866023644770 4.724461862991780 5795532934060831070 1320882241295143.965030 2621661200514843063321400 (二)相似系数的计算 常见的相似系数是夹角余弦和相关系数,其计算公式如下: (1)夹角余弦 (i,j=1,2 m)(10) xik 在(10)式中,显然有:-1≤cosθi≤1。 (2)相关系数 Xi (11) ∑(xk-x)2 )2 在(11)式中,x1和x1分别为聚类对象i和各要素标准化数据的平均 据表2-12中的数据,用夹角余弦公式(10)式计算,可得如下的相似系 数矩阵 0.490381 0880940.671 R=(r)x。=0300060760301 (12) 0240050.800.300991 0.200010.71024098099 0.930950450920210180141 0770930.550.950210230190901 直接聚类法 直接聚类法,是根据距离或相似系数矩阵的结构一次并类得到结果,是
D = dij = æ ( ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 9 0 152 0 310 2 70 0 219 147 123 0 586 6 02 364 4 77 0 4 72 4 46 186 2 99 178 0 579 553 2 93 4 06 083 107 0 132 088 2 24 129 514 396 503 0 2 62 166 120 051 4 84 306 332 140 0 × è ç ç ç ç ç ç ç ç ç ç ç ç ö ø ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ (9) (二)相似系数的计算 常见的相似系数是夹角余弦和相关系数,其计算公式如下: (1)夹角余弦: rij = cos ij = i j = 1 2 m 10 k=1 n θ ( , , ,…, ) ( ) (x x ) x x ik jk ik k n jk k n å å å = = 2 1 2 1 在(10)式中,显然有:-1≤cosθij≤1。 (2)相关系数: r x x x x x x x x ij i j m ik i jk j k n ik i k n jk j k n = - - - - = = = = å å å ( )( ) ( ) ( ) ( , , , , ) 1 2 1 2 1 1 2 … (11) 在(11)式中,xi和x j分别为聚类对象i和j各要素标准化数据的平均 值。 据表 2-12 中的数据,用夹角余弦公式(10)式计算,可得如下的相似系 数矩阵: R r = ij = æ ( ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 9 1 088 1 0 49 038 1 088 094 0 67 1 0 30 0 06 0 76 0 30 1 0 24 005 080 030 099 1 0 20 0 01 0 71 0 24 098 099 1 0 93 095 0 45 092 0 21 018 014 1 0 77 093 055 0 95 021 023 019 090 1 × è ç ç ç ç ç ç ç ç ç ç ç ç ö ø ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ (12) 三、直接聚类法 直接聚类法,是根据距离或相似系数矩阵的结构一次并类得到结果,是
一种简便的聚类方法。它先把各个分类对象单独视为一类,然后根据距离最 小或相似系数最大的原则,依次选出一对分类对象,并成新类。如果其中 个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属 于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在的列 与列序相同的行。那么,经过m-1次就可以把全部分类对象归为一类,这样 就可以根据归并的先后顺序作出聚类分析的谱系图。 下面,我们据距离矩阵(9)式,用直接聚类法对某地区的九个农业区进 行聚类分析。 第一步,在距离矩阵D中,除对角线元素以外,dφ=d9=0.51为最小者 故将第4区与第9区并为一类,划去第9行和第9列; 第二步,在余下的元素中,除对角线元素以外,d15=d57=0.83为最小者, 故第5区与第7区并为一类,划掉第7行和第7列; 第三步,在第二步之后余下的元素之中除对角线元素以外,d82=d28=0.88 为最小者,故将第2区与第8区并为一类,划去第8行和第8列; 第四步,在第三步之后余下的元素中,除对角线元素以外,d43=34=1.23 为最小者,故将第3区与第4区并为一类,划去第4行和第4列,此时,第 3、4、9区已归并为一类。 第五步,在第四步之后余下的元素中,除对角线元素以外,d21=d12=1.52 为最小者,故将第1区与第2区并为一类,划去第2行与第2列,此时,第 1、2、8区已归并为一类; 第六步,在第五步之后余下的元素中,除对角线元素以外,d5=d56=1.78 为最小者,故将第5区与第6区并为一类,划去第6行和第6列,此时,第 5、6、7区已归并为一类; 第七步,在第六步之后余下的元素中,除对角线元素以外,d31=d13=3.10 为最小者,故将第1区与第3区并为一类,划去第3行和第3列,此时,第 1,2,3,4,8,9区已归并为一类。 第八步,在第七步之后余下的元素中,除去对角线元素以外,只有 d51=d15=5.86,故将第1区与第5区并为一类,划去第5行和第5列,此时, 第1,2,3,4,5,6,7,8,9区均归并为一类。 根据上述步骤,我们可以作出聚类过程的谱系图(图2-1)。直接聚类法 虽然简便,但在归类过程中是划去行和列的,因而难免有信息损失。因此直 接聚类法并不是最好的系统聚类法。 四、最短距离聚类法 最短距离法,是在原来的m×m距离矩阵的非对角元素中找出di -mi n dij},把分类对象G和G归并为一新类G,然后按计算公式 dk=mini dok, dok i(k+p, q 计算原来各类与新类之间的距离,这样就得到一个新的(m-1)阶的距离 矩阵;再从新的距离矩阵中选出最小的d1,把G1和G归并成新类;再计算 各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。 以下,我们据(⑨)式中的距离矩阵,用最短距离聚类法对某地区的九个 农业区进行聚类分析
一种简便的聚类方法。它先把各个分类对象单独视为一类,然后根据距离最 小或相似系数最大的原则,依次选出一对分类对象,并成新类。如果其中一 个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属 于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在的列 与列序相同的行。那么,经过 m-1 次就可以把全部分类对象归为一类,这样 就可以根据归并的先后顺序作出聚类分析的谱系图。 下面,我们据距离矩阵(9)式,用直接聚类法对某地区的九个农业区进 行聚类分析。 第一步,在距离矩阵 D 中,除对角线元素以外,d49=d94=0.51 为最小者, 故将第 4 区与第 9 区并为一类,划去第 9 行和第 9 列; 第二步,在余下的元素中,除对角线元素以外,d75=d57=0.83 为最小者, 故第 5 区与第 7 区并为一类,划掉第 7 行和第 7 列; 第三步,在第二步之后余下的元素之中,除对角线元素以外,d82=d28=0.88 为最小者,故将第 2 区与第 8 区并为一类,划去第 8 行和第 8 列; 第四步,在第三步之后余下的元素中,除对角线元素以外,d43=d34=1.23 为最小者,故将第 3 区与第 4 区并为一类,划去第 4 行和第 4 列,此时,第 3、4、9 区已归并为一类。 第五步,在第四步之后余下的元素中,除对角线元素以外,d21=d12=1.52 为最小者,故将第 1 区与第 2 区并为一类,划去第 2 行与第 2 列,此时,第 1、2、8 区已归并为一类; 第六步,在第五步之后余下的元素中,除对角线元素以外,d65=d56=1.78 为最小者,故将第 5 区与第 6 区并为一类,划去第 6 行和第 6 列,此时,第 5、6、7 区已归并为一类; 第七步,在第六步之后余下的元素中,除对角线元素以外,d31=d13=3.10 为最小者,故将第 1 区与第 3 区并为一类,划去第 3 行和第 3 列,此时,第 1,2,3,4,8,9 区已归并为一类。 第八步,在第七步之后余下的元素中,除去对角线元素以外,只有 d51=d15=5.86,故将第 1 区与第 5 区并为一类,划去第 5 行和第 5 列,此时, 第 1,2,3,4,5,6,7,8,9 区均归并为一类。 根据上述步骤,我们可以作出聚类过程的谱系图(图 2-1)。直接聚类法 虽然简便,但在归类过程中是划去行和列的,因而难免有信息损失。因此直 接聚类法并不是最好的系统聚类法。 四、最短距离聚类法 最短距离法,是在原来的 m×m 距离矩阵的非对角元素中找出 dpq=min {dij},把分类对象 Gp和 Gq归并为一新类 Gr,然后按计算公式: drk=min{dpk,dqk}(k≠p,q) (13) 计算原来各类与新类之间的距离,这样就得到一个新的(m-1)阶的距离 矩阵;再从新的距离矩阵中选出最小的 dij,把 Gi和 Gj归并成新类;再计算 各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。 以下,我们据(9)式中的距离矩阵,用最短距离聚类法对某地区的九个 农业区进行聚类分析
第一步,在9×9阶距离矩阵D中,非对角元素中最小者是d=0.51,故 首先将第4区与第9区并为一类,记为G10,即G10={G4,G}。分别按照公 式(13)式计算G1,Q2,G3,Gs5,G6,Gn,G3与G10之间的距离得: d1,10=min{d14,d19}=min{2.19,2.62}=2.19 d2,10=min{d24,d29}=min{1.47,1.66}=1.47 a34,a3 n i d54, d5 f =min d.1o=min{d4,d}=min{2.99,3.06} d,1o=min{dna,dr9}=min{4.06,3.32}=3.32 -mi n 这样就得到G1,G2,G3,G5,G,G7,Gg,G10上的一个新的8×8阶距离 矩阵 G1G2G3G5G6768G10 G21.520 G33.102.700 G5.866.023.640 G64.724.461.861.780 G75.795.532.930.831.070 Ga1.320.882.245.143.965.030 G102.191.471.204.772.993.321.290 第二步,在上一步骤中所得到的新的8×8阶距离矩阵中,非对角元素中 最小者为d7=0.83,故将G5与G归并为一类,记为G1,即G1=G5,Gn}。 再分别按照公式(13)式计算G1,G2,G3,G,,G1与G1之间的距离,可 得到一个新的7×7阶距离矩阵 G21.520 G33.102.700 G64.724.461.860 G81.320.882.243.%60 G12.191.471.202.991.200 G15.795.532.931.075.033.320 第三步,在第二步所得到的新的7×7阶距离矩阵中,非对角线元素中最 小者为d28=0.88,故将G2与Q归并为一类,记为G2,即G12={G2,G3}。 再分别按公式(13)式计算G1,G3,G6,G10,G1与G12之间的距离,可得到 一个新的6×6阶距离矩阵: G3 G G10 G11 G12 G10
第一步,在 9×9 阶距离矩阵 D 中,非对角元素中最小者是 d94=0.51,故 首先将第 4 区与第 9 区并为一类,记为 G10,即 G10={G4,G9}。分别按照公 式(13)式计算 G1,G2,G3,G5,G6,G7,G8与 G10之间的距离得: d1,10=min{d14,d19}=min{2.19,2.62}=2.19 d2,10=min{d24,d29}=min{1.47,1.66}=1.47 d3,10=min{d34,d39}=min{1.23,1.20}=1.20 d5,10=min{d54,d59}=min{4.77,4.84}=4.77 d6,10=min{d64,d69}=min{2.99,3.06}=2.99 d7,10=min{d74,d79}=min{4.06,3.32}=3.32 d8,10=min{d84,d89}=min{1.29,1.40}=1.29 这样就得到 G1,G2,G3,G5,G6,G7,G8,G10上的一个新的 8×8 阶距离 矩阵: G1 G2 G3 G5 G6 G7 G8 G10 G1 0 G2 1.52 0 G3 3.10 2.70 0 G5 5.86 6.02 3.64 0 G6 4.72 4.46 1.86 1.78 0 G7 5.79 5.53 2.93 0.83 1.07 0 G8 1.32 0.88 2.24 5.14 3.96 5.03 0 G10 2.19 1.47 1.20 4.77 2.99 3.32 1.29 0 第二步,在上一步骤中所得到的新的 8×8 阶距离矩阵中,非对角元素中 最小者为 d57=0.83,故将 G5与 G7 归并为一类,记为 G11,即 G11={G5,G7}。 再分别按照公式(13)式计算 G1,G2,G3,G6,G8,G10与 G11之间的距离,可 得到一个新的 7×7 阶距离矩阵: G1 G2 G3 G6 G8 G10 G11 G1 0 G2 1.52 0 G3 3.10 2.70 0 G6 4.72 4.46 1.86 0 G8 1.32 0.88 2.24 3.96 0 G10 2.19 1.47 1.20 2.99 1.20 0 G11 5.79 5.53 2.93 1.07 5.03 3.32 0 第三步,在第二步所得到的新的 7×7 阶距离矩阵中,非对角线元素中最 小者为 d28=0.88,故将 G2与 G8 归并为一类,记为 G12,即 G12={G2,G8}。 再分别按公式(13)式计算 G1,G3,G6,G10,G11 与 G12 之间的距离,可得到 一个新的 6×6 阶距离矩阵: G1 G3 G6 G10 G11 G12 G1 0
G23.100 G64.721.860 G12.191.202.990 G15.792.931.073.320 G121.322.243.961.205.030 第四步,在第三步中所得到的新的6×6阶距离矩阵中,非对角线元素中 最小者为d11.07,故将G和G1归并为一类,记为G13,即G13=G,G1} =G,(G5,G)}。再按照公式(13)式计算G1,G3,G10,G12与G13之间的距 离,可得一个新的5×5阶距离矩阵 G1 G33.100 G102.191.200 1.322.241.200 4.721.862.993.960 第五步,在第四步中所得到的新的5×5阶距离矩阵中,非对角线元素中 最小者为d3,10=1.20,故将G3和G10归并为一类,记为G14,即G14={G3,G10 {G3,(G4,G)}。再按公式(13)式计算G1,G12,G13,与G14之间的距离, 可得一个新的4×4阶的距离矩阵 G01 12 320 G134.723.960 2.191.202.990 第六步,在第五步中所得的新的4×4阶距离矩阵中,非对角线元素中最 小者为d12,14=1.20,故将G12与G4归并为一类,记为G15,即G15={G12,G14}= (G2,Gg),(G3,(G4,G)。再用公式(13)式计算G1,G13与G15之间 的距离,可得一个新的3×3阶距离矩阵 G G134.720 G151.322.990 第七步,在第六步中所得的新的3×3阶距离矩阵中,非对角线元素中最 小者为d1,15=1.32,故将G1与G15归并为一类,记为G6,即G16=1G1,G15}={G1, (G2,Gg),(G3,(G4,@)}。再用公式(13)式计算G13与G6之间的距离, 可得一个新的2×2阶距离矩阵: G 0
G3 3.10 0 G6 4.72 1.86 0 G10 2.19 1.20 2.99 0 G11 5.79 2.93 1.07 3.32 0 G12 1.32 2.24 3.96 1.20 5.03 0 第四步,在第三步中所得到的新的 6×6 阶距离矩阵中,非对角线元素中 最小者为 d6,11=1.07,故将 G6和 G11归并为一类,记为 G13,即 G13={G6,G11} ={G6,(G5,G7)}。再按照公式(13)式计算 G1,G3,G10,G12与 G13之间的距 离,可得一个新的 5×5 阶距离矩阵: G1 G3 G10 G12 G13 G1 0 G3 3.10 0 G10 2.19 1.20 0 G12 1.32 2.24 1.20 0 G13 4.72 1.86 2.99 3.96 0 第五步,在第四步中所得到的新的 5×5 阶距离矩阵中,非对角线元素中 最小者为 d3,10=1.20,故将 G3和 G10归并为一类,记为 G14,即 G14={G3,G10} ={G3,(G4,G9)}。再按公式(13)式计算 G1,G12,G13,与 G14之间的距离, 可得一个新的 4×4 阶的距离矩阵: G1 G12 G13 G14 G1 0 G12 1.32 0 G13 4.72 3.96 0 G14 2.19 1.20 2.99 0 第六步,在第五步中所得的新的 4×4 阶距离矩阵中,非对角线元素中最 小者为 d12,14=1.20,故将G12与 G14归并为一类,记为 G15,即 G15={G12,G14}= {(G2,G8),(G3,(G4,G9))}。再用公式(13)式计算 G1,G13与 G15之间 的距离,可得一个新的 3×3 阶距离矩阵: G1 G13 G15 G1 0 G13 4.72 0 G15 1.32 2.99 0 第七步,在第六步中所得的新的 3×3 阶距离矩阵中,非对角线元素中最 小者为 d1,15=1.32,故将 G1与 G15归并为一类,记为 G16,即 G16={G1,G15}={G1, (G2,G8),(G3,(G4,G9))}。再用公式(13)式计算 G13与 G16之间的距离, 可得一个新的 2×2 阶距离矩阵: G13 G16 G13 0 G16 2.99 0
第八步,将G13和G16归并为一类。此时,所有分类对象均被归并为一类 综合上述聚类过程,可以作出最短距离聚类谱系图(如图2-2所示)。 五、最远距离聚类法 最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离 时采用的公式 (14) 对于上述同样的例子,最远距离聚类法的聚类过程如下 第一步,在9×9阶距离矩阵中,非对角线元素中最小者为d=0.51,故 将G4与G归并为一类,记为G10,即G10=1G4,G}。按照公式(14)式分别计 算G1,G2,G3,G5,G,G,s8与G10之间的距离,可以得到一个新的8×8 阶距离矩阵 G G G Ga G, G10 1.520 3.102.700 G55.866.023.640 G64.724.461.861.780 5.795.532.930.831.700 G81.320.882.245.143.965.030 G12.621.661.234.843.064.061.400 第二步,在第一步所得到的新的8×8阶距离矩阵中,非对角线元素中最 小者为d57=0.83,故将G5与G7归并为一类,记为G1,即G1=G5,G}。再 按照公式(14)式分别计算G1,G2,G3,G,G,G10与G1之间的距离,可得 一个新的7×7阶距离矩阵如下 G 0 3.10 2.70 0 2.243.9 1.233.06 G115866.023.641.785.144.840 第三步,在第二步中所得到的新的7×7阶距离矩阵中,非对角线元素中 最小者为d28=0.8,故将Q2与G并为一类,记为G12={G2,G3}。再按照公 式(14)式分别计算G1,G3,G6,G10,G1,与G12之间的距离,可得一个新的 6×6阶距离矩阵如下 3.100
第八步,将 G13和 G16归并为一类。此时,所有分类对象均被归并为一类。 综合上述聚类过程,可以作出最短距离聚类谱系图(如图 2-2 所示)。 五、最远距离聚类法 最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离 时采用的公式: drk=maX{dpk,dqk} (k≠p,q) (14) 对于上述同样的例子,最远距离聚类法的聚类过程如下: 第一步,在 9×9 阶距离矩阵中,非对角线元素中最小者为 d94=0.51,故 将 G4与 G9归并为一类,记为 G10,即 G10={G4,G9}。按照公式(14)式分别计 算 G1,G2,G3,G5,G6,G7,G8 与 G10 之间的距离,可以得到一个新的 8×8 阶距离矩阵: G1 G2 G3 G5 G6 G7 G8 G10 G1 0 G2 1.52 0 G3 3.10 2.70 0 G5 5.86 6.02 3.64 0 G6 4.72 4.46 1.86 1.78 0 G7 5.79 5.53 2.93 0.83 1.70 0 G8 1.32 0.88 2.24 5.14 3.96 5.03 0 G10 2.62 1.66 1.23 4.84 3.06 4.06 1.40 0 第二步,在第一步所得到的新的 8×8 阶距离矩阵中,非对角线元素中最 小者为 d57=0.83,故将 G5与 G7 归并为一类,记为 G11,即 G11={G5,G7}。再 按照公式(14)式分别计算 G1,G2,G3,G6,G8,G10与 G11之间的距离,可得 一个新的 7×7 阶距离矩阵如下: G1 G2 G3 G6 G8 G10 G11 G1 0 G2 1.52 0 G3 3.10 2.70 0 G6 4.72 4.46 1.86 0 G8 1.32 0.88 2.24 3.96 0 G10 2.62 1.66 1.23 3.06 1.40 0 G11 5.86 6.02 3.64 1.78 5.14 4.84 0 第三步,在第二步中所得到的新的 7×7 阶距离矩阵中,非对角线元素中 最小者为 d28=0.88,故将 G2与 G8并为一类,记为 G12={G2,G8}。再按照公 式(14)式分别计算 G1,G3,G6,G10,G11,与 G12之间的距离,可得一个新的 6×6 阶距离矩阵如下: G1 G3 G6 G10 G11 G12 G1 0 G3 3.10 0