第九讲聚类分析 聚类分析( Cluster Analysis)是利用多个变量对样品或变量进行分类的一种多元统计 方法,在生物学、经济学、人口学、地质学、生态学等方面有广泛的应用 基本知识 聚类分析的含义:聚类分析( Cluster Analysis)是利用多个样品或多个观测指标 (变量)对样品或指标进行分类的一种多元统计方法。 适宜资料:多个样品的多个观测指标待分类的数据 三、分析目的:利用多个样品的多个观测指标(变量),从量的角度对客观事物进行分 类,从而揭示不同事物的数量本质及其差异,弥补定性分类综合性及客观性不强的弱点 四、基本思想:所研究的样品或指标(变量)之间存在程度不同的相似性或亲疏关系, 关系近的聚为一类,关系远的聚为另外一类。 第一节聚类分析的种类、距离系数法和相似系数法 聚类分析的种类依据分类对象分为对对样品进行分类的Q型聚类和对变 量或指标进行分类的R型聚类两种;依据分类的数学方法常见的有系统聚类、模糊聚类、灰 色聚类、信息聚类、图论聚类、概率聚类、动态聚类、最优分割等方法,本章重点介绍系统 聚类法;依据分类统计量有距离法和相似系数法 分类统计量所谓分类统计量就是能够表示样品或指标间相似程度的数量, 或是用来划分类型的数量指标。常用的分类统计量有距离系数和相似系数。 三、距离系数法把每一个样品看成m维空间的一个点(m是样品的指标的个数) 这样就可以把研究样品间的关系变为研究m维空间点与点之间的关系,而点与点之间的关系 常用距离来表示,并根据点与点之间的距离进行分类,即将距离较近的点归为一类,而将距 离较远的点归为不同的类。 四、相似系数法越是比较相近的样品,它们的相似系数的绝对值越接近于1 而彼此无关的样品它们的相似系数的绝对值越接近于0。这样就可以根据相似系数的数值, 把彼此相似的样品(或变量)归为一类,而把不相似的样品(或变量)归为不同的类。 第二节距高的含义 设有N个样品,每个样品观测m个变量,且设x;为观测到的第i个样品第j个变量的 观测值,显然每个样品也是m维空间的一个向量,如果记作X,则有 X N Xa可以看成m维空间的一个点,称为样本点,于是研究样品间聚类问题就可以通过点 与点之间的距离关系进行研究
第九讲 聚类分析 聚类分析(Cluster Analysis)是利用多个变量对样品或变量进行分类的一种多元统计 方法,在生物学、经济学、人口学、地质学、生态学等方面有广泛的应用。 基本知识: 一、聚类分析的含义:聚类分析(Cluster Analysis)是利用多个样品或多个观测指标 (变量)对样品或指标进行分类的一种多元统计方法 。 二、适宜资料:多个样品的多个观测指标待分类的数据。 三、分析目的:利用多个样品的多个观测指标(变量),从量的角度对客观事物进行分 类,从而揭示不同事物的数量本质及其差异,弥补定性分类综合性及客观性不强的弱点。 四、基本思想:所研究的样品或指标(变量)之间存在程度不同的相似性或亲疏关系, 关系近的聚为一类,关系远的聚为另外一类。 第一节 聚类分析的种类、距离系数法和相似系数法 一、 聚类分析的种类 依据分类对象分为对对样品进行分类的 Q 型聚类和对变 量或指标进行分类的 R 型聚类两种;依据分类的数学方法常见的有系统聚类、模糊聚类、灰 色聚类、信息聚类、图论聚类、概率聚类、动态聚类、最优分割等方法,本章重点介绍系统 聚类法;依据分类统计量有距离法和相似系数法。 二、 分类统计量 所谓分类统计量就是能够表示样品或指标间相似程度的数量, 或是用来划分类型的数量指标。常用的分类统计量有距离系数和相似系数。 三、 距离系数法 把每一个样品看成 m 维空间的一个点(m 是样品的指标的个数), 这样就可以把研究样品间的关系变为研究 m 维空间点与点之间的关系,而点与点之间的关系 常用距离来表示,并根据点与点之间的距离进行分类,即将距离较近的点归为一类,而将距 离较远的点归为不同的类。 四、 相似系数法 越是比较相近的样品,它们的相似系数的绝对值越接近于 1, 而彼此无关的样品它们的相似系数的绝对值越接近于 0。这样就可以根据相似系数的数值, 把彼此相似的样品(或变量)归为一类,而把不相似的样品(或变量)归为不同的类。 第二节 距离的含义 设有 N 个样品,每个样品观测 m 个变量,且设 i j x 为观测到的第 i 个样品第 j 个变量的 观测值,显然每个样品也是 m 维空间的一个向量,如果记作 X a ,则有 X a = ' 1 2 ( , ,......, ) a a am x x x a=1、2、……N X a 可以看成 m 维空间的一个点,称为样本点,于是研究样品间聚类问题就可以通过点 与点之间的距离关系进行研究
如果用dn表示第i个样品X与第j样品Ⅹ之间的距离,常用的距离有以下5种: 、绝对值距离d=∑-x 二、欧氏距离 欧氏距离应用的较多,但是它的缺点是它与变量取值的量纲(即测量单位)有关,当改 变测量单位时,计算出的距离系数可能不同。为此通常将数据进行标准化离差转换后再进行 分析,转换公式为x 其中s,= ∑(xn-x,)2 (94) WN-14 明氏距离d-∑ (9.5) 显然当q=1时,即为绝对值距离,当q2时,即为欧氏距离,所以前两者均为明氏距 离的特殊情况 四、切比雪夫距离d4=mxx4-x (9.6) 五、马氏距离d=√x-x)s(x-x) 其中S为s的逆矩阵,且s的第ij元素 (xk-X,(Xr-x) 第三节相似系数的含义 聚类分析除了研究对样品的分类外,有时也研究对变量(指标)的分类,当然变量间的 聚类也可以用距离研究,但常用相似系数法。 相似系数是描述变量之间相似程度的统计量。变量κ,与变量x,之间的相似系数如果记 作C,越接近于1,说明变量x与变量x,关系越密切,越接近于0,说明变量x与变
如果用 ij d 表示第 i 个样品 Xi 与第 j 样品 Xj 之间的距离,常用的距离有以下 5 种: 一、 绝对值距离 ij d == − m k ik jk x x 1 (9.1) 二、 欧氏距离 ij d = 2 1 1 2 ( ) − = m k ik jk x x (9.2) 欧氏距离应用的较多,但是它的缺点是它与变量取值的量纲(即测量单位)有关,当改 变测量单位时,计算出的距离系数可能不同。为此通常将数据进行标准化离差转换后再进行 分析,转换公式为 j ij j ij s x x x − = ' (9.3) 其中 = − − = N i j ij j x x N s 1 2 ( ) 1 1 , = = N i j ij x N x 1 1 (9.4) i =1、2、…、N j =1、2、…、m 三、 明氏距离 ij d = m q k q ik jk x x 1 1 − = (9.5) 显然当 q=1 时,即为绝对值距离,当 q=2 时,即为欧氏距离,所以前两者均为明氏距 离的特殊情况。 四、 切比雪夫距离 ij d = ik jk k m x − x 1 max (9.6) 五、 马氏距离 ij d = ( ) ( ) ' 1 i j i j x − x s x − x − (9.7) 其中 −1 s 为 s 的逆矩阵,且 s 的第 i j 元素 ij s = ( )( ) 1 1 i kj j N k ki x x x x N − − = (9.8) 第三节 相似系数的含义 聚类分析除了研究对样品的分类外,有时也研究对变量(指标)的分类,当然变量间的 聚类也可以用距离研究,但常用相似系数法。 相似系数是描述变量之间相似程度的统计量。变量 i x 与变量 j x 之间的相似系数如果记 作 Cij , Cij 越接近于 1,说明变量 i x 与变量 j x 关系越密切,越接近于 0,说明变量 i x 与变
量x,关系越不密切。常用的相似系数有夹角余玄和相关系数。 夹角余玄这是受相似形的启发构造的。在m维空间中,向量 X,=(x1,x2x…,xm)与x=(x1y,x2y”…,xm)的夹角如果记作an,则它们的余玄为 XX ∑(xb-x)x4-x) 相关系数 (9.10) 第四节 系统聚类方法( Hierarchical Clustering Method) 系统聚类方法的基本思想批样品的多个观测指标(变量)中,找出 能度量样品间相似程度的统计量,以这些统计量作为划分类型的依据,把一些相似程度较大 的样品聚为一类,另外一些彼此之间相似程度较大的样品聚合为另外一类,……。关系密切 的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品都聚 合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统,最后再把整个分类系 统画成一张分群图(又称谱系图),用它把所有样品间的亲疏关系表示出来 二、系统聚类方法的分析思路先将每一个样品各自看成一类,然后定义样品 间的距离(或相似系数)和类与类间的距离。聚类过程是首先选择距离最小的两类将其合并 成一新类(如果样品间关系采用相似系数,则应选择相似系数绝对值最大的两类首先合并) 再按类间距离的定义,计算新类与其它类间的距离,再将距离最近两类合并,如此继续,这 样每次减少一类,直至所有样品都聚为一类为止 三、系统聚类的方法类与类间的距离有多种定义方法,例如可以定义两类间的 距离为两类样品间的最近距离,或者定义为两类样品间的最远距离等。由于类与类间距离的 不同定义,就产生了系统聚类的不同方法。常用的有以下8种:最短距离法、最长距离法、 中间距离法、重心法、类平均法、可变类平均法、可变法和离差平方和法。下面主要介绍最 短距离方法。 四、系统聚类最短距离法 (一)、最短距离法的含义如果用G1、G2、 G、表示类,用d表示第k 个样品与第l个样品间的距离,则定义类G,与G,之间的距离
量 j x 关系越不密切。常用的相似系数有夹角余玄和相关系数。 一、 夹角余玄 这是受相似形的启发构造的。在 m 维空间中,向量 ' 1 2 ( , ,......, ) i i i mi X = x x x 与 ' 1 2 ( , ,......, ) j j j mj X = x x x 的夹角如果记作 ij ,则它们的余玄为 = = = = = N k kj N k ki N k ki kj i i j j i j ij x x x x X X X X X X COS 1 2 1 2 1 ' ' ' (9.9) 二、 相关系数 = = = − − − − = N k kj j N k ki i N k ki i kj j ij x x x x x x x x r 1 2 1 2 1 ( ) ( ) ( )( ) (9.10) 第四节 系统聚类方法(Hierarchical Clustering Method) 一、 系统聚类方法的基本思想 从一批样品的多个观测指标(变量)中,找出 能度量样品间相似程度的统计量,以这些统计量作为划分类型的依据,把一些相似程度较大 的样品聚为一类,另外一些彼此之间相似程度较大的样品聚合为另外一类,……。关系密切 的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品都聚 合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统,最后再把整个分类系 统画成一张分群图(又称谱系图),用它把所有样品间的亲疏关系表示出来。 二、 系统聚类方法的分析思路 先将每一个样品各自看成一类,然后定义样品 间的距离(或相似系数)和类与类间的距离。聚类过程是首先选择距离最小的两类将其合并 成一新类(如果样品间关系采用相似系数,则应选择相似系数绝对值最大的两类首先合并), 再按类间距离的定义,计算新类与其它类间的距离,再将距离最近两类合并,如此继续,这 样每次减少一类,直至所有样品都聚为一类为止。 三、 系统聚类的方法 类与类间的距离有多种定义方法,例如可以定义两类间的 距离为两类样品间的最近距离,或者定义为两类样品间的最远距离等。由于类与类间距离的 不同定义,就产生了系统聚类的不同方法。常用的有以下 8 种:最短距离法、最长距离法、 中间距离法、重心法、类平均法、可变类平均法、可变法和离差平方和法。下面主要介绍最 短距离方法。 四、系统聚类最短距离法 (一)、最短距离法的含义 如果用 G1 、G2 、……、GN 表示类,用 kl d 表示第 k 个样品与第 l 个样品间的距离,则定义类 Gi 与 Gj 之间的距离
mn D,keG dy) ∈G 即两类之间的距离等于两类最近样品之间的距离,这样定义类间距离的方法即称为最短距离 (二)、系统聚类最短距高法的步骤 例1.1980年北京农业大学在研究高营养玉米奥帕克-2杂交种(简称O2玉米杂交种) 中,对12个O2杂交种玉米和两个普通玉米杂交种(对照)共14个杂交种玉米观测了10 项指标,得观测数据如表9.。现在应用最短距离法对14个玉米杂交种进行分类。为了消除 指标量纲的影响,先对表91中的数据利用公式(93)和(94)进行离差标准化处理,然 后再进行分类,步骤如下 1.选择欧氏距离计算两两样品间的距离得初始距离阵D0如表9.2,由于是对称阵,所以 只列出是三角阵。这时的D=d即类GA与类G1间的距离为样品k与样品/间的距离 2.找出D0中最小的元素,设为D,则将G,与G,合并为一类,记作G,则类 G=,G},即类G中的样品就是类G与G中全部样品之和。表92中最小的元素为 1.98,它是2号与6号两品种间的距离,因此首先将这两类合并为一新类称为G15(因原来 14个样品自成为一类已有14类),且D15={G2,G6}={26} 3计算新类G与其它类G,的距离Dx,则有 min dg min dy Dnk∈G{= min,,k∈G}=mpn,D (912) 即在合并的两类中找出与其它类间的最短距离作为新类与其它类间的距离。这样将D中第 i、j行,第i、j列用上式合并成一新行新列,新行新列对应于Gn,这时所得距离矩阵记 作D1。公式(9.12)为计算新类G与原来类G的距离的递推公式。 本例即计算新类G15与G1、G3、G4、G5、G、Gn、G、G、G0、G1、G12 G13及类G14之间的距离。例如G5与G5的距离D355,根据最短距离法,应为d25与d6中 的较小者,而d23=3.04,d65=3.53,所以D53=3.04。G15与G1的距离D1sn应为d21与d
Dij = kl j i d l G k G min (9.11) 即两类之间的距离等于两类最近样品之间的距离,这样定义类间距离的方法即称为最短距离 法。 (二)、系统聚类最短距离法的步骤 例 1. 1980 年北京农业大学在研究高营养玉米奥帕克-2 杂交种(简称 O2 玉米杂交种) 中,对 12 个 O2 杂交种玉米和两个普通玉米杂交种(对照)共 14 个杂交种玉米观测了 10 项指标,得观测数据如表 9.1。现在应用最短距离法对 14 个玉米杂交种进行分类。为了消除 指标量纲的影响,先对表 9.1 中的数据利用公式(9.3)和(9.4)进行离差标准化处理,然 后再进行分类,步骤如下: 1.选择欧氏距离计算两两样品间的距离得初始距离阵 D0 如表 9.2,由于是对称阵,所以 只列出是三角阵。这时的 DKL = dkl 即类 Gk 与类 Gl 间的距离为样品 k 与样品 l 间的距离。 2.找出 D0 中最小的元素,设为 Dij ,则将 Gi 与 Gj 合并为一类,记作 Gr ,则类 Gr = Gi ,G j ,即类 Gr 中的样品就是类 Gi 与 Gj 中全部样品之和。表 9.2 中最小的元素为 1.98,它是 2 号与 6 号两品种间的距离,因此首先将这两类合并为一新类称为 G15 (因原来 14 个样品自成为一类已有 14 类),且 D15 = G2 ,G6 = 2,6。 3.计算新类 Gr 与其它类 Gs 的距离 Drs ,则有 Drs = = s j kl s i kl kl s r l G k G d l G k G d d l G k G min , min min min = min Dis , Djs (9.12) 即在合并的两类中找出与其它类间的最短距离作为新类与其它类间的距离。这样将 D0 中第 i 、 j 行,第 i 、 j 列用上式合并成一新行新列,新行新列对应于 Gr ,这时所得距离矩阵记 作 D1。公式(9.12)为计算新类 Gr 与原来类 Gs 的距离的递推公式。 本例即计算新类 G15 与 G1、G3 、G4 、G5 、G6 、G7 、G8 、G9 、G10 、 G11、 G12 、 G13 及类 G14 之间的距离。例如 G15 与 G5 的距离 15 5 D , ,根据最短距离法,应为 d25 与 d65 中 的较小者,而 d25 =3.04,d65 =3.53,所以 15 5 D , =3.04。G15 与 G1 的距离 15 1 D , 应为 21 d 与 61 d
中的较小者,而d21=365,d61=2.98,所以D1521=298。G15与其它类的距离仿此可同样求 得。未合并的类间距离不变,计算结果列于表93即D1中最右边一列。 因为D1中(表93)最小的元素为D14=206,于是应将G1与G4合并为新的类G6,即 G6=G1,G4}=24},再计算新类G16与其它各类间的距离,方法同前,未合并的类间距 离仍不变,于是得表94即D2。由表94知,D2中最小的元素为Gs=2.26,因此应将G8与 G合并为一新类G1={G3,G}=89,再计算新类G1,与其它各类间的距离,未合并的类 间距离不变,于是得表9.5即D3 4重复以上过程,逐次合并,直至所有元素合并为一类为止。计算与合并结果分别列于 表96至表9.14。在上述过程中,如果某一步D中最小的元素不止一个,则对这些最小元 素的类可以同时合并。 5.绘聚类图或谱系图,以直观表示类间关系和聚类结果。以横坐标表示品种号,纵坐标 表示类间距离,样品连线的高度等于两类合并时的距离。从图9.1容易看出O2玉米杂交种 与普通玉米杂交种(对照)间的分类关系 6.确定类的个数和类。确定多少类为好,要结合专业知识、经验和实际效果确定类间的 距离界限或阈值T。当类间距离大于阈值T时,则分为不同的类,当类间距离小于阈值T 时,则视为同类。如本例如果定阈值T=3.5,则14个样品可以分为三类:第一类包括2,6 4,1,3,7,8,9,10,5,11,12号杂交种:第二类为14号杂交种:第三类为13号杂交 种,即当T=3.5时,所有12个O2型玉米杂交种聚为一类,另外两个对照的普通玉米杂交种 各自为一类。如T=3,则14个品种被分为五类,即 第一类:2,6,4,1 第二类:5 第三类:11,12 第四类:14 第五类:13 如果T=3.1,则14个杂交种被分为四类,即 第二类:11,12: 第三类:14 第四类:13 由上可以看出,阈值T取不同值时分类将不同,从上述几种不同的分类看,明显的事 实是O2型玉米杂交种与普通玉米杂交种的差异,它们总是分在不同的类中
中的较小者,而 21 d =3.65, 61 d =2.98,所以 15 1 D , =2.98。G15 与其它类的距离仿此可同样求 得。未合并的类间距离不变,计算结果列于表 9.3 即 D1 中最右边一列。 因为 D1 中(表 9.3)最小的元素为 D14=2.06,于是应将 G1 与 G4 合并为新的类 G16 ,即 G16 =G1 ,G4 = 1,4 ,再计算新类 G16 与其它各类间的距离,方法同前,未合并的类间距 离仍不变,于是得表 9.4 即 D2。由表 9.4 知,D2 中最小的元素为 G89 =2.26,因此应将 G8 与 G9 合并为一新类 G17 =G8 ,G9 =8,9 ,再计算新类 G17 与其它各类间的距离,未合并的类 间距离不变,于是得表 9.5 即 D3。 4.重复以上过程,逐次合并,直至所有元素合并为一类为止。计算与合并结果分别列于 表 9.6 至表 9.14。在上述过程中,如果某一步 Di 中最小的元素不止一个,则对这些最小元 素的类可以同时合并。 5.绘聚类图或谱系图,以直观表示类间关系和聚类结果。以横坐标表示品种号,纵坐标 表示类间距离,样品连线的高度等于两类合并时的距离。从图 9.1 容易看出 O2 玉米杂交种 与普通玉米杂交种(对照)间的分类关系。 6.确定类的个数和类。确定多少类为好,要结合专业知识、经验和实际效果确定类间的 距离界限或阈值 T。当类间距离大于阈值 T 时,则分为不同的类,当类间距离小于阈值 T 时,则视为同类。如本例如果定阈值 T=3.5,则 14 个样品可以分为三类:第一类包括 2,6, 4,1,3,7,8,9,10,5,11,12 号杂交种;第二类为 14 号杂交种;第三类为 13 号杂交 种,即当 T=3.5 时,所有 12 个 O2 型玉米杂交种聚为一类,另外两个对照的普通玉米杂交种 各自为一类。如 T=3,则 14 个品种被分为五类,即 第一类:2,6,4,1,3,7,8,9,10; 第二类:5; 第三类:11,12; 第四类:14; 第五类:13。 如果 T=3.1,则 14 个杂交种被分为四类,即 第一类:2,6,4,1,7,8,9,10,5; 第二类:11,12; 第三类:14; 第四类:13。 由上可以看出,阈值 T 取不同值时分类将不同,从上述几种不同的分类看,明显的事 实是 O2 型玉米杂交种与普通玉米杂交种的差异,它们总是分在不同的类中