(4)Dice系数X,IX,a(5-16)m(X,X,)=2a+b+cx,x,+X,x(5)Kulzinsky系数xIx,a(5-17)m(X,X):b+cXx,+X/x,-2x,x上式分子为(1-1)匹配特征数目,分母为(1-0)和(0-1)匹配特征数目之和,也即不匹配特征数目之和。上面从不同角度给出了许多样本相似性测度的定义,各种相似性测度有其特点和适用的条件,在实际使用时应根据具体问题进行选择。建立了模式相似性测度之后,两个样本的相似程度就可量化了,据此便可以进行聚类分析。5.2类间距离测度方法在有些聚类算法中要用到类间距离,下面给出一些类间距离定义方式。5.2.1最近距离法如H、K是两个聚类,则两类间的最短距离定义为DHk =min|D(XH,X))XHEH,XkEK式中,D(X,X)表示H类中的某个样本X.和K类中的某个样本X之间的欧氏距离:Dk表示H类中所有样本与K类中所有样本之间的最小距离。如图5-5(a)所示。DHKHHDH(a)(b)图5-5最短距离法图示如果K类由I和J两类合并而成,如图5-5(b)所示,则得到递推公式(5-18)DHk =min(DH,Du)5.2.2最长距离法与最短距离法类似,两个聚类H和K之间的最长距离定义为DHk=max(D(XH,X)) XeH,XxeK(5-19)若K类由I和J两类合并而成,则得到递推公式DHx =max(Dm,Du)(5-20)6
6 (4) Dice 系数 ( , ) 2 T i j i j T T i i j j a X X m X X a b c X X X X (5-16) (5) Kulzinsky 系数 ( , ) 2 T i j i j T T T i i j j i j a X X m X X b c X X X X X X (5-17) 上式分子为(1-1)匹配特征数目,分母为(1-0)和(0-1)匹配特征数目之和,也即不匹配特征数目之和。 上面从不同角度给出了许多样本相似性测度的定义,各种相似性测度有其特点和适用的条件,在实际 使用时应根据具体问题进行选择。建立了模式相似性测度之后,两个样本的相似程度就可量化了,据此便 可以进行聚类分析。 5.2 类间距离测度方法 在有些聚类算法中要用到类间距离,下面给出一些类间距离定义方式。 5.2.1 最近距离法 如 H 、 K 是两个聚类,则两类间的最短距离定义为 D D H K HK H K H K min , , X X X X 式中,D X X H K , 表示 H 类中的某个样本 X H 和 K 类中的某个样本 XK 之间的欧氏距离; DHK 表示 H 类 中所有样本与 K 类中所有样本之间的最小距离。如图5-5(a)所示。 H K I J DHI DHJ (a) (b) 图 5-5 最短距离法图示 如果 K 类由 I 和 J 两类合并而成,如图 5-5(b)所示,则得到递推公式 D D D HK HI HJ min , (5-18) 5.2.2 最长距离法 与最短距离法类似,两个聚类 H 和 K 之间的最长距离定义为 D D H K HK H K H K max , , X X X X (5-19) 若 K 类由 I 和 J 两类合并而成,则得到递推公式 D D D HK HI HJ max , (5-20) H K
5.2.3中间距离法中间距离法介于最长与最短的距离之间。若K类由I和J两类合并而成,则H和K类之间的距离为Di+Di-iDHK=,(5-21)V25.2.4重心距离法以上定义的类间距离中并未考虑每一类所包含的样本数目,重心法在这一方面有所改进。从物理的观点看,一个类的空间位置若要用一个点表示,那么用它的重心代表较合理。将每类中包含的样本数考虑进去。若I类中有n个样本,J类中有n,个样本,则类与类之间的距离递推式为ni-Dai+nnnDi.Dis-m(5-22)DHK=(n,+n,)2n,+n,n,+nj5.2.5平均距离法(类平均距离法)设H、K是两个聚类,则H类和K类间的距离定义为Dux=Zd,(5-23)ngnkiek式中,d是H类任一样本X和K类任一样本X之间的欧氏距离平方;nk和n分别表示H和K类中的样本数目。如果K类由I类和J类合并产生,则可以得到H和K类之间距离的递推式为"D+_"Da(5-24)DHk=Vn,+n,n,+n,定义类间距离的方法不同,会使分类结果不太一致。实际问题中常用几种不同的方法,比较其分类结果,从而选择一个比较切合实际的分类。5.3聚类准则函数样本相似性度量是聚类分析的基础,针对具体问题,选择适当的相似性度量是保证聚类效果的基础。但有了相似性度量还不够,还必须有适当的聚类准则函数,才能把真正把属手同一类的样本聚合成一个类别的子集,而把不同类的样本分离开来。因此,聚类准则函数对聚类质量也有重要影响。相似性度量是解决集合与集合的相似性问题:相似性准则是用来评价分类效果的好坏。如果聚类准则函数选得好,聚类质量就会高。同时,聚类准则函数还可以用来评价一种聚类结果的质量,如果聚类质量不满足要求,就要重复执行聚类过程,以优化结果。在重复优化中,可以改变相似性度量,也可以选用新的聚类准则。5.3.1误差平方和准则7
7 5.2.3 中间距离法 中间距离法介于最长与最短的距离之间。若 K 类由 I 和 J 两类合并而成,则 H 和 K 类之间的距离为 1 1 1 2 2 2 2 2 4 D D D D H K H I H J I J (5-21) 5.2.4 重心距离法 以上定义的类间距离中并未考虑每一类所包含的样本数目,重心法在这一方面有所改进。从物理的观 点看,一个类的空间位置若要用一个点表示,那么用它的重心代表较合理。将每类中包含的样本数考虑进 去。若 I 类中有 I n 个样本, J 类中有 J n 个样本,则类与类之间的距离递推式为 2 2 2 2 ( ) I J I J H K H I H J I J I J I J I J n n n n D D D D n n n n n n (5-22) 5.2.5 平均距离法(类平均距离法) 设 H 、 K 是两个聚类,则 H 类和 K 类间的距离定义为 1 2 H K i j H K i H j K D d n n (5-23) 式中, 2 ij d 是 H 类任一样本 X H 和 K 类任一样本 XK 之间的欧氏距离平方; K n 和 H n 分别表示 H 和 K 类 中的样本数目。如果 K 类由 I 类和 J 类合并产生,则可以得到 H 和 K 类之间距离的递推式为 I 2 2 J H K H I H J I J I J n n D D D n n n n (5-24) 定义类间距离的方法不同,会使分类结果不太一致。实际问题中常用几种不同的方法,比较其分类结 果,从而选择一个比较切合实际的分类。 5.3 聚类准则函数 样本相似性度量是聚类分析的基础,针对具体问题,选择适当的相似性度量是保证聚类效果的基础。 但有了相似性度量还不够,还必须有适当的聚类准则函数,才能把真正把属于同一类的样本聚合成一个类 别的子集,而把不同类的样本分离开来。因此,聚类准则函数对聚类质量也有重要影响。相似性度量是解 决集合与集合的相似性问题;相似性准则是用来评价分类效果的好坏。如果聚类准则函数选得好,聚类质 量就会高。同时,聚类准则函数还可以用来评价一种聚类结果的质量,如果聚类质量不满足要求,就要重 复执行聚类过程,以优化结果。在重复优化中,可以改变相似性度量,也可以选用新的聚类准则。 5.3.1 误差平方和准则