性能度量 对数据集D={x1,x2,,xm,假定通过聚类得到的簇划分为 C={C,C2,,C},参考模型给出的簇划分为C={C,C,…,C}.相应地, 令入与入*分别表示与C和C*对应的簇标记向量. 我们将样本两两配对考虑,定义 a=|SS,SS={(c,xj)川入:=入,入=,i<j} b=|SD,SD={(x,c川入=,A卡A,i<} c=|DS1,DS={(,c川入≠入,入=湾,i<j} d=|DDL,DD={(c,x川A卡入,卡,i<J}
对数据集 ,假定通过聚类得到的簇划分为 ,参考模型给出的簇划分为 .相应地, 令 与 分别表示与 和 对应的簇标记向量. 我们将样本两两配对考虑,定义
性能度量·外部指标 ▣]accard系数(]accard Coefficient,JC) JC= a a+b+c ▣FM指数(Fowlkes and Mallows Index,FMI) [0,1]区间内, 越大越好. FMI-Vatb ate b a+c ▣Rand指数(Rand Index,RI) RI=2(atb) m(m-1)
p Jaccard系数(Jaccard Coefficient, JC) p FM指数(Fowlkes and Mallows Index, FMI) p Rand指数(Rand Index, RI) [0,1]区间内, 越大越好
性能度量一内部指标 口考虑聚类结果的簇刘分C={C1,C2,.,Ck},定义 簇C内样本间的平均距离 awg(C)=c2-∑1 S1 dist(r,ay) 簇C内样本间的最远距离 diam(C)=mac1<i<j≤dist(xr,xj) 簇C,与簇C,最近样本间的距离 dmin(C)=min:CC,dist(i,j) 簇C,与簇C,中心点间的距离 dcen(C)=dist(u,i)
p 考虑聚类结果的簇划分 ,定义 簇 内样本间的平均距离 簇 内样本间的最远距离 簇 与簇 最近样本间的距离 簇 与簇 中心点间的距离
性能度量一内部指标 ▣DB指数(Davies-Bouldin Index,DBI) DBI= avg(C)+avg(C) 越小越好. max 2 j≠i dcen(ui,h) ▣Dunn指数(Dunn Index,DI) DI=min min dmin(Ci,Ci) 1≤i<k j≠i 越大越好
p DB指数(Davies-Bouldin Index, DBI) p Dunn指数(Dunn Index, DI) 越小越好. 越大越好
性能度量 聚类的“好坏”不存在绝对标准 The goodness of clustering depends on the opinion of the user 聚类也许是机器学习中“新算法”出现最多、最快的领域 总能找到一个新的“标准”,使以往算法对它无能为力
聚类的“好坏”不存在绝对标准 The goodness of clustering depends on the opinion of the user 聚类也许是机器学习中“新算法”出现最多、最快的领域 总能找到一个新的“标准” ,使以往算法对它无能为力