当前位置：和泉文库 > 电气与自动化 > 浏览文档

【机器学习】基于置换检验的聚类结果评估编辑部

文件格式：PDF，文件大小：1.04MB，售价：3.51元

文档详细内容（约9页）

第11卷第3期智能系统学报 Vol.11 No.3 2016年6月 CAAI Transactions on Intelligent Systems Jun.2016 D0I:10.11992/is.201603038 网络出版地址：http://www.enki..net/kcms/detail/23.1538.TP.20160513.0925.028.html 基于置换检验的聚类结果评估谷飞洋，田博，张思萌，陈征，何增有 (大连理工大学软件学院，辽宁大连116621) 摘要：对聚类结果，传统的评估方法不能从统计意义上对结果评估。ECP是一种新颖的基于置换检验的评估算法。ECP直接对聚类结果进行置换检验从而计算出p-value。为了测试ECP的效果，利用了UCI中的iris,wine, yest数据集对算法进行评测。实验结果表明，ECP可以在能够接受的时间内运算出比较准确的实验结果。关键词：聚类：聚类评估；统计检验：置换检验中图分类号：TP393文献标志码：A文章编号：1673-4785(2016)03-0301-09 中文引用格式：谷飞洋，田博，张思萌，等.基于置换检验的聚类结果评估[J].智能系统学报，2016,11(3)：301-309. 英文引用格式：GU Feiyang,.TIAN Bo,.ZHANG Simeng,etal.Statistical evaluation of the clustering results based on permutation test[J].CAAI transactions on intelligent systems,2016,11(3):301-309. Statistical evaluation of the clustering results based on permutation test GU Feiyang,TIAN Bo,ZHANG Simeng,CHEN Zheng,HE Zengyou (Software School,Dalian University of Technology,Dalian 116621,China) Abstract:For the result of clustering,tranditional methods of evalution couldn't assess the result in statistics.We propose a new algorithm called ECP(Statistical evaluation of Clustering based on Permutation test)which uses per- mutation test to evaluate the result of clustering.To evaluate the performance of the algorithm,we use the data sets, iris,wine,yeast,from UCI datasets.Experimental results show that the performance of the algorithm is good. Keywords:clustering;clustering evaluation;statistical test;permutation test 随着获得的数据越来越多，利用机器学习、数据 houette-ndex,Dunn-ndex等。这些函数能够评估挖掘[1]等手段从数据中获取潜在的知识变得越来聚类结果，但是这些函数评估出来的结果往往没有越重要。然而如何评估挖掘出来的信息，即评估数一个比较好的可以参考的值。即一个评估值计算出据挖掘结果的质量是一个十分重要的问题。只有一来之后得到的只是一个评估值，至于这个值达到什个好的评估方法，才能保证挖掘算法发现高质量的么标准能够接受并不能确定。利用统计方法评估聚信息。聚类41是数据挖掘领域一个很重要的分类结果的算法很少，其主要原因是聚类的特殊性与支。同时，聚类的应用也越来越广泛。随着聚类的复杂性使传统的统计方法很难用到聚类质量评估广泛应用，如何有效地评估聚类结果的质量[6]成上。近年来有一些利用随机方法来评估聚类结果的为一个重要的研究课题。虽然评估聚类结果的重要研究，但也存在一定的问题。本文根据存在的问题性一点不亚于挖掘算法本身，但是评估方面却没有提出了一种基于置换检验的评估方法。受到它应有的重视。针对聚类，现有的方法主要是用评价函数对聚 1相关研究类结果评估。这种函数一般分3种类型：紧密型、分 1.1利用簇结构评估聚类质量散型和连接型。常见的评估函数有DB-Index,Si- 该方法先对原始数据聚类，然后将原始数据集按照一定的约束随机置换抽样构造新的数据集。抽收稿日期：2016-03-19.网络出版日期：2016-05-13 基金项目：国家自然科学基金项目(61572094). 样之后用同样的聚类算法对样本数据集进行聚类。通信作者：何增有.E-mail:zyhc@dlut.cdu.cm

第１１卷第３期智能系统学报Ｖｏｌ．１１ №．３２０１６年６月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＪｕｎ．２０１６ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１６０３０３８网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１６０５１３．０９２５．０２８．ｈｔｍｌ基于置换检验的聚类结果评估谷飞洋，田博，张思萌，陈征，何增有（大连理工大学软件学院，辽宁大连１１６６２１）摘要：对聚类结果，传统的评估方法不能从统计意义上对结果评估。ＥＣＰ是一种新颖的基于置换检验的评估算法。ＥＣＰ直接对聚类结果进行置换检验从而计算出ｐ ⁃ｖａｌｕｅ。为了测试ＥＣＰ的效果，利用了ＵＣＩ中的ｉｒｉｓ，ｗｉｎｅ，ｙｅａｓｔ数据集对算法进行评测。实验结果表明，ＥＣＰ可以在能够接受的时间内运算出比较准确的实验结果。关键词：聚类；聚类评估；统计检验；置换检验中图分类号：ＴＰ３９３文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１６）０３⁃０３０１⁃０９中文引用格式：谷飞洋，田博，张思萌，等．基于置换检验的聚类结果评估［Ｊ］．智能系统学报，２０１６，１１（３）：３０１⁃３０９．英文引用格式：ＧＵＦｅｉｙａｎｇ，ＴＩＡＮＢｏ，ＺＨＡＮＧＳｉｍｅｎｇ，ｅｔａｌ．Ｓｔａｔｉｓｔｉｃａｌｅｖａｌｕａｔｉｏｎｏｆｔｈｅｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓｂａｓｅｄｏｎｐｅｒｍｕｔａｔｉｏｎｔｅｓｔ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１６，１１（３）：３０１⁃３０９．ＳｔａｔｉｓｔｉｃａｌｅｖａｌｕａｔｉｏｎｏｆｔｈｅｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓｂａｓｅｄｏｎｐｅｒｍｕｔａｔｉｏｎｔｅｓｔＧＵＦｅｉｙａｎｇ，ＴＩＡＮＢｏ，ＺＨＡＮＧＳｉｍｅｎｇ，ＣＨＥＮＺｈｅｎｇ，ＨＥＺｅｎｇｙｏｕ（ＳｏｆｔｗａｒｅＳｃｈｏｏｌ，ＤａｌｉａｎＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｄａｌｉａｎ１１６６２１，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｆｏｒｔｈｅｒｅｓｕｌｔｏｆｃｌｕｓｔｅｒｉｎｇ，ｔｒａｎｄｉｔｉｏｎａｌｍｅｔｈｏｄｓｏｆｅｖａｌｕｔｉｏｎｃｏｕｌｄｎ＇ｔａｓｓｅｓｓｔｈｅｒｅｓｕｌｔｉｎｓｔａｔｉｓｔｉｃｓ．ＷｅｐｒｏｐｏｓｅａｎｅｗａｌｇｏｒｉｔｈｍｃａｌｌｅｄＥＣＰ（ＳｔａｔｉｓｔｉｃａｌｅｖａｌｕａｔｉｏｎｏｆＣｌｕｓｔｅｒｉｎｇｂａｓｅｄｏｎＰｅｒｍｕｔａｔｉｏｎｔｅｓｔ）ｗｈｉｃｈｕｓｅｓｐｅｒ⁃ ｍｕｔａｔｉｏｎｔｅｓｔｔｏｅｖａｌｕａｔｅｔｈｅｒｅｓｕｌｔｏｆｃｌｕｓｔｅｒｉｎｇ．Ｔｏｅｖａｌｕａｔｅｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｔｈｅａｌｇｏｒｉｔｈｍ，ｗｅｕｓｅｔｈｅｄａｔａｓｅｔｓ，ｉｒｉｓ，ｗｉｎｅ，ｙｅａｓｔ，ｆｒｏｍＵＣＩｄａｔａｓｅｔｓ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｔｈｅａｌｇｏｒｉｔｈｍｉｓｇｏｏｄ．Ｋｅｙｗｏｒｄｓ：ｃｌｕｓｔｅｒｉｎｇ；ｃｌｕｓｔｅｒｉｎｇｅｖａｌｕａｔｉｏｎ；ｓｔａｔｉｓｔｉｃａｌｔｅｓｔ；ｐｅｒｍｕｔａｔｉｏｎｔｅｓｔ收稿日期：２０１６⁃０３⁃１９．网络出版日期：２０１６⁃０５⁃１３．基金项目：国家自然科学基金项目（６１５７２０９４）．通信作者：何增有．Ｅ⁃ｍａｉｌ：ｚｙｈｅ＠ｄｌｕｔ．ｅｄｕ．ｃｎ．随着获得的数据越来越多，利用机器学习、数据挖掘［１⁃３］等手段从数据中获取潜在的知识变得越来越重要。然而如何评估挖掘出来的信息，即评估数据挖掘结果的质量是一个十分重要的问题。只有一个好的评估方法，才能保证挖掘算法发现高质量的信息。聚类［４⁃５］是数据挖掘领域一个很重要的分支。同时，聚类的应用也越来越广泛。随着聚类的广泛应用，如何有效地评估聚类结果的质量［６⁃７］成为一个重要的研究课题。虽然评估聚类结果的重要性一点不亚于挖掘算法本身，但是评估方面却没有受到它应有的重视。针对聚类，现有的方法主要是用评价函数对聚类结果评估。这种函数一般分３种类型：紧密型、分散型和连接型。常见的评估函数有ＤＢ⁃Ｉｎｄｅｘ，Ｓｉ⁃ ｈｏｕｅｔｔｅ⁃Ｉｎｄｅｘ，Ｄｕｎｎ⁃Ｉｎｄｅｘ等。这些函数能够评估聚类结果，但是这些函数评估出来的结果往往没有一个比较好的可以参考的值。即一个评估值计算出来之后得到的只是一个评估值，至于这个值达到什么标准能够接受并不能确定。利用统计方法评估聚类结果的算法很少，其主要原因是聚类的特殊性与复杂性使传统的统计方法很难用到聚类质量评估上。近年来有一些利用随机方法来评估聚类结果的研究，但也存在一定的问题。本文根据存在的问题提出了一种基于置换检验的评估方法。１相关研究１．１利用簇结构评估聚类质量该方法先对原始数据聚类，然后将原始数据集按照一定的约束随机置换抽样构造新的数据集。抽样之后用同样的聚类算法对样本数据集进行聚类

·302· 智能系统学报第11卷这样重复大量的次数后，再用评估函数（如DB-In- 量不同簇的两个最近成员的距离。全连接：度量不 dex)计算每个样本的函数值。如果原始数据集聚类同簇的两个最远成员的距离。质心比较：度量不同结果的函数值小于大部分随机构造的数据集聚类结簇的中心点的距离。果的函数值，那么说明挖掘出来的信息是可靠的，否链接度链接度指簇中的元素成员至少要跟同则说明聚类结果不可靠。更通俗一点，如果原来数一个簇内的元素比较像。这个可以用来评估簇模型据集没有好的簇结构，那么无论怎么聚类，结果都是不是圆形或者球形的聚类结果，比如DBSCAN的聚不好的。代表性的方法有最大熵模型抽样[】、矩阵类结果。元素交换9]等。利用数据集簇结构来评估聚类质本文用一种无监督评估聚类质量的方法，Da- 量[]的方法能很好地评估出簇结构不好的聚类结 vies-Bouldin Index,DB_Index. 果。实验证实对不同数据集进行聚类，有明显簇结构数据集的p-value会比没有明显簇结构的p-value DBI =1 、+s) max(D, =1 小很多。但是这种方法并不能准确评估聚类的质式中：S表示第i个簇内的元素与质心的标准方差，量。从某种意义上讲，这种方法更适合评估一个数 D,表示第i个簇与第j个簇质心间的欧几里德距据集是否有好的簇结构。离，k表示簇的数目。 1.2 SigClust DBI的思想是一个高质量的聚类结果需要满 SigClust!)认为如果一个数据集符合高斯分足：同一个簇的各元素间相似度大，不同类之间的相布，那么对这个数据集的任何分割都是不合理的。似度小。在DBI中，分子越小意味着簇内元素相似因此这个方法的前提假设是：一个单一的簇的元素度越大，分母越大意味着簇间相似度越小。符合高斯分布。SigClust主要是针对k=2的聚类评 2.2聚类评估的p-value 估。对于>2的情况，还没有比较好的解决办法。给一个数据集X,用DB-ndex计算聚类结果的 l.3层次聚类的p-value计算函数值为xox。数据集X所有可能的聚类结果的函这种方法主要针对层次聚类的评估2，)。层数值为x1,x,xN。置换检验的p-value定义为次聚类后会形成一个二叉树。对二叉树上的每个节点都进行置换检验，算出每个节点划分对应的p ∑a1(xn≤xo） value。这种算法的空假设为：当前节点的左子树和 N 右子树应该属于一个簇。如果算出p-value足够小式中I是一个逻辑函数。当x.≤xo的情况下为1，就说明空假设是一个小概率事件，应该拒绝。该方否则为0。由于要枚举出所有的聚类方案的复杂度法是将当前节点的左子树和右子树打乱，按照一定是指数级别的，所以需要采取其他的策略。抽样出的约束随机分配左子树和右子树的元素。抽样若干所有情况的一个子集Y,并计算子集Y中所有元素次后形成的随机样本集按照某种指标与原始划分对的函数值为x1,x2,xw,其中N≤N。这时候置比计算出p-value.。这个评估只能针对层次聚类，不换检验的p-value被定义为能对其他的聚类算法进行评估。另外这样计算出的 ∑N1(xn≤o） p-value只是每个节点上的p-value,并不是全局聚 N 类的p-value. 一些研究为了避免p-value为0的情况，将p-value 2基本概念的定义修改为 2.1无监督聚类质量评估函数 1+1x≤w) 如果数据集中的元素没有类标签，聚类结果的 Ppeml N+1 评价就只能依赖数据集自身的特征和量值。在这种这种方法把分子加1的理由是把x。也看作置情况下，聚类的度量追求有3个目标：紧密度、分离换检验一个样本的函数值。这就避免了得到p-vl- 度和链接度。 ue为0的试验结果。然而这种做法事实上是不太紧密度簇中的每个元素应该彼此尽可能接合理的。试想如果抽样999次没有发现比x。更小近。紧密度的常用度量是方差，方差越小说明紧密的统计值，这样草率地得出结论当前置换检验的结度越大。果为0.001显然太武断了。因为可能抽样99999次分离度簇与簇之间应该充分分离。有3种常依旧没有比x。更优的样本。那么依照这个计算公用方法来度量两个不同簇之间的距离。单连接：度式p-value又为0.000O1。而实际上p-value的值可

这样重复大量的次数后，再用评估函数（如ＤＢ⁃Ｉｎ⁃ ｄｅｘ）计算每个样本的函数值。如果原始数据集聚类结果的函数值小于大部分随机构造的数据集聚类结果的函数值，那么说明挖掘出来的信息是可靠的，否则说明聚类结果不可靠。更通俗一点，如果原来数据集没有好的簇结构，那么无论怎么聚类，结果都是不好的。代表性的方法有最大熵模型抽样［８］、矩阵元素交换［９］等。利用数据集簇结构来评估聚类质量［１０］的方法能很好地评估出簇结构不好的聚类结果。实验证实对不同数据集进行聚类，有明显簇结构数据集的ｐ⁃ｖａｌｕｅ会比没有明显簇结构的ｐ⁃ｖａｌｕｅ小很多。但是这种方法并不能准确评估聚类的质量。从某种意义上讲，这种方法更适合评估一个数据集是否有好的簇结构。１．２ＳｉｇＣｌｕｓｔＳｉｇＣｌｕｓｔ［１１］认为如果一个数据集符合高斯分布，那么对这个数据集的任何分割都是不合理的。因此这个方法的前提假设是：一个单一的簇的元素符合高斯分布。ＳｉｇＣｌｕｓｔ主要是针对ｋ＝２的聚类评估。对于ｋ＞２的情况，还没有比较好的解决办法。１．３层次聚类的ｐ ⁃ｖａｌｕｅ计算这种方法主要针对层次聚类的评估［１２，１３］。层次聚类后会形成一个二叉树。对二叉树上的每个节点都进行置换检验，算出每个节点划分对应的ｐ ⁃ ｖａｌｕｅ。这种算法的空假设为：当前节点的左子树和右子树应该属于一个簇。如果算出ｐ ⁃ｖａｌｕｅ足够小就说明空假设是一个小概率事件，应该拒绝。该方法是将当前节点的左子树和右子树打乱，按照一定的约束随机分配左子树和右子树的元素。抽样若干次后形成的随机样本集按照某种指标与原始划分对比计算出ｐ ⁃ｖａｌｕｅ。这个评估只能针对层次聚类，不能对其他的聚类算法进行评估。另外这样计算出的ｐ ⁃ｖａｌｕｅ只是每个节点上的ｐ ⁃ｖａｌｕｅ，并不是全局聚类的ｐ ⁃ｖａｌｕｅ。２基本概念２．１无监督聚类质量评估函数如果数据集中的元素没有类标签，聚类结果的评价就只能依赖数据集自身的特征和量值。在这种情况下，聚类的度量追求有３个目标：紧密度、分离度和链接度。紧密度簇中的每个元素应该彼此尽可能接近。紧密度的常用度量是方差，方差越小说明紧密度越大。分离度簇与簇之间应该充分分离。有３种常用方法来度量两个不同簇之间的距离。单连接：度量不同簇的两个最近成员的距离。全连接：度量不同簇的两个最远成员的距离。质心比较：度量不同簇的中心点的距离。链接度链接度指簇中的元素成员至少要跟同一个簇内的元素比较像。这个可以用来评估簇模型不是圆形或者球形的聚类结果，比如ＤＢＳＣＡＮ的聚类结果。本文用一种无监督评估聚类质量的方法，Ｄａ⁃ ｖｉｅｓ⁃ＢｏｕｌｄｉｎＩｎｄｅｘ，即ＤＢ＿Ｉｎｄｅｘ。ＤＢＩ＝１ｋ ∑ ｋｉ＝１ｍａｘ（Ｓｉ＋ＳｊＤｉｊ）．式中：Ｓｉ表示第ｉ个簇内的元素与质心的标准方差，Ｄｉｊ表示第ｉ个簇与第ｊ个簇质心间的欧几里德距离，ｋ表示簇的数目。ＤＢＩ的思想是一个高质量的聚类结果需要满足：同一个簇的各元素间相似度大，不同类之间的相似度小。在ＤＢＩ中，分子越小意味着簇内元素相似度越大，分母越大意味着簇间相似度越小。２．２聚类评估的ｐ ⁃ｖａｌｕｅ给一个数据集Ｘ，用ＤＢ⁃Ｉｎｄｅｘ计算聚类结果的函数值为ｘ０ｘ０。数据集Ｘ所有可能的聚类结果的函数值为ｘ１，ｘ２，…ｘＮａｌｌ。置换检验的ｐ ⁃ｖａｌｕｅ定义为Ｐｐｅｒｍ＝ ∑ Ｎａｌｌｎ＝１Ｉ（ｘｎ ≤ ｘ０）Ｎａｌｌ式中Ｉ是一个逻辑函数。当ｘｎ≤ｘ０的情况下为１，否则为０。由于要枚举出所有的聚类方案的复杂度是指数级别的，所以需要采取其他的策略。抽样出所有情况的一个子集Ｙ，并计算子集Ｙ中所有元素的函数值为ｘ１，ｘ２，…ｘＮ，其中Ｎ≪ Ｎａｌｌ。这时候置换检验的ｐ ⁃ｖａｌｕｅ被定义为Ｐｐｅｒｍ０＝ ∑ Ｎｎ＝１Ｉ（ｘｎ ≤ ｘ０）Ｎ．一些研究为了避免ｐ ⁃ｖａｌｕｅ为０的情况，将ｐ ⁃ｖａｌｕｅ的定义修改为Ｐｐｅｒｍ１＝１＋ ∑ Ｎｎ＝１１（ｘｎ ≤ ｘ０）Ｎ＋１这种方法把分子加１的理由是把ｘ０也看作置换检验一个样本的函数值。这就避免了得到ｐ ⁃ｖａｌ⁃ ｕｅ为０的试验结果。然而这种做法事实上是不太合理的。试想如果抽样９９９次没有发现比ｘ０更小的统计值，这样草率地得出结论当前置换检验的结果为０．００１显然太武断了。因为可能抽样９９９９９次依旧没有比ｘ０更优的样本。那么依照这个计算公式ｐ ⁃ｖａｌｕｅ又为０．００００１。而实际上ｐ ⁃ｖａｌｕｅ的值可 ·３０２· 智能系统学报第１１卷

第3期谷飞洋，等：基于置换检验的聚类结果评估 ·303· 能更小。因此本文把p-value的定义为PpemoP 法。算法1描述了抽样的过程。置换检验的准确性取决于抽样的数目，一般的算法1 Shuffle(CI,n) 置换检验抽样的次数都在1000次以上。为了得到 fori←-0ton-ldo 更精确的p-value抽样的次数越多越好，理想的情 index +rand()mod (i+1) 况是置换所有的可能。然而对于不同的数据集合， swap(CI,Cline CI,CI) 甚至很难预测需要执行多少次置换才能够得到比较可以用数学归纳法进行证明算法1保证了每个好的结果。往往为了得到更精确的值就会增大抽样元素获得同一簇标号的概率是一样的。抽样的复杂次数，但是增加抽样次数的代价是增加计算的复杂度为O(n)。这样进行抽样N次，就得到了N个样性。对于普通的数据集往往抽样次数达到10000 本。然后利用样本对原始聚类结果进行评估。用次之后就不太容易提高抽样次数。而这样做又产生 DB-Index算出原始聚类的函数值x。与样本的函数出了一个问题。如果一个聚类结果真实的p-value 值x1,x2,…,xw。有了这些值就能计算p-value了。为0.000001。而抽样的次数只有10000次的话，那具体算法如下。么p-value为就为0了。针对这些问题，本文提出算法2ECP1 了一种新的聚类评估方法，ECP,该方法能比较好地用DB-Index计算聚类结果的函数值xo。解决上文提到的问题。 fori←-1 to N do 3 基于置换检验的聚类结果评估 Shuffle(CI,n) 用DB-Index计算样本的函数值x 3.1基本思想计算p-value 本文提出的置换检验方法将关注点锁定在了聚一般情况下kn,因此DB-ndex的复杂度为类的结果上。评估聚类结果的本质是看聚类算法对数据集中元素的划分质量。从这个角度出发，可以 O(n×d)。抽样一次的复杂度是O(n),容易算出总体复杂度为O(N×n×d)。这个复杂度还是比较高枚举对数据集的划分，然后用评估函数算出枚举划的。所以需要想一些方法来降低复杂度。N是抽样分的函数值。如果绝大部分划分都没有要评估的聚次数，期望越大越好。可以看到DB-ndex是影响复类结果质量好的话，那么就说明要评估的聚类结果杂度的主要因素。如果降低DB-ndex计算的复杂质量比较好。相反地，就说明要评估的聚类结果质性，那么就可以在相同的时间内抽取更多的样本来量并不好。因此对于一个聚类结果，本文定义了零假0：提高p-value的准确度。本文发现了DB-ndex公式当前聚类结果不是一个高质量的聚类。然后计算这的特点，对上文提到的算法做了改进。个零假设的p-value。如果这个p-value非常小，就认 3.2加速技巧为这个划分结果可以接受，可以拒绝0。否则认为首先选取聚类结果作为初始状态。然后随机交这个聚类结果不能接受。换一对簇标号不同的元素的簇标号。交换后把此时定义数据集X是一个包含n个元素的d维数的划分作为一个样本，直接计算DB-ndex的函数值型矩阵。首先对数据集聚类，聚成k簇后每个元值。接下来继续交换一对簇标号不同的元素的簇标素都会归属于一个簇。我们对每个簇进行标号。标号，交换后计算DB-Index的值。这样迭代N次后就号从0开始，往后依次是1,2，…，k-1。定义C1为会得到N个样本的函数值。利用这N个值就可以第i个元素所属的簇标号。比如C13=2表示第3个计算出p-value。整个算法流程如下。元素属于标号为2的簇。算法3ECP2 接下来是抽样。抽样要满足一定约束。本文定用DB-Index计算聚类结果的函数值xo 义的约束是：样本中簇包含元素的数目要与待评估 for i1 to N do 聚类结果中簇中元素的数目保持一致。举个例子，随机交换一对簇标号不同元素的簇标号假设数据集元素数目n为100。划分成3簇，划分用DB-Index计算抽样结果的函数值x, 簇中的数目分别是40、33、27。那么抽样出来的样计算p-value 本也要满足这些条件，也就是要划分成3簇，并且簇对比ECP1,ECP2只是修改了第3步的抽样方中元素的数目也必须是40、33、27。具体的抽样方法。为什么修改了抽样方法就可以增大抽样次数？法：首先搜集所有元素的簇标号，然后将这些簇标下面将仔细讨论DB-Index的计算过程。DB-ndex 号随机地分配给每个元素。其实这个过程是洗牌算的计算公式为

能更小。因此本文把ｐ ⁃ｖａｌｕｅ的定义为Ｐｐｅｒｍ０Ｐｅｃｄｆ０。置换检验的准确性取决于抽样的数目，一般的置换检验抽样的次数都在１０００次以上。为了得到更精确的ｐ ⁃ｖａｌｕｅ抽样的次数越多越好，理想的情况是置换所有的可能。然而对于不同的数据集合，甚至很难预测需要执行多少次置换才能够得到比较好的结果。往往为了得到更精确的值就会增大抽样次数，但是增加抽样次数的代价是增加计算的复杂性。对于普通的数据集往往抽样次数达到１００００次之后就不太容易提高抽样次数。而这样做又产生出了一个问题。如果一个聚类结果真实的ｐ ⁃ｖａｌｕｅ为０．０００００１。而抽样的次数只有１００００次的话，那么ｐ ⁃ｖａｌｕｅ为就为０了。针对这些问题，本文提出了一种新的聚类评估方法，ＥＣＰ，该方法能比较好地解决上文提到的问题。３基于置换检验的聚类结果评估３．１基本思想本文提出的置换检验方法将关注点锁定在了聚类的结果上。评估聚类结果的本质是看聚类算法对数据集中元素的划分质量。从这个角度出发，可以枚举对数据集的划分，然后用评估函数算出枚举划分的函数值。如果绝大部分划分都没有要评估的聚类结果质量好的话，那么就说明要评估的聚类结果质量比较好。相反地，就说明要评估的聚类结果质量并不好。因此对于一个聚类结果，本文定义了零假Ｈ０：当前聚类结果不是一个高质量的聚类。然后计算这个零假设的ｐ⁃ｖａｌｕｅ。如果这个ｐ⁃ｖａｌｕｅ非常小，就认为这个划分结果可以接受，可以拒绝Ｈ０。否则认为这个聚类结果不能接受。定义数据集Ｘ是一个包含ｎ个元素的ｄ维数值型矩阵。首先对数据集聚类，聚成ｋ簇后每个元素都会归属于一个簇。我们对每个簇进行标号。标号从０开始，往后依次是１，２， …，ｋ－１。定义ＣＩｉ为第ｉ个元素所属的簇标号。比如ＣＩ３＝２表示第３个元素属于标号为２的簇。接下来是抽样。抽样要满足一定约束。本文定义的约束是：样本中簇包含元素的数目要与待评估聚类结果中簇中元素的数目保持一致。举个例子，假设数据集元素数目ｎ为１００。划分成３簇，划分簇中的数目分别是４０、３３、２７。那么抽样出来的样本也要满足这些条件，也就是要划分成３簇，并且簇中元素的数目也必须是４０、３３、２７。具体的抽样方法：首先搜集所有元素的簇标号，然后将这些簇标号随机地分配给每个元素。其实这个过程是洗牌算法。算法１描述了抽样的过程。算法１Ｓｈｕｆｆｌｅ（ＣＩ，ｎ）ｆｏｒｉ← ０ｔｏｎ－１ｄｏｉｎｄｅｘ ← ｒａｎｄ（）ｍｏｄ（ｉ＋１）ｓｗａｐ（ＣＩｉ，ＣＩｉｎｄｅｘＣＩｉ，ＣＩｉｎｄｅｘ）可以用数学归纳法进行证明算法１保证了每个元素获得同一簇标号的概率是一样的。抽样的复杂度为Ｏ（ｎ）。这样进行抽样Ｎ次，就得到了Ｎ个样本。然后利用样本对原始聚类结果进行评估。用ＤＢ⁃Ｉｎｄｅｘ算出原始聚类的函数值ｘ０与样本的函数值ｘ１，ｘ２，…，ｘＮ。有了这些值就能计算ｐ ⁃ｖａｌｕｅ了。具体算法如下。算法２ＥＣＰ１用ＤＢ⁃Ｉｎｄｅｘ计算聚类结果的函数值ｘ０。ｆｏｒｉ ← １ｔｏＮｄｏＳｈｕｆｆｌｅ（ＣＩ，ｎ）用ＤＢ⁃Ｉｎｄｅｘ计算样本的函数值ｘｉ计算ｐ ⁃ｖａｌｕｅ一般情况下ｋ≪ｎ，因此ＤＢ⁃Ｉｎｄｅｘ的复杂度为Ｏ（ｎ×ｄ）。抽样一次的复杂度是Ｏ（ｎ），容易算出总体复杂度为Ｏ（Ｎ×ｎ×ｄ）。这个复杂度还是比较高的。所以需要想一些方法来降低复杂度。Ｎ是抽样次数，期望越大越好。可以看到ＤＢ⁃Ｉｎｄｅｘ是影响复杂度的主要因素。如果降低ＤＢ⁃Ｉｎｄｅｘ计算的复杂性，那么就可以在相同的时间内抽取更多的样本来提高ｐ ⁃ｖａｌｕｅ的准确度。本文发现了ＤＢ⁃Ｉｎｄｅｘ公式的特点，对上文提到的算法做了改进。３．２加速技巧首先选取聚类结果作为初始状态。然后随机交换一对簇标号不同的元素的簇标号。交换后把此时的划分作为一个样本，直接计算ＤＢ⁃Ｉｎｄｅｘ的函数值。接下来继续交换一对簇标号不同的元素的簇标号，交换后计算ＤＢ⁃Ｉｎｄｅｘ的值。这样迭代Ｎ次后就会得到Ｎ个样本的函数值。利用这Ｎ个值就可以计算出ｐ ⁃ｖａｌｕｅ。整个算法流程如下。算法３ＥＣＰ２用ＤＢ⁃Ｉｎｄｅｘ计算聚类结果的函数值ｘ０ｆｏｒｉ← １ｔｏＮｄｏ随机交换一对簇标号不同元素的簇标号用ＤＢ⁃Ｉｎｄｅｘ计算抽样结果的函数值ｘｉ计算ｐ ⁃ｖａｌｕｅ对比ＥＣＰ１，ＥＣＰ２只是修改了第３步的抽样方法。为什么修改了抽样方法就可以增大抽样次数？下面将仔细讨论ＤＢ⁃Ｉｎｄｅｘ的计算过程。ＤＢ⁃Ｉｎｄｅｘ的计算公式为第３期谷飞洋，等：基于置换检验的聚类结果评估 ·３０３·

·304. 智能系统学报第11卷如果知道了样本DB-Index函数值的概率分布 DBI= max( Di 就可以根据原始聚类结果的函数值算出精确的p 由S,的定义可以得出： value了。聚类是一种半监督的机器学习，其本质对元素所属类别的划分。如果对元素随机划分无 S:= 13- 穷次。那么质量特别高的划分的比例会很小。同样 m 的，质量极端差的划分占的比例也会很小。很大比式中m,是簇zi中元素的数目。z,是簇i中第j个元重的划分都介于它们之间。而正态分布的特点是：素的属性向量，z是簇i质心的属性向量。由于数据极端概率很小，中间的概率很大。经过对数据的分是d维的，所以3-乏‖2就是各个维度的平方和。析，聚类划分的DB-Index函数值比较符合正态分因此可以单独对每一维计算，然后再把所有维度的布。因此可以假设抽样样本DB-ndex的函数值符平方相加即可：合正态分布。实际上正态分布符合很多自然概率分 ∑3-2=∑∑(4-a,)2, 布的指标。下面要做的就是得到正态分布的参数。对于一维的正态分布均值和方差用式(1)和(2) 式中：aa是簇i中第j个元素的第t个属性值，a,是得到：簇i质心的第t个属性值。下面直接讨论第t维的计算方法： i=1 u= (1) ∑3-2∑∑(a-a)2 N m m d= (2) ∑(4-a2 N-1 有了概率分布函数，就能将原始聚类结果x。代入概率分布算出p-value了。其中：这样估出概率分布函数实现了在整体复杂度没有增加的前提下用较少的抽样得到更为精确p-val m m: ue的目的了。因此立.>) ∑3-2 2 m=1 2 本文利用公式P perm 一计算p-val- mi =1 mi N ∑，4，是筷中所有元素中第！维的平方和， u实际上是利用了大数定律。大数定律的本质是如果有无穷次试验，事件出现的频率就会无限趋近 a,是簇i中所有元素第t维的平均值。所以为了计于事件发生的概率。而由于抽样次数有限，本文假算S,每一维只需要维护两个值就可以了：平方和与设了DB-Index的函数值符合正态分布。不过对于平均值。当簇标号交换的话，能在O(1)复杂度内抽样N次后发现，已经有足够的样本可以精确算出修正这两个值。修改完每个维度的这两个值后，就 p-vaue的话，就不需要用正态分布计算了。然而如可以用DB-Index算出函数值了。果抽样N次后没有足够的样本可以用大数定律精可以看出修改一个簇的平方和与平均值复杂度确地计算p-value的话就要拟合正态概率分布函数是O(d)的。因此DB-Index的计算复杂度就是了。对于有多少个样本满足x:≤x。算是足够呢？ O(k×k×d)了。没有加速的DB-Index的计算复杂度这是一个阈值问题。上边的过程总结起来如算是O(n×d)。一般情况下，k≤n。所以这种方法的法4。效率有明显的提升。算法4ECP 3.3更准确的p-vaue 抽样N次，算出每次的函数值x 上边提到计算DB-Index的方法的复杂度为统计x:≤x。的数目M O(kx×d)。虽然相比于原先的计算方法已经优化如果M≥Limit利用公式P,mo计算p-value 很多，但是对于p-value非常小的情况，可能依I旧由否则，拟合正态概率分布算出p-value 于抽样数目有限而无法算出精确的p-value。这种其中Limit是ECP的一个参数，是用Ppmo计算情况下算出的p-value就会为O,然而这样的结果是出p-value的最低数目限制。ECP不同于很多其他不准确的。的置换检验方法。这种方法实现了用较少的抽样计

ＤＢＩ＝１ｋ ∑ ｋｉ＝１ｍａｘ（Ｓｉ＋ＳｊＤｉｊ）．由Ｓｉ的定义可以得出：Ｓｉ＝ ∑ ｍｉｊ＝１‖ｚｊ－ｚ‖２ｍｉ．式中ｍｉ是簇ｚｉ中元素的数目。ｚｊ是簇ｉ中第ｊ个元素的属性向量，ｚ是簇ｉ质心的属性向量。由于数据是ｄ维的，所以‖ｚｊ－ｚ‖２就是各个维度的平方和。因此可以单独对每一维计算，然后再把所有维度的平方相加即可： ∑ ｍｉｊ＝１‖ｚｊ－ｚ‖２＝ ∑ ｄｔ＝１∑ ｍｉｊ＝１（ａｊｔ－ａｔ）２，式中：ａｊｔ是簇ｉ中第ｊ个元素的第ｔ个属性值，ａｔ是簇ｉ质心的第ｔ个属性值。下面直接讨论第ｔ维的计算方法： ∑ ｍｉｊ＝１‖ｚｊ－ｚ‖２ｍｉ＝ ∑ ｄｔ＝１∑ ｍｉｊ＝１（ａｊｔ－ａｔ）２ｍｉ＝ ∑ ｄｔ＝１ ∑ ｍｉｊ＝１（ａｊｔ－ａｔ）２ｍｉ其中： ∑ ｍｉｊ＝１（ａｊｔ－ａｔ）２ｍｉ＝ ∑ ｍｉｊ＝１ａｊｔ２ｍｉ－ａｔ２因此 ∑ ｍｉｊ＝１‖ｚｊ－ｚ‖２ｍｉ＝ ∑ ｄｔ＝１ ∑ ｍｉｊ＝１ａｊｔ２ｍｉ－ａｔ２ ∑ ｍｉｊ＝１ａｊｔ２是簇ｉ中所有元素中第ｔ维的平方和，ａｔ是簇ｉ中所有元素第ｔ维的平均值。所以为了计算Ｓｉ，每一维只需要维护两个值就可以了：平方和与平均值。当簇标号交换的话，能在Ｏ（１）复杂度内修正这两个值。修改完每个维度的这两个值后，就可以用ＤＢ⁃Ｉｎｄｅｘ算出函数值了。可以看出修改一个簇的平方和与平均值复杂度是Ｏ（ｄ）的。因此ＤＢ⁃Ｉｎｄｅｘ的计算复杂度就是Ｏ（ｋ×ｋ×ｄ）了。没有加速的ＤＢ⁃Ｉｎｄｅｘ的计算复杂度是Ｏ（ｎ×ｄ）。一般情况下，ｋ≪ｎ。所以这种方法的效率有明显的提升。３．３更准确的ｐ ⁃ｖａｌｕｅ上边提到计算ＤＢ⁃Ｉｎｄｅｘ的方法的复杂度为Ｏ（ｋ×ｋ×ｄ）。虽然相比于原先的计算方法已经优化很多，但是对于ｐ ⁃ｖａｌｕｅ非常小的情况，可能依旧由于抽样数目有限而无法算出精确的ｐ ⁃ｖａｌｕｅ。这种情况下算出的ｐ ⁃ｖａｌｕｅ就会为０，然而这样的结果是不准确的。如果知道了样本ＤＢ⁃Ｉｎｄｅｘ函数值的概率分布就可以根据原始聚类结果的函数值算出精确的ｐ ⁃ ｖａｌｕｅ了［１４］。聚类是一种半监督的机器学习，其本质对元素所属类别的划分。如果对元素随机划分无穷次。那么质量特别高的划分的比例会很小。同样的，质量极端差的划分占的比例也会很小。很大比重的划分都介于它们之间。而正态分布的特点是：极端概率很小，中间的概率很大。经过对数据的分析，聚类划分的ＤＢ⁃Ｉｎｄｅｘ函数值比较符合正态分布。因此可以假设抽样样本ＤＢ⁃Ｉｎｄｅｘ的函数值符合正态分布。实际上正态分布符合很多自然概率分布的指标。下面要做的就是得到正态分布的参数。对于一维的正态分布均值和方差用式（１）和（２）得到： μ ＝ ∑ Ｎｉ＝１ｘｉＮ（１） ∂ ＝（ｘｉ－ｘ）２Ｎ－１（２）有了概率分布函数，就能将原始聚类结果ｘ０代入概率分布算出ｐ ⁃ｖａｌｕｅ了。这样估出概率分布函数实现了在整体复杂度没有增加的前提下用较少的抽样得到更为精确ｐ ⁃ｖａｌ⁃ ｕｅ的目的了。本文利用公式Ｐｐｅｒｍ０ ∑ Ｎｎ＝１Ｉ（ｙｎ＞ｘ０）Ｎ计算ｐ ⁃ｖａｌ⁃ ｕｅ实际上是利用了大数定律。大数定律的本质是如果有无穷次试验，事件出现的频率就会无限趋近于事件发生的概率。而由于抽样次数有限，本文假设了ＤＢ⁃Ｉｎｄｅｘ的函数值符合正态分布。不过对于抽样Ｎ次后发现，已经有足够的样本可以精确算出ｐ ⁃ｖａｌｕｅ的话，就不需要用正态分布计算了。然而如果抽样Ｎ次后没有足够的样本可以用大数定律精确地计算ｐ ⁃ｖａｌｕｅ的话就要拟合正态概率分布函数了。对于有多少个样本满足ｘｉ ≤ ｘ０算是足够呢？这是一个阈值问题。上边的过程总结起来如算法４。算法４ＥＣＰ抽样Ｎ次，算出每次的函数值ｘｉ统计ｘｉ≤ｘ０的数目Ｍ如果Ｍ≥Ｌｉｍｉｔ利用公式Ｐｐｅｒｍ０计算ｐ ⁃ｖａｌｕｅ否则，拟合正态概率分布算出ｐ ⁃ｖａｌｕｅ其中Ｌｉｍｉｔ是ＥＣＰ的一个参数，是用Ｐｐｅｒｍ０计算出ｐ ⁃ｖａｌｕｅ的最低数目限制。ＥＣＰ不同于很多其他的置换检验方法。这种方法实现了用较少的抽样计 ·３０４· 智能系统学报第１１卷

第3期谷飞洋，等：基于置换检验的聚类结果评估 ·305. 算出更为精确p-value的目的，在效率上有了非常针对iis数据集，利用ECP计算出的p-value 大的飞跃。与f-score的相关系数为-0.578018，与accuracy的 4实验相关系数为-0.699331。具体的结果如图1。针对 wine数据集，利用ECP计算得到的p-value与f 实验选取了iris、wine和yeast等3个数据集。 score的相系数为-0.535734，与accuracy的相关系这3个数据集都来自UCI数据库。iis、wime和数为-0.538754。具体的结果为图2。对于yeast数 yeast数据集的属性都是数值型的，并且这3个数据据集，利用ECP计算得到的p-value与f-score的相集都带有类标签。关系数为-0.500340，与accuracy的相关系数为 4.1利用p-value选择合适的聚类算法 -0.167325。具体结果为图3。从聚类这个概念提出以来出现了很多聚类算从实验结果可以看出用本文方法算出来的P 法。对于一个具体的应用，选择合适的聚类算法是 value是可靠的。需要注意的是yeast的数据集簇结一个很重要的问题。本文认为对于同一个数据集用构比较明显，聚类的结果比较集中。不同的算法聚类，p-value小的那个结果更为可靠。 3.0 为此本文对同一数据集选用多种算法聚类来验证 2.5 p-value对选择聚类算法的有效性。实验结果如表。 1。从实验结果可以看出，对于同一数据集p-value 2.0 8 小的聚类算法对应的f-score和accuracy比较大。这说明利用p-value选择聚类算法是可靠的。本文 0 还计算了p-value与f-score和accuracy的相关系 o 数。本文用k-means对同一数据集聚类100次。通 0. 0 0.2 0.4 0.6 0.8 过控制k-means的迭代次数来控制划分的质量。这 p-value 样就避免了正常k-means聚类只会出现若干个固定 (a)p-value与f-score的关系情况的问题。 1.0r 表1不同聚类方法的p-value,f-score,accuracy 0.9 Table 1 The p-value,f-score,accuracy of different clus- 0.8 ter algorithms 数据算法 p-value f-score accuracy 0.6 Random 0.456254 1.134140 0.380000 0.5 0.4 P Hierarchical 0.100548 1.656570 0.666667 0 Iris Clustering 0.2 04 0.6 08 p-value DBSCAN 0.042825 2.7144000.906667 (b)p-value与accuracy的关系 k-means 0.042751 2.655840 0.886667 图1Iris数据集p-value与f~score和accuracy的关系 Random 0.5595881.095420 0.410112 Fig.1 The relationship between p-value and f-score, Hierarchical accuracy of iris dataset 0.0015741.666460 0.657303 Wine Clustering DBSCAN1.892991e-052.8337500.943820 2.58 k-means1.818384e-052.832200 0.943820 Random 0.6881451.0782600.357198 2.0 0 Hierarchical 0.0038710.835371 0.360277 1.5 Yeast Clustering DBSCAn 0.0007111.304800 0.434950 1.0 ×10 0 5 k-means7.544556e-051.881950 0.480370 p-value (a)p-value与f-score的关系

算出更为精确ｐ ⁃ｖａｌｕｅ的目的，在效率上有了非常大的飞跃。４实验实验选取了ｉｒｉｓ、ｗｉｎｅ和ｙｅａｓｔ等３个数据集。这３个数据集都来自ＵＣＩ数据库［１５］。ｉｒｉｓ、ｗｉｎｅ和ｙｅａｓｔ数据集的属性都是数值型的，并且这３个数据集都带有类标签。４．１利用ｐ ⁃ｖａｌｕｅ选择合适的聚类算法从聚类这个概念提出以来出现了很多聚类算法。对于一个具体的应用，选择合适的聚类算法是一个很重要的问题。本文认为对于同一个数据集用不同的算法聚类，ｐ ⁃ｖａｌｕｅ小的那个结果更为可靠。为此本文对同一数据集选用多种算法聚类来验证ｐ ⁃ｖａｌｕｅ对选择聚类算法的有效性。实验结果如表１。从实验结果可以看出，对于同一数据集ｐ ⁃ｖａｌｕｅ小的聚类算法对应的ｆ ⁃ｓｃｏｒｅ和ａｃｃｕｒａｃｙ比较大。这说明利用ｐ ⁃ｖａｌｕｅ选择聚类算法是可靠的。本文还计算了ｐ ⁃ｖａｌｕｅ与ｆ ⁃ｓｃｏｒｅ和ａｃｃｕｒａｃｙ的相关系数。本文用ｋ⁃ｍｅａｎｓ对同一数据集聚类１００次。通过控制ｋ⁃ｍｅａｎｓ的迭代次数来控制划分的质量。这样就避免了正常ｋ⁃ｍｅａｎｓ聚类只会出现若干个固定情况的问题。表１不同聚类方法的ｐ ⁃ｖａｌｕｅ，ｆ ⁃ｓｃｏｒｅ，ａｃｃｕｒａｃｙＴａｂｌｅ１Ｔｈｅｐ ⁃ｖａｌｕｅ，ｆ ⁃ｓｃｏｒｅ，ａｃｃｕｒａｃｙｏｆｄｉｆｆｅｒｅｎｔｃｌｕｓ⁃ ｔｅｒａｌｇｏｒｉｔｈｍｓ数据算法ｐ⁃ｖａｌｕｅｆ⁃ｓｃｏｒｅａｃｃｕｒａｃｙＩｒｉｓＲａｎｄｏｍ０．４５６２５４１．１３４１４００．３８００００ＨｉｅｒａｒｃｈｉｃａｌＣｌｕｓｔｅｒｉｎｇ０．１００５４８１．６５６５７００．６６６６６７ＤＢＳＣＡＮ０．０４２８２５２．７１４４０００．９０６６６７ｋ⁃ｍｅａｎｓ０．０４２７５１２．６５５８４００．８８６６６７ＷｉｎｅＲａｎｄｏｍ０．５５９５８８１．０９５４２００．４１０１１２ＨｉｅｒａｒｃｈｉｃａｌＣｌｕｓｔｅｒｉｎｇ０．００１５７４１．６６６４６００．６５７３０３ＤＢＳＣＡＮ１．８９２９９１ｅ⁃０５２．８３３７５００．９４３８２０ｋ⁃ｍｅａｎｓ１．８１８３８４ｅ⁃０５２．８３２２０００．９４３８２０ＹｅａｓｔＲａｎｄｏｍ０．６８８１４５１．０７８２６００．３５７１９８ＨｉｅｒａｒｃｈｉｃａｌＣｌｕｓｔｅｒｉｎｇ０．００３８７１０．８３５３７１０．３６０２７７ＤＢＳＣＡＮ０．０００７１１１．３０４８０００．４３４９５０ｋ⁃ｍｅａｎｓ７．５４４５５６ｅ⁃０５１．８８１９５００．４８０３７０针对ｉｒｉｓ数据集，利用ＥＣＰ计算出的ｐ ⁃ｖａｌｕｅ与ｆ ⁃ｓｃｏｒｅ的相关系数为－０．５７８０１８，与ａｃｃｕｒａｃｙ的相关系数为－０．６９９３３１。具体的结果如图１。针对ｗｉｎｅ数据集，利用ＥＣＰ计算得到的ｐ ⁃ｖａｌｕｅ与ｆ ⁃ ｓｃｏｒｅ的相系数为－０．５３５７３４，与ａｃｃｕｒａｃｙ的相关系数为－０．５３８７５４。具体的结果为图２。对于ｙｅａｓｔ数据集，利用ＥＣＰ计算得到的ｐ ⁃ｖａｌｕｅ与ｆ ⁃ｓｃｏｒｅ的相关系数为－０．５００３４０，与ａｃｃｕｒａｃｙ的相关系数为－０．１６７３２５。具体结果为图３。从实验结果可以看出用本文方法算出来的ｐ ⁃ ｖａｌｕｅ是可靠的。需要注意的是ｙｅａｓｔ的数据集簇结构比较明显，聚类的结果比较集中。（ａ）ｐ⁃ｖａｌｕｅ与ｆ⁃ｓｃｏｒｅ的关系（ｂ）ｐ⁃ｖａｌｕｅ与ａｃｃｕｒａｃｙ的关系图１Ｉｒｉｓ数据集ｐ⁃ｖａｌｕｅ与ｆ⁃ｓｃｏｒｅ和ａｃｃｕｒａｃｙ的关系Ｆｉｇ．１Ｔｈｅｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｐ⁃ｖａｌｕｅａｎｄｆ⁃ｓｃｏｒｅ，ａｃｃｕｒａｃｙｏｆｉｒｉｓｄａｔａｓｅｔ（ａ）ｐ⁃ｖａｌｕｅ与ｆ⁃ｓｃｏｒｅ的关系第３期谷飞洋，等：基于置换检验的聚类结果评估 ·３０５·

点击进入文档下载页（PDF格式）

共9页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录