当前位置：和泉文库 > 电气与自动化 > 浏览文档

【知识工程】基于知识粒度的不完备决策表的属性约简算法编辑部

文件格式：PDF，文件大小：851.87KB，售价：2.73元

文档详细内容（约7页）

第11卷第1期智能系统学报 Vol.11 No.1 2016年2月 CAAI Transactions on Intelligent Systems Feh.2016 D0I:10.11992/is.201506029 网络出版地址：htp:/www.cmki.net/kcms/detail/23.1538.TP.20151229.0837.020.html 基于知识粒度的不完备决策表的属性约简算法乔丽娟，2，徐章艳2，谢小军12，朱金虎，2，陈晓飞2，李娟 (1.广西师范大学广西多源信息挖掘与安全重点实验室，广西桂林541004：2.广西师范大学计算机科学与信息工程学院，广西桂林541004) 摘要：知识粒度是属性约简的有效方法，但对于大型的决策表，计算知识粒度过于费时，算法效率不高。在引入粒度差别矩阵后，设计了一个计算粒度差别矩阵中条件属性出现频率的函数，有效地降低粒度差别矩阵的存储空间，根据此函数设计了一个高效属性约简算法。新算法使得时间复杂度与空间复杂度都降为O(K1C1IU1)(其中 K=max{ITc(x)I,xeU}和O(IU1)。最后通过实例仿真说明了此算法的高效性和可行性。关键词：属性约简：知识粒度：不完全决策表：条件属性频率：差别矩阵：启发信息中图分类号：TP18文献标志码：A文章编号：1673-4785(2016)01-0129-07 中文引用格式：乔丽娟，徐章艳，谢小军，等.基于知识粒度的不完备决策表的属性约简算法[J].智能系统学报，2016,11(1)：129 135. 英文引用格式：QIAO Lijuan,XU Zhangyan,XIE Xiaojun,etal.Efficient attribute reduction algorithm for an incomplete decision table based on knowledge granulation[J].CAAI Transactions on Intelligent Systems,2016,11(1):129-135. Efficient attribute reduction algorithm for an incomplete decision table based on knowledge granulation QIAO Lijuan'.2,XU Zhangyan'.2,XIE Xiaojun'.2,ZHU Jinhu'.2,CHEN Xiaofei2,LI Juan 2 (1.Guangxi Key Laboratory of Multi-source Information Mining Security,Guangxi Normal University,Guilin 541004,China; 2.College of Computer Science and Information Technology,Guangxi Normal University,Guilin 541004,China) Abstract:The use of knowledge granularity is an effective attribute reduction approach.But for a large decision ta- ble,computing knowledge granularity is so time-consuming that the algorithm is not efficient for practical use.After the introduction of the discernibility matrix of granularity,a function was designed for calculating the occurrence frequency of condition attributes in the matrix.In this paper,we design an efficient attribute reduction algorithm based on the granularity discernibility matrix.The new algorithm reduces the time and space complexities to 0(KI CIIUI)(K=maxTe(x)1,U)and 0(IUI),respectively.The results from our simulation example verify that the proposed algorithm is feasible and highly efficient. Keywords:attribute reduction;knowledge granularity;incomplete decision table;condition attribute frequency; discernibility matrix;heuristic information 波兰的数学家Pawlak在20世纪80年代提出粗糙集理论的重要研究内容，已被广大学者所研究，的粗糙集是一种新型的用来处理不完全、不精确与提出了围绕完备决策表的属性约简算法，但是现实不相容的数学工具和理论2]。经过了30多年的研生活中的数据往往存在误差，缺失及多源等特征。究和发展，粗糙集理论已在知识发现、数据挖掘、模如何对不完备决策表进行直接处理，已成为粗糙集式识别等领域得到了大量应用34。属性约简作为理论的一个研究热点[4。近年来针对不完备决策表的研究也取得了显著的进步，已有学者提出很多收稿日期：2015-06-16.网络出版日期：2015-12-29. 基金项目：国家自然科学基金资助项目(61262004,61363034,60963008)：有效的不完备决策表属性约简算法[s。知识粒广西自然科学基金资助项目(2011 GXNSFA018163):大学生创新资助项目(201410602099). 度[2]作为粗糙集理论中度量属性约简的重要方通信作者：乔丽娟.E-mail:347671379@qg-com. 法之一，被广泛运用于不完备属性约简算法。文献

第１１卷第１期智能系统学报Ｖｏｌ．１１ №．１２０１６年２月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＦｅｂ．２０１６ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１５０６０２９网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１５１２２９．０８３７．０２０．ｈｔｍｌ基于知识粒度的不完备决策表的属性约简算法乔丽娟１，２，徐章艳１，２，谢小军１，２，朱金虎１，２，陈晓飞２，李娟２（１．广西师范大学广西多源信息挖掘与安全重点实验室，广西桂林５４１００４；２．广西师范大学计算机科学与信息工程学院，广西桂林５４１００４）摘要：知识粒度是属性约简的有效方法，但对于大型的决策表，计算知识粒度过于费时，算法效率不高。在引入粒度差别矩阵后，设计了一个计算粒度差别矩阵中条件属性出现频率的函数，有效地降低粒度差别矩阵的存储空间，根据此函数设计了一个高效属性约简算法。新算法使得时间复杂度与空间复杂度都降为Ｏ（Ｋ｜Ｃ｜｜Ｕ｜）（其中Ｋ＝ｍａｘ｛｜Ｔｃ（ｘｉ）｜，ｘｉ∈Ｕ｝和Ｏ（｜Ｕ｜）。最后通过实例仿真说明了此算法的高效性和可行性。关键词：属性约简；知识粒度；不完全决策表；条件属性频率；差别矩阵；启发信息中图分类号：ＴＰ１８文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１６）０１⁃０１２９⁃０７中文引用格式：乔丽娟，徐章艳，谢小军，等．基于知识粒度的不完备决策表的属性约简算法［Ｊ］．智能系统学报，２０１６，１１（１）：１２９⁃ １３５．英文引用格式：ＱＩＡＯＬｉｊｕａｎ，ＸＵＺｈａｎｇｙａｎ，ＸＩＥＸｉａｏｊｕｎ，ｅｔａｌ．Ｅｆｆｉｃｉｅｎｔａｔｔｒｉｂｕｔｅｒｅｄｕｃｔｉｏｎａｌｇｏｒｉｔｈｍｆｏｒａｎｉｎｃｏｍｐｌｅｔｅｄｅｃｉｓｉｏｎｔａｂｌｅｂａｓｅｄｏｎｋｎｏｗｌｅｄｇｅｇｒａｎｕｌａｔｉｏｎ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１６，１１（１）：１２９⁃１３５．ＥｆｆｉｃｉｅｎｔａｔｔｒｉｂｕｔｅｒｅｄｕｃｔｉｏｎａｌｇｏｒｉｔｈｍｆｏｒａｎｉｎｃｏｍｐｌｅｔｅｄｅｃｉｓｉｏｎｔａｂｌｅｂａｓｅｄｏｎｋｎｏｗｌｅｄｇｅｇｒａｎｕｌａｔｉｏｎＱＩＡＯＬｉｊｕａｎ１，２，ＸＵＺｈａｎｇｙａｎ１，２，ＸＩＥＸｉａｏｊｕｎ１，２，ＺＨＵＪｉｎｈｕ１，２，ＣＨＥＮＸｉａｏｆｅｉ２，ＬＩＪｕａｎ２（１．ＧｕａｎｇｘｉＫｅｙＬａｂｏｒａｔｏｒｙｏｆＭｕｌｔｉ⁃ｓｏｕｒｃｅＩｎｆｏｒｍａｔｉｏｎＭｉｎｉｎｇ＆Ｓｅｃｕｒｉｔｙ，ＧｕａｎｇｘｉＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ｇｕｉｌｉｎ５４１００４，Ｃｈｉｎａ；２．ＣｏｌｌｅｇｅｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ，ＧｕａｎｇｘｉＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ｇｕｉｌｉｎ５４１００４，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｈｅｕｓｅｏｆｋｎｏｗｌｅｄｇｅｇｒａｎｕｌａｒｉｔｙｉｓａｎｅｆｆｅｃｔｉｖｅａｔｔｒｉｂｕｔｅｒｅｄｕｃｔｉｏｎａｐｐｒｏａｃｈ．Ｂｕｔｆｏｒａｌａｒｇｅｄｅｃｉｓｉｏｎｔａ⁃ ｂｌｅ，ｃｏｍｐｕｔｉｎｇｋｎｏｗｌｅｄｇｅｇｒａｎｕｌａｒｉｔｙｉｓｓｏｔｉｍｅ⁃ｃｏｎｓｕｍｉｎｇｔｈａｔｔｈｅａｌｇｏｒｉｔｈｍｉｓｎｏｔｅｆｆｉｃｉｅｎｔｆｏｒｐｒａｃｔｉｃａｌｕｓｅ．Ａｆｔｅｒｔｈｅｉｎｔｒｏｄｕｃｔｉｏｎｏｆｔｈｅｄｉｓｃｅｒｎｉｂｉｌｉｔｙｍａｔｒｉｘｏｆｇｒａｎｕｌａｒｉｔｙ，ａｆｕｎｃｔｉｏｎｗａｓｄｅｓｉｇｎｅｄｆｏｒｃａｌｃｕｌａｔｉｎｇｔｈｅｏｃｃｕｒｒｅｎｃｅｆｒｅｑｕｅｎｃｙｏｆｃｏｎｄｉｔｉｏｎａｔｔｒｉｂｕｔｅｓｉｎｔｈｅｍａｔｒｉｘ．Ｉｎｔｈｉｓｐａｐｅｒ，ｗｅｄｅｓｉｇｎａｎｅｆｆｉｃｉｅｎｔａｔｔｒｉｂｕｔｅｒｅｄｕｃｔｉｏｎａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｔｈｅｇｒａｎｕｌａｒｉｔｙｄｉｓｃｅｒｎｉｂｉｌｉｔｙｍａｔｒｉｘ．ＴｈｅｎｅｗａｌｇｏｒｉｔｈｍｒｅｄｕｃｅｓｔｈｅｔｉｍｅａｎｄｓｐａｃｅｃｏｍｐｌｅｘｉｔｉｅｓｔｏＯ（Ｋ｜Ｃ｜｜Ｕ｜）（Ｋ＝ｍａｘ｛｜Ｔｃ（ｘｉ）｜，ｘｉ∈Ｕ｝）ａｎｄＯ（｜Ｕ｜），ｒｅｓｐｅｃｔｉｖｅｌｙ．Ｔｈｅｒｅｓｕｌｔｓｆｒｏｍｏｕｒｓｉｍｕｌａｔｉｏｎｅｘａｍｐｌｅｖｅｒｉｆｙｔｈａｔｔｈｅｐｒｏｐｏｓｅｄａｌｇｏｒｉｔｈｍｉｓｆｅａｓｉｂｌｅａｎｄｈｉｇｈｌｙｅｆｆｉｃｉｅｎｔ．Ｋｅｙｗｏｒｄｓ：ａｔｔｒｉｂｕｔｅｒｅｄｕｃｔｉｏｎ；ｋｎｏｗｌｅｄｇｅｇｒａｎｕｌａｒｉｔｙ；ｉｎｃｏｍｐｌｅｔｅｄｅｃｉｓｉｏｎｔａｂｌｅ；ｃｏｎｄｉｔｉｏｎａｔｔｒｉｂｕｔｅｆｒｅｑｕｅｎｃｙ；ｄｉｓｃｅｒｎｉｂｉｌｉｔｙｍａｔｒｉｘ；ｈｅｕｒｉｓｔｉｃｉｎｆｏｒｍａｔｉｏｎ收稿日期：２０１５⁃０６⁃１６．网络出版日期：２０１５⁃１２⁃２９．基金项目：国家自然科学基金资助项目（６１２６２００４，６１３６３０３４，６０９６３００８）；广西自然科学基金资助项目（２０１１ＧＸＮＳＦＡ０１８１６３）；大学生创新资助项目（２０１４１０６０２０９９）．通信作者：乔丽娟．Ｅ⁃ｍａｉｌ：３４７６７１３７９＠ｑｑ．ｃｏｍ．波兰的数学家Ｐａｗｌａｋ在２０世纪８０年代提出的粗糙集是一种新型的用来处理不完全、不精确与不相容的数学工具和理论［１⁃２］。经过了３０多年的研究和发展，粗糙集理论已在知识发现、数据挖掘、模式识别等领域得到了大量应用［３⁃４］。属性约简作为粗糙集理论的重要研究内容，已被广大学者所研究，提出了围绕完备决策表的属性约简算法，但是现实生活中的数据往往存在误差，缺失及多源等特征。如何对不完备决策表进行直接处理，已成为粗糙集理论的一个研究热点［４］。近年来针对不完备决策表的研究也取得了显著的进步，已有学者提出很多有效的不完备决策表属性约简算法［５⁃１１］。知识粒度［１２⁃１３］作为粗糙集理论中度量属性约简的重要方法之一，被广泛运用于不完备属性约简算法。文献

·130· 智能系统学报第11卷 [5]以属性重要性为启发信息，设计了一个基于知定义316在不完备决策表S=(U,C,D,V,f) 识粒度的属性约简算法[)：文献[6]通过不断向核中，知识BCC的知识粒度定义为GD(B)= 属性集中添加属性的方法，设计出一种基于相对知识粒度的不完备决策表属性约简算法[6]：文献[7] ∑1T(x)1.其中U={x1,x…,x,1KI表定义了一个粒度差别矩阵，进而设计了基于知识粒示集合X的基数.显然有CD(☑)=0。度的不完备决策表的属性约简算法[)，其时间复杂性质16]设S=(U,C,D,V,)是一个不完备度为max{O(1C121U11UI),0(1K11C1U1)},其信息系统，知识BCC的知识粒度定义为GD(B),则中K=max{ITc(x:)1,x:∈U},其空间复杂度为 1/IU川≤GD(B)≤1。 max{O(1C11U11UI),O(1U1)};文献[8]给出了性质21]设S=(U,C,D,V,)是一个不完备一个计算条件属性频率的公式，设计一个基于知识信息系统，其中P,QCC,如果Hi∈{1,2，…，IU1} 粒度的属性约简算法[8)；文献[9]设计了一种基于有T(x:)CT(x),则GD(P)≤GD(Q)。对象矩阵的属性约简算法[9]：文献[11]提出简化差知识粒度可以描述知识的区分能力，知识粒度别矩阵定义，设计了一种快速的属性约简算法[川：越小，其区分能力越强，反之区分能力越弱) 文献[12]中根据区分对象对集的思想，设计了基于定义4)在不完备决策表S=(U,C,D,V,f) 正区域的属性约简算法[四：文献[13]根据粒计算的中，知识B(BCC)是C关于D的一个知识粒度的思想构建了粒矩阵，在此基础上，设计了属性约简算属性约简，当且仅当B满足条件：法。文献[14]在粒计算属性约简算法的基础上进 1)GD(B)=GD(C); 行了改进，得到一个新的算法。上述算法大多因为 2)Hb∈B→GD((B-{b}))≠GD(C). 要多次计算知识粒度，导致计算效率都不太理想，为定义51在不完备决策表S=(U,C,D,V,f) 此设计出基于知识粒度的高效属性约简算法具有非中，HBCC,U/D={D1,D2,…,Dx}表示由决策属性常重要的现实意义[]。集D对论域U的划分，称POSc(D)=UC_(D:) D:EU/D 差别矩阵作为粗糙集理论的重要技术之一，被为C关于D的正区域，设条件属性对论域的划分为广泛应用，但是求解差别矩阵费时，本文引入了基于 U/C=I[xa]e,[x2],,[x],U=xI[x]. 粒度的差别矩阵，利用条件属性在区分对象时出现 POSc(D),U=U- 频率的属性约简思想，设计一个基于粒度差别矩阵计算属性频率的启发函数。 2粒度差别矩阵相关概念 1粗糙集基本概念定义6 设在一个不完备决策表 S=(U,C,D,V)中，U=UUUes,定义粒度差别矩定义1)五元组S=(U,C,D,V,)是一个不阵M=(m(i,),其元素定义如下：完备决策表，其中U={x1,x2,…,xn}表示对象的非 [{cIc}eC,fx,c)≠*Af八x,c)≠*A 空有限集合，称为论域；C={c1,C2,…,cm}表示条件 f(x:,c)≠fx,c)fx,D)≠f八x,D) 属性的非空有限集合：D表示决策属性的非空有限集合，且CnD=O;V=UV.,V.是属性a的值域；且x:和x一个在U,一个在U中； m(i,j)= acCUD f:UXCUD-→V是一个信息函数，它对一个对象的每 f(x,c)≠*Afx,c)≠*A 一个属性赋予一个信息值，即VaeCUD,xeU,有 f(x,c)≠f八，ce)且x:,x在U中} fx,a)∈Vao 0:其他在五元组中，如果至少有一个属性a∈C,使得式中：k=1,2,…,ro V。包含空值（用*表示），即至少有一个属性a∈U, 定义7】设M=(m(i,j))为不完备决策表存在一个a∈U,使得f(x,a)=*,称之为不完备决 S=(U,C,D,V,f)的粒度差别矩阵，HBCC,若B满策表。足：定义2)在不完备决策表s=(U,C,D,V,) 1)H☑≠m(i,j)∈M,有Bnm(i,j)≠0：中，令BCC,定义U上的容差关系T(B)为 2)Ha∈B,B'=B-a均不满足(1)。 T(B)=(x,y)EUXUIYbEBI ,f(x,b)=f(y,b)V 则称B是C关于D的一个属性约简，此约简记 f(x,b)=*Vf八y,b)=*}。用T(x)表示在B中与为基于粒度差别矩阵的属性约简。 x具有容差关系的全体对象集{y∈UI(x,y)∈ 定理1在不完备决策表S=(U,C,D,V,f)中， T(B)}。有Rc=UR1alo

［５］以属性重要性为启发信息，设计了一个基于知识粒度的属性约简算法［５］；文献［６］通过不断向核属性集中添加属性的方法，设计出一种基于相对知识粒度的不完备决策表属性约简算法［６］；文献［７］定义了一个粒度差别矩阵，进而设计了基于知识粒度的不完备决策表的属性约简算法［７］，其时间复杂度为ｍａｘ｛Ｏ（｜Ｃ｜２｜Ｕ｜｜Ｕｐｏｓ｜），Ｏ（｜Ｋ｜｜Ｃ｜Ｕ｜）｝，其中Ｋ＝ｍａｘ｛｜ＴＣ（ｘｉ）｜，ｘｉ ∈Ｕ｝，其空间复杂度为ｍａｘ｛Ｏ（｜Ｃ｜｜Ｕ｜｜Ｕｐｏｓ｜），Ｏ（｜Ｕ｜）｝；文献［８］给出了一个计算条件属性频率的公式，设计一个基于知识粒度的属性约简算法［８］；文献［９］设计了一种基于对象矩阵的属性约简算法［９］；文献［１１］提出简化差别矩阵定义，设计了一种快速的属性约简算法［１１］；文献［１２］中根据区分对象对集的思想，设计了基于正区域的属性约简算法［１２］；文献［１３］根据粒计算的思想构建了粒矩阵，在此基础上，设计了属性约简算法。文献［１４］在粒计算属性约简算法的基础上进行了改进，得到一个新的算法。上述算法大多因为要多次计算知识粒度，导致计算效率都不太理想，为此设计出基于知识粒度的高效属性约简算法具有非常重要的现实意义［５］。差别矩阵作为粗糙集理论的重要技术之一，被广泛应用，但是求解差别矩阵费时，本文引入了基于粒度的差别矩阵，利用条件属性在区分对象时出现频率的属性约简思想，设计一个基于粒度差别矩阵计算属性频率的启发函数。１粗糙集基本概念定义１［３］五元组Ｓ＝（Ｕ，Ｃ，Ｄ，Ｖ，ｆ）是一个不完备决策表，其中Ｕ＝｛ｘ１，ｘ２，…，ｘｎ｝表示对象的非空有限集合，称为论域；Ｃ＝｛ｃ１，ｃ２，…，ｃｍ｝表示条件属性的非空有限集合；Ｄ表示决策属性的非空有限集合，且Ｃ∩Ｄ＝⌀；Ｖ＝ ∪ａ∈Ｃ∪ＤＶａ，Ｖａ是属性ａ的值域；ｆ：Ｕ×Ｃ∪Ｄ→Ｖ是一个信息函数，它对一个对象的每一个属性赋予一个信息值，即∀ａ∈Ｃ∪Ｄ，ｘ∈Ｕ，有ｆ（ｘ，ａ）∈Ｖａ。在五元组中，如果至少有一个属性ａ∈Ｃ，使得Ｖａ包含空值（用∗表示），即至少有一个属性ａ∈Ｕ，存在一个ａ∈Ｕ，使得ｆ（ｘ，ａ）＝ ∗，称之为不完备决策表。定义２［３］在不完备决策表ｓ＝（Ｕ，Ｃ，Ｄ，Ｖ，ｆ）中，令Ｂ ⊆ Ｃ，定义Ｕ上的容差关系Ｔ（Ｂ）为Ｔ（Ｂ）＝｛（ｘ，ｙ）∈Ｕ×Ｕ｜ ∀ｂ∈Ｂ｝，ｆ（ｘ，ｂ）＝ｆ（ｙ，ｂ）∨ ｆ（ｘ，ｂ）＝ ∗∨ｆ（ｙ，ｂ）＝ ∗｝。用ＴＢ（ｘ）表示在Ｂ中与ｘ具有容差关系的全体对象集｛ｙ ∈ Ｕ｜（ｘ，ｙ） ∈ Ｔ（Ｂ）｝。定义３［１６］在不完备决策表Ｓ＝（Ｕ，Ｃ，Ｄ，Ｖ，ｆ）中，知识Ｂ ⊆ Ｃ的知识粒度定义为ＧＤ（Ｂ）＝１｜Ｕ｜２∑ ｎｉ＝１｜ＴＢ（ｘｉ）｜．其中Ｕ＝｛ｘ１，ｘ２，…，ｘｎ｝，｜Ｘ｜表示集合Ｘ的基数．显然有ＣＤ（⌀）＝０。性质１［１６］设Ｓ＝（Ｕ，Ｃ，Ｄ，Ｖ，ｆ）是一个不完备信息系统，知识Ｂ⊆Ｃ的知识粒度定义为ＧＤ（Ｂ），则１／｜Ｕ｜≤ＧＤ（Ｂ）≤１。性质２［１６］设Ｓ＝（Ｕ，Ｃ，Ｄ，Ｖ，ｆ）是一个不完备信息系统，其中Ｐ，Ｑ⊆Ｃ，如果∀ｉ∈｛１，２，…，｜Ｕ｜｝有ＴＰ（ｘｉ）⊆ＴＱ（ｘｉ），则ＧＤ（Ｐ）≤ＧＤ（Ｑ）。知识粒度可以描述知识的区分能力，知识粒度越小，其区分能力越强，反之区分能力越弱［５］。定义４［５］在不完备决策表Ｓ＝（Ｕ，Ｃ，Ｄ，Ｖ，ｆ）中，知识Ｂ（Ｂ⊆Ｃ）是Ｃ关于Ｄ的一个知识粒度的属性约简，当且仅当Ｂ满足条件：１）ＧＤ（Ｂ）＝ＧＤ（Ｃ）；２）∀ｂ∈Ｂ⇒ＧＤ（（Ｂ－｛ｂ｝））≠ＧＤ（Ｃ）。定义５［７］在不完备决策表Ｓ＝（Ｕ，Ｃ，Ｄ，Ｖ，ｆ）中，∀Ｂ⊆Ｃ，Ｕ／Ｄ＝｛Ｄ１，Ｄ２，…，ＤＫ｝表示由决策属性集Ｄ对论域Ｕ的划分，称ＰＯＳＣ（Ｄ）＝ ∪Ｄｉ∈Ｕ／ＤＣ＿（Ｄｉ）为Ｃ关于Ｄ的正区域，设条件属性对论域的划分为Ｕ／Ｃ＝｛［ｘｉ１］ｃ，［ｘｉ２］ｃ，…，［ｘｉｋ］ｃ｝，Ｕｐｏｓ＝｛ｘｉｊ｜［ｘｉｊ］ｃ⊆ ＰＯＳＣ（Ｄ）｝，Ｕｎｅｇ＝Ｕ－Ｕｐｏｓ。２粒度差别矩阵相关概念定义６［１１］设在一个不完备决策表Ｓ＝（Ｕ，Ｃ，Ｄ，Ｖ，ｆ）中，Ｕ＝Ｕｐｏｓ∪Ｕｎｅｇ，定义粒度差别矩阵Ｍ＝（ｍ（ｉ，ｊ）），其元素定义如下：ｍ（ｉ，ｊ）＝｛ｃｋ｜ｃｋ｝∈ Ｃ，ｆ（ｘｉ，ｃｋ） ≠ ∗∧ ｆ（ｘｊ，ｃｋ） ≠∗∧ ｆ（ｘｉ，ｃｋ） ≠ ｆ（ｘｊ，ｃｋ），ｆ（ｘｉ，Ｄ） ≠ ｆ（ｘｊ，Ｄ）且ｘｉ和ｘｊ一个在Ｕｐｏｓ，一个在Ｕｎｅｇ中；ｆ（ｘｉ，ｃｋ） ≠ ∗ ∧ ｆ（ｘｊ，ｃｋ） ≠ ∗ ∧ ｆ（ｘｉ，ｃｋ） ≠ ｆ（ｘｊ，ｃｋ）且ｘｉ，ｘｊ在Ｕｐｏｓ中｝ ⌀；其他 ì î í ï ï ï ï ï ï ï ï 式中：ｋ＝１，２，…，ｒ。定义７［７］设Ｍ＝（ｍ（ｉ，ｊ））为不完备决策表Ｓ＝（Ｕ，Ｃ，Ｄ，Ｖ，ｆ）的粒度差别矩阵，∀Ｂ⊆Ｃ，若Ｂ满足：１）∀⌀≠ｍ（ｉ，ｊ）∈Ｍ，有Ｂ∩ｍ（ｉ，ｊ）≠⌀；２）∀ａ∈Ｂ，Ｂ′＝Ｂ－｛ａ｝均不满足（１）。则称Ｂ是Ｃ关于Ｄ的一个属性约简，此约简记为基于粒度差别矩阵的属性约简。定理１在不完备决策表Ｓ＝（Ｕ，Ｃ，Ｄ，Ｖ，ｆ）中，有ＲＣ＝ ∪ａ∈ＣＲ｛ａ｝。 ·１３０· 智能系统学报第１１卷

第1期乔丽娟，等：基于知识粒度的不完备决策表的属性约简算法 ·131· 证明由定义1知：命题显然成立。证明由粒度差别矩阵的定义知，计算A,/a} 定理2】基于知识粒度的属性约简定义与基 ={A1,A2,…,At}产生的条件属性频率，可分两部于粒度差别矩阵的属性约简定义是等价的。分计算，一种是对象都在U中；另一种是一个在定理2说明基于知识粒度的属性约简可以转化 U中，而另一个在U中的。到粒度差别矩阵上进行。 1)若两个对象都在U中，由划分的定义知，在针对不完备决策表，文献[7]中给出了一个基同一个划分集合里的两个对象值相等，即只有不同于粒度差别矩阵的属性约简算法，其时间复杂度为划分集合里才有可能产生有效区分对象的条件属 max{O(IC121UIIU1),O(K1U1ICI)}。算法对性。则只有不同划分集合的U之间才能产生条件粒度差别矩阵进行遍历，若只包含一个条件属性就属性频率；若两个对象都在U中，产生的条件属性将其放入属性约简中，并去掉差别矩阵中任何含有该条件属性的差别元素，直至差别矩阵为空。该算频率为N,二，品，Pos,Po,任意两个划分集合都可产生，因为在正域之间产生的差别矩阵的元素是对法虽然有效降低了时间复杂度，但是构造粒度差别称的，故条件属性频率为2N1。矩阵仍然需要占用大量的空间，对于处理大型数据 2)若一个对象在U中，另一个对象在U中，集仍然具有一定的难度。由划分的定义知，同属一个集合里的两个对象值相经分析，算法中在粒度差别矩阵中出现的条件等，即只有不同划分集合里才有可能产生条件属性属性才是能区分对象的条件属性，由于构造粒度差别矩阵耗费空间，参考文献[16]的方法，设计一种频率，且U和U之间要求决策值不同，故需要对计算粒度差别矩阵中含有的条件属性频率的函数，每个划分集合里属于U的集合对D划分，同时属于U的集合也对D划分。所以，Neg/D划分集合然后给出计算该函数的快速算法，无须构造粒度差别矩阵就可以将其中能有效区分对象的条件属性找里每个集合与pos,/D划分集合里对于决策属性在不同划分集合里就能产生条件属性频率。出，以降低算法的时间和空间复杂度。为了方便叙述，假设将A:{b}所有集合中属于 3计算属性频率的启发函数正域的所有集合对D划分pos,/D存放在一个矩阵中，矩阵的行表示每一个非空集合对D的划分，矩定理3在决策表S=(U,C,D,V,)中，BCC, 阵的列表示决策值相同的集合，生成的矩阵为 U/B={A1,A2,…,A},A/{a}={Aa,A2,…,A法}， Ag=pos,UNeg,U=UUU,其中pos,=AgnU Du Du DiDm Neg=Ag∩pos,/D={Da,Da,…,Dn},Neg/D= D2 …Dg…Dm 1D,D,,D。令=lps/D1=是m1D,1 D= Da (4) Ipos,I,则所有集合中属于正域的集合对D划分 D Dap pos/D总和为S=,三S=,名1posl,所有集合中属于正域的所有集合对D划分pos,/D中决策值相同 Da Da DADA 集合总数为T=,品D。同理，将A:{b}所有集合中属于负域的所有集合对D划分Neg/D存放在另一个矩阵中，生成的根据定义6，粒度差别矩阵中包含的条件属性可由两部分产生，设对象都在U里产生的条件属矩阵为性的个数为N,则 D DD N,=∑pos;pos9 (1) 1i<j运k Da D2D 两个对象一个在U中，另一个在U中，产生 D= (5) 的条件属性频率为N2,则 D … D Da V2= D(S-S:-T;+Di) (2) 1写i≤k,1写0 计算条件属性的频率函数1F(U,a)1如下： D… Dy … Fa(U,a)=￡(2N+W) 从这两个矩阵中可以看出，D:只能与式(4)矩即Fs(U,a)=-∑(2∑Pos,Pos,+ 阵中与其不同行不同列的集合产生条件属性频率，为了求得所有条件属性频率且不重复计算，在式 ∑D,(s-S-T,+Dg) (3) (4)矩阵中，定义任一行的和，即S=Ipos,/D1=

证明由定义１知：命题显然成立。定理２［７］基于知识粒度的属性约简定义与基于粒度差别矩阵的属性约简定义是等价的。定理２说明基于知识粒度的属性约简可以转化到粒度差别矩阵上进行。针对不完备决策表，文献［７］中给出了一个基于粒度差别矩阵的属性约简算法，其时间复杂度为ｍａｘ｛Ｏ（｜Ｃ｜２｜Ｕｐｏｓ｜｜Ｕ｜），Ｏ（Ｋ｜Ｕ｜｜Ｃ｜）｝。算法对粒度差别矩阵进行遍历，若只包含一个条件属性就将其放入属性约简中，并去掉差别矩阵中任何含有该条件属性的差别元素，直至差别矩阵为空。该算法虽然有效降低了时间复杂度，但是构造粒度差别矩阵仍然需要占用大量的空间，对于处理大型数据集仍然具有一定的难度。经分析，算法中在粒度差别矩阵中出现的条件属性才是能区分对象的条件属性，由于构造粒度差别矩阵耗费空间，参考文献［１６］的方法，设计一种计算粒度差别矩阵中含有的条件属性频率的函数，然后给出计算该函数的快速算法，无须构造粒度差别矩阵就可以将其中能有效区分对象的条件属性找出，以降低算法的时间和空间复杂度。３计算属性频率的启发函数定理３在决策表Ｓ＝（Ｕ，Ｃ，Ｄ，Ｖ，ｆ）中，Ｂ⊆Ｃ，Ｕ／Ｂ＝｛Ａ１，Ａ２，…，Ａｌ｝，Ａｉ／｛ａ｝＝｛Ａｉ１，Ａｉ２，…，Ａｉｋ｝，Ａｉｊ＝ｐｏｓｉ∪Ｎｅｇｊ，Ｕ＝Ｕｐｏｓ∪Ｕｎｅｇ，其中ｐｏｓｉ＝Ａｉｊ∩Ｕｐｏｓ，Ｎｅｇｊ＝Ａｉｊ∩Ｕｎｅｇ，ｐｏｓｉ／Ｄ＝｛Ｄｉ１，Ｄｉ２，…，ＤｉＤ｝，Ｎｅｇｊ／Ｄ＝｛Ｄ－ｊ１，Ｄ－ｊ２，…，Ｄ－ｊＤ｝。令ｓｉ＝｜ｐｏｓｉ／Ｄ｜＝ ∑１≤ｊ≤｜Ｄ｜｜Ｄｉｊ｜＝｜ｐｏｓｉ｜，则所有集合中属于正域的集合对Ｄ划分ｐｏｓｉ／Ｄ总和为Ｓ＝ ∑１≤ｉ≤ｋＳ＝ ∑１≤ｉ≤ｋ｜ｐｏｓｉ｜，所有集合中属于正域的所有集合对Ｄ划分ｐｏｓｉ／Ｄ中决策值相同集合总数为Ｔｊ＝ ∑１≤ｉ≤ｋＤｉｊ。根据定义６，粒度差别矩阵中包含的条件属性可由两部分产生，设对象都在Ｕｐｏｓ里产生的条件属性的个数为Ｎ１，则Ｎ１＝１≤∑ｉ＜ｊ≤ｋｐｏｓｉｐｏｓｊ（１）两个对象一个在Ｕｐｏｓ中，另一个在Ｕｎｅｇ中，产生的条件属性频率为Ｎ２，则Ｎ２＝１≤ｉ≤∑ｋ，１≤ｊ≤｜Ｄ｜Ｄ－ｉｊ（Ｓ－Ｓｉ－Ｔｊ＋Ｄｉｊ）（２）计算条件属性的频率函数｜ＦＢ（Ｕ，ａ）｜如下：ＦＢ（Ｕ，ａ）＝ ∑１≤ｉ≤ｌ（２Ｎ１＋Ｎ２），即ＦＢ（Ｕ，ａ）＝１∑≤ｉ≤ｌ（２１≤∑ｉ≤ｊ≤ｋＰｏｓｉＰｏｓｊ＋１≤ｉ≤∑ｋ，１≤ｊ≤｜Ｄ｜Ｄ－ｉｊ（Ｓ－Ｓｉ－Ｔｊ＋Ｄｉｊ））（３）证明由粒度差别矩阵的定义知，计算Ａｉ／｛ａ｝＝｛Ａｉ１，Ａｉ２，…，Ａｉｋ｝产生的条件属性频率，可分两部分计算，一种是对象都在Ｕｐｏｓ中；另一种是一个在Ｕｐｏｓ中，而另一个在Ｕｎｅｇ中的。１）若两个对象都在Ｕｐｏｓ中，由划分的定义知，在同一个划分集合里的两个对象值相等，即只有不同划分集合里才有可能产生有效区分对象的条件属性。则只有不同划分集合的Ｕｐｏｓ之间才能产生条件属性频率；若两个对象都在Ｕｐｏｓ中，产生的条件属性频率为Ｎ１＝ ∑１≤ｉ＜ｊ≤ｋｐｏｓｉｐｏｓｊ，任意两个划分集合都可产生，因为在正域之间产生的差别矩阵的元素是对称的，故条件属性频率为２Ｎ１。２）若一个对象在Ｕｐｏｓ中，另一个对象在Ｕｎｅｇ中，由划分的定义知，同属一个集合里的两个对象值相等，即只有不同划分集合里才有可能产生条件属性频率，且Ｕｐｏｓ和Ｕｎｅｇ之间要求决策值不同，故需要对每个划分集合里属于Ｕｐｏｓ的集合对Ｄ划分，同时属于Ｕｎｅｇ的集合也对Ｄ划分。所以，Ｎｅｇｊ／Ｄ划分集合里每个集合与ｐｏｓｉ／Ｄ划分集合里对于决策属性在不同划分集合里就能产生条件属性频率。为了方便叙述，假设将Ａｉ｛ｂ｝所有集合中属于正域的所有集合对Ｄ划分ｐｏｓｉ／Ｄ存放在一个矩阵中，矩阵的行表示每一个非空集合对Ｄ的划分，矩阵的列表示决策值相同的集合，生成的矩阵为Ｄ＝Ｄ１１ … Ｄ１ｊ … Ｄ１｜Ｄ｜Ｄ２１ … Ｄ２ｊ … Ｄ２｜Ｄ｜ ︙ ︙ Ｄｉ１ … Ｄｉｊ … Ｄｉ｜Ｄ｜ ︙ ︙ Ｄｋ１ … Ｄｋｊ … Ｄｋ｜Ｄ｜ é ë ê ê ê ê ê ê ê êê ù û ú ú ú ú ú ú ú úú （４）同理，将Ａｉ｛ｂ｝所有集合中属于负域的所有集合对Ｄ划分Ｎｅｇｊ／Ｄ存放在另一个矩阵中，生成的矩阵为Ｄ＝Ｄ－１１ … Ｄ－１ｊ … Ｄ－１｜Ｄ｜Ｄ－２１ … Ｄ－２ｊ … Ｄ－２｜Ｄ｜ ︙ ︙ Ｄ－ｉ１ … Ｄ－ｉｊ … Ｄ－ｉ｜Ｄ｜ ︙ ︙ Ｄ－ｋ１ … Ｄ－ｋｊ … Ｄ－ｋ｜Ｄ｜ é ë ê ê ê ê ê ê ê ê ê ê ù û ú ú ú ú ú ú ú ú ú ú （５）从这两个矩阵中可以看出，Ｄ－ｉｊ只能与式（４）矩阵中与其不同行不同列的集合产生条件属性频率，为了求得所有条件属性频率且不重复计算，在式（４）矩阵中，定义任一行的和，即Ｓｉ＝｜ｐｏｓｉ／Ｄ｜＝第１期乔丽娟，等：基于知识粒度的不完备决策表的属性约简算法 ·１３１·

.132. 智能系统学报第11卷 1名D,=osl,则所有行的总和S=品S。 Neg(i=1,2,…,k)中。并计算两个对象都在U中定义任一列的和：T=,∑D 写k 产生的条件属性频率X,则N,,品Pos,Po。则若两个对象一个在U中，另一个在U中， b)计算每个非空队列中pos/D={D1,D2,…, 产生的条件属性颜率=1ee品D(S-S,-了+ Dn},Neg/D={D,D2,…,D},则在正域矩阵 D,)。故F。(U,a)=,三，(2N+W,)表示简化决策表中S=pos/D1=1名mD,l,S=AS,所有集合中 110川属于正域的所有集合对D划分pOs/D中决策值相中所有对象相对于条件属性集B产生的条件属性频率的总个数，证明完毕。同集合总数为T=,品D。一个对象在U中，一个根据定义6可知，只有属性值不同且不为缺省在U,中，产生的条件属性总率为N16e品值的才能包含条件属性，所以在本文的所有算法中， D(S-S:-T+D,),产生的条件属性总频率为对象U对属性a的划分，将含有缺省值的放在划分 IF (U,b)I=2N+N2; 的最后一个集合里，不予处理。 3)输出U/(AU{b}),条件属性总频率数 4属性约简算法 1F,(U.b)I。算法时间空间复杂度分析：算法2中1)的时间首先，对不完备决策系统中的对象进行划分。复杂度忽略不计，2)①的时间复杂度为O(1A:I),设算法1论域U对属性a的划分 pos:/1b}={A,A2,…,Ak},则2)②a时间复杂度输入不完备决策表S=(U,C,D,V,f),C= 为0(A)(j=1,2,…,k),2)②b时间复杂度为0 {a1,a2,…,am},U={x1,x2,…,x1u} (A:),即2)②时间复杂度为0(1A,I),2)时间复杂输出U/a={A1,A2,…,A,} 度0(1AI)+0(1A21)+…+0(1A:I)≤0(1U1)。故 1)t=1;A,={x:}; 算法2的最坏时间复杂度为O(1U1),同理可得最坏 2)for(j=2:j<lU1+1:j++)。空间复杂度为O(1U1)。若任一条件属性a∈C(i=1,2,…,1C1)均有算法3以条件属性的频率为启发信息的属性 f(x:,a:)=f(,a:)≠*，则A,=A,U{x};否则t= 约简算法 t+1;A,={x};(其中在此求划分时*单独放到输入不完备决策表S=(U,C,D,V,f),C= 一块)。 (c1,C2,…,cm）,U={x1,x2,…,xn}; 3)输出U/a={A1,A2,…,A,}。输出属性约简Red(C)。算法1中，1)、3)时间复杂度忽略不计，2)的时 1)由文献[11]求出容差类T.(x:)(x:∈U), 间复杂度为O(1U1),则算法2的时间复杂度是0 (1U1),空间复杂度为O(1U川) U,U计算知识粒度1GD(c)1=店1T.(x)1/ 算法2求条件属性频率的函数 1U12,令IKI=GD(c:): 输入U/A={A1,A2,…,A,},条件属性的最大 2)将K按从小到大运用快速排序方法得到值和最小值分别标记为M。,m6; 1Kal≤1K2l≤…≤IKmI,它们对应的属性为c, 输出U/(AU{b}),条件属性频率函数IF ca,…,cm令Red(C)={ca}; (U,b)1; 3)for(k=2,k<m+1;k++) 1)IF(U,b)I=0,U/(AU{b})=O: 由算法3计算；lF(U,c-))川 2)对VA:={x1,x2,…,x}∈U/A,以静态链表为 i(IFa(U,c-n)I≠0) 存储空间，依次放入对象x1,x2,…,x;令表头指针 Red(C)=Red(C)UCi(-1); 指向x; 4)输出属性约简Red(C)。 ①建立M。-m,+2空队列，令front[k]和end[k] 算法正确性分析：若1Fa(U,c-)1=0,即当 (k=0,1,2,…,M。-m6+1)分别为第k个队列的头指前属性不能将两个对象区分开，则RRdu1e4=RRd, 针和尾指针，将链表中的对象x∈A,按链表中的次则由算法3知，当输出约简Red(C)时，有Rc=Rdo 序分配到第f(x,b)-m,个队列中去，将链表中的对由定理2知，算法3求出的属性约简就是基于知识象值为*的对象分配到*队列中。粒度的属性约简。 ②对除*队列的每个非空队列作如下处理：算法时间复杂度分析：算法3的1)由文献[11] a)将非空队列中属于U的对象放入知时间复杂度为O(K1CI1U1)(其中K= pos,(i=0,1,2,…,k)中，属于U的对象放入 max{1T.(x:)1,x:∈U}),空间复杂度为0(101)

∑１≤ｊ≤｜Ｄ｜｜Ｄｉｊ｜＝｜ｐｏｓｉ｜，则所有行的总和Ｓ＝ ∑１≤ｉ≤ｋＳｉ。定义任一列的和：Ｔｊ＝ ∑１≤ｉ≤ｋＤｉｊ。则若两个对象一个在Ｕｐｏｓ中，另一个在Ｕｎｅｇ中，产生的条件属性频率Ｎ２＝ ∑ １≤ｉ≤｜Ｄ｜，１≤ｊ≤ｋＤ－（Ｓ－Ｓｉ－Ｔｊ＋Ｄｉｊ）。故ＦＢ（Ｕ，ａ）＝ ∑１≤ｉ≤ｌ（２Ｎ１＋Ｎ２）表示简化决策表中所有对象相对于条件属性集Ｂ产生的条件属性频率的总个数，证明完毕。根据定义６可知，只有属性值不同且不为缺省值的才能包含条件属性，所以在本文的所有算法中，对象Ｕ对属性ａ的划分，将含有缺省值的放在划分的最后一个集合里，不予处理。４属性约简算法首先，对不完备决策系统中的对象进行划分。算法１论域Ｕ对属性ａ的划分输入不完备决策表Ｓ＝（Ｕ，Ｃ，Ｄ，Ｖ，ｆ），Ｃ＝｛ａ１，ａ２，…，ａｍ｝，Ｕ＝｛ｘ１，ｘ２，…，ｘ｜Ｕ｜｝输出Ｕ／ａ＝｛Ａ１，Ａ２，…，Ａｔ｝１）ｔ＝１；Ａｔ＝｛ｘｉ｝；２）ｆｏｒ（ｊ＝２；ｊ＜｜Ｕ｜＋１；ｊ＋＋）。若任一条件属性ａｉ∈Ｃ（ｉ＝１，２，…，｜Ｃ｜）均有ｆ（ｘｉ，ａｉ）＝ｆ（ｘｊ，ａｉ） ≠ ∗，则Ａｔ＝Ａｔ∪｛ｘｊ｝；否则ｔ＝ｔ＋１；Ａｔ＝｛ｘｊ｝；（其中在此求划分时 ∗ 单独放到一块）。３）输出Ｕ／ａ＝｛Ａ１，Ａ２，…，Ａｔ｝。算法１中，１）、３）时间复杂度忽略不计，２）的时间复杂度为Ｏ（｜Ｕ｜），则算法２的时间复杂度是Ｏ（｜Ｕ｜），空间复杂度为Ｏ（｜Ｕ｜）。算法２求条件属性频率的函数输入Ｕ／Ａ＝｛Ａ１，Ａ２，…，Ａｔ｝，条件属性的最大值和最小值分别标记为Ｍｂ，ｍｂ；输出Ｕ／（Ａ∪｛ｂ｝），条件属性频率函数｜Ｆａ（Ｕ，ｂ）｜；１）｜ＦＡ（Ｕ，ｂ）｜＝０，Ｕ／（Ａ∪｛ｂ｝）＝ ⌀；２）对∀Ａｉ＝｛ｘ１，ｘ２，…，ｘｊ｝∈Ｕ／Ａ，以静态链表为存储空间，依次放入对象ｘ１，ｘ２，…，ｘｊ；令表头指针指向ｘｉ； ①建立Ｍｂ－ｍｂ＋２空队列，令ｆｒｏｎｔ［ｋ］和ｅｎｄ［ｋ］（ｋ＝０，１，２，…，Ｍｂ－ｍｂ＋１）分别为第ｋ个队列的头指针和尾指针，将链表中的对象ｘ∈Ａｉ按链表中的次序分配到第ｆ（ｘ，ｂ）－ｍｂ个队列中去，将链表中的对象值为∗的对象分配到∗队列中。 ②对除∗队列的每个非空队列作如下处理：ａ）将非空队列中属于Ｕｐｏｓ的对象放入ｐｏｓｉ（ｉ＝０，１，２，…，ｋ）中，属于Ｕｎｅｇ的对象放入Ｎｅｇｉ（ｉ＝１，２，…，ｋ）中。并计算两个对象都在Ｕｐｏｓ中产生的条件属性频率Ｎ１，则Ｎ１＝ ∑１≤ｉ＜ｊ≤ｋｐｏｓｉｐｏｓｊ。ｂ）计算每个非空队列中ｐｏｓｊ／Ｄ＝｛Ｄｊ１，Ｄｊ２，…，Ｄｊ｜Ｄ｜｝，Ｎｅｇｊ／Ｄ＝｛Ｄｊ１，Ｄｊ２，…，Ｄｊ｜Ｄ｜｝，则在正域矩阵中Ｓｉ＝｜ｐｏｓｉ／Ｄ｜＝ ∑１≤ｊ≤｜Ｄ｜｜Ｄｉｊ｜，Ｓ＝ ∑１≤ｉ≤ｋＳｉ所有集合中属于正域的所有集合对Ｄ划分ｐｏｓｊ／Ｄ中决策值相同集合总数为Ｔｊ＝ ∑１≤ｉ≤ｋＤｉｊ。一个对象在Ｕｐｏｓ中，一个在Ｕｎｅｇ中，产生的条件属性总频率为Ｎ２＝ ∑ １≤ｉ≤｜Ｄ｜，１≤ｊ≤ｋＤ－ｉｊ（Ｓ－Ｓｉ－Ｔｊ＋Ｄｉｊ），产生的条件属性总频率为｜ＦＡ（Ｕ，ｂ）｜＝２Ｎ１＋Ｎ２；３）输出Ｕ／（Ａ ∪ ｛ｂ｝），条件属性总频率数｜ＦＡ（Ｕ，ｂ）｜。算法时间空间复杂度分析：算法２中１）的时间复杂度忽略不计，２）①的时间复杂度为Ｏ（｜Ａｉ｜），设ｐｏｓｉ／｛ｂ｝＝｛Ａｉ１，Ａｉ２，…，Ａｉｋ｝，则２） ②ａ时间复杂度为Ｏ（Ａｉｊ）（ｊ＝１，２，…，ｋ），２） ②ｂ时间复杂度为Ｏ（Ａｉｊ），即２）②时间复杂度为Ｏ（｜Ａｉ｜），２）时间复杂度Ｏ（｜Ａｉ｜）＋Ｏ（｜Ａ２｜）＋…＋Ｏ（｜Ａｉ｜）≤Ｏ（｜Ｕ｜）。故算法２的最坏时间复杂度为Ｏ（｜Ｕ｜），同理可得最坏空间复杂度为Ｏ（｜Ｕ｜）。算法３以条件属性的频率为启发信息的属性约简算法输入不完备决策表Ｓ＝（Ｕ，Ｃ，Ｄ，Ｖ，ｆ），Ｃ＝（ｃ１，ｃ２，…，ｃｍ），Ｕ＝｛ｘ１，ｘ２，…，ｘｎ｝；输出属性约简Ｒｅｄ（Ｃ）。１）由文献［１１］求出容差类Ｔｃｉ（ｘｉ）（ｘｉ ∈Ｕ），Ｕｐｏｓ，Ｕｎｅｇ计算知识粒度｜ＧＤ（ｃｉ）｜＝ ∑ ｎｉ＝１｜Ｔｃｉ（ｘｉ）｜／｜Ｕ｜２，令｜Ｋｉ｜＝ＧＤ（ｃｉ）；２）将Ｋｉ按从小到大运用快速排序方法得到｜Ｋｉ１｜≤｜Ｋｉ２｜ ≤…≤ ｜Ｋｉｍ｜，它们对应的属性为ｃｉ１，ｃｉ２，…，ｃｉｍ令Ｒｅｄ（Ｃ）＝｛ｃｉ１｝；３）ｆｏｒ（ｋ＝２，ｋ＜ｍ＋１；ｋ＋＋）由算法３计算；｜Ｆｒｅｄ（Ｕ，ｃｉ（ｋ－１））｜ｉｆ（｜ＦＲｅｄ（Ｕ，ｃｉ（ｋ－１）））｜ ≠ ０）Ｒｅｄ（Ｃ）＝Ｒｅｄ（Ｃ） ∪ ｛ｃｉ（ｋ－１）｝；４）输出属性约简Ｒｅｄ（Ｃ）。算法正确性分析：若｜ＦＲｅｄ（Ｕ，ｃｉ（ｋ－１））｜＝０，即当前属性不能将两个对象区分开，则ＲＲｅｄ∪｛ｃｉｋ｝＝ＲＲｅｄ，则由算法３知，当输出约简Ｒｅｄ（Ｃ）时，有ＲＣ＝ＲＲｅｄ。由定理２知，算法３求出的属性约简就是基于知识粒度的属性约简。算法时间复杂度分析：算法３的１）由文献［１１］知时间复杂度为Ｏ（Ｋ｜Ｃ｜｜Ｕ｜）（其中Ｋ＝ｍａｘ｛｜Ｔｃ（ｘｉ）｜，ｘｉ ∈Ｕ｝），空间复杂度为Ｏ（｜Ｕ｜）。 ·１３２· 智能系统学报第１１卷

２）的时间复杂度为Ｏ（｜Ｃ｜）＋Ｏ（｜Ｕ｜），空间复杂度为Ｏ（｜Ｕ｜）（由算法１的复杂度分析可得）。３）的时间复杂度为Ｏ（｜Ｃ｜｜Ｕ｜），空间复杂度为Ｏ（｜Ｕ｜）。故算法３的时间复杂度为Ｏ（Ｋ｜Ｃ｜｜Ｕ｜）（其中Ｋ＝ｍａｘ｛｜ＴＣ（ｘｉ）｜，ｘｉ∈Ｕ｝，空间复杂度为Ｏ（｜Ｕ｜）。５实例分析为了证明算法的可行性，以文献［１６］中的不完备决策表１为例子进行相应说明。表１不完备决策表Ｔａｂｌｅ１Ｔｈｅｔａｂｌｅｏｆｉｎｃｏｍｐｌｅｔｅｄｅｃｉｓｉｏｎｃａｒｐｒｉｃｅｍｉｌｅａｇｅｓｉｚｅｍａｘ⁃ｓｐｅｅｄｃｏｎｃｌｕｓｉｏｎｘ１ｈｉｇｈｈｉｇｈｆｕｌｌｌｏｗｇｏｏｄｘ２ｌｏｗ ∗ ｆｕｌｌｌｏｗｇｏｏｄｘ３ ∗ ∗ ｃｏｍｐａｃｔｈｉｇｈｐｏｏｒｘ４ｈｉｇｈ ∗ ｆｕｌｌｈｉｇｈｇｏｏｄｘ５ ∗ ∗ ｆｕｌｌｈｉｇｈｅｘｃｅｌｘ６ｌｏｗｈｉｇｈｆｕｌｌ ∗ ｇｏｏｄ为方便计算，将属性值从左至右简记为Ｐ、Ｍ、Ｓ、Ｘ，则该表的条件属性为Ｃ＝｛Ｐ，Ｍ，Ｓ，Ｘ｝。由算法３１）求得各属性的知识粒度分别是：｜Ｋ１｜＝ＧＤ（Ｐ）＝（４＋４＋６＋４＋６＋４）／３６＝２８／３６；｜Ｋ２｜＝ＧＤ（Ｍ）＝（６＋６＋６＋６＋６＋６）／３６＝３６／３６；｜Ｋ３｜＝ＧＤ（Ｓ）＝（５＋５＋５＋５＋５＋１）／３６＝２６／３６；｜Ｋ３｜＝ＧＤ（Ｘ）＝（３＋３＋４＋４＋４＋６）／３６＝２４／３６；Ｕｐｏｓ＝｛ｘ１，ｘ２，ｘ３｝，Ｕｎｅｇ＝｛ｘ４，ｘ５，ｘ６｝由２）排序｜Ｋ４｜≤｜Ｋ３｜≤｜Ｋ１｜≤｜Ｋ２｜，他们对应的属性为Ｘ、Ｓ、Ｐ、Ｍ，则有Ｒｅｄ（Ｃ）＝｛Ｘ｝，ＲＣ＝⌀。由３）计算｜Ｆ⌀（Ｕ，Ｘ）｜＝６，计算的｜ＦＸ（Ｕ，Ｓ）｜＝６，计算的｜Ｆ｛Ｘ，Ｓ｝（Ｕ，Ｐ）｜＝１，计算的｜Ｆ｛Ｘ，Ｓ，Ｐ｝｛Ｕ，Ｍ｝｜＝０，算法结束，输出约简Ｒｅｄ（Ｃ）＝｛Ｘ，Ｓ，Ｐ｝。由算法２求｜ＦＲｅｄ（Ｘ）｜。输入Ｕ／ ⌀＝｛ｘ１，ｘ２，ｘ３，ｘ４，ｘ５，ｘ６｝由算法２，２）的２） ①对Ａ１＝｛ｘ１，ｘ２，ｘ３，ｘ４，ｘ５，ｘ６｝求得：ｆｒｏｎｔ［１］→ｘ１→ｘ２→ｅｎｄ［１］；ｆｒｏｎｔ［２］→ｘ３→ｘ４→ｘ５→ｅｎｄ［２］；ｆｒｏｎｔ［∗］→ｘ６→ｅｎｄ［∗］；对第１个非空队列有ｐｏｓ１＝｛ｘ１，ｘ２｝，Ｎｅｇ１＝⌀；对第２个非空队列ｐｏｓ２＝｛ｘ３｝，Ｎｅｇ２＝｛ｘ４，ｘ５｝，则Ｎ１＝ ∑１≤ｉ≤ｊ≤２ｐｏｓｉｐｏｓｊ＝｜ｐｏｓ１｜∗｜ｐｏｓ２｜＝２∗１＝２。由算法２，２）的 ② 计算每个非空队列中的ｐｏｓｉ／Ｄ。Ｄ１１＝｛ｘ１，ｘ２｝，Ｄ１２＝ ⌀，Ｄ１３＝ ⌀，Ｄ２１＝ ⌀，Ｄ２２＝｛ｘ３｝，Ｄ２３＝ ⌀，则Ｓ１＝｜ｐｏｓ１／Ｄ｜＝１∑≤ｉ≤３｜Ｄｉ１｜＝２＋０＋０＝２Ｓ２＝｜ｐｏｓ２／Ｄ｜＝１∑≤ｉ≤３｜Ｄｉ１｜＝０＋１＋０＝１Ｓ＝１∑≤ｉ≤ｋＳｉ＝Ｓ１＋Ｓ２＝２＋１＝３Ｔ１＝１≤ｉ≤∑３，１≤ｊ≤２Ｄｉｊ＝２＋０＝２Ｔ２＝１≤ｉ≤∑３，１≤ｊ≤２Ｄｉｊ＝０＋１＝１Ｔ３＝１≤ｉ≤∑３，１≤ｊ≤２Ｄｉｊ＝０＋０＝０每个非空队列中的Ｎｅｇｉ／Ｄ：Ｄ－１１＝ ⌀，Ｄ－１２＝ ⌀，Ｄ－１３＝ ⌀，Ｄ－２１＝｛ｘ４｝，Ｄ－２２＝ ⌀，Ｄ－２３＝｛ｘ５｝Ｄ＝２０００１０ é ë ê ê ù û ú ú ，Ｄ－＝０００１０１ é ë ê ê ù û ú ú Ｎ２＝ ∑ １≤ｉ≤３，１≤ｊ≤２Ｄ－ｉｊ（Ｓ－Ｓｉ－Ｔｊ＋Ｄｉｊ）＝０∗（３－２－２＋２）＋０∗ （３－２－１＋１）＋０∗（３－２－０＋０）＋１∗（３－１－２＋０）＋０∗ （３－１－１＋１）＋１∗（３－１－０＋０）＝１∗２＝２对Ａ∗ ＝｛ｘ６｝，因Ａ∗ 不能区分对象，故无需计算。故｜Ｆ⌀（Ｕ，Ｘ）｜＝２Ｎ１＋Ｎ２＝２∗２＋２＝６，求｜ＦＸ（Ｕ，Ｓ）｜。输入Ｕ／（Ｘ）＝｛｛ｘ１，ｘ２｝，｛ｘ３，ｘ４，ｘ５｝｝由算法２２）的①对Ａ１＝｛ｘ１，ｘ２｝求得ｆｒｏｎｔ［１］ →ｘ１→ｘ２→ｅｎｄ［１］；对其划分有ｐｏｓ１＝｛ｘ１，ｘ２｝，Ｎｅｇ１＝⌀；易知，｜ＦＸ（Ｕ，Ｓ）｜１＝０，对Ａ２＝｛ｘ３，ｘ４，ｘ５｝求得ｆｒｏｎｔ［１］→ｘ３→ｅｎｄ［１］；ｆｒｏｎｔ［２］→ｘ４→ｘ５→ｅｎｄ［２］；对第１个非空队列有ｐｏｓ１＝｛ｘ３｝，Ｎｅｇ１＝⌀；对第２个非空队列ｐｏｓ２＝⌀，Ｎｅｇ２＝｛ｘ４，ｘ５｝，则Ｎ１１≤∑ｉ＜ｊ≤２ｐｏｓｉｐｏｓｊ＝１∗０＝０，对决策属性划分后得Ｄ＝０１００００ é ë ê ê ù û ú ú ，Ｄ－＝０００１０１ é ë ê ê ù û ú ú 易知Ｎ２＝０＋０＋０＋１∗３＋０＋１∗３＝６｜ＦＸ（Ｕ，Ｓ）｜２＝２Ｎ１＋Ｎ２＝０＋６＝６｜ＦＸ（Ｕ，Ｓ）｜＝｜ＦＸ（Ｕ，Ｓ）｜１＋｜ＦＸ（Ｕ，Ｓ）｜２＝６输入Ｕ／（Ｘ∪（｛Ｓ｝）＝｛｛ｘ１，ｘ２｝，｛ｘ３｝，｛ｘ４，ｘ５｝由算法２的２）①对Ａ１＝｛ｘ１，ｘ２｝求得ｆｒｏｎｔ［１］→ｘ１→ｅｎｄ［１］；ｆｒｏｎｔ［２］→ｘ２→ｅｎｄ［２］；对第１个非空队列有ｐｏｓ１＝｛ｘ１｝，Ｎｅｇ１＝⌀；对第２个非空队列ｐｏｓ２＝｛ｘ２｝，Ｎｅｇ２＝⌀。则Ｎ１＝１≤∑ｉ≤ｊ≤２ｐｏｓｉｐｏｓｊ＝１∗１＝１易知Ｎ２＝０，第１期乔丽娟，等：基于知识粒度的不完备决策表的属性约简算法 ·１３３·

点击进入文档下载页（PDF格式）

共7页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录