第12卷第3期 智能系统学报 Vol.12 No.3 2017年6月 CAAI Transactions on Intelligent Systems Jun.2017 D0I:10.11992/is.21704025 网络出版地址:http:/kns.cmki.net/kcms/detail/23.1538.TP.20170703.1853.010.html 广义分布保持属性约简研究 高学义12,张楠2,童向荣12,姜丽丽12 (1.烟台大学数据科学与智能技术山东省高校重,点实验室,山东烟台264005:2.烟台大学计算机与控制工程学 院,山东烟台264005) 摘要:属性约简是粗糙集理论的重要研究内容之一。分布约简保证约简前后每个对象的概率分布保持不变,即保 证每条规则的置信度在约简前后不发生改变。实际应用中,人们往往更加关注可信度较高或较低的规则。因此,在 本文中引入了广义分布保持属性约简,该属性约简可以保证规则的置信度P(P∈[0,α]或[B,1])在约简前后不变。 同时,给出了广义分布保持属性约简的判定方法与基于差别矩阵的广义分布保持属性约简算法,深入讨论了几种特 殊情形下的广义分布保持约简。最后,在4个UCI数据集上进行的实验分析表明,几种特殊情形下的广义分布保持 属性约简可退化为已有的一些属性约简,且在不同置信区间下求得的广义分布保持属性约简存在包含关系,验证了 相关结论的正确性。 关键词:分布保持:属性约简:粗糙集:概率分布:差别矩阵 中图分类号:TP181文献标志码:A文章编号:1673-4785(2017)03-0377-09 中文引用格式:高学义,张楠,童向荣,等.广义分布保持属性约简研究[J].智能系统学报,2017,12(3):377-385 英文引用格式:GAO Xueyi,ZHANG Nan,TONG Xiangrong,etat.Research on attribute reduction using generalized distribution preservation[J].CAAI transactions on intelligent systems,2017,12(3):377-385. Research on attribute reduction using generalized distribution preservation GAO Xueyi2,ZHANG Nan'2,TONG Xiangrong'2,JIANG Lili2 (1.Key Lab for Data Science and Intelligent Technology of Shandong Higher Education Institutes,Yantai University,Yantai 264005, China;2.School of Computer and Control Engineering,Yantai University,Yantai 264005,China) Abstract:Attribute reduction is a pertinent issue in rough set theory.Distribution reduction ensures that the probability distribution of each target does not change before and after reduction;i.e.,it ensures that the confidence of every rule remains unchanged before and after reduction.In actual applications,people are often interested in rules that have higher or lower confidences.Thus,attribute reduction based on generalized distribution preservation is proposed in this paper.Confidences in [0,a]or [B,1]were unchanged using the proposed technique.We also propose judgment methods for generalized-distribution-preservation attribute reduction and investigate the generalized attribute-reduction algorithm based on a discernibility matrix.Some special cases with respect to generalized-distribution-preservation attribute reduction are discussed in depth.Finally,experiments on four data sets downloaded from UCI show that some special cases with respect to generalized distribution preservation reduction could degenerate into some existing attribute reductions and inclusion relations exist in generalized distribution preservation attribute reduction under different confidence intervals,verifying the correctness of the relevant conclusions. Keywords:distribution preservation;attribute reduction;rough sets;probability distribution;discernibility matrix 粗糙集理论是由波兰学者Pawlak教授于1982 年提出的一种用于处理和分析不确定、不精确数据 的数学方法与工具[1-]。目前,粗糙集理论在机器 收稿日期:2017-04-19.网络出版日期:2017-07-03. 基金项目:国家自然科学基金项目(61403329,61572418,61502410. 学习、决策分析、模式识别、数据挖掘和智能信息处 61572419):山东省自然科学基金项目(ZR2013FQ020, 理等领域得到了广泛应用。 ZR2015PF010):山东省高等学校科技计划项目(J15LN09 116LN17). 属性约简或知识约简是粗糙集理论的重要研 通信作者:张楠.E-mail:zhangnane0851@163.com
第 12 卷第 3 期 智 能 系 统 学 报 Vol.12 №.3 2017 年 6 月 CAAI Transactions on Intelligent Systems Jun. 2017 DOI:10.11992 / tis. 21704025 网络出版地址:http: / / kns.cnki.net / kcms/ detail / 23.1538.TP.20170703.1853.010.html 广义分布保持属性约简研究 高学义1,2 ,张楠1,2 ,童向荣1,2 ,姜丽丽1,2 (1. 烟台大学 数据科学与智能技术山东省高校重点实验室,山东 烟台 264005; 2. 烟台大学 计算机与控制工程学 院,山东 烟台 264005) 摘 要:属性约简是粗糙集理论的重要研究内容之一。 分布约简保证约简前后每个对象的概率分布保持不变,即保 证每条规则的置信度在约简前后不发生改变。 实际应用中,人们往往更加关注可信度较高或较低的规则。 因此,在 本文中引入了广义分布保持属性约简,该属性约简可以保证规则的置信度 P(P∈[0,α]或[ β,1])在约简前后不变。 同时,给出了广义分布保持属性约简的判定方法与基于差别矩阵的广义分布保持属性约简算法,深入讨论了几种特 殊情形下的广义分布保持约简。 最后,在 4 个 UCI 数据集上进行的实验分析表明,几种特殊情形下的广义分布保持 属性约简可退化为已有的一些属性约简,且在不同置信区间下求得的广义分布保持属性约简存在包含关系,验证了 相关结论的正确性。 关键词:分布保持;属性约简;粗糙集;概率分布;差别矩阵 中图分类号:TP181 文献标志码:A 文章编号:1673-4785(2017)03-0377-09 中文引用格式:高学义,张楠,童向荣,等.广义分布保持属性约简研究[J]. 智能系统学报, 2017, 12(3): 377-385. 英文引用格式:GAO Xueyi,ZHANG Nan,TONG Xiangrong,et at. Research on attribute reduction using generalized distribution preservation[J]. CAAI transactions on intelligent systems, 2017, 12(3): 377-385. Research on attribute reduction using generalized distribution preservation GAO Xueyi 1,2 , ZHANG Nan 1,2 , TONG Xiangrong 1,2 , JIANG Lili 1,2 (1.Key Lab for Data Science and Intelligent Technology of Shandong Higher Education Institutes, Yantai University, Yantai 264005, China; 2. School of Computer and Control Engineering, Yantai University, Yantai 264005, China) Abstract:Attribute reduction is a pertinent issue in rough set theory. Distribution reduction ensures that the probability distribution of each target does not change before and after reduction; i.e., it ensures that the confidence of every rule remains unchanged before and after reduction. In actual applications, people are often interested in rules that have higher or lower confidences. Thus, attribute reduction based on generalized distribution preservation is proposed in this paper. Confidences in [0, α] or [β, 1] were unchanged using the proposed technique. We also propose judgment methods for generalized⁃distribution⁃preservation attribute reduction and investigate the generalized attribute⁃reduction algorithm based on a discernibility matrix. Some special cases with respect to generalized⁃distribution⁃preservation attribute reduction are discussed in depth. Finally, experiments on four data sets downloaded from UCI show that some special cases with respect to generalized distribution preservation reduction could degenerate into some existing attribute reductions and inclusion relations exist in generalized distribution preservation attribute reduction under different confidence intervals, verifying the correctness of the relevant conclusions. Keywords: distribution preservation; attribute reduction; rough sets; probability distribution; discernibility matrix 收稿日期:2017-04-19. 网络出版日期:2017-07-03. 基金项目:国家自然科学基金项目( 61403329, 61572418, 61502410, 61572419);山 东 省 自 然 科 学 基 金 项 目 ( ZR2013FQ020, ZR2015PF 010);山东省高等学校科技计划项目( J15LN09, 116LN17). 通信作者:张楠.E⁃mail:zhangnan0851@ 163.com. 粗糙集理论是由波兰学者 Pawlak 教授于 1982 年提出的一种用于处理和分析不确定、不精确数据 的数学方法与工具[1-4] 。 目前,粗糙集理论在机器 学习、决策分析、模式识别、数据挖掘和智能信息处 理等领域得到了广泛应用。 属性约简或知识约简是粗糙集理论的重要研
·378 智能系统学报 第12卷 究内容之一,其本质是获取保持知识库某种分类能 (P(D[u:]),P(D2[u:]),P(Du:])). 力在约简前后不发生改变的最小属性子集描述,国 其中,P(D|[]4)=|D,n[u,]4l/八[u:]al,ie{1, 内外学者做了大量的相关研究工作。1992年, 2,…,nj∈{1,2,…,|U/Dl}o SkowrontS)提出了差别矩阵的概念,为获取信息系统 定义2设决策表DT=(U,ATUD,V,f),U= 或决策表的所有约简或最小约简提供了理论基础: {41,山2,…,un},U/D={D1,D2,…,D1wom},记d为 1998年,Kryszkiewicz讨论了基于差别矩阵的不完 D,对应的决策值,则Hu:∈U,A二AT,u:在A下关于 备信息系统广义决策保持属性约简问题:2003年, 决策属性D的[α,B]决策-置信度序偶集定义为 张文修等)给出了分布约简和分配约简的差别矩 Y(u:)=(d,P(DI[u:])> 阵约简方法,并提出了最大分布约简;2007年,徐伟 a≤P(Dl[山:]a)≤BAa≤P(Dl[u:]Ar)≤B吲 华等[劉给出了优势关系下基于差别矩阵的分布约 式中:i∈{1,2,…,n}j∈{1,2,…,U/D},a和B 简和最大分布约简:2009年,苗夺谦等[提出了不 满足(a=0∧Be[0,1])或(a∈[0,1]∧B=1)。 可分辨关系保持属性约简和相应的差别矩阵构造 根据定义2,若对于Vu∈U,均满足Ya(u)= 方法:2010年,张楠等10讨论了区间值信息系统下 Y:(u),则称A是广义分布协调集。若A是广义 的属性约简问题。为了提高属性约简的算法效率, 分布协调集,且A的任意子集不是广义分布协调 多种启发式属性约简算法相继被提出。1999年,苗 集,则称A为广义分布保持约简。据此,给出广义 夺谦等山从信息论的角度给出了属性重要度的度 分布保持约简的形式化定义如下。 量方法,在此基础上提出了基于互信息的启发式约 定义3给定决策表DT=(U,ATUD,V,f), 简算法:2002年,王国胤等1提出了基于条件信息 U={山1,山2,…,山n},VACAT,若A是一个广义分布 嫡的启发式属性约简算法:2010年,钱宇华等1)提 保持约简,当且仅当以下两个条件成立: 出了正向近似的基本概念并将其应用于启发式属 1)YuU,Y (u)=Y (u); 性约简的构造过程,提高了属性约简的计算效率: 2)HBCA,YAa(u)≠Y(w)。 2011年,钱宇华等[4-s1进一步将正向近似应用于不 式中:a和B满足(a=0八B∈[0,1])或(a∈[0,1]A 完备决策表的启发式属性约简,改善了不完备决策 B=1),i,je{1,2,…,n}。 表下启发式属性约简的求取效率:陈红梅等[16-17)]在 由定义3可知,对于置信度在[α,B]内的规则, 动态属性约简方面做了大量的研究工作;文献[18- 它们的置信度在广义分布保持约简前后保持不变。 19]对现有的属性约简之间的关系进行了深入讨论 2广义分布保持属性约简的判定与 与研究。 分布约简保证每个对象在约简前后的概率分 方法 布保持不变,即保证每条规则的置信度在约简前后 首先,给出广义分布协调集的等价证明。 不发生改变。在实际应用中,人们往往更关注可信 定理1设决策表DT=(U,ATUD,V,f),U= 度较高或较低的规则20),分布约简的标准过于严 {u1,2,…,un},A≤AT,则A是广义分布协调集 格,很多对实际决策无用的规则的置信度在约简前 当且仅当对于Hu,4,∈U,当Y(u,)≠Y(u) 后也要保持不变,很可能使得最终约简过于冗长, 成立时,有[4:]4∩[]4=☑。其中,a和B满足 对实际决策造成一定的干扰。本文在分布约简的 (a=0AB∈[0,1])或(∈[0,1]AB=1)。 基础上,通过弱化分布约简的约简标准,提出了一 证明不妨记p([4:]4)={[山]r:[u]ArC 种新的属性约简,即广义分布保持属性约简,该属 [u:]4},其中i,j∈{1,2,…,n}。由于ACAT,故 性约简可以保证规则的置信度(P∈[0,α]或[B, p([u:])构成[u:]a的一个划分。 1])在约简前后不变,并对广义分布保持属性约简 “→”:设A是决策表DT上的广义分布协调 的方法和相关性质进行了研究和讨论。 集。4,叫eU,当[山,]4n[4,]4≠时,有[4]4= [4]A。因此Ya(山,)=Ya(w)。但有Y(u:)= 1广义分布保持属性约简 Y(u,)成立,并且有Y(4,)=Ya(u,),从 定义1)设决策表DT=(U,ATUD,V,f),论域 而Y(u)=Y(4,)。因此,若Y(u:)≠ U={山1,2,…,山n},则H:∈U,ACAT,对象:在属性 Y(4),有[u]an[4]=0。 A下关于决策属性集D的概率分布定义为u,(u,)= “=”:对于H4,∈U,当[u]灯≤[u:]A时,有
究内容之一,其本质是获取保持知识库某种分类能 力在约简前后不发生改变的最小属性子集描述,国 内外 学 者 做 了 大 量 的 相 关 研 究 工 作。 1992 年, Skowron [5]提出了差别矩阵的概念,为获取信息系统 或决策表的所有约简或最小约简提供了理论基础; 1998 年,Kryszkiewicz [6]讨论了基于差别矩阵的不完 备信息系统广义决策保持属性约简问题;2003 年, 张文修等[7] 给出了分布约简和分配约简的差别矩 阵约简方法,并提出了最大分布约简;2007 年,徐伟 华等[8]给出了优势关系下基于差别矩阵的分布约 简和最大分布约简;2009 年,苗夺谦等[9] 提出了不 可分辨关系保持属性约简和相应的差别矩阵构造 方法;2010 年,张楠等[10] 讨论了区间值信息系统下 的属性约简问题。 为了提高属性约简的算法效率, 多种启发式属性约简算法相继被提出。 1999 年,苗 夺谦等[11]从信息论的角度给出了属性重要度的度 量方法,在此基础上提出了基于互信息的启发式约 简算法;2002 年,王国胤等[12] 提出了基于条件信息 熵的启发式属性约简算法;2010 年,钱宇华等[13] 提 出了正向近似的基本概念并将其应用于启发式属 性约简的构造过程,提高了属性约简的计算效率; 2011 年,钱宇华等[14-15]进一步将正向近似应用于不 完备决策表的启发式属性约简,改善了不完备决策 表下启发式属性约简的求取效率;陈红梅等[16-17] 在 动态属性约简方面做了大量的研究工作;文献[18- 19]对现有的属性约简之间的关系进行了深入讨论 与研究。 分布约简保证每个对象在约简前后的概率分 布保持不变,即保证每条规则的置信度在约简前后 不发生改变。 在实际应用中,人们往往更关注可信 度较高或较低的规则[20] ,分布约简的标准过于严 格,很多对实际决策无用的规则的置信度在约简前 后也要保持不变,很可能使得最终约简过于冗长, 对实际决策造成一定的干扰。 本文在分布约简的 基础上,通过弱化分布约简的约简标准,提出了一 种新的属性约简,即广义分布保持属性约简,该属 性约简可以保证规则的置信度( P∈[ 0,α] 或[ β, 1])在约简前后不变,并对广义分布保持属性约简 的方法和相关性质进行了研究和讨论。 1 广义分布保持属性约简 定义 1 [7] 设决策表 DT=(U,AT∪D,V, f),论域 U={u1,u2,…,un },则∀ui∈U,A⊆AT,对象 ui 在属性 A 下关于决策属性集 D 的概率分布定义为 μA(ui) = (P(D1 [ui]A),P(D2 [ui]A),…,P(D U/ D [ui]A))。 其中,P(Dj [ui] A ) = Dj∩[ui] A / [ui] A ,i∈{1, 2,…,n},j∈{1,2,…, U/ D }。 定义 2 设决策表 DT = (U,AT∪D,V,f),U = {u1 ,u2 ,…,un },U/ D = {D1 ,D2 ,…,D| U/ D| },记 dj 为 Dj 对应的决策值,则∀ui∈U,A⊆AT,ui 在 A 下关于 决策属性 D 的[α,β]决策-置信度序偶集定义为 Υ [α,β] A (ui) = {〈dj,P(Dj [ui] A )〉 α ≤ P(Dj [ui]A) ≤ β ∧ α ≤ P(Dj [ui]AT) ≤ β} 式中:i∈{1,2,…,n},j∈{1,2,…, U/ D },α 和 β 满足(α= 0∧β∈[0,1])或(α∈[0,1]∧β = 1)。 根据定义 2,若对于∀u∈U,均满足 Υ [α,β] A (u)= Υ [α,β] AT (u),则称 A 是广义分布协调集。 若 A 是广义 分布协调集,且 A 的任意子集不是广义分布协调 集,则称 A 为广义分布保持约简。 据此,给出广义 分布保持约简的形式化定义如下。 定义 3 给定决策表 DT = (U,AT∪D,V,f ), U= {u1 ,u2 ,…,un },∀A⊆AT,若 A 是一个广义分布 保持约简,当且仅当以下两个条件成立: 1)∀ui⊆U,Υ [α,β] A (ui)= Υ [α,β] AT (ui); 2)∀B⊂A,Υ [α,β] B (uj)≠Υ [α,β] A (uj)。 式中:α 和 β 满足(α=0∧β∈[0,1])或(α∈[0,1]∧ β = 1),i,j∈{1,2,…,n}。 由定义 3 可知,对于置信度在[α,β]内的规则, 它们的置信度在广义分布保持约简前后保持不变。 2 广义分布保持属性约简的判定与 方法 首先,给出广义分布协调集的等价证明。 定理 1 设决策表 DT = (U,AT∪D,V,f ),U = {u1 ,u2 ,…,un },∀A⊆AT,则 A 是广义分布协调集 当且仅当对于∀ui,uj∈U,当 Υ [α,β] AT (ui)≠Υ [α,β] AT (uj) 成立时,有[ ui ] A ∩[ uj ] A = ⌀。 其中,α 和 β 满足 (α= 0∧β∈[0,1])或(α∈[0,1]∧β = 1)。 证明 不妨记 ρ([ ui ] A ) = {[ uj ] AT :[ uj ] AT ⊆ [ui ] A },其中 i,j∈{1,2,…,n}。 由于 A⊆AT,故 ρ([ui] A )构成[ui] A 的一个划分。 “⇒”: 设 A 是决策表 DT 上的广义分布协调 集。 ∀ui,uj∈U,当[ui] A∩[ uj] A≠⌀时,有[ ui] A = [uj]A。 因此 Υ [α,β] A (ui )= Υ [α,β] A (uj )。 但有 Υ [α,β] AT (ui )= Υ [α,β] A (ui) 成立,并且有 Υ [α,β] AT ( uj ) = Υ [α,β] A ( uj ),从 而 Υ [α,β] AT (ui)= Υ [α,β] AT ( uj )。 因此, 若 Υ [α,β] AT ( ui ) ≠ Υ [α,β] AT (uj),有[ui] A∩[uj] A =⌀。 “⇐”:对于∀ui ∈U,当[uj] AT ⊆[ui] A 时,有 ·378· 智 能 系 统 学 报 第 12 卷
第3期 高学义,等:广义分布保持属性约简研究 .379· [u:]4n[w]4≠☑,故Yg()=Y(u)。即对 “←”:不妨假设3(u,山)eD°,使得AnM)= 于HDeU/D,记d为D对应的决策值,若(d, ②,显然Y(u)≠Y(y,)。HaeA,必然有a年 P(D[u,]Ar))eY(u,),则必有(d,P(D Ma,也即f(a,4,)=f(a,马)。故有[4]a=[u,]A [4]Ar)》eYg1(4)成立,并且P(D|[u]r)= [u:]4∩[4]A≠0,由定理1可得A不是广义分布协调 P(D:[4]Ar),其中,k∈{1,2,…,|U/D}。为后续 集。定理得证。 证明方便,不妨记p([u:]a)={p1,P1,…P1p(,。 定义5设DT=(U,ATUD,V,f),M1为广 由于p([:]a)={[u:]r:[u:]Ar[u:]a},故有 义分布保持约简的差别矩阵,其对应的差别函数为 Ie(I DF(Ma间)=∧{VMaI1≤i≤j≤n 式中:VM]=Va(a∈Ma)表示Ma]中所有 P(D [u;])=- ie.() I[u:] 属性的析取,且a和B满足(α=0∧B∈[0,1])或 p.Del le.I (a∈[0,1]ΛB=1)。 u]T([u]= 通过化DF(M])的主合取范式转化为主析 Ip([a】) 取范式即可得到所有广义分布保持属性约简。 习 le,I Pna.)TaRepa1 定理3设DT=(U,ATUD,V,fD,Ma1为DT ( e,I 的广义分布保持约简的差别矩阵,且α和B满足 {Pa,Illr)'Tp,ep[ul. (a=0∧B∈[0,1])或(a∈[0,1]AB=1)。DF P(DI[u:]Ar) (Ma,刷])是由Ma]导出的差别函数,DF(Ma])的 因此,Y刷(u:)=Ya(u),从而A是广义分 极小析取范式为 布协调集,证毕。 DF(M)=立(Ra,)。 k=1x=1 定理1给出了判断属性子集是广义分布协调集 记Ak={as=1,2,…,9},则{A4k=1,2,…, 的方法,由此可进一步得到广义分布保持约简的方 t是决策表的所有广义分布保持约简,其中t表示 法,在此可给出广义分布差别矩阵的概念。 DF(Ma])的极小析取范式中的合取项数目。 定义4给定决策表DT=(U,ATUD,V,f), 证明Vk≤t,HMa)∈Ma],由极小析取 U=山1,山2,…,n},AT={a1,a2,…,a1r}为条件 范式的定义知A∩M1≠⑦,再由定理2可得A 属性集,D={d}为决策属性,记 D°={(u,4)Y(:)≠Y(4)月 是广义分布协调集。同时,DF(Ma)=(A), 定义 若在A:中去掉任意一个属性形成A:,则必然 AT))()D 3Ma)∈Ma],使得A∩M]=☑,故A不是 广义分布协调集,从而A是广义分布保持约简。 AT,(4,4)年D° 由于DF(Ma])中包含了所有的Ma),因此 为(u,4)的广义分布可辨识属性集,Ma刷= 不存在其他的广义分布保持约简,定理得证。 {Ma|i,j∈{l,2,…,n}为决策表的-个nxn的 广义分布差别矩阵,其为对称矩阵,α和B满足(a= 3广义分布保持属性约简算法 0AB∈[0,1])或(a∈[0,1]∧B=1)。 本节给出广义分布保持约简算法(generalized 定理2设DT=(U,ATUD,V,f),VACAT, distribution preservation reduction algorithm,GDPRA), 则A是广义分布协调集一H山,叫∈U,若M≠ 算法描述如下。 O,有AnMa]≠☑。其中,a和B满足(a=0 输入决策表DT=(U,ATUD,V,f),a和B。 B∈[0,1])或(a∈[0,1]AB=1). 输出DT的所有广义分布保持属性约简。 证明若(u,4)使D·,显然有A∩M≠☑。 1)计算每个对象在条件属性集下关于决策属 反之,则有 性的置信度分布ur0 “→”:由于A是广义分布协调集,故对于 2)根据每个对象的置信度分布ur获取每个对 (u,4)∈D°,Y(u,)≠Y(4,),由定理1可 象的[α,B]决策-置信度序偶集。 得[u:]an[4]a=。因此,3aeA,不等式f(a, 3)根据对象之间的决策-置信度序偶集构造相 u:)≠f(a,u)成立,故aeMa,即AnMa≠O。 应的广义分布差别矩阵
[ui] A∩[uj] A≠⌀,故 Υ [α,β] AT (ui)= Υ [α,β] AT (uj)。 即对 于∀Dk∈U/ D,记 dk 为 Dk 对应的决策值,若〈 dk, P(Dk [ui] AT )〉 ∈ Υ [α,β] AT ( ui ), 则 必 有 〈 dk, P(Dk [uj] AT )〉 ∈Υ [α,β] AT ( uj ) 成立,并且 P(Dk [ui]AT ) = P(Dk [uj]AT),其中,k∈{1,2,…, U/ D }。 为后续 证明方便,不妨记 ρ([ui] A )= {ρ1 ,ρ1 ,…,ρ ρ([ui ] A ) }。 由于 ρ([ui] A)= {[ui]AT ∶ [ui] AT⊆[ui] A },故有 P(Dk [ui]A) = ∑ ρ([ui ]A ) s = 1 { ρs ∩ Dk :ρs ∈ ρ([ui]A)} [ui]A = ∑ ρ([ui ] A ) s = 1 ρs ∩ Dk ρs · ρs [ui] A :ρ { s ∈ ρ([ui] A )} = ∑ ρ([ui ] A ) s = 1 P(Dk ρs)· ρs [ui] A :ρ { s ∈ ρ([ui] A )} = ∑ ρ([ui ]A ) s = 1 P(Dk [ui]AT)· ρs [ui]A :ρ { s ∈ ρ([ui]A)} = P(Dk [ui] AT ) 因此,Υ [α,β] AT (ui) = Υ [α,β] A ( ui),从而 A 是广义分 布协调集,证毕。 定理 1 给出了判断属性子集是广义分布协调集 的方法,由此可进一步得到广义分布保持约简的方 法,在此可给出广义分布差别矩阵的概念。 定义 4 给定决策表 DT = (U,AT∪D,V, f ), U= {u1 ,u2 ,…,un },AT = { a1 ,a2 ,…,a AT } 为条件 属性集,D= {d}为决策属性,记 D ∗ = {(ui,uj) Υ [α,β] AT (ui) ≠ Υ [α,β] AT (uj)} 定义 M [α, β] ij = {a ∈ AT f(a,ui) ≠ f(a,uj)},(ui,uj)∈D ∗ AT, (ui,uj) ∉ D { ∗ 为( ui, uj ) 的 广 义 分 布 可 辨 识 属 性 集, M [α,β] = {M [α,β] ij i,j∈{1,2,…,n}}为决策表的一个 n×n 的 广义分布差别矩阵,其为对称矩阵,α 和 β 满足(α = 0∧β∈[0,1])或(α∈[0,1]∧β = 1)。 定理 2 设 DT = (U,AT∪D,V,f ),∀A⊆AT, 则 A 是广义分布协调集⇔∀ui,uj∈U,若 M [α,β] ij ≠ ⌀,有 A∩M [α,β] ij ≠⌀。 其中,α 和 β 满足( α = 0∧ β∈[0,1])或(α∈[0,1]∧β = 1)。 证明 若(ui,uj)∉D ∗ ,显然有 A∩M [α,β] ij ≠⌀。 反之,则有 “⇒”: 由 于 A 是 广 义 分 布 协 调 集, 故 对 于 ∀(ui,uj)∈D ∗ ,Υ [α,β] AT (ui)≠Υ [α,β] AT (uj),由定理 1 可 得[ui] A∩[uj] A = ⌀。 因此,∃a∈A,不等式 f ( a, ui)≠f(a,uj)成立,故 a∈M [α,β] ij ,即 A∩M [α,β] ij ≠⌀。 “⇐”:不妨假设∃(ui,uj)∈D ∗ ,使得 A∩M [α,β] ij = ⌀,显然 Υ [α,β] AT (ui)≠Υ [α,β] AT (uj )。 ∀a∈A,必然有 a∉ M [α,β] ij ,也即 f (a,ui ) = f (a,uj )。 故有[ui]A = [uj]A, [ui]A∩[uj]A≠⌀,由定理 1 可得 A 不是广义分布协调 集。 定理得证。 定义 5 设 DT = (U,AT∪D,V,f ),M [α,β] 为广 义分布保持约简的差别矩阵,其对应的差别函数为 DF(M [α,β] ) =∧ {∨ M [α,β] ij 1 ≤ i ≤ j ≤ n} 式中:∨M [α,β] ij = ∨a( a∈M [α,β] ij )表示 M [α,β] ij 中所有 属性的析取,且 α 和 β 满足(α = 0∧β∈[0,1]) 或 (α∈[0,1]∧β = 1)。 通过化 DF(M [α,β] ) 的主合取范式转化为主析 取范式即可得到所有广义分布保持属性约简。 定理 3 设 DT = (U,AT∪D,V, f),M [α,β]为 DT 的广义分布保持约简的差别矩阵,且 α 和 β 满足 (α= 0∧β∈[ 0,1]) 或( α∈[ 0,1] ∧β = 1)。 DF (M [α,β] )是由 M [α,β]导出的差别函数,DF(M [α,β] )的 极小析取范式为 DF(M [α,β] ) =∨ t k = 1 (∧ qk s = 1 ai s )。 记 Ak = { ai s s = 1,2,…,qk},则{Ak k = 1,2,…, t}是决策表的所有广义分布保持约简,其中 t 表示 DF(M [α,β] )的极小析取范式中的合取项数目。 证明 ∀k ≤ t,∀M [α,β] ij ∈ M [α,β] ,由极小析取 范式的定义知 Ak ∩ M [α,β] ij ≠ ⌀,再由定理 2 可得 Ak 是广义分布协调集。 同时,DF(M [α,β] ) =∨ t k = 1 (Ak), 若在 Ak 中 去 掉 任 意 一 个 属 性 形 成 Ak ′, 则 必 然 ∃M [α,β] ij ∈ M [α,β] ,使得 Ak ′ ∩ M [α,β] ij = ⌀,故 Ak ′ 不是 广义分布协调集,从而 Ak 是广义分布保持约简。 由于 DF(M [α,β] ) 中包含了所有的 M [α,β] ij ,因此 不存在其他的广义分布保持约简,定理得证。 3 广义分布保持属性约简算法 本节给出广义分布保持约简算法(generalized distribution preservation reduction algorithm,GDPRA), 算法描述如下。 输入 决策表 DT = (U,AT∪D,V, f ),α 和 β。 输出 DT 的所有广义分布保持属性约简。 1) 计算每个对象在条件属性集下关于决策属 性的置信度分布 μAT 。 2) 根据每个对象的置信度分布 μAT获取每个对 象的[α,β]决策-置信度序偶集。 3) 根据对象之间的决策-置信度序偶集构造相 应的广义分布差别矩阵。 第 3 期 高学义,等:广义分布保持属性约简研究 ·379·
·380. 智能系统学报 第12卷 4)根据广义分布差别矩阵构造广义分布差别 Y98.(1)={<0,1>} 函数,并通过吸收率进行简化。 Y08,(u2)={<1,1> 5)在DF(Ma))基础上通过结合律获取所有 Y9.(u3)=⑦ 的广义分布保持约简。 Ya.(u4)=⑦ 其中,a和B满足(a=0∧B∈[0,1])或(a∈ 3)构造广义分布差别矩阵 [0,1]ΛB=1)。 [a,B]=[0,0.3]时对应的广义分布差别矩阵 由于上述算法是通过差别矩阵获取决策表的 如表2所示,[a,β]=[0.8,1]时对应的广义分布差 所有的广义分布保持约简,故算法在最坏情况下的 别矩阵如表3所示。 时间复杂度为O(|AT2),最坏情况下的空间复 表2广义分布差别矩阵1 杂度为O(|ATIU2),其中1U1为样本空间中的对 Table 2 Generalized distribution discernibility matrix 1 象数目,|AT为条件属性数,下面通过例1简要说 M[o.0.3] 明GDPRA的执行过程。 AT {a2} a2,a3}}a2,a3 例1如表1所示,论域为U={山1,山2,山3,u4}, {a2} AT {a3 {a3} AT={a1,a2,a3,a4}为条件属性集,D={d为决策属 u3 {a2,a3} {a3} AT AT 性,分别求[a,B]=[0,0.3]以及[a,B]=[0.8,1]时 的所有广义分布保持约简。 {a2,a3} {a3} AT AT 表1决策表 表3广义分布差别矩阵2 Table 1 Decision table Table 3 Generalized distribution discernibility matrix 2 a a Mlas.1] 41 2 AT 1 1 0 0 {a2} {a2,a3}{a2,a3} la2l AT {a3} {a3} 1 0 0 1 u3 {a2,a} 1a31 AT AT u3 1 0 2 {a2,a3}1a3} AT AT 1 0 4)获取差别函数并进行简化 1)获取每个对象的置信度分布 DF(Mo.aJ)=(a2)A(a3) U/AT={E1,E2,E3} DF(Ma8.)=(a2)A(a3) U/D={D1,D2,D3 5)通过结合律获取所有的广义分布保持约简 E,={u1} 由计算得,[a,B]=[0,0.3]时和[a,B]=[0.8, E2={u2} 1]时的所有广义分布保持约简均为{a2,a3}。 E3={u3,u4} D1=u1} 4一些特殊情形下的讨论 D2={u2,u4} 值得注意的是,给定决策表DT=(U,ATUD,V, D3={u3} ),当α和B取某些特殊值时,广义分布保持约简可 (41)=(1,0,0) 以退化为目前已存在的一些约简,本节将根据α和 u(42)=(0,1,0) B不同的特殊取值情况展开讨论,并给出相应的结 r(3)=(0,0.5,0.5) 论。其中,将MN、Mpos以及Ms分别记为广义决 r(44)=(0,0.5,0.5) 策可辨识矩阵、正域可辨识矩阵以及分布可辨识矩 2)获取每个对象的[α,B]决策-置信度序偶集 阵,同时,将M、M以及M分别记为对象山, 当a=0,B=0.3时 和”:对应在广义决策可辨识矩阵、正域可辨识矩阵 Y9a(41)={<1,0>,<2,0>} 以及分布可辨识矩阵的可辨识属性集,其中论域为 Y9aJ(2)={<0,0>,<2,0>} U={u1,山2,…,4n},i,je{1,2,…,n}。 Y00J(u3)={<0,0>} 1)a=B=0时 Y0aJ(u4)={<0,0> 当α和B取值均为0时,广义分布保持约简实 当x=0.8,B=1时 质是保证对于置信度为0的规则在约简前后的置信
4) 根据广义分布差别矩阵构造广义分布差别 函数,并通过吸收率进行简化。 5) 在 DF(M [α,β] )基础上通过结合律获取所有 的广义分布保持约简。 其中,α 和 β 满足(α = 0∧β∈[0,1]) 或(α∈ [0,1]∧β = 1)。 由于上述算法是通过差别矩阵获取决策表的 所有的广义分布保持约简,故算法在最坏情况下的 时间复杂度为 O( AT | U| 2 ),最坏情况下的空间复 杂度为 O( AT U 2 ),其中|U | 为样本空间中的对 象数目, AT 为条件属性数,下面通过例 1 简要说 明 GDPRA 的执行过程。 例 1 如表 1 所示,论域为 U = {u1 ,u2 ,u3 ,u4 }, AT= {a1 ,a2 ,a3 ,a4 }为条件属性集,D= {d}为决策属 性,分别求[α,β] = [0,0.3]以及[α,β] = [0.8,1]时 的所有广义分布保持约简。 表 1 决策表 Table 1 Decision table U a1 a2 a3 a4 d u1 1 1 0 1 0 u2 1 0 0 1 1 u3 1 0 1 1 2 u4 1 0 1 1 1 1)获取每个对象的置信度分布 U/ AT = {E1 ,E2 ,E3 } U/ D= {D1 ,D2 ,D3 } E1 = {u1 } E2 = {u2 } E3 = {u3 ,u4 } D1 = {u1 } D2 = {u2 ,u4 } D3 = {u3 } μAT(u1 )= (1,0,0) μAT(u2 )= (0,1,0) μAT(u3 )= (0,0.5,0.5) μAT(u4 )= (0,0.5,0.5) 2)获取每个对象的[α,β]决策-置信度序偶集 当 α= 0,β = 0.3 时 Υ [0,0.3] AT (u1 )= {<1,0>,<2,0>} Υ [0,0.3] AT (u2 )= {<0,0>,<2,0>} Υ [0,0.3] AT (u3 )= {<0,0>} Υ [0,0.3] AT (u4 )= {<0,0>} 当 α= 0.8,β = 1 时 Υ [0.8,1] AT (u1 )= {<0,1>} Υ [0.8,1] AT (u2 )= {<1,1>} Υ [0.8,1] AT (u3 )= ⌀ Υ [0.8,1] AT (u4 )= ⌀ 3)构造广义分布差别矩阵 [α,β] = [0,0.3] 时对应的广义分布差别矩阵 如表 2 所示,[α,β] = [0.8,1]时对应的广义分布差 别矩阵如表 3 所示。 表 2 广义分布差别矩阵 1 Table 2 Generalized distribution discernibility matrix 1 M [0,0.3] u1 u2 u3 u4 u1 AT {a2 } {a2 ,a3 } {a2 ,a3 } u2 {a2 } AT {a3 } {a3 } u3 {a2 ,a3 } {a3 } AT AT u4 {a2 ,a3 } {a3 } AT AT 表 3 广义分布差别矩阵 2 Table 3 Generalized distribution discernibility matrix 2 M [0.8,1] u1 u2 u3 u4 u1 AT {a2 } {a2 ,a3 } {a2 ,a3 } u2 {a2 } AT {a3 } {a3 } u3 {a2 ,a3 } {a3 } AT AT u4 {a2 ,a3 } {a3 } AT AT 4)获取差别函数并进行简化 DF(M [0,0.3] ) = (a2 ) ∧ (a3 ) DF(M [0.8,1] ) = (a2 ) ∧ (a3 ) 5)通过结合律获取所有的广义分布保持约简 由计算得,[α,β] = [0,0.3]时和[α,β] = [0.8, 1]时的所有广义分布保持约简均为{a2 ,a3 }。 4 一些特殊情形下的讨论 值得注意的是,给定决策表 DT = (U,AT∪D,V, f),当 α 和 β 取某些特殊值时,广义分布保持约简可 以退化为目前已存在的一些约简,本节将根据 α 和 β 不同的特殊取值情况展开讨论,并给出相应的结 论。 其中,将 MGEN、MPOS以及 MDIS分别记为广义决 策可辨识矩阵、正域可辨识矩阵以及分布可辨识矩 阵,同时,将 M GEN ij 、M POS ij 以及 M DIS ij 分别记为对象 ui 和 uj 对应在广义决策可辨识矩阵、正域可辨识矩阵 以及分布可辨识矩阵的可辨识属性集,其中论域为 U= {u1 ,u2 ,…,un },i,j∈{1,2,…,n}。 1)α= β = 0 时 当 α 和 β 取值均为 0 时,广义分布保持约简实 质是保证对于置信度为 0 的规则在约简前后的置信 ·380· 智 能 系 统 学 报 第 12 卷
第3期 高学义,等:广义分布保持属性约简研究 .381· 度均为0,而对于置信度不为0的规则在约简前后 当Y(u)=Y(u)时,有Y(u)= 的置信度均不为0,由此可得如下结论。 Y(u)=☑或(u:)=Y(w)≠☑成立。 定理4设决策表DT=(U,ATUD,Vf),对于 对于前者,HDeU/D,使得[u:]Ar∩D:≠[u:]Ar成 VRCAT且R≠O,a=B=0,若R是决策表DT的一 立并且[u]灯∩D≠[山]Ar成立,故有 个广义分布保持约简,则R必定同时是决策表DT ,w∈BNDAT(D);对于后者,3D∈U/D,使 的一个广义决策保持约简。 ([:]r∩D=[u:]Ar)A([4]Ar∩D=[]Ar)成 证明不妨设u,山∈U,其中[山:]ar∩[4]r= 立,即f(:,d)=f(w,d),故由定义4可知Ms= O,同时设U/D={D,D2,…,Dwom}。若有Y90(u)≠ M=AT。 Yo(4)成立,则3D.∈U/D,其中ke{1,2,…, 综上,由于4:,山∈U,故在=B=1的条件下, |U/D},使得[u:]r∩Ds=☑A4]r∩D≠或 Ms=M.成立,故R是决策表DT的广义分布保 [u:]r∩D≠A[山]r∩Dk=☑成立,也即 持约简,则R必定同时是决策表DT的一个正域保 δr(u:)≠8r(u)成立,故由定义4可知有M0.o= 持约简,证毕。 M={a∈ATf(u:,a)≠f(4,a)}成立;反之,若 3)a=0,B=1时 Y9(u,)=Y9,0(4),则DeU/D,有[u:]rn 当α=0,B=1时,广义分布保持约简实质是保 D,≠☑A[w]a∩D≠☑或[u:]arnD= 证了置信度在[0,1]内的所有规则在约简前后的置 ☑A[4]r∩D=成立,故8Ar(u:)=δm(u),由定 信度不变,同时易得,此时对象的[,B]决策-置信 义4可知M.o1=M=AT成立。由于Hu,4,e 度序偶集等价于在决策等价类划分上的置信度分 U,故在a=B=0条件下,有Mcv=Mo,成立,故R 布,由此可得如下结论。 是决策表DT的一个广义分布保持约简,则R必定 定理6决策表DT=(U,ATUD,V,f),对于 同时是决策表DT的一个广义决策保持约简,证毕。 VRCAT且R≠☑,a=0且B=1,若R是决策表DT 2)a=B=1时 的一个广义分布保持约简,则R必定同时是决策表 显然,当=B=1时,广义分布保持约简实质是 DT的一个分布保持约简。 保证了置信度为1的规则在约简前后的置信度保持 证明不妨设V4,4,eU,其中[山:]rn[4,]Ar= 不变,由此可得如下结论。 ⑦,U/D={D1,D2,,D1n}:若Y0(u,)≠Y 定理5决策表DT=(U,ATUD,V,f),对于 (),则3D∈U/D,使得P(DI[u:]Ar)≠P(DI VRCAT且R≠☑,令a=B=1,若R是决策表DT []Ar),故有uT(:)≠uT(u)成立,所以由定义4 的一个广义分布保持约简,则R必定同时是决策表 可知Ms=Mo.={aEATlf:,a)≠f(4,a)};反 DT的一个正域保持约简。 之,若Y9(u,)=Y0(y)成立,则D∈U/D,有 证明不妨设Hu,4∈U,其中,[u:]rn P(D[u:]r)=P(D[,]r)成立,则由定义4可 [4,]Ar=,U/D=D,D2,…,D1wn,分情况进行 知M=M=AT;由于H4,4eU,故在a=0, 如下讨论。 B=1的条件下,有Ms=Mo,成立,故R是决策表 当Y(w)≠Y(u)成立时,有M.={a∈ DT的一个广义分布保持约简,必定同时是决策表 ATfu,a)≠f(y,a)}成立。假设Y(u,)≠0且 DT的一个分布保持约简,证毕。 Y(y)≠,则3D∈UWD,使得P(D.I[u:]r)= 综上,图1给出了广义分布保持约简与上述几 P(D[y]r)=1成立,故有u:,4∈POSr(D)且f(u, 种约简之间的关系。 d)≠f(4,d)成立,即M={a∈ATf(4,a)≠f(马, a=B=1 正域保持约简 a)}=M成立。若假设不成立,则有(u:EPOSAT(D)A L,∈BNDAT(D)或(4∈POSAT(D)A4:∈BNDAT a-0,1 “义分布保持约简 分布保持约简 (D)成立;若f(4,d)≠f,d)成立,则有M= 1 aEATIf(u,,a)≠f(4,a)=Mg.,若f(u,d)= a=B-0 广义决策保持约简 f(u,d),则有Mos=AT,同时必然4∈[u:]r,4∈ [4]r,使得f(u,d)≠f代u,d),故M={aeAT| 图1几种不同约简之间的关系 f,a)≠f4,a)}=M写.,故M=M写山。 Fig.1 Relationships among different reductions
度均为 0,而对于置信度不为 0 的规则在约简前后 的置信度均不为 0,由此可得如下结论。 定理 4 设决策表 DT = (U,AT∪D,V,f ),对于 ∀R⊆AT 且 R≠⌀,α= β = 0,若 R 是决策表 DT 的一 个广义分布保持约简,则 R 必定同时是决策表 DT 的一个广义决策保持约简。 证明 不妨设∀ui,uj∈U,其中[ui]AT∩[uj]AT = ⌀,同时设 U/ D={D1,D2,…,D|U/ D| }。 若有 Υ [0,0] AT (ui)≠ Υ [0,0] AT ( uj ) 成立,则∃Dk ∈U/ D,其中k∈{ 1,2,…, U/ D },使得[ui] AT∩Dk = ⌀∧[uj] AT∩Dk≠⌀或 [ui] AT ∩ Dk ≠ ⌀ ∧ [uj] AT ∩ Dk = ⌀ 成 立, 也 即 δAT(ui)≠δAT(uj)成立,故由定义 4 可知有 M [0,0] ij = M GEN ij = {a∈AT f( ui,a) ≠f( uj,a)} 成立;反之,若 Υ [0,0] AT ( ui ) = Υ [0,0] AT ( uj ),则∀Dk ∈U/ D,有[ui] AT ∩ Dk≠ ⌀ ∧ [uj] AT ∩ Dk ≠ ⌀ 或 [ui] AT ∩ Dk = ⌀∧[uj] AT∩Dk =⌀成立,故 δAT(ui)= δAT(uj),由定 义 4 可知 M [0,0] ij = M GEN ij = AT 成立。 由于∀ui,uj ∈ U,故在 α = β = 0 条件下,有 MGEN = M [0,0] 成立,故 R 是决策表 DT 的一个广义分布保持约简,则 R 必定 同时是决策表 DT 的一个广义决策保持约简,证毕。 2)α= β = 1 时 显然,当 α= β = 1 时,广义分布保持约简实质是 保证了置信度为 1 的规则在约简前后的置信度保持 不变,由此可得如下结论。 定理 5 决策表 DT = (U,AT∪D,V,f),对于 ∀R⊆AT 且 R≠⌀,令 α = β = 1,若 R 是决策表 DT 的一个广义分布保持约简,则 R 必定同时是决策表 DT 的一个正域保持约简。 证明 不 妨 设 ∀ui, uj ∈ U, 其 中, [ui] AT ∩ [uj] AT =⌀,U/ D= {D1 ,D2 ,…,D U/ D },分情况进行 如下讨论。 当 Υ [1,1] AT (ui)≠Υ [1,1] AT (uj)成立时,有 M [1,1] ij = {a∈ AT f(ui,a)≠f(uj,a)}成立。 假设 Υ [1,1] AT (ui)≠⌀ 且 Υ [1,1] AT (uj)≠⌀,则∃Dk∈U/ D,使得 P(Dk [ui]AT ) = P(Dk [uj]AT)= 1 成立,故有 ui,uj∈POSAT(D)且 f(ui, d)≠f(uj,d)成立,即 M POS ij = {a∈AT f(ui,a)≠f(uj, a)} =M [1,1] ij 成立。 若假设不成立,则有(ui∈POSAT(D)∧ uj∈BNDAT ( D)) 或 ( uj ∈ POSAT ( D) ∧ ui ∈ BNDAT (D))成立;若 f( ui,d)≠f(uj,d)成立,则有 M POS ij = {a∈AT f(ui,a)≠f(uj,a)} = M [1,1] ij ,若 f( ui,d) = f(uj,d),则有 M POS ij =AT,同时必然∃ui′∈[ui]AT,uj′∈ [uj] AT ,使得f(ui′,d)≠f(uj′,d),故 M POS i′j′ = { a∈AT f(ui′,a)≠f(uj′,a)} =M [1,1] ij ,故 M POS i′j′ =M [1,1] ij 。 当 Υ [1,1] AT ( ui ) = Υ [1,1] AT ( uj ) 时, 有 Υ [1,1] AT ( ui ) = Υ [1,1] AT (uj)= ⌀ 或 Υ [1,1] AT ( ui) = Υ [1,1] AT ( uj)≠⌀成立。 对于前者,∀Dk∈U/ D,使得[ui] AT∩Dk≠[ui] AT成 立 并 且 [uj] AT ∩ Dk ≠ [uj] AT 成 立, 故 有 ui,uj∈BNDAT(D); 对 于 后 者, ∃Dk ∈ U/ D, 使 ([ui] AT∩Dk = [ui] AT ) ∧( [uj] AT ∩Dk = [uj] AT ) 成 立,即 f( ui,d) = f(uj,d),故由定义 4 可知 M POS ij = M [1,1] ij =AT。 综上,由于∀ui,uj∈U,故在 α= β = 1 的条件下, MPOS =M [1,1]成立,故 R 是决策表 DT 的广义分布保 持约简,则 R 必定同时是决策表 DT 的一个正域保 持约简,证毕。 3) α= 0,β = 1 时 当 α = 0,β = 1 时,广义分布保持约简实质是保 证了置信度在[0,1]内的所有规则在约简前后的置 信度不变,同时易得,此时对象的[α,β]决策-置信 度序偶集等价于在决策等价类划分上的置信度分 布,由此可得如下结论。 定理 6 决策表 DT = (U,AT∪D,V,f ),对于 ∀R⊆AT 且 R≠⌀,α= 0 且 β = 1,若 R 是决策表 DT 的一个广义分布保持约简,则 R 必定同时是决策表 DT 的一个分布保持约简。 证明 不妨设∀ui,uj∈U,其中[ui]AT∩[uj]AT = ⌀,U/ D= {D1 ,D2 ,…,D U/ D };若 Υ [0,1] AT (ui)≠Υ [0,1] AT (uj ),则∃Dk ∈U/ D,使得 P(Dk [ui] AT ) ≠P(Dk [uj] AT ),故有 μAT(ui)≠μAT(uj)成立,所以由定义 4 可知 M DIS ij =M [0,1] ij = {a∈AT f(ui,a)≠f(uj,a)};反 之,若 Υ [0,1] AT (ui)= Υ [0,1] AT (uj)成立,则∀Dk∈U/ D,有 P(Dk [ui] AT )= P(Dk [uj] AT )成立,则由定义 4 可 知 M DIS ij = M [0,1] ij = AT;由于∀ui,uj ∈U,故在 α = 0, β = 1 的条件下,有 MDIS = M [0,1] 成立,故 R 是决策表 DT 的一个广义分布保持约简,必定同时是决策表 DT 的一个分布保持约简,证毕。 综上,图 1 给出了广义分布保持约简与上述几 种约简之间的关系。 图 1 几种不同约简之间的关系 Fig.1 Relationships among different reductions 第 3 期 高学义,等:广义分布保持属性约简研究 ·381·