第14卷第6期 智能系统学报 Vol.14 No.6 2019年11月 CAAI Transactions on Intelligent Systems Nov.2019 D0:10.11992/tis.201905052 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20190904.1826.004html 非完备决策信息系统中的不确定性度量 高文华,梁吉业2,王宝丽3,庞天杰 (1.太原师范学院计算机科学与技术系,山西晋中030619,2.山西大学计算智能与中文信息处理教育部重点 实验室,山西太原030006:3.运城学院数学与信息技术学院,山西运城044000) 摘要:针对粗糙集数据分析中的不确定性度量问题。本文首先构造一种新型的考虑条件属性缺失度的目标 概念条件嫡和决策知识条件嫡。在此基础上,提出基于条件嫡的属性权重确定技术和最小条件嫡非完备属性 取值补充方法,用以解决属性权重完全未知的非完备多属性决策问题。应用实例分析表明:该方法能有效结合 粗粒度的初步分级信息,客观地确定决策因素取值,具有很强的解释意义,得到的决策结果更为合理有效。 关键词:非完备决策系统:相容关系;知识粒度;不确定性度量;条件熵:属性权重:最小条件嫡原则;多属性决 策方法 中图分类号:TP301文献标志码:A文章编号:1673-4785(2019)06-1100-11 中文引用格式:高文华,梁吉业,王宝丽,等.非完备决策信息系统中的不确定性度量J川.智能系统学报,2019,14(6): 1100-1110. 英文引用格式:GAO Wenhua,LIANG Jiye,WANG Baoli,etal.Uncertainty measure in incomplete decision information systemJ.. CAAI transactions on intelligent systems,2019,14(6):1100-1110. Uncertainty measure in incomplete decision information system GAO Wenhua,LIANG Jiye',WANG Baoli,PANG Tianjie' (1.Department of Computer Science and Technology,Taiyuan Normal University,Jinzhong 030619,China;2.Key Laboratory of Ministry of Education for Computational Intelligence and Chinese Information Processing,Taiyuan 030006,China;3.School of Mathematics and Information Technology,Yuncheng University,Yuncheng 044000,China) Abstract:In order to solve uncertainty measure problem in data analysis of rough set,this study first constructs a new type of conditional entropy of the objective concept and conditional entropy of decision knowledge,with consideration of the degree of missing of conditional attributes,and moreover,proposes the conditional entropy-based attribute weight determination technique and a complementary method for incomplete attributes with minimum conditional entropy,so as to solve a kind of incomplete multi-attribute decision-making problem whose attribute weight is completely unknown. The real practical application shows that the proposed method can effectively combine coarse-grained preliminary clas- sification information to objectively determine the value of decision factors,having strong explanatory significance,and the obtained decision results are more reasonable and effective. Keywords:incomplete decision system;tolerance relation;knowledge granularity;uncertainty measure;conditional en- tropy;attribute weight;minimum conditional entropy principle;multi-attribute decision-making method 粗糙集理论是由Pawlak四提出的一种处理不发挥着重要的作用。 精确、不确定和模糊信息的数学工具,目前已被 目前,国内外学者已经对经典粗糙集理论的 广泛应用于病症诊断、金融风险和机器故障分析 不确定性度量问题做了系统的研究。这些研 等问题中2。不确定性度量是粗糙集理论中的 究大多基于完备描述的信息系统。现实问题中, 一个重要研究问题,它在属性约简、规则获取中 由于属性度量的高代价性、评价者对问题的判断 收稿日期:2019-05-27.网络出版日期:2019-09-05 水平不足或数据输入人员的疏忽问题,常存在属 基金项目:国家自然科学基金项目(61703363):山西省重点实 验室开放课题基金项目(CICIP2018008). 性值缺失的非完备信息系统。这种非完备信息系 通信作者:梁吉业.E-mail:ly@sxu.edu.cn. 统中的不确定性度量对于非完备知识获取等相关
DOI: 10.11992/tis.201905052 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190904.1826.004.html 非完备决策信息系统中的不确定性度量 高文华1 ,梁吉业2 ,王宝丽3 ,庞天杰1 (1. 太原师范学院 计算机科学与技术系,山西 晋中 030619; 2. 山西大学 计算智能与中文信息处理教育部重点 实验室,山西 太原 030006; 3. 运城学院 数学与信息技术学院,山西 运城 044000) 摘 要:针对粗糙集数据分析中的不确定性度量问题。本文首先构造一种新型的考虑条件属性缺失度的目标 概念条件熵和决策知识条件熵。在此基础上,提出基于条件熵的属性权重确定技术和最小条件熵非完备属性 取值补充方法,用以解决属性权重完全未知的非完备多属性决策问题。应用实例分析表明:该方法能有效结合 粗粒度的初步分级信息,客观地确定决策因素取值,具有很强的解释意义,得到的决策结果更为合理有效。 关键词:非完备决策系统;相容关系;知识粒度;不确定性度量;条件熵;属性权重;最小条件熵原则;多属性决 策方法 中图分类号:TP301 文献标志码:A 文章编号:1673−4785(2019)06−1100−11 中文引用格式:高文华, 梁吉业, 王宝丽, 等. 非完备决策信息系统中的不确定性度量 [J]. 智能系统学报, 2019, 14(6): 1100–1110. 英文引用格式:GAO Wenhua, LIANG Jiye, WANG Baoli, et al. Uncertainty measure in incomplete decision information system[J]. CAAI transactions on intelligent systems, 2019, 14(6): 1100–1110. Uncertainty measure in incomplete decision information system GAO Wenhua1 ,LIANG Jiye2 ,WANG Baoli3 ,PANG Tianjie1 (1. Department of Computer Science and Technology, Taiyuan Normal University, Jinzhong 030619, China; 2. Key Laboratory of Ministry of Education for Computational Intelligence and Chinese Information Processing, Taiyuan 030006, China; 3. School of Mathematics and Information Technology, Yuncheng University, Yuncheng 044000, China) Abstract: In order to solve uncertainty measure problem in data analysis of rough set, this study first constructs a new type of conditional entropy of the objective concept and conditional entropy of decision knowledge, with consideration of the degree of missing of conditional attributes, and moreover, proposes the conditional entropy-based attribute weight determination technique and a complementary method for incomplete attributes with minimum conditional entropy, so as to solve a kind of incomplete multi-attribute decision-making problem whose attribute weight is completely unknown. The real practical application shows that the proposed method can effectively combine coarse-grained preliminary classification information to objectively determine the value of decision factors, having strong explanatory significance, and the obtained decision results are more reasonable and effective. Keywords: incomplete decision system; tolerance relation; knowledge granularity; uncertainty measure; conditional entropy; attribute weight; minimum conditional entropy principle; multi-attribute decision-making method 粗糙集理论是由 Pawlak[1] 提出的一种处理不 精确、不确定和模糊信息的数学工具,目前已被 广泛应用于病症诊断、金融风险和机器故障分析 等问题中[2-4]。不确定性度量是粗糙集理论中的 一个重要研究问题,它在属性约简、规则获取中 发挥着重要的作用。 目前,国内外学者已经对经典粗糙集理论的 不确定性度量问题做了系统的研究[5-13]。这些研 究大多基于完备描述的信息系统。现实问题中, 由于属性度量的高代价性、评价者对问题的判断 水平不足或数据输入人员的疏忽问题,常存在属 性值缺失的非完备信息系统。这种非完备信息系 统中的不确定性度量对于非完备知识获取等相关 收稿日期:2019−05−27. 网络出版日期:2019−09−05. 基金项目:国家自然科学基金项目 (61703363);山西省重点实 验室开放课题基金项目 (CICIP2018008). 通信作者:梁吉业. E-mail:ljy@sxu.edu.cn. 第 14 卷第 6 期 智 能 系 统 学 报 Vol.14 No.6 2019 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2019
第6期 高文华,等:非完备决策信息系统中的不确定性度量 ·1101· 问题的求解也至关重要。近年来,研究者对非完 值域,则V=UaEA Va;信息函数f:U×A→V,表示 备信息系统或非完备决策系统的不确定度量取得 论域中每个对象在每个属性上均对应一个属性值。 了一系列非常重要且有意义的研究成果46。文 若在信息系统S中存在xeU、a∈A使得fx,a) 献[17刀对3种类型的决策表(完备、非完备和最 等于空值,其中空值用*表示,则称该信息系统为 大一致块)计算粗糙集的模糊性和粗略决策。文 非完备信息系统,记作IS。 献[18]在非完备决策系统中定义了一种条件嫡。 若A=CUd,C为有限的条件属性集,d为决策 而进一步研究发现,该条件嫡对知识粒度不具有 属性,Cnd=、V=UascV.、f:U×(CUd)→V,则称 单调性,这使得评估不完备决策系统中的不确定 之为决策信息系统,记作DS。若*∈Vc、*Va, 性变得不那么合理。文献[19]进一步研究非完备 则称决策信息系统为DS。 决策系统的不确定性度量,提出对知识粒度变化 在非完备信息系统中,由于一些缺失值的存 敏感且具有单调性的条件熵。虽然这些度量值随 在,完备信息系统中的等价关系已不适用于辨别 着知识粒度的变化而改变,但没有充分考虑由于 任意两个对象间的关系。Kryszkiewicz2I运用较 属性值缺失引起的不确定性。因此,构造既具有 弱的相容关系刻画非完备信息系统中对象之间的 知识粒度单调性又可体现属性缺失的不确定性度 相似性关系,进一步刻画概念的上、下近似。 量具有重要的意义。 定义1相容关系T(P)定义为: 非完备多属性决策问题是一类重要的多属性 T(P)=((u,v)EUXUNaEP,a(u)=a(v)va(u)=*Va(v)=*) 决策问题。属性权重的合理设定是获得可信决策 (1) 结果的保障;属性缺失值填充是有效集结不同属 T(P)是论域U上的相容关系,满足自反性和 性信息的关键。目前属性权重确定方法大都基于 对称性。在非完备信息系统中,相容关系指的是 完备描述的多属性决策问题。文献[20]基于嫡权 将缺失值看作与任何同属性下的已知值有相等的 法设定属性权重。文献21]利用优势粗糙集中属 可能性的一种描述。对象u在知识P下与对象v 性的综合优势度来确定多属性决策中的属性权 可能的不可区分的相容类为T(W)={v∈UI(u,)∈ 重。文献[22]基于信息量确定属性权重。上述赋 T(P)小,山,v∈U,称T(w为相容关系下的信息粒度。 权方法是从信息论的角度来计算的属性权重,不 12非完备信息系统中的不确定性度量 再依赖于数据分布,且具有客观性。属性缺失值 非完备信息系统中的信息熵在文献[14]中首 的填充方法通常使用统计分析法和最近邻法等填 次进行了深入的探讨与研究。 充方法将非完备系统完备化,然而,在特定情况 定义21在非完备信息系统IS=(U,A,V 下,这些填充方法填充的结果会与实际数据产生 中,PcA,属性P在论域U上的信息嫡定义为: 偏离,从而导致不尽合理的决策结果。 1 u ITp(u) log 本文考虑条件属性值缺失的情形,提出了一 HP)= U (2) 种新的条件熵用以刻画非完备决策系统中的知识 式中:T(u)是非完备信息系统中在U上定义的 不确定性程度,同时分析新的条件熵具有有界、 相容关系下的相容类;U1表示集合U的基数。 单调以及完备可退化的特性。此外,将新条件嫡 文献[14)对非完备信息系统的不确定性度量 应用于非完备多属性决策问题求解中,提出一种 进行了研究,文献[18]进一步考虑了非完备决策 基于条件熵的非完备多属性决策方法。该方法以 信息系统中的不确定性度量,提出了条件信息熵 条件熵为统领,确定属性权重并以最小条件熵为 的概念。 准则选择填充值,以此更加客观地求解现实中存 定义311 DS=(U,CU{d),V,f)为非完备决策 在的非完备多属性决策问题,并获得合理有效的 信息系统,P,QsCU{d)。属性Q相对属性P的条 决策结果。最后应用房屋评测实例说明所提方法 件熵定义为: 的有效性与合理性。 To(u)nTr(u) H(QIP)=- 〉log IT(u) (3) 1相关概念 其中T()与To(w)是非完备信息系统中在U上 1.1基本定义 定义的相容关系下的相容类。 信息系统S=(U,Vf,A)是一个4元组,其中 文献[19]进一步对文献[18]中的条件信息嫡 U是由对象构成的非空有限集合,称为论域。A为 进行了改进,提出一种满足单调性的条件熵度量 有限属性集,V。为属性a的值域,V为属性集A的 公式
问题的求解也至关重要。近年来,研究者对非完 备信息系统或非完备决策系统的不确定度量取得 了一系列非常重要且有意义的研究成果[14-16]。文 献 [17] 对 3 种类型的决策表 (完备、非完备和最 大一致块) 计算粗糙集的模糊性和粗略决策。文 献 [18] 在非完备决策系统中定义了一种条件熵。 而进一步研究发现,该条件熵对知识粒度不具有 单调性,这使得评估不完备决策系统中的不确定 性变得不那么合理。文献 [19] 进一步研究非完备 决策系统的不确定性度量,提出对知识粒度变化 敏感且具有单调性的条件熵。虽然这些度量值随 着知识粒度的变化而改变,但没有充分考虑由于 属性值缺失引起的不确定性。因此,构造既具有 知识粒度单调性又可体现属性缺失的不确定性度 量具有重要的意义。 非完备多属性决策问题是一类重要的多属性 决策问题。属性权重的合理设定是获得可信决策 结果的保障;属性缺失值填充是有效集结不同属 性信息的关键。目前属性权重确定方法大都基于 完备描述的多属性决策问题。文献 [20] 基于熵权 法设定属性权重。文献 [21] 利用优势粗糙集中属 性的综合优势度来确定多属性决策中的属性权 重。文献 [22] 基于信息量确定属性权重。上述赋 权方法是从信息论的角度来计算的属性权重,不 再依赖于数据分布,且具有客观性。属性缺失值 的填充方法通常使用统计分析法和最近邻法等填 充方法将非完备系统完备化,然而,在特定情况 下,这些填充方法填充的结果会与实际数据产生 偏离,从而导致不尽合理的决策结果。 本文考虑条件属性值缺失的情形,提出了一 种新的条件熵用以刻画非完备决策系统中的知识 不确定性程度,同时分析新的条件熵具有有界、 单调以及完备可退化的特性。此外,将新条件熵 应用于非完备多属性决策问题求解中,提出一种 基于条件熵的非完备多属性决策方法。该方法以 条件熵为统领,确定属性权重并以最小条件熵为 准则选择填充值,以此更加客观地求解现实中存 在的非完备多属性决策问题,并获得合理有效的 决策结果。最后应用房屋评测实例说明所提方法 的有效性与合理性。 1 相关概念 1.1 基本定义 S = ⟨U,V, f,A⟩ U A Va a V A 信息系统 是一个 4 元组,其中 是由对象构成的非空有限集合,称为论域。 为 有限属性集, 为属性 的值域, 为属性集 的 值域,则 V = ∪a∈AVa;信息函数 f : U × A → V ,表示 论域中每个对象在每个属性上均对应一个属性值。 S x ∈ U、a ∈ A f(x,a) IS 若在信息系统 中存在 使得 等于空值,其中空值用*表示,则称该信息系统为 非完备信息系统,记作 。 A = C ∪d C d C ∩d = ϕ、V = ∪a∈CVa、f : U ×(C ∪d) → V, DS ∗ ∈ VC、∗ < Vd IDS 若 , 为有限的条件属性集, 为决策 属性, 则称 之为决策信息系统,记作 。若 , 则称决策信息系统为 。 在非完备信息系统中,由于一些缺失值的存 在,完备信息系统中的等价关系已不适用于辨别 任意两个对象间的关系。Kryszkiewicz[23] 运用较 弱的相容关系刻画非完备信息系统中对象之间的 相似性关系,进一步刻画概念的上、下近似。 定义 1 T(P) [23] 相容关系 定义为: T(P)={(u, v) ∈ U×U |∀a∈P,a(u)=a(v)∨a(u)=∗∨a(v)=∗} (1) T(P) U u P v {v ∈ U |(u, v) ∈ T(P)} u, v ∈ U TP(u) 是论域 上的相容关系,满足自反性和 对称性。在非完备信息系统中,相容关系指的是 将缺失值看作与任何同属性下的已知值有相等的 可能性的一种描述。对象 在知识 下与对象 可能的不可区分的相容类为 TP(u) = , ,称 为相容关系下的信息粒度。 1.2 非完备信息系统中的不确定性度量 非完备信息系统中的信息熵在文献 [14] 中首 次进行了深入的探讨与研究。 IS = ⟨U,A,V, f⟩ P ⊆ A P U 定义 2 [14] 在非完备信息系统 中, ,属性 在论域 上的信息熵定义为: H(P) = − 1 U ∑ |U| i=1 log |TP(ui)| |U| (2) TP(ui) U |U| U 式中: 是非完备信息系统中在 上定义的 相容关系下的相容类; 表示集合 的基数。 文献 [14] 对非完备信息系统的不确定性度量 进行了研究,文献 [18] 进一步考虑了非完备决策 信息系统中的不确定性度量,提出了条件信息熵 的概念。 IDS = ⟨U,C ∪{d},V, f⟩ P,Q ⊆ C ∪{d} Q P 定义 3 [18] 为非完备决策 信息系统, 。属性 相对属性 的条 件熵定义为: H1(Q|P) = − 1 |U| ∑m i=1 log TQ(ui)∩TP(ui) |TP(ui)| (3) 其中 TP(ui) 与 TQ(ui) 是非完备信息系统中在 U 上 定义的相容关系下的相容类。 文献 [19] 进一步对文献 [18] 中的条件信息熵 进行了改进,提出一种满足单调性的条件熵度量 公式。 第 6 期 高文华,等:非完备决策信息系统中的不确定性度量 ·1101·
·1102- 智能系统学报 第14卷 定义4四设DS=(U,CUD,Vf)、*生Vo、*∈Vc SA()={41} 是非完备决策系统,其中,U={1,2,…,nl,B≤C SA,()={u3,6} 是一个属性集,U/D={Y,Y2,…,Ym}。则决策属性 Sa,(45)={u4,4,6} D相对属性B的条件熵定义为: SA,(2)={2,6} .(o) Ta(ua)nY Sa(4)={u4,5l log (4) Ts(ui SA,(6)={u2,g,4,6} 其中Ts(,)是非完备信息系统中在U上定义的相 Sa(4)={u1l 容关系下的相容类。 SA,(3)={3,6} 然而,定义3及定义4并没有明显地刻画出 SA(s)={u4,5,6} 非完备决策系统的属性值缺失程度的特点,如果 SA(2)={2,6} 此属性(或属性集)的信息变得更粗糙(即此属性 S(u4)={u4,4s} 或属性集上有更多的缺失值),则在该属性集下的 SA(6)={u2,4,5,6 不确定性应该更大,但有时上述不确定性度量值 由此,可知 却保持不变,相关实例见例1。 SA(u=S(u.SA(U2)=SA(u2) 例1表1与表2是2个给定的决策信息表。 论域与条件属性集分别为U={山1,2,3,4,s,6}和 SA(uS=S:(u3).SA(U)=SA:(UA) A1={a1,a2,a3,a4}、A2={b1,b2,b3,b4}。二者的决策知 SA.(us)=SA(us).SA(u)=SA:(u6) 识相同,可表示为U/d={w,,{,4,s,w6》,表2 2)根据定义3,计算2个非完备决策系统的 将表1的部分属性值进行修改,以获得比表1 条件熵分别为: 缺失值更多的决策表。 H,da)=-而台 T(uOTA (u 表1一个非完备决策表 TA.(U Table 1 An incomplete decision table 6×0+0+og2+0+0+log =0.2358 U a d 1 31 11 3 H(dh,)=-名×0+0+1e2+0+0+log-0.2358 2 2 2 3 4 3)根据定义4,计算2个非完备决策系统的 U3 2 4 2 条件熵分别为: 4 2 H,dA)=-) Ta,(UY 14s =1= ITA,(U) 2 2 2 1,12 Us 0+og+2×og2+ 2. 6 og +1og3 表2表1部分已知值缺失化后的非完备决策表 1.3,311 Table 2 An incomplete decision table with partial known values modified in Tablel 2.2 1 12 U b b2 ba d Ha(dA)=-0+6log+2x6log+6 6 33,1 =0.8742 12 2 从以上计算可以看出表1与表2两个非完备 《3 4 2 决策信息系统的两种条件嫡都相同,但实际上由 Ua 2 于属性值缺失程度不同,它们所蕴含的信息不 5 2 同,所以非完备决策信息系统的不确定性也应该 不同。 利用定义3和定义4,分别计算表1和表2两 2非完备决策系统中的条件熵 个系统的条件熵。 1)由相容关系分别计算6个对象在属性A1、A2 在经典粗糙集理论中,产生不确定性的原因 下的相容类: 主要有两个方面:1)信息粒度带来的知识不确定
IDS=⟨U,C ∪ D,V, f⟩、∗ < VD、∗ ∈ VC U = {u1,u2,··· ,un} B ⊆ C U/D = {Y1,Y2,··· ,Ym} D B 定义 4 [19] 设 是非完备决策系统,其中, , 是一个属性集, 。则决策属性 相对属性 的条件熵定义为: H2(D|B) = − ∑ |U| i=1 ∑m j=1 TB(ui)∩Yj |U| log TB(ui)∩Yj |TB(ui)| (4) 其中 TB(ui) 是非完备信息系统中在 U 上定义的相 容关系下的相容类。 然而,定义 3 及定义 4 并没有明显地刻画出 非完备决策系统的属性值缺失程度的特点,如果 此属性 (或属性集) 的信息变得更粗糙 (即此属性 或属性集上有更多的缺失值),则在该属性集下的 不确定性应该更大,但有时上述不确定性度量值 却保持不变,相关实例见例 1。 U = {u1,u2,u3,u4,u5,u6} A1 = {a1,a2,a3,a4} A2 = {b1,b2,b3,b4} U/d = {{u1,u3},{u2,u4,u5,u6}} 例 1 表 1 与表 2 是 2 个给定的决策信息表。 论域与条件属性集分别为 和 、 。二者的决策知 识相同,可表示为 ,表 2 将表 1 的部分属性值进行修改,以获得比表 1 缺失值更多的决策表。 表 1 一个非完备决策表 Table 1 An incomplete decision table U a1 a2 a3 a4 d u1 1 2 3 4 × u2 2 2 3 4 √ u3 2 2 4 2 × u4 1 ∗ 3 2 √ u5 ∗ 2 3 2 √ u6 2 2 ∗ ∗ √ 表 2 表 1 部分已知值缺失化后的非完备决策表 Table 2 An incomplete decision table with partial known values modified in Table1 U b1 b2 b3 b4 d u1 1 2 3 4 × u2 2 ∗ 3 4 √ u3 ∗ ∗ 4 2 × u4 1 ∗ 3 2 √ u5 ∗ ∗ 3 2 √ u6 2 2 ∗ ∗ √ 利用定义 3 和定义 4,分别计算表 1 和表 2 两 个系统的条件熵。 1) 由相容关系分别计算 6 个对象在属性 A1、A2 下的相容类: S A1 (u1) = {u1} S A1 (u3) = {u3,u6} S A1 (u5) = {u4 ,u5 ,u6} S A1 (u2) = {u2,u6} S A1 (u4) = {u4,u5} S A1 (u6) = {u2,u3,u5,u6} S A2 (u1) = {u1} S A2 (u3) = {u3 ,u6} S A2 (u5) = {u4,u5,u6} S A2 (u2) = {u2,u6} S A2 (u4) = {u4 ,u5} S A2 (u6) = {u2 ,u3 ,u5 ,u6} 由此,可知 S A1 (u1) = S A2 (u1) , S A1 (u2) = S A2 (u2) S A1 (u3) = S A2 (u3) , S A1 (u4) = S A2 (u4) S A1 (u5) = S A2 (u5) , S A1 (u6) = S A2 (u6) 2) 根据定义 3,计算 2 个非完备决策系统的 条件熵分别为: H1(d |A1 ) = − 1 |U| ∑m i=1 log Td(ui)∩TA1 (ui) TA1 (ui) = − 1 6 × ( 0+0+log 1 2 +0+0+log 3 4 ) =0.235 8 H1(d |A2 ) = − 1 6 × ( 0+0+log 1 2 +0+0+log 3 4 ) =0.235 8 3) 根据定义 4,计算 2 个非完备决策系统的 条件熵分别为: H2(d |A1 ) = − ∑ |U| i=1 ∑m j=1 TA1 (ui)∩Yj |U| log TA1 (ui)∩Yj TA1 (ui) = − [ 0+ 2 6 log 2 2 +2× 1 6 log 1 2 + 2 6 log 2 2 + 3 6 log 3 3 + ( 1 6 log 1 4 + 3 6 log 3 4 )] = 0.874 2 H2(d|A2 ) = − [ 0+ 2 6 log 2 2 +2× 1 6 log 1 2 + 2 6 log 2 2 + 3 6 log 3 3 + ( 1 6 log 1 4 + 3 6 log 3 4 )] = 0.874 2 从以上计算可以看出表 1 与表 2 两个非完备 决策信息系统的两种条件熵都相同,但实际上由 于属性值缺失程度不同,它们所蕴含的信息不 同,所以非完备决策信息系统的不确定性也应该 不同。 2 非完备决策系统中的条件熵 在经典粗糙集理论中,产生不确定性的原因 主要有两个方面:1) 信息粒度带来的知识不确定 ·1102· 智 能 系 统 学 报 第 14 卷
第6期 高文华,等:非完备决策信息系统中的不确定性度量 ·1103· 性;2)粗糙集边界引起的集合不确定性。然而对 下缺失值的个数。以下出现的相同符号意义与此 于非完备信息系统,经过分析发现:已有的不确 相同,不再赘述。 定性度量方法在同一非完备信息系统中,相同属 基于上述分析,构造出非完备信息系统中目 性集下的属性值缺失程度不同所形成的系统会得 标概念的不确定性度量。 到相同的度量值,这时,如果直接应用已有的度 定义7设IS=(U,Vf,A),PSA,是一个非完备 量公式来度量非完备信息系统的不确定性,就存 信息系统,U/T(P)={Tr(,Tp(,…,Tp(4)h,XU, 在一定的局限性,因为已有的度量方法只考虑了 则目标概念X在覆盖U/T(P)下的不确定性度量为: 非完备信息系统中由于知识粒度引起的不确定性 yTnN1og号 H.xIP)- IT(u)OXI 以及由粗糙集边界带来的集合不确定性,而没有 IU川 (6) TP(uil 考虑由于属性值缺失所引起的不确定性。针对以 定义7给出了非完备信息系统中目标概念的 上问题,本文在非完备信息系统中提出一种考虑 不确定性度量,该度量不但反映了非完备信息系 缺失值程度的不确定性度量,并进一步考虑了非 统中由于知识粒度及集合引起的不确定性,还反 完备决策信息系统中的不确定性度量,提出新的 映了由于属性值缺失所引起的不确定性。 条件嫡,讨论了其相关性质。从新的角度验证并 定理1设IS=(U,Vf,A,PSA,是一个非完 说明条件嫡能够更加精确地度量非完备决策系统 备信息系统,XcU,那么H(XP)是定义5下的 的不确定性。 不确定性度量。 通过以上分析,将完备信息系统下的不确定 证明式(6)是由2部分因子组成,其中一个 性度量公理化定义推广到非完备信息系统中,提 出如下非完备信息系统中不确定性度量满足条件。 因子为HxP)=-Xjog Cnx,另 定义5设IS=(U,Vf,A),PsA,是一个非完 备信息系统,X二U,(U)是U上所有覆盖的全体 一个因子为G@=可 Y=Tp(u)OX,Y=T(u)nX,x=IY=IT(u)0 集合,T(U)是U的幂集,若存在平(U「(U)到实数 ,y=Y1=Tu)nX9、X=U-X.则 集R的映射函数H(XIP):(UT(U)→R,满足如 Tp(ua)=YiUYf,ITp(ua)I IY;UY1=IY+IYI=x;+yi 下条件,则称它为目标概念X在覆盖UT(P)下的 所以 不确定性度量。 1)非负性:YPSA,有HXIP)≥0。 H(XIP)=- 凸Tu)X)nX_ IUI log lT-(u:川 2)不变性:若YP、QSA,有HXIP)=HXIQ), 那么存在映射f:U/T(P)→U/T(Q),使得对于任意 x:+y月 ie{1,2,…,UI,有Tp(u=f(Tp()川,且在属性集P 与属性集Q下的缺失值程度相同,其中,U/TP)= 易知函数fx)=-xog x中在x≥0≥0范 T(u),Tn(),…,Tp(4ul,U/T(Q)={Te(u,Te(),…, 围内单调递增,且f0,0)=0,则fx,y)≥0,故H(X To(uu)lo 1P)≥0。 3)单调性:YP、QSA,若P≤Q,且属性集P 1)非负性:易知a≥0,所以G(a)>0。又因为 比属性集Q下的缺失值程度小,则H(XIP)<H(XIQ)。 HXIP)≥0.得H(XIP)≥0: 基于上述条件,构造出非完备信息系统中知 对于任意T(w,)∈U/T(P),当且仅当T(u)nX= 识的不确定性度量。 中或T()cX时,有H.(XP)=0。 定义6设IS=(U,Vf,A,PCA,是一个非完备信 2)不变性:若VP.OCA,要使H(XIP)=H(XIQ), 息系统,XU,U/T(P)={Tp(山),Tp(2),…,T(4M, 则必对覆盖U/T(P)={T(u),T(),…,Tr(4uM,U/T 则属性集P在论域U上的信息嫡定义为: (Q)=Te(),Te(),…,Te(4)h,有ITp(ul=Te()i∈ H.(P)=-z 分To 1,2,…,Ul),即 (5) 0台101 H(X P)=- ( IT(uaOXI log 号Q 1U1 TP(ui)l 吗lTe(4)nX,Te(u)nX 式中:= 一Q(4)={ala∈PAa()=*4∈U: =H(XIQ) P To(u i=1,2,…,U八;lQ(u训表示对象4在条件属性描述 又必须在属性集P与属性集Q下的缺失值
性;2) 粗糙集边界引起的集合不确定性。然而对 于非完备信息系统,经过分析发现:已有的不确 定性度量方法在同一非完备信息系统中,相同属 性集下的属性值缺失程度不同所形成的系统会得 到相同的度量值,这时,如果直接应用已有的度 量公式来度量非完备信息系统的不确定性,就存 在一定的局限性,因为已有的度量方法只考虑了 非完备信息系统中由于知识粒度引起的不确定性 以及由粗糙集边界带来的集合不确定性,而没有 考虑由于属性值缺失所引起的不确定性。针对以 上问题,本文在非完备信息系统中提出一种考虑 缺失值程度的不确定性度量,并进一步考虑了非 完备决策信息系统中的不确定性度量,提出新的 条件熵,讨论了其相关性质。从新的角度验证并 说明条件熵能够更加精确地度量非完备决策系统 的不确定性。 通过以上分析,将完备信息系统下的不确定 性度量公理化定义推广到非完备信息系统中,提 出如下非完备信息系统中不确定性度量满足条件。 IS = ⟨U,V, f,A⟩,P ⊆ A, X ⊆ U Ψ(U) U Γ(U) U Ψ(U) Γ(U) R 1 H(X |P) Ψ(U)Γ(U) → R 1 X U/T(P) 定义 5 设 是一个非完 备信息系统, , 是 上所有覆盖的全体 集合, 是 的幂集,若存在 到实数 集 的映射函数 : ,满足如 下条件,则称它为目标概念 在覆盖 下的 不确定性度量。 1) 非负性: ∀P ⊆ A, 有 H(X |P) ⩾ 0。 ∀P、Q ⊆ A, H(X |P) = H(X |Q) f U/T(P) → U/T(Q) i ∈ {1,2,··· ,|U|}, |TP(ui)| = | f(TP(ui))| P Q {TP(u1), TP(u|U|)},U/T(Q) = {TQ(u1),TQ(u2),··· , TQ(u|U|)} 2) 不变性:若 有 , 那么存在映射 : ,使得对于任意 有 ,且在属性集 与属性集 下的缺失值程度相同,其中,U/T(P) = TP(u2),···, 。 ∀P、Q ⊆ A, P ⪯ Q P Q H(X |P) < H(X |Q) 3) 单调性: 若 ,且属性集 比属性集 下的缺失值程度小,则 。 基于上述条件,构造出非完备信息系统中知 识的不确定性度量。 IS = ⟨U,V, f,A⟩,P ⊆ A, X ⊆ U U/T(P) = {TP(u1),TP(u2),··· ,TP(u|U|)} P U 定义6 设 是一个非完备信 息系统, , , 则属性集 在论域 上的信息熵定义为: Hα(P) = − 2 α |U| ∑ |U| i=1 |TP(ui)| |U| log |TP(ui)| |U| (5) α = ∑ |U| i=1 |Q(ui)| |P| ;Q(ui) = {a|a ∈ P∧a (ui) = ∗};ui ∈ U; i = 1,2,··· ,|U| |Q(ui)| ui 式中: ; 表示对象 在条件属性描述 下缺失值的个数。以下出现的相同符号意义与此 相同,不再赘述。 基于上述分析,构造出非完备信息系统中目 标概念的不确定性度量。 IS = ⟨U,V, f,A⟩,P ⊆ A, U/T(P) = {TP(u1),TP(u2),··· ,TP(u|U|)} X ⊆ U, X U/T(P) 定义 7 设 是一个非完备 信息系统, , 则目标概念 在覆盖 下的不确定性度量为: Hα(X |P) = − 2 α |U| ∑ |U| i=1 |TP(ui)∩ X| |U| log |TP(ui)∩ X| |TP(ui)| (6) 定义 7 给出了非完备信息系统中目标概念的 不确定性度量,该度量不但反映了非完备信息系 统中由于知识粒度及集合引起的不确定性,还反 映了由于属性值缺失所引起的不确定性。 IS = ⟨U,V, f,A⟩,P ⊆ A, X ⊆ U Hα(X |P) 定理 1 设 是一个非完 备信息系统, ,那么 是定义 5 下的 不确定性度量。 H(X |P) = − ∑ |U| i=1 |TP(ui)∩ X| |U| log |TP(ui)∩ X| |TP(ui)| G(α) = 2 α |U| 证明 式 (6) 是由 2 部分因子组成,其中一个 因子为 ,另 一个因子为 。 Yi =TP(ui)∩ X,Yi c =TP(ui)∩ X c,xi =|Yi |=|TP(ui)∩ X|,yi = |Yi c | = |TP(ui)∩ X c |、X c = U − X。 设 则 TP(ui) = Yi ∪Yi c ,|TP(ui)| = |Yi ∪Yi c | = |Yi |+|Yi c | = xi +yi 所以 H(X |P) = − ∑ |U| i=1 |TP(ui)∩ X| |U| log |TP(ui)∩ X| |TP(ui)| = − ∑ |U| i=1 xi |U| log xi xi +yi f(x, y) = −x log x x+y x ⩾ 0, y ⩾ 0 f(0,0) = 0 f(x, y) ⩾ 0 H (X |P) ⩾ 0 易知函数 在 范 围内单调递增,且 ,则 ,故 。 α ⩾ 0 G(α) > 0 H(X |P) ⩾ 0 Hα(X |P) ⩾ 0 1) 非负性:易知 ,所以 。又因为 ,得 ; TP(ui) ∈ U/T(P), TP(ui)∩ X= ϕ TP(ui) ⊆ X Hα(X |P) = 0 对于任意 当且仅当 或 时,有 。 ∀P,Q ⊆ A, H(X |P) = H(X |Q), U/T(P) = {TP(u1),TP(u2),··· ,TP(u|U|)} U/T (Q)=TQ(u1),TQ(u2),··· ,TQ ( u|U| )} |TP(ui)|= TQ(ui) (∀i ∈ {1,2,··· ,|U|}), 2) 不变性:若 要使 则必对覆盖 , ,有 即 H(X |P) = − ∑ |U| i=1 |TP(ui)∩ X| |U| log |TP(ui)∩ X| |TP(ui)| = − ∑ |U| i=1 TQ(ui)∩ X |U| log TQ(ui)∩ X TQ(ui) = H(X |Q) 又必须在属性集 P 与属性集 Q 下的缺失值 第 6 期 高文华,等:非完备决策信息系统中的不确定性度量 ·1103·
·1104· 智能系统学报 第14卷 程度相同,即G(ar)=G(ae)。 因此H(DP)可以取到最小值,且为O。 则得到 2)当Tp(w)=U,U/D={1,{2h,…,{4uh,且当所 H(XIP)=G(ap)H(XIP)=G(aQ)H(XIQ)=H(X|Q) 有条件属性值缺失时,H(DIP)达到最大值2IogU 3)单调性:因为函数fx,y)=-xlog(x/x+y)在 当所有条件属性值缺失时,即IQ(w训=UI×PI, 区间x≥0,y≥0上单调递增,且fx,y)≥0,所以 得a=IU,又因为T(4)=U,U/D={l,{2…,{u} 式(6)中一个因子H(XP)≥0,且单调递增,另一 所以,利用式(⑦)得H(D1P)=2u1ogIU。 个因子为函数G(a)=2”>0,且单调递增,所以H.(X 因此,决策属性D相对属性P的条件熵取值 P)≥0,且单调递增,即满足单调性。 范围为0≤H(DIP)≤21ogIW。 由此可知,式(6)是非完备信息系统下的一种 性质3设IDS=(U,CUD,Vf,PQSC,*Vo,*∈ 不确定性度量。 Vc是一非完备决策系统,其中U/T(P)={T(), 考虑非完备信息系统中目标概念的不确定性 Tp(2,…,Tp(4)h,U/D={Y,Yz,…,Ym}。对于任意 程度,可诱导出非完备决策系统中知识的不确定 4∈Ua∈C,(i∈1,2,…,UD,将fu,a)≠*转化为, 性度量。 a)=*,得到改变后的非完备决策系统DS'。则改 定义8设DS=(U,CUD,V,f),P∈C,*年Vo,*EVc 变后的非完备决策系统下决策属性D相对属性 是一个非完备决策系统,U/T(P)={T(),Tp(),…, P的条件熵大于原决策系统下决策属性D相对 Tr(4uh,XsU,T()是在U上定义的相容关系下 属性P的条件熵,即H(DP)>H(DP)。 的相容类,U/D={Y,Y2,…,Ym}。则决策属性D相 证明由于u,∈U,a∈C,(ie1,2,…,UD,将f(u, 对属性P的条件嫡定义为: a)≠*转化为f,a)=*,则Tp(u)sTp'(u)。由定理 H(DIP)=- Tr(u)nY log 1可知,一因子H(XP)随着T()变粗,单调递 (7) 1=1 ITp(ua) 增,则H'(YP)≥H(YP),G=1,2,…,m),即 性质1设DS=(U,CUD,V,f),P,QCC,*生Vn,*∈ 马lT')nyoT'r)ny log Vc是一非完备决策系统,其中U/T(P)=(T(), I0 IT(uiyI Tr(,…,Tn(4h,U/T(Q)={Te(4),…,Te(4h,若 T)nY以g T-(u)nY T(u训=Te(,且在属性集P与属性集Q下的 IUI IT (u) ,j=1,2.…,m) 缺失值程度相同,即ap=ae,则H(DP)=H(D1Q)。 则 性质1表明本文构造的条件熵满足不确定度 量的不变性条件,即若2个知识P,QSC,粗细相 lTnYylranY, log Te(uiYl 同,且缺失值程度相同时,它们具有相同的不确 101 定性度量值,这意味着知识粒度粗细程度及属性 T-(u)nY 值缺失程度相同,其不确定性也相同。 22 IU☑ log T(u 性质2设DS=(U,CUD,Vf,P,QSC,*生Vo,*∈ 又因为改变后的非完备决策系统DS的缺失 Vc是一非完备决策系统,其中U/T(P)={T(),TP 值增多,即a>a,也即 (,…,T(4ul,U/D={Y,Y2,…,Ymo决策属性D相对 22 属性P的条件嫡取值范围为0≤H(DIP)≤21ogIU。 可可 证明1)当T()SY,时,H(DP)取最小值为0。 所以 由T()sY可知,对任意的∈U,有 H(DP)>H(DP) IT-(u)Y_T(=1 性质3表明由定义8构造的条件嫡满足不确 TP(uil Te(uil 定性度量的单调性条件,即若2个知识PQSC, 则 P≤Q,且IQ(l<2o(u),则决策属性D相对属 T-(u)OY 性P的条件嫡小于决策属性D相对属性Q的条 log 1=0 ITp(ui)l 件熵,这意味着非完备决策信息系统存在的缺失 根据定义8得HDP)=0。反之,若T(u)¢ 值越多,则条件熵越大,不确定性也越大。 Y,则 性质4非完备决策系统DS=(U,CUD,V,f), 退化为完备决策信息系统DS=(U,CUD,V,f),其 中PC,U/T(P)={T(4),Tp(u),…,Tr(4uh,U/D=Y, 又2始终大于零,所以H(DP)≠0产生矛盾, Y2,…,Ym}。则完备决策系统中决策属性D相对属
程度相同,即 G(αP) = G(αQ)。 则得到 Hα(X |P)=G(αP) H(X |P)=G(αQ) H(X |Q)=Hα(X |Q) f(x, y) = −x log(x/x+y) x ⩾ 0, y ⩾ 0 f(x, y) ⩾ 0 H(X/P) ⩾ 0, G(α) = 2 α > 0, Hα (X |P) ⩾ 0 3) 单调性:因为函数 在 区间 上单调递增,且 ,所以 式 (6) 中一个因子 且单调递增,另一 个因子为函数 且单调递增,所以 ,且单调递增,即满足单调性。 由此可知,式 (6) 是非完备信息系统下的一种 不确定性度量。 考虑非完备信息系统中目标概念的不确定性 程度,可诱导出非完备决策系统中知识的不确定 性度量。 IDS=⟨U,C∪D,V, f⟩,P ⊆ C,∗<VD,∗∈ VC U/T(P) = {TP(u1),TP(u2),··· , TP(u|U|)},X ⊆ U TP(ui) U U/D = {Y1,Y2,··· ,Ym} D P 定义8 设 是一个非完备决策系统, , 是在 上定义的相容关系下 的相容类, 。 则决策属性 相 对属性 的条件熵定义为: H(D|P) = − 2 α |U| ∑ |U| i=1 ∑m j=1 TP(ui)∩Yj |U| log TP(ui)∩Yj |TP(ui)| (7) IDS=⟨U,C∪D,V, f⟩, P,Q ⊆ C, ∗< VD, ∗∈ VC U/T(P) = {TP(u1), TP(u2),··· ,TP(u|U|)},U/T(Q)={TQ(u1),··· ,TQ(u|U|)}, |TP(ui)| = TQ(ui) , P Q αP = αQ, H(D|P) = H(D|Q) 性质1 设 是一非完备决策系统,其中 若 且在属性集 与属性集 下的 缺失值程度相同,即 则 。 P,Q ⊆ C, 性质 1 表明本文构造的条件熵满足不确定度 量的不变性条件,即若 2 个知识 粗细相 同,且缺失值程度相同时,它们具有相同的不确 定性度量值,这意味着知识粒度粗细程度及属性 值缺失程度相同,其不确定性也相同。 IDS=⟨U,C ∪ D,V, f⟩,P,Q ⊆ C,∗ < VD,∗ ∈ VC U/T(P) = {TP(u1),TP (u2),··· ,TP(u|U|)},U/D={Y1,Y2,··· ,Ym} D P 0 ⩽ H(D|P) ⩽ 2 |U| log|U| 性质2 设 是一非完备决策系统,其中 。决策属性 相对 属性 的条件熵取值范围为 。 证明 1) 当 TP(ui) ⊆ Yi时, H(D|P) 取最小值为 0。 由 TP(ui) ⊆ Yi 可知,对任意的 ui ∈ U ,有 TP(ui)∩Yj |TP(ui)| = |TP(ui)| |TP(ui)| = 1 则 log TP(ui)∩Yj |TP(ui)| = 0 H(D|P) = 0 TP(ui) 1 Yi 根据定义 8 得 。反之,若 ,则 ∑ |U| i=1 ∑m j=1 TP(ui)∩Yj |U| log TP(ui)∩Yj |TP(ui)| , 0 2 又 α 始终大于零,所以 H(D|P) , 0 产生矛盾, 因此 H(D|P) 可以取到最小值,且为 0。 TP(ui) = U,U/D = {{u1},{u2},··· ,{u|U|}}, H(D|P) 2 |U| log|U| 2) 当 且当所 有条件属性值缺失时, 达到最大值 。 |Q(ui)| = |U|×|P|, α = |U| TP(ui)=U U/D={{u1},{u2},··· ,{u|U|}} H(D|P) = 2 |U| log|U| 当所有条件属性值缺失时,即 得 ,又因为 , 所以,利用式 (7) 得 。 D P 0 ⩽ H(D|P) ⩽ 2 |U| log|U| 因此,决策属性 相对属性 的条件熵取值 范围为 。 IDS = ⟨U,C ∪ D,V, f⟩,P,Q ⊆ C,∗ < VD,∗ ∈ VC U/T(P) = {TP(u1), TP(u2),··· ,TP(u|U|)},U/D = {Y1,Y2,··· ,Ym} ui ∈ U,a ∈ C,(i ∈ 1,2,··· ,|U|) f(ui ,a) , ∗ (ui , a) = ∗ IDS′ D P D P H ′ (D|P) > H(D|P) 性质3 设 是一非完备决策系统,其中 。对于任意 ,将 转化为 f ,得到改变后的非完备决策系统 。则改 变后的非完备决策系统下决策属性 相对属性 的条件熵大于原决策系统下决策属性 相对 属性 的条件熵,即 。 ∀ui ∈ U,a ∈ C,(i ∈ 1,2,··· ,|U|), f(ui , a) , ∗ f(ui ,a) = ∗ TP(ui) ⊆ TP ′ (ui) H(X |P) TP(ui) H ′ (Yj |P) ⩾ H(Yj |P),(j = 1,2,··· ,m) 证明 由于 将 转化为 ,则 。由定理 1 可知,一因子 随着 变粗,单调递 增,则 ,即 − ∑ |U| i=1 T ′ P(ui)∩Yj |U| log T ′ P(ui)∩Yj |TP(ui) ′ | ⩾ − ∑ |U| i=1 TP(ui)∩Yj |U| log TP(ui)∩Yj |TP(ui)| ,(j = 1,2,··· ,m) 则 − ∑ |U| i=1 ∑m j=1 T ′ P(ui)∩Yj |U| log T ′ P(ui)∩Yj |TP(ui) ′ | ⩾ − ∑ |U| i=1 ∑m j=1 TP(ui)∩Yj |U| log TP(ui)∩Yj |TP(ui)| IDS′ α ′ > α 又因为改变后的非完备决策系统 的缺失 值增多,即 ,也即 2 α ′ |U| > 2 α |U| 所以 H ′ (D|P) > H(D|P) P,Q ⊆ C P ⪯ Q |QP(ui)| < QQ(ui) D P D Q 性质 3 表明由定义 8 构造的条件熵满足不确 定性度量的单调性条件,即若 2 个知识 , ,且 ,则决策属性 相对属 性 的条件熵小于决策属性 相对属性 的条 件熵,这意味着非完备决策信息系统存在的缺失 值越多,则条件熵越大,不确定性也越大。 IDS = ⟨U,C ∪ D,V, f⟩, DS = ⟨U,C ∪ D,V, f⟩, P ⊆ C,U/T(P)={TP(u1),TP(u2),··· ,TP(u|U|)},U/D={Y1, Y2,··· ,Ym} D 性质 4 非完备决策系统 退化为完备决策信息系统 其 中 。则完备决策系统中决策属性 相对属 ·1104· 智 能 系 统 学 报 第 14 卷