第14卷第6期 智能系统学报 Vol.14 No.6 2019年11月 CAAI Transactions on Intelligent Systems Nov.2019 D0:10.11992/tis.201905048 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20190909.1712.008.html 面向混合数据的多伴随三支决策 赵天娜,苗夺谦2,米据生3,张远健2 (1.同济大学电子与信息工程学院,上海201804:2.同济大学嵌入式系统与服务计算教有部重点实验室,上海 201804;3.河北师范大学数学与信息科学学院,河北石家庄050024) 摘要:针对混合数据的知识表示和分类的问题,在思考混合数据的有效表示时,提出代价敏感多伴随模糊粗 糙集模型,在解决混合数据的分类问题上,引入三支决策思想,同时在多伴随模型基础上做了两点改进:)提 出贴近代价敏感多伴随模糊粗糙集模型特点的概率定义;2)借助双量化延迟代价目标函数的思想,构造面向混 合数据的新型三支决策模型。该模型具有如下特点:1)引入多个伴随对,模拟了数值型属性和符号型属性之间 异构互补的关系;2)定义多伴随算子,充分表达了不同类型属性之间的偏好:3)结合模糊粗糙集,克服了分类 问题的不确定性:4)考虑获取不同类型属性的代价,提高了应用到实际生活的可能性。最后用实例验证了此模 型的有效性。 关键词:混合数据:模糊粗糙集;三支决策:多伴随:代价敏感:知识表示:分类 中图分类号:TP391文献标志码:A文章编号:1673-4785(2019)06-1092-08 中文引用格式:赵天娜,苗夺谦,米据生,等.面向混合数据的多伴随三支决策智能系统学报,2019,14(6):1092-1099 英文引用格式:ZHAO Tianna,MIAO Duoqian,,MI Jusheng,etal.Multi--adjoint three--way decisions on heterogeneous data[J. CAAI transactions on intelligent systems,2019,14(6):1092-1099 Multi-adjoint three-way decisions on heterogeneous data ZHAO Tianna,MIAO Duoqian"2,MI Jusheng',ZHANG Yuanjian2 (1.College of Computer Science and Technology,Tongji University,Shanghai 201804,China;2.Key Laboratory of Embedded Sys- tem and Service Computing of Ministry of Education,Tongji University,Shanghai 201804,China;3.College of Mathematics and In- formation Science,Hebei Normal University,Shijiazhuang 050024,China) Abstract:Considering the problem of knowledge representation and classification relating to heterogeneous data,a cost- sensitive multi-adjoint fuzzy rough set model is proposed for the effective representation of heterogeneous data and in order to solve the classification problem of heterogeneous data,the idea of three-way decisions is introduced.Moreover, two improvements are made on the basis of the multi-adjoint model:1)A revised probability definition is presented to approximately characterize the cost-sensitive fuzzy rough set model.2)Based on the idea of the dual quantization delay cost objective function,a novel three-way decisions model is constructed for heterogeneous data.This model has the fol- lowing characteristics:1)Multiple adjoint pairs are introduced to simulate the relationship of heterogeneous comple- mentarity between numerical attribute and categorical attribute.2)The multi-adjoint operator is defined to fully express the preference among different attributes.3)A fuzzy rough set is combined to overcome the uncertainty of the classifica- tion problem.4)The cost of acquiring both numerical and categorical attributes is considered to improve the possibility of application to real life.The effectiveness of the model is verified in the heterogeneous dataset. Keywords:heterogeneous data;fuzzy rough set;three-way decisions;multi-adjoint;cost-sensitive;knowledge repres- entation;classification 收稿日期:2019-05-24.网络出版日期:2019-09-10. 混合数据是非结构化的、互补的、超高维 基金项目:国家重点研发项目(213):国家自然科学基金项目 (61673301,61573127,61763031):河北省自然科学基金 的,包含大量冗余信息,研究如何有效表示,特征 项目(A2018210120):公安部重大专项项目(20170004). 通信作者:赵天娜.E-mail:1810375@tongji.edu.cn 选择和融合混合数据有重要的实际意义。尤其是
DOI: 10.11992/tis.201905048 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190909.1712.008.html 面向混合数据的多伴随三支决策 赵天娜1,2,苗夺谦1,2,米据生3 ,张远健1,2 (1. 同济大学 电子与信息工程学院,上海 201804; 2. 同济大学 嵌入式系统与服务计算教育部重点实验室,上海 201804; 3. 河北师范大学 数学与信息科学学院,河北 石家庄 050024) 摘 要:针对混合数据的知识表示和分类的问题,在思考混合数据的有效表示时,提出代价敏感多伴随模糊粗 糙集模型,在解决混合数据的分类问题上,引入三支决策思想,同时在多伴随模型基础上做了两点改进:1) 提 出贴近代价敏感多伴随模糊粗糙集模型特点的概率定义;2) 借助双量化延迟代价目标函数的思想,构造面向混 合数据的新型三支决策模型。该模型具有如下特点:1) 引入多个伴随对,模拟了数值型属性和符号型属性之间 异构互补的关系;2) 定义多伴随算子,充分表达了不同类型属性之间的偏好;3) 结合模糊粗糙集,克服了分类 问题的不确定性;4) 考虑获取不同类型属性的代价,提高了应用到实际生活的可能性。最后用实例验证了此模 型的有效性。 关键词:混合数据;模糊粗糙集;三支决策;多伴随;代价敏感;知识表示;分类 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2019)06−1092−08 中文引用格式:赵天娜, 苗夺谦, 米据生, 等. 面向混合数据的多伴随三支决策 [J]. 智能系统学报, 2019, 14(6): 1092–1099. 英文引用格式:ZHAO Tianna, MIAO Duoqian, MI Jusheng, et al. Multi-adjoint three-way decisions on heterogeneous data[J]. CAAI transactions on intelligent systems, 2019, 14(6): 1092–1099. Multi-adjoint three-way decisions on heterogeneous data ZHAO Tianna1,2 ,MIAO Duoqian1,2 ,MI Jusheng3 ,ZHANG Yuanjian1,2 (1. College of Computer Science and Technology, Tongji University, Shanghai 201804, China; 2. Key Laboratory of Embedded System and Service Computing of Ministry of Education, Tongji University, Shanghai 201804, China; 3. College of Mathematics and Information Science, Hebei Normal University, Shijiazhuang 050024, China) Abstract: Considering the problem of knowledge representation and classification relating to heterogeneous data, a costsensitive multi-adjoint fuzzy rough set model is proposed for the effective representation of heterogeneous data and in order to solve the classification problem of heterogeneous data, the idea of three-way decisions is introduced. Moreover, two improvements are made on the basis of the multi-adjoint model: 1) A revised probability definition is presented to approximately characterize the cost-sensitive fuzzy rough set model. 2) Based on the idea of the dual quantization delay cost objective function, a novel three-way decisions model is constructed for heterogeneous data. This model has the following characteristics: 1) Multiple adjoint pairs are introduced to simulate the relationship of heterogeneous complementarity between numerical attribute and categorical attribute. 2) The multi-adjoint operator is defined to fully express the preference among different attributes. 3) A fuzzy rough set is combined to overcome the uncertainty of the classification problem. 4) The cost of acquiring both numerical and categorical attributes is considered to improve the possibility of application to real life. The effectiveness of the model is verified in the heterogeneous dataset. Keywords: heterogeneous data; fuzzy rough set; three-way decisions; multi-adjoint; cost-sensitive; knowledge representation; classification 混合数据[1] 是非结构化的、互补的、超高维 的,包含大量冗余信息,研究如何有效表示,特征 选择和融合混合数据有重要的实际意义。尤其是 收稿日期:2019−05−24. 网络出版日期:2019−09−10. 基金项目:国家重点研发项目(213);国家自然科学基金项目 (61673301,61573127,61763031);河北省自然科学基金 项目 (A2018210120);公安部重大专项项目 (20170004). 通信作者:赵天娜. E-mail: 1810375@tongji.edu.cn.. 第 14 卷第 6 期 智 能 系 统 学 报 Vol.14 No.6 2019 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2019
第6期 赵天娜,等:面向混合数据的多伴随三支决策 ·1093· 在数字化时代,多通道传感器广泛化产生,混合 型结合三支决策模型的研究已有成果,AL-Hmoz网 数据的分类任务普遍存在于实际生活中,如文本 运用三支决策的思想做多模态生物识别系统的开 情感分类,医学影像分析更多复杂的语义以混合 发。赵天娜初步研究了多伴随直觉模糊粗糙 属性值形式表示。数值型和符号型数据的相互作 集与三支决策模型的简单结合。鉴于模型与三支 用,导致概念往往具有不一致性和模糊性。如何 决策组合的优越性,本文将进一步深入地研究用 利用混合数据的上述性质降低此类数据的不确定 三支决策模型处理混合数据分类问题更优化的方 性是一个值得研究的课题。 式,代价敏感多伴随模糊粗糙集模型赋予三支语 模糊粗糙集是一种处理不确定性问题的有 义,并在决策代价最小化意义下优化混合数据三 效数学工具,然而现有的模糊粗糙集模型不能处 支分类结果,扩展三支决策理论的应用范围。 理混合数据分类问题。因此,研究模糊粗糙集扩 本文的贡献可从以下几个方面体现:混合数 展模型,并应用于混合属性分类具有重要的理论 据的非结构化,互补以及大量冗余无关信息等特 创新价值。M等)用对偶三角模构造逻辑算子, 点造成数据的高度不确定性,因此数据分类不一 发展了粗糙近似算子的构造方法。Feng等用概 致性和模糊性使得挖掘混合数据蕴含的内部信息 率方法研究并构造了信任函数与似然函数。目 有难度。找出数值型和符号型属性之间的各种关 前,模糊粗糙近似算子的构造大多使用一对三角 系,降低分类的不确定性是混合数据挖掘中亟待 模与蕴含算子作为逻辑算子,没有考虑对象或者 解决的问题。针对上述问题,本文用多个伴随对 属性之间的差异性。用多伴随对构造模糊Galois 模拟不同类型属性之间的关系,多伴随算子可充 连接,模糊粗糙近似算子,可以体现数值型数据 分表达不同类型属性对对象之间的偏好,同时考 和符号型属性之间的偏好。近几年来,Medina等 虑了获取不同类型属性值的代价,提出代价敏感 研究了多伴随理论,并探究其在多伴随概念格和 多伴随模糊粗糙集模型。给出充分体现此模型特 多伴随粗糙集等概念上的应用,但混合数据的表 点的概率公式,并优化了损失函数。改造三支决 示方面需进一步深入研究。不同类型属性获取所 策模型,挖掘出不同类型属性的关系特点。针对 需的不同代价问题,是现实生活中数据处理时必 混合数据的不确定性特点,提出此模型。此模型 不可少要考虑的因素。Tan向提出代价敏感学习, 是数据特点驱动的,从数据本质出发,分析混合 并将其应用到许多方面,如遗传算法川、粗糙集 数据的特点,找出数值型属性和符号型属性之间 等。国内学者也研究进展颇丰,如Fan等针对 的各种关系。 测试代价敏感决策系统,构造数据模型。Ju等o 1基本概念 提出了带有多粒度指标的代价敏感粗糙集模型。 系列学者都将获取数据的代价作为数据处理时 1.1 多伴随模糊粗糙集理论 的重要因素。受上述工作的启发,本文引人代价 Cornelis等2o1提出的多伴随模糊粗糙集理论 敏感多伴随模糊粗糙集表示数值型属性和符号型 研究了多伴随对与模糊粗糙集理论结合的基本定 属性之间的异构互补关系,使得伴随对与不同类 义和简单性质。 型属性之间产生关联:在利用多伴随算子表达不 定义12给定偏序集(P,≤1)、(P2,≤2)、(P,≤) 同类型属性之间偏好的同时,兼顾了获取不同类 和映射&:P1×P2→P,:P3×P2→P,人:P×P1→ 型属性值的代价。 P2,称(&,/,)是一个伴随三元组,如果满足: Yao2l提出的三支决策是处理数据分类任 1)对于x∈P,y∈P2,z∈P,都有x≤3/y台x&y≤ 务时基于人类认知的高效决策模式,已有许多专 Z台y≤2zx 家将其与其他模型结合,大大提高了数据分类能 2)&在P、P2、P3上是保序映射: 力。Liang等13.11研究了处理多阶段信息和双犹 3),、在第1和第2论域上是保序映射。 豫模糊信息的基于直觉模糊粗糙集的三支决策模 定义220设(L1,L2,P&1,…,&)是多伴随框 型。Qiao将三支决策引入到推荐系统时,考虑 架,称(A,U,Rt)为多伴随背景,其中A是非空对 了代价和用户的偏好,极大改进了推荐质量。徐健锋吗 象集,U是非空属性集,R:A×U→P是P模糊关 以混淆矩阵为工具,多目标优化三支决策阈值求 系,满足自反性和对称性。T:A×A→(1,2,…,n 解模型,同时发现了三支决策的代价与决策的条 是将A×A中元素对映射到多伴随框架上一个特 件概率之间存在非单调现象。混合数据分类模 定的伴随三元组
在数字化时代,多通道传感器广泛化产生,混合 数据的分类任务普遍存在于实际生活中,如文本 情感分类,医学影像分析更多复杂的语义以混合 属性值形式表示。数值型和符号型数据的相互作 用,导致概念往往具有不一致性和模糊性。如何 利用混合数据的上述性质降低此类数据的不确定 性是一个值得研究的课题。 模糊粗糙集[2] 是一种处理不确定性问题的有 效数学工具,然而现有的模糊粗糙集模型不能处 理混合数据分类问题。因此,研究模糊粗糙集扩 展模型,并应用于混合属性分类具有重要的理论 创新价值。Mi 等 [3] 用对偶三角模构造逻辑算子, 发展了粗糙近似算子的构造方法。Feng 等 [4] 用概 率方法研究并构造了信任函数与似然函数。目 前,模糊粗糙近似算子的构造大多使用一对三角 模与蕴含算子作为逻辑算子,没有考虑对象或者 属性之间的差异性。用多伴随对构造模糊 Galois 连接,模糊粗糙近似算子,可以体现数值型数据 和符号型属性之间的偏好。近几年来,Medina 等 [5] 研究了多伴随理论,并探究其在多伴随概念格和 多伴随粗糙集等概念上的应用,但混合数据的表 示方面需进一步深入研究。不同类型属性获取所 需的不同代价问题,是现实生活中数据处理时必 不可少要考虑的因素。Tan[6] 提出代价敏感学习, 并将其应用到许多方面,如遗传算法[7] 、粗糙集[8-9] 等。国内学者也研究进展颇丰,如 Fan 等 [8] 针对 测试代价敏感决策系统,构造数据模型。Ju 等 [10] 提出了带有多粒度指标的代价敏感粗糙集模型。 一系列学者都将获取数据的代价作为数据处理时 的重要因素。受上述工作的启发,本文引入代价 敏感多伴随模糊粗糙集表示数值型属性和符号型 属性之间的异构互补关系,使得伴随对与不同类 型属性之间产生关联;在利用多伴随算子表达不 同类型属性之间偏好的同时,兼顾了获取不同类 型属性值的代价。 Yao[11-12] 提出的三支决策是处理数据分类任 务时基于人类认知的高效决策模式,已有许多专 家将其与其他模型结合,大大提高了数据分类能 力。Liang 等 [13-14] 研究了处理多阶段信息和双犹 豫模糊信息的基于直觉模糊粗糙集的三支决策模 型。Qiao[15] 将三支决策引入到推荐系统时,考虑 了代价和用户的偏好,极大改进了推荐质量。徐健锋[16] 以混淆矩阵为工具,多目标优化三支决策阈值求 解模型,同时发现了三支决策的代价与决策的条 件概率之间存在非单调现象[17]。混合数据分类模 型结合三支决策模型的研究已有成果,AL-Hmouz[18] 运用三支决策的思想做多模态生物识别系统的开 发。赵天娜[19] 初步研究了多伴随直觉模糊粗糙 集与三支决策模型的简单结合。鉴于模型与三支 决策组合的优越性,本文将进一步深入地研究用 三支决策模型处理混合数据分类问题更优化的方 式,代价敏感多伴随模糊粗糙集模型赋予三支语 义,并在决策代价最小化意义下优化混合数据三 支分类结果,扩展三支决策理论的应用范围。 本文的贡献可从以下几个方面体现:混合数 据的非结构化,互补以及大量冗余无关信息等特 点造成数据的高度不确定性,因此数据分类不一 致性和模糊性使得挖掘混合数据蕴含的内部信息 有难度。找出数值型和符号型属性之间的各种关 系,降低分类的不确定性是混合数据挖掘中亟待 解决的问题。针对上述问题,本文用多个伴随对 模拟不同类型属性之间的关系,多伴随算子可充 分表达不同类型属性对对象之间的偏好,同时考 虑了获取不同类型属性值的代价,提出代价敏感 多伴随模糊粗糙集模型。给出充分体现此模型特 点的概率公式,并优化了损失函数。改造三支决 策模型,挖掘出不同类型属性的关系特点。针对 混合数据的不确定性特点,提出此模型。此模型 是数据特点驱动的,从数据本质出发,分析混合 数据的特点,找出数值型属性和符号型属性之间 的各种关系。 1 基本概念 1.1 多伴随模糊粗糙集理论 Cornelis 等 [20] 提出的多伴随模糊粗糙集理论 研究了多伴随对与模糊粗糙集理论结合的基本定 义和简单性质。 (P1,⩽1)、(P2,⩽2)、(P3,⩽3) & : P1 × P2 → P3 ↙: P3 × P2 → P1 ↖: P3 × P1 → P2 (&,↙,↖) 定义 1 [20] 给定偏序集 和映射 , , ,称 是一个伴随三元组,如果满足: x ∈ P1, y ∈ P2,z ∈ P3 x⩽1z ↙ y ⇔ x&y⩽3 z ⇔ y⩽2z ↖ x 1 )对于 ,都有 ; 2) & 在 P1、P2、P3 上是保序映射; 3) ↙,↖ 在第 1 和第 2 论域上是保序映射。 (L1,L2,P,&1,··· ,&n) (A,U,R,τ) A U R : A×U → P P τ : A× A → {1,2,··· ,n} A× A 定义 2 [20] 设 是多伴随框 架,称 为多伴随背景,其中 是非空对 象集, 是非空属性集, 是 -模糊关 系,满足自反性和对称性。 是将 中元素对映射到多伴随框架上一个特 定的伴随三元组。 第 6 期 赵天娜,等:面向混合数据的多伴随三支决策 ·1093·
·1094· 智能系统学报 第14卷 定义32o,在模糊决策信息系统(U,AUId) 传感器产生的,获取途径差异很大,采集不同类 中,给定属性子集BSA,和P模糊关系R。:X×X→ 型属性付出的代价均不相同。在现实生活中,考 PYa∈A,对于x,y∈U,模糊关系Rs:U×U→P定 虑经济因素,研究人员希望用几个代价较小的属 义为: 性,提取同样有价值的信息,因此不同类型的属 Rs(x,y)=@(pg(a1,…,中g(am) (1) 性代价是必不可少要考虑的因素。本文希望用更 其中@:Pm→P是一个聚合算子,对于a∈A,有 少的代价获取更有价值的信息。 R(xy,a∈B 定义6设A=(U,AUD)是混合数据决策系 蛤(a= Tp,aB 统,U是非空论域,AnD=中,A=As UAR,As={a1, 其中TP是P的最大值。 a2,…,a,…,am}和AR={am+1,am+2,…,am+i,…,am+n} 定义421在多伴随面向属性框架(CL,L, 分别是符号和数值型条件属性的集合。获取对象 &1,…,&)下,考虑形式背景(U,U,Ra,t),对于xy∈U, x分别关于不同模态属性As和AR的信息付出的 定义似然算子↑.:L”→L“和必然算子1:L”→L 代价为CosL,、Costr。考虑模态属性代价得到的权 g(x)=sup(Rg(x,y)&(y)ly EU] (2) 重w定义如下: f(y)=inflf(x)rRg(x.y)lxEU) (3) 1)对于a:∈As,ie{1,2,…,m以,每个属性的权重 那么g.是g的上近似,“是f的下近似。其中 定义为: 1 Costs L'表示所有由U映射到L的函数的集合。 w= (7) As|Costs Costs 定义52o1对于模糊子集h∈L',(h,h)称为 2)对于a∈AR,i∈{m+1,m+2,…,m+n,每个 多伴随模糊粗糙集。 属性的权重定义为: 1.2基于决策粗糙集的三支决策 w=1 Costg (8) ARI Costs Costg 决策粗糙集模型用状态集和行动集来描述决 策过程。状态集2={C,C}中的2个状态分别表 定义7设A°=(U,AUD)是混合数据决策系 示某事件属于C和不属于C,行动集A={ar,a,aw 统,U是非空论域,AnD=Φ,对于a∈A,a-模糊关 分别表示接受某事件、延迟决策和拒绝某事件 系R:U×U→[0,1定义如下: Ra(x,y)=1-a(x)-a(y) 3种行动,用p、BP、P;PN、BN、N表示采取 YBSA,B-模糊关系R定义如下: 不同的行动会产生不同的损失,分别表示当x属 Rg(x,y)=wSg(a)+…+wSp分(am)+ 于C或x不属于C时采取行动A={ap,ag,aw}的损失。 (9) 采取3种行动的期望损失函数由如下式子表示: 听g'(am+i)+…+wf馆(am+n) 其中:A→[0,1]定义如下: R(apl[x])=APPP(CI[x])+PN P(-CI[x]) (4) R(aBl[x])=4BPP(CI[x])+4BN P(-CI[x]) (5) Φ(a@={ R(x,y),aEB 1,a年B R(aNl[x])=INP P(CI[x])+ANN P(-CI[x]) (6) 性质1RS满足自反性和对称性。 式中:P(C=C;川是基数:冈表示x关于 证明1)由的定义可知,R(x,x)=1,进而 推出Rs(x,x)=1。因此,R满足自反性。 R的等价类。 2)因为R.(xy)=1-la(x)-ayl,并且R0,x)= 根据贝叶斯决策规则,以期望损失函数最小 1-lay)-a(xl,所以R.(,y)=R.0y,x)。由Rs的定 为原则选择最佳行动方案,决策规则如下: 义可知,R(x,y)=RS,x)。因此,R满足对称性。 (P)若R(apl[x)≤R(aglx)且R(apl[x)≤R(awl[x), 则x∈POS(C); 性质2R满足单调性,即B:SB2→R,≤R%g (B)若R(aslx)≤R(aplx)且R(aslx])≤R(awlx), 证明1)若B1=B2,则显然R=R,。 则x∈BNDC); 2)若B:CB2,则必存在a:∈B2,但是a:B1。 N若R(awl[x)≤R(arl[x)且R(awlx)≤R(aslx), 由p”(a)=1,p”(a)=Ra(x,y以,则”(a)≤中”(a)。 则x∈NEG(C)。 对于其他属性aeB,nB2=B,有”(a)=g”(a) 成立。由R的定义可知,R≤Rs, 2代价敏感多伴随模糊粗糙集 定义8在多伴随面向属性框架(PL,L,&1,…, 混合数据的数值型和符号型属性是由多通道 &n)下,考虑有代价的形式背景(U,U,Rs,t),对于
(U,A∪{d}) B ⊆ A Ra : X × X → P,∀a ∈ A, x, y ∈ U RB : U ×U → P 定义 3 [ 2 0 ] 在模糊决策信息系统 中,给定属性子集 ,和 P-模糊关系 对于 ,模糊关系 定 义为: RB(x, y) = @(ϕ x,y B (a1),··· , ϕx,y B (am)) (1) @ : P 其中 m →P 是一个聚合算子,对于 a ∈ A ,有 ϕ x,y B (a) = Ra(x, y), a ∈ B TP, a < B 其中 TP 是 P 的最大值。 (P,L,L, &1,··· ,&n) (U,U,RB,τ) x, y ∈ U ↑π : L U → L U ↓ N : L U → L U 定义 4 [ 2 0 ] 在多伴随面向属性框架 下,考虑形式背景 ,对于 , 定义似然算子 和必然算子 g ↑π (x) = sup{RB (x, y)&τ(x,y)g(y)|y ∈ U} (2) f ↓ N (y) = inf{f(x)↖τ(x,y)RB(x, y)|x ∈ U} (3) g ↑π g f ↓ N f L U U L 那么 是 的上近似, 是 的下近似。其中 表示所有由 映射到 的函数的集合。 h ∈ L U (h ↓ N ,h ↑π 定义 5 ) [20] 对于模糊子集 , 称为 多伴随模糊粗糙集。 1.2 基于决策粗糙集的三支决策 Ω = {C,¬C} C C A = {aP,aB,aN} λPP、λBP、λNP λPN、λBN、λNN x C x C A = {aP,aB,aN} 决策粗糙集模型用状态集和行动集来描述决 策过程。状态集 中的 2 个状态分别表 示某事件属于 和不属于 ,行动集 分别表示接受某事件、延迟决策和拒绝某事件 3 种行动,用 ; 表示采取 不同的行动会产生不同的损失,分别表示当 属 于 或 不属于 时采取行动 的损失。 采取 3 种行动的期望损失函数由如下式子表示: R(aP|[x]) = λPPP(C|[x])+λPN P(¬C|[x]) (4) R(aB|[x]) = λBPP(C|[x])+λBN P(¬C|[x]) (5) R(aN|[x]) = λNPP(C|[x])+λNN P(¬C|[x]) (6) P(C|[x]) = |C ∩[x]| |[x]| | · | [x] x R 式中: ; 是基数; 表示 关于 的等价类。 根据贝叶斯决策规则,以期望损失函数最小 为原则选择最佳行动方案,决策规则如下: R(aP|[x]) ⩽ R(aB|[x]) R(aP|[x]) ⩽ R(aN|[x]) x ∈ POS (C) (P) 若 且 , 则 ; R(aB|[x]) ⩽ R(aP|[x]) R(aB|[x]) ⩽ R(aN|[x]) x ∈ BND(C) (B) 若 且 , 则 ; R(aN|[x]) ⩽ R(aP|[x]) R(aN|[x]) ⩽ R(aB|[x]) x ∈ NEG(C) (N) 若 且 , 则 。 2 代价敏感多伴随模糊粗糙集 混合数据的数值型和符号型属性是由多通道 传感器产生的,获取途径差异很大,采集不同类 型属性付出的代价均不相同。在现实生活中,考 虑经济因素,研究人员希望用几个代价较小的属 性,提取同样有价值的信息,因此不同类型的属 性代价是必不可少要考虑的因素。本文希望用更 少的代价获取更有价值的信息。 A ∗ = (U,A∪ D) U A∩ D = ϕ A = AS ∪ AR a2,··· ,ai ,··· ,am} AR = {am+1,am+2,··· ,am+i ,··· ,am+n} x AS AR Costr CostR w C i 定义 6 设 是混合数据决策系 统, 是非空论域, , ,AS = {a1 , 和 分别是符号和数值型条件属性的集合。获取对象 分别关于不同模态属性 和 的信息付出的 代价为 、 。考虑模态属性代价得到的权 重 定义如下: 1) 对于 ai ∈ AS ,i ∈ {1,2,··· ,m} ,每个属性的权重 定义为: w C S = 1 |AS | CostS CostS +CostR (7) 2) 对于 ai ∈ AR,i ∈ {m+1,m+2,··· ,m+n} ,每个 属性的权重定义为: w C R = 1 |AR| CostR CostS +CostR (8) A ∗ = (U,A∪ D) U A∩ D = ϕ a ∈ A a Ra : U ×U → [0,1] 定义 7 设 是混合数据决策系 统, 是非空论域, ,对于 , -模糊关 系 定义如下: Ra(x, y) = 1−|a¯(x)−a¯(y)| ∀B ⊆ A B R C , B -模糊关系 定义如下: R C B (x, y) = w C S ϕ x,y B (a1)+···+w C S ϕ x,y B (am)+ w C R ϕ x,y B (am+1)+···+w C R ϕ x,y B (am+n) (9) ϕ x,y B 其中 : A → [0,1] 定义如下: ϕ x,y B (a) = { Ra(x, y), a ∈ B 1, a < B R C 性质 1 B 满足自反性和对称性。 R C B Ra (x, x) R C B (x, x) R C B 证明 1) 由 的定义可知, =1,进而 推出 =1。因此, 满足自反性。 Ra (x, y) = 1−|a¯ (x)−a¯ (y)| Ra (y, x) = 1−|a¯ (y)−a¯ (x)| Ra (x, y) = Ra (y, x) R C B R C B (x, y) = R C B (y, x) R C B 2) 因为 ,并且 ,所以 。由 的定 义可知, 。因此, 满足对称性。 R C B B1 ⊆ B2 ⇒ R C B2 ⩽ R C 性质 B1 2 满足单调性,即 。 B1 = B2 R C B2 = R C 证明 B1 1) 若 ,则显然 。 B1 ⊂ B2 ai ∈ B2 ai < B1 φ (x,y) B1 (ai)=1,φ (x,y) B2 (ai)=Rai (x, y) ϕ (x,y) B2 (ai) ⩽ ϕ (x,y) B1 (ai) aj ∈ B1 ∩ B2 = B1 ϕ (x,y) B2 ( aj ) = ϕ (x,y) B1 ( aj ) R C B R C B2 ⩽ R C B1 2) 若 ,则必存在 ,但是 。 由 ,则 。 对于其他属性 ,有 成立。由 的定义可知, 。 (P,L,L,&1,··· , &n) (U,U,R C B ,τ) 定义 8 在多伴随面向属性框架 下,考虑有代价的形式背景 ,对于 ·1094· 智 能 系 统 学 报 第 14 卷
第6期 赵天娜,等:面向混合数据的多伴随三支决策 ·1095· m∈L“,定义似然算子↑.:L'→L”和必然算子 种双延迟代价目标函数的策略。本文借鉴这一思 w:L'→L":对于x,yeL 想,在代价敏感多伴随模糊粗糙集模型上,给出 me(x)=sup(Rg(x,y)&rm(y)ly EU) (10) 充分贴近此模型特点的概率定义,并优化做延迟 决策s时的非线性损失函数,期望得到更准确处 me (y)=inf(m(x)(x,y)xEU) (11) 理分类任务的三支决策模型。 其中,m是m的上近似,m心是m的下近似。 对于模糊子集m∈L,称(m,m正)为代价敏 FaB) FaB) 感多伴随模糊粗糙集。 经过对代价敏感多伴随模糊粗糙集的研究, 本文发现,添加一个简单条件后,它仍满足经典 FaB) 的粗糙集中上下近似的性质。由性质1和性质 -Pr(X l[x]) 0 a 1 2可知,本文定义的关系R%满足文献[13]中关系 7 B R的性质,因此,本文中代价敏感多伴随模糊粗 图1经典三支决策FN、FP、F:的线性关系 Fig.1 Classical linear relation diagram of three decisions 糙集的上下近似需添加的条件和文献[7]中3.2 中命题1的条件一致。 FaB) 性质3对于m∈L', FH(a.B) 1)若满足m(x)人1≤(,则mEy)≤my)。 FdaB) 2)若满足m(x)≤1&.m(x),则m)≤mCGy)o F"daB) 证明过程可参照文献[12]中3.2中命题1的 证明。 0 B"uy a' aPXI网 图2新型三支决策FN,FP,F,F的非线性关系 3基于代价敏感多伴随模糊粗糙集 Fig.2 Novel linear relation diagram of three decisions 的新型三支决策模型 3.1改进的三支决策模型 基于决策粗糙集的经典三支决策模型利用状 改进的三支决策模型,与传统三支决策模型 态集2={C,C}和行动集A={ar,a,aw}描述决策 相比,p、w、p、N定义不变,只改进p、N和 过程。采取不同的行动产生不同的损失函数矩阵 ”P、'”N,如表2,它们的含义为:分别从正域和 如表1所示,这些损失函数满足<P<p; 负域视角出发,实际为正域元素和负域元素但决 N<BN<Pw,其中元.∈(0,1)。 策时被划分为延迟域的2组代价函数。正域决策 表1经典模糊损失函数矩阵 代价目标函数F、负域决策代价目标函数Fw不变, Table 1 Classical fuzzy loss function matrix 只改进双延迟决策代价目标函数,记为Fs、Fa C C 由于非线性函数F:有很多种定义方式,不同的定 ap App APN 义方式导致不同的非线性函数F,为了简化和一 as ABP ABN 般性,本文选取最简单的非线性模型进行说明, aN ANP N 由这2个线性函数组成一个非线性函数,并假设 NP-NN>0>pe-N和Np-NN>BP-车N>”sP- 由经验可知,对象属于状态集的概率直接影 '"sN>p-N,本文只讨论图2这种非线性的情 响决策过程。在三支决策模型中,体现为概率是 况。其他情况类似,在此不再赘述。 定义决策目标函数(期望损失函数)的关键因 表2新型模糊损失函数矩阵 素。因此,给出体现模型特点的概率定义对精确 Table 2 New fuzzy loss function matrix 决策至关重要。 C 在经典的三支决策模型中,代价与决策的条 ap App PN 件概率是单调的线性关系,如图1,但在实际生活 即 N 中,三支决策的代价与决策的条件概率之间存在 着非单调情况”,如图2,针对这种现象,徐健锋 p N 等以延迟代价目标函数为研究对象,提出了一 aN ANP N
m ∈ L U ↑π : L U → L U ↓N : L U → L U x, y ∈ L ,定义似然算子 和必然算子 :对于 m ↑π C (x) = sup{R C B (x, y)&τ(x,y)m(y)|y ∈ U} (10) m ↓ N C (y) = inf{m(x)↖τ(x,y)R C B (x, y)|x ∈ U} (11) m ↑π C m m ↓ N 其中, 是 的上近似, C 是 m 的下近似。 m ∈ L X (m ↓ N C ,m ↑ π C 对于模糊子集 ,称 ) 为代价敏 感多伴随模糊粗糙集。 R C B RB 经过对代价敏感多伴随模糊粗糙集的研究, 本文发现,添加一个简单条件后,它仍满足经典 的粗糙集中上下近似的性质。由性质 1 和性质 2 可知,本文定义的关系 满足文献 [13] 中关系 的性质,因此,本文中代价敏感多伴随模糊粗 糙集的上下近似需添加的条件和文献 [7] 中 3.2 中命题 1 的条件一致。 m ∈ L 性质 U 3 对于 , m(x)↖τ(x,x)1 ⩽ m(x) m ↓ N C 1) 若满足 ,则 (y) ⩽ m(y)。 m(x) ⩽ 1&τ(x,x)m(x) m(y) ⩽ m ↑ π C 2) 若满足 ,则 (y)。 证明过程可参照文献 [12] 中 3.2 中命题 1 的 证明。 3 基于代价敏感多伴随模糊粗糙集 的新型三支决策模型 Ω = {C,¬C} A = {aP,aB,aN} λPP < λBP < λNP λNN < λBN < λPN λ•• ∈ (0,1) 基于决策粗糙集的经典三支决策模型利用状 态集 和行动集 描述决策 过程。采取不同的行动产生不同的损失函数矩阵 如 表 1 所示,这些损失函数满足 ; ,其中 。 表 1 经典模糊损失函数矩阵 Table 1 Classical fuzzy loss function matrix λ C ¬C aP λPP λPN aB λBP λBN aN λNP λNN 由经验可知,对象属于状态集的概率直接影 响决策过程。在三支决策模型中,体现为概率是 定义决策目标函数 (期望损失函数) 的关键因 素。因此,给出体现模型特点的概率定义对精确 决策至关重要。 在经典的三支决策模型中,代价与决策的条 件概率是单调的线性关系,如图 1,但在实际生活 中,三支决策的代价与决策的条件概率之间存在 着非单调情况[17] ,如图 2,针对这种现象,徐健锋 等 [17] 以延迟代价目标函数为研究对象,提出了一 aB 种双延迟代价目标函数的策略。本文借鉴这一思 想,在代价敏感多伴随模糊粗糙集模型上,给出 充分贴近此模型特点的概率定义,并优化做延迟 决策 时的非线性损失函数,期望得到更准确处 理分类任务的三支决策模型。 F 0 α γ β 1 FP (α,β) FB (α,β) Pr(X |[x]R ) FN (α,β) * 图 1 经典三支决策 FN、FP、FB 的线性关系 Fig. 1 Classical linear relation diagram of three decisions F * 0 β′ β″ γμ α′ 1 FP (α,β) F″B (α,β) F′B (α,β) α″ Pr(X |[x]R ) FN (α,β) 图 2 新型三支决策 FN,FP,FB′ ,FB′′ 的非线性关系 Fig. 2 Novel linear relation diagram of three decisions 3.1 改进的三支决策模型 λPP、λPN、λNP、λNN λ ′ BP、λ ′ BN λ ′′ BP、λ ′′ BN FP FN F ′ B、F ′′ B FB FB λNP −λNN > 0 > λPP −λPN λNP −λNN > λ ′ BP −λ ′ BN > λ ′′ BP− λ ′′ BN > λPP −λPN 改进的三支决策模型,与传统三支决策模型 相比, 定义不变,只改进 和 ,如表 2,它们的含义为:分别从正域和 负域视角出发,实际为正域元素和负域元素但决 策时被划分为延迟域的 2 组代价函数。正域决策 代价目标函数 、负域决策代价目标函数 不变, 只改进双延迟决策代价目标函数,记为 。 由于非线性函数 有很多种定义方式,不同的定 义方式导致不同的非线性函数 ,为了简化和一 般性,本文选取最简单的非线性模型进行说明, 由这 2 个线性函数组成一个非线性函数,并假设 和 ,本文只讨论图 2 这种非线性的情 况。其他情况类似,在此不再赘述。 表 2 新型模糊损失函数矩阵 Table 2 New fuzzy loss function matrix λ C ¬C aP λPP λPN aB λ ′ BP λ ′ BN λ ′′ BP λ ′′ BN aN λNP λNN 第 6 期 赵天娜,等:面向混合数据的多伴随三支决策 ·1095·
·1096· 智能系统学报 第14卷 Fp AppPr(XI[xlg)+APN (1-Pr(XI[xlg)) PP(Clx)=m (x) (16) FN ANPPr (XI[xlg)+ANN (1-Pr(XI[x]lR)) 定义12对象x分别采取A={ap,ag,aw}3种 F8=pPr(XI[xl)+(1-Pr(XI[x]R)) 行动的悲观模糊期望损失函数计算公式为: F(aplx)"=ppp(Clx)+(1-PP(Cx)) (17) FB=X”BPPr(XI[xR)+A”"sN(I-Pr(XI[xR)》 令Fg=F,解得Pr(XI[UR)=μ。 (A"BpP"(CIx)+1"BN(1-P"(Clx)).PP(Cx)u F(aglx)"= F”B,Pr(XI[xR)≥4 所以FB=} P"(C)+(1-P"(C)),P(C)<u F's,Pr(XIxR)<μ (18) 多伴随模糊粗糙集充分考虑了数值型和符号 F(aNx)=INPPP(CIx)+iNN(1-P(Cx)) (19) 型属性之间的互补性、关联性、大量无关冗余信 比较F(aplx)P、F(alx)f、F(awx)P的大小,确定行 息的特点,用此模型从混合数据中提取的蕴含信 动a,(i∈{PB,N)使悲观模糊期望损失函数FP最小。 息高效体现对象属于状态集的可能性程度。本文 定义13(乐观概率) 用3种策略描述对象属于状态集的概率。 P(Cx)=m'-(x) (20) 定义9(平均概率)对象x属于状态集C的 定义14对象x采取习={ap,ag,aw}3种行动 平均概率定义为: 的乐观模糊期望损失函数计算公式为: PCr)=m(+m“x) (12) F(aplx)=APpP(Cx)+APN(1-PO(Clx)) (21) "BpPO(Cx)+"BN(1-PO(Cr),PO(Cx)≥μ F(aslx)= 定义10对象x分别采取={ar,as,aw}3种 ipp(Cx)+(1-P(Cx)),PO(Clx)<u 行动的平均模糊期望损失函数计算公式为: (22) F(avlx)=INpPO(CIx)+iNN(1-PO(Cx)) (23) F(aplx)=AppP(Cx)+(1-P(Cx)) (13) 4 基于代价敏感多伴随模糊粗糙集 4"BPP(Cx)+4"BN (1-P(CIx)),P(Clx) F(aBlx)= 的三支决策算法 P(Cx)+(1-P(Cl)).P(CI)< (14) 本文提出的基于代价敏感多伴随模糊粗糙集 F(aNlx)=iNpP(Cx)+iNN(1-P(C)) (15) 的三支决策算法,是处理具有偏好的模糊信息的 不确定性决策理论,以最小期望损失为目标,得 比较F(apld、F(aslE、F(awd的大小,确定行 到损失最小的决策。 动a,i∈{P,B,W)使平均模糊期望损失函数F最小。 本文仅以乐观概率为例给出混合数据分类的 定义11(悲观概率)对象x属于状态集C的 基于代价敏感多伴随模糊粗糙集的三支决策算 悲观概率定义为: 法。整个算法流程图,如图3所示。 期望损失 代价敏感多伴随模糊 po(r). Fay=Po(x)) 粗糙集(mm) FaP=n,,p,,Pox》 FaP=pw,Por》 as=arg min(F(apx)o.Faaxyo,F(ay) a.7 输入:混合 数据集 正域POS 边界域BND 负域NEG 图3三支决策算法的流程 Fig.3 Flow chart of three decision algorithms 比较F(apx)P、F(ale)、F(awlx)的大小,确Fo最小。 定行动a,i∈{PB,W)使乐观模糊期望损失函数 算法1基于代价敏感多伴随模糊粗糙集的
FP = λPPPr(X |[x]R )+λPN (1−Pr(X |[x]R )) FN = λNPPr(X |[x]R )+λNN (1−Pr(X |[x]R )) F ′ B = λ ′ BPPr(X |[x]R )+λ ′ BN (1−Pr(X |[x]R )) F ′′ B = λ ′′ BPPr(X |[x]R )+λ ′′ BN (1−Pr(X |[x]R )) F ′ B=F ′′ B Pr(X |[x]R 令 ,解得 )=µ。 FB = F ′′ B, Pr(X |[x]R ) ⩾ µ F ′ B, Pr(X |[x]R ) < µ 所以 多伴随模糊粗糙集充分考虑了数值型和符号 型属性之间的互补性、关联性、大量无关冗余信 息的特点,用此模型从混合数据中提取的蕴含信 息高效体现对象属于状态集的可能性程度。本文 用 3 种策略描述对象属于状态集的概率。 定义 9 (平均概率) 对象 x 属于状态集 C 的 平均概率定义为: P¯(C|x ) = 1 2 (m ↑π (x)+m ↓ N (x)) (12) 定义 10 对象 x 分别采取 A = {aP,aB,aN} 3 种 行动的平均模糊期望损失函数计算公式为: F(aP|x) = λPPP¯(C|x )+λPN(1− P¯(C|x )) (13) F(aB|x) = λ ′′ BPP¯(C|x )+λ ′′ BN ( 1−P¯(C|x ) ) ,P¯(C|x ) ⩾ µ λ ′ BPP¯(C|x )+λ ′ BN ( 1−P¯(C|x ) ) ,P¯(C|x ) < µ (14) F(aN|x) = λNPP¯(C|x )+λNN(1− P¯(C|x )) (15) F(aP|x)、F(aB|x)、F(aN|x) ai(i ∈ {P,B,N}) F¯ 比较 的大小,确定行 动 使平均模糊期望损失函数 最小。 定义 11 (悲观概率) 对象 x 属于状态集 C 的 悲观概率定义为: P P (C|x ) = m ↓ N (x) (16) 定义 12 对象 x 分别采取 A = {aP,aB,aN} 3 种 行动的悲观模糊期望损失函数计算公式为: F(aP|x) P = λPPP P (C|x )+λPN(1− P P (C|x )) (17) F(aB|x) P = λ ′′ BPP P (C|x )+λ ′′ BN ( 1−P P (C|x ) ) ,P P (C|x ) ⩾ µ λ ′ BPP P (C|x )+λ ′ BN ( 1−P P (C|x ) ) ,P P (C|x ) < µ (18) F(aN|x) P = λNPP P (C|x )+λNN(1− P P (C|x )) (19) F(aP|x) P、F(aB|x) P、F(aN|x) P ai(i ∈ {P,B,N}) F P 比较 的大小,确定行 动 使悲观模糊期望损失函数 最小。 定义 13 (乐观概率) P O (C|x ) = m ↑π (x) (20) 定义 14 对象 x 采取 A = {aP,aB,aN} 3 种行动 的乐观模糊期望损失函数计算公式为: F(aP|x) O = λPPP O (C|x )+λPN(1− P O (C|x )) (21) F(aB|x) O = λ ′′ BPP O (C|x )+λ ′′ BN ( 1−P O (C|x ) ) ,P O (C|x ) ⩾ µ λ ′ BPP O (C|x )+λ ′ BN ( 1−P O (C|x ) ) ,P O (C|x ) < µ (22) F(aN|x) O = λNPP O (C|x )+λNN(1− P O (C|x )) (23) 4 基于代价敏感多伴随模糊粗糙集 的三支决策算法 本文提出的基于代价敏感多伴随模糊粗糙集 的三支决策算法,是处理具有偏好的模糊信息的 不确定性决策理论,以最小期望损失为目标,得 到损失最小的决策。 本文仅以乐观概率为例给出混合数据分类的 基于代价敏感多伴随模糊粗糙集的三支决策算 法。整个算法流程图,如图 3 所示。 输入:混合 数据集 aB = arg min(F(aP |x) O , F(aB |x) O ,F(aN |x) O ) a* F(aP |x) O = f(λ PP , λ PN ,P O (x)) F(aN |x) O = f(λ NP , λ NN ,P O (x)) F(aB |x) O = f(λ′ BP , λ′ BN , λ″ BP , λ″ BN ,P O (x)) 期望损失 P O (x), λ RB C 正域 POS 边界域 BND 负域 NEG 代价敏感多伴随模糊 粗糙集(mC N ,mC π ) ↓ ↓ 图 3 三支决策算法的流程 Fig. 3 Flow chart of three decision algorithms F(aP|x) O、F(aB|x) O、F(aN|x) O ai(i ∈ {P,B,N}) 比较 的大小,确 定行动 使乐观模糊期望损失函数 F O 最小。 算法 1 基于代价敏感多伴随模糊粗糙集的 ·1096· 智 能 系 统 学 报 第 14 卷