第14卷第6期 智能系统学报 Vol.14 No.6 2019年11月 CAAI Transactions on Intelligent Systems Nov.2019 D0:10.11992/tis.201906046 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20190829.1518.008.html 基于改进规则激活率的扩展置信规则库推理方法 陈楠楠,巩晓婷2,傅仰耿2 (1.福州大学数学与计算机科学学院,福建福州350116,2.福州大学决策科学研究所,福建福州350116) 摘要:数据驱动的扩展置信规则库系统,是在传统置信规则库的基础上利用关系数据来生成规则,使用该方 法构建规则库简单有效。然而,该方法激活的规则存在不一致与不完整,并且该方法无法处理零激活的输入。 鉴于此,本文提出基于改进规则激活率的扩展置信规则库方法,通过高斯核改进个体匹配度计算方法,权衡激 活规则的一致性与完整性,并利用k近邻思想解决规则零激活问题。最后,本文选取非线性函数拟合实验和输 油管道检漏实验来检验所提方法的效率和准确度。实验结果表明该方法既保证了扩展置信规则库系统的推理 效率,也提高了推理结果的精度。 关键词:置信规则库;数据驱动:证据推理;个体匹配度;k近邻思想;零激活一致性;完整性 中图分类号:TP18文献标志码:A文章编号:1673-4785(2019)06-1179-10 中文引用格式:陈楠楠,巩晓婷,傅仰耿.基于改进规则激活率的扩展置信规则库推理方法J小.智能系统学报,2019,14(6): 1179-1188. 英文引用格式:CHEN Nannan,GONG Xiaoting,FU Yanggeng..Extended belief rule-based reasoning method based on an im proved rule activation rate[J].CAAI transactions on intelligent systems,2019,14(6):1179-1188. Extended belief rule-based reasoning method based on an improved rule activation rate CHEN Nannan',GONG Xiaoting,FU Yanggeng'2 (1.College of Mathematics and Computer Science,Fuzhou University,Fuzhou 350116,China;2.Decision Sciences Institute,Fuzhou University,Fuzhou 350116,China) Abstract:The data-driven extended belief rule-based system uses relational data to generate rules based on the tradition- al belief rule base.Using this method to build a rule base is simple and effective.However,the rules activated by this method are inconsistent and incomplete,and this method cannot handle none-activated inputs.Therefore,this paper pro- poses an extended belief rule-based method,based on an improved rule activation rate.This method improves upon the individual matching degree calculation method through gauss kernels,balances the consistency and completeness of ac- tivation rules,and solves the problem of non-activation of rules based on the idea of k-nearest neighbors.Finally,this paper selects a nonlinear function fitting experiment and an oil pipeline leak detection experiment to test the efficiency and accuracy of the proposed method.Experimental results showed that the proposed method not only ensures effi- ciency,but also improves the accuracy of the extended belief rule-based system. Keywords:belief rule base;data driven;evidence reasoning;individual matching degree;k-nearest neighbors;none ac- tivation:consistency;completeness 为了建模实际问题中信息存在的不完整性、论的置信规则库推理方法(belief rule-based infer~ 不确定性与模糊性,Yang等刊提出了基于证据理 ence methodology using the evidence reasoning 收稿日期:2019-06-24.网络出版日期:2019-08-29. RIMER)。该方法将传统IF-THEN规则同决策理 基金项目:国家自然科学基金项目(61773123):福建省自然科 论回、模糊集理论)、D-S证据理论等理论相结 学基金项目(2019J01647). 通信作者:傅仰耿.E-mail:ygfu@qq.com 合,使其具有处理不完整、不确定、模糊信息的能
DOI: 10.11992/tis.201906046 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190829.1518.008.html 基于改进规则激活率的扩展置信规则库推理方法 陈楠楠1 ,巩晓婷2 ,傅仰耿1,2 (1. 福州大学 数学与计算机科学学院,福建 福州 350116; 2. 福州大学 决策科学研究所,福建 福州 350116) 摘 要:数据驱动的扩展置信规则库系统,是在传统置信规则库的基础上利用关系数据来生成规则,使用该方 法构建规则库简单有效。然而,该方法激活的规则存在不一致与不完整,并且该方法无法处理零激活的输入。 鉴于此,本文提出基于改进规则激活率的扩展置信规则库方法,通过高斯核改进个体匹配度计算方法,权衡激 活规则的一致性与完整性,并利用 k 近邻思想解决规则零激活问题。最后,本文选取非线性函数拟合实验和输 油管道检漏实验来检验所提方法的效率和准确度。实验结果表明该方法既保证了扩展置信规则库系统的推理 效率,也提高了推理结果的精度。 关键词:置信规则库;数据驱动;证据推理;个体匹配度;k 近邻思想;零激活;一致性;完整性 中图分类号:TP18 文献标志码:A 文章编号:1673−4785(2019)06−1179−10 中文引用格式:陈楠楠, 巩晓婷, 傅仰耿. 基于改进规则激活率的扩展置信规则库推理方法 [J]. 智能系统学报, 2019, 14(6): 1179–1188. 英文引用格式:CHEN Nannan, GONG Xiaoting, FU Yanggeng. Extended belief rule-based reasoning method based on an improved rule activation rate[J]. CAAI transactions on intelligent systems, 2019, 14(6): 1179–1188. Extended belief rule-based reasoning method based on an improved rule activation rate CHEN Nannan1 ,GONG Xiaoting2 ,FU Yanggeng1,2 (1. College of Mathematics and Computer Science, Fuzhou University, Fuzhou 350116, China; 2. Decision Sciences Institute, Fuzhou University, Fuzhou 350116, China) Abstract: The data-driven extended belief rule-based system uses relational data to generate rules based on the traditional belief rule base. Using this method to build a rule base is simple and effective. However, the rules activated by this method are inconsistent and incomplete, and this method cannot handle none-activated inputs. Therefore, this paper proposes an extended belief rule-based method, based on an improved rule activation rate. This method improves upon the individual matching degree calculation method through gauss kernels, balances the consistency and completeness of activation rules, and solves the problem of non-activation of rules based on the idea of k-nearest neighbors. Finally, this paper selects a nonlinear function fitting experiment and an oil pipeline leak detection experiment to test the efficiency and accuracy of the proposed method. Experimental results showed that the proposed method not only ensures efficiency, but also improves the accuracy of the extended belief rule-based system. Keywords: belief rule base; data driven; evidence reasoning; individual matching degree; k-nearest neighbors; none activation; consistency; completeness 为了建模实际问题中信息存在的不完整性、 不确定性与模糊性,Yang 等 [1] 提出了基于证据理 论的置信规则库推理方法 (belief rule-based inference methodology using the evidence reasoning, RIMER)。该方法将传统 IF-THEN 规则同决策理 论 [2] 、模糊集理论[3] 、D-S 证据理论[4-5] 等理论相结 合,使其具有处理不完整、不确定、模糊信息的能 收稿日期:2019−06−24. 网络出版日期:2019−08−29. 基金项目:国家自然科学基金项目 (61773123);福建省自然科 学基金项目 (2019J01647). 通信作者:傅仰耿. E-mail:ygfu@qq.com. 第 14 卷第 6 期 智 能 系 统 学 报 Vol.14 No.6 2019 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2019
·1180· 智能系统学报 第14卷 力。以RMER为基础构建的专家系统称为置信 不完整性问题,影响了EBRB系统的推理效率与 规则库系统,它将置信规则库作为载体来表达 推理精度:2)当输入数据与所有规则的激活权重 知识,并且利用证据推理(evidence reasoning, 都较低时,推理出现异常,无法得出结果,即规则 ER)算法实现知识的推理。置信规则库系统已经 零激活问题。Calzada等2提出了动态规则激活 成功应用于输油管道检漏)、出租车乘车概率预 方法,通过调节激活规则的一致性与完整性来提 测、消费者偏好预测0等方面。 高EBRB系统的推理精度,但是未从本质上解决 早期的置信规则库(belief rule base,.BRB)系 规则零激活问题,并且推理效率受算法迭代次数 统需要根据领域知识人为设定系统参数,无法推 影响。林燕清等21提出改进的个体匹配度计算 广到大规模规则库的构建上,因此一些学者提出 方法来解决规则零激活问题,但同时加剧了激活 了梯度下降优化、差分进化、变速粒子群优化等 规则的不一致性,每一次输人都要通过反复迭代选 基于参数学习的优化方法1。参数学习的引入 取最优子集的方式来降低不一致性,限制了EBRB 虽然提高了规则库的推理精度,但是大多数参数 系统的推理效率。 学习方法需要反复迭代得出最终结果,无法保证 为解决这些问题,本文提出基于改进规则激 推理的效率。由于BRB的规则数量与条件属性 活率的扩展置信规则库方法,主要贡献有:1)在 及条件属性候选值呈指数相关,BRB的规模易出 EBRB系统中,输入数据与规则库的相似性度量 现“组合爆炸”,于是一些学者利用主成分分析、 会直接影响到系统的推理过程,因此本文引入基 关联系数标准差融合、粗糙集约减等方法对 于高斯核的动态个体匹配度计算方法,以提高 BRB的结构进行优化6-1,这有助于提高规则库 EBRB系统的推理能力;2)本文利用k近邻方法, 的推理效率,但要求条件属性具有可约减性。 对产生零激活的输入数据进行二次处理,在保证 因此,Liu等1)提出了基于数据驱动的扩展 系统效率的前提下,解决零激活问题;3)本文对 置信规则库(extended belief rule base,EBRB)系 EBRB系统激活规则的一致性与完整性进行讨 统,它既不需要进行繁复的参数训练,又能更好 论,结合新的个体匹配度计算方法,通过控制规 解决“组合爆炸”问题。EBRB系统在传统BRB系 则激活率来平衡激活规则的一致性与完整性,提 统的基础上,扩展了规则的前提属性部分,引入 高EBRB系统的推理性能。 类似于BRB系统中结果属性的置信分布形式,使 1EBRB专家系统 得规则库的条件部分对模糊性、不确定性信息具 有更强的表达能力,由此引发了众多学者的关注 1.1EBRB表示 并产生了一系列研究成果。Yang等2o通过分析 EBRB系统中的置信规则格式如式(I)所示: 规则的不完整性和不一致性,提出了适用于规则 R:lFU1is{(A1,ai),(A12,a2,…,(A山,a,)}N 推理过程的激活规则筛选方法。林燕清等2)利 U2is{(A2,ai),(A22,a2),…,(A2,a吃,)}N…A 用NSGA-Ⅱ多目标优化智能算法来寻找最佳激活 Uris{Ar1,a),(Ar2,a2)…,(Ar,a,)月 规则子集,改进了EBRB系统的整体效果。为了 THEN{(D,),(D2,),…,(Dw,》 解决EBRB系统中每条规则无序存储导致推理效 with a rule weight 6.and attribute weights 率低下的问题,苏群等2提出对EBRB系统规则 61,62,…,6r 库构建BK树索引,提高了EBRB系统的推理性 能;在此基础上,Yang等2针对不同条件属性维 s.t ≤1, 分≤1 度的规则库提出基于多属性搜索框架的EBRB系 (1) 统,增强EBRB系统在多场景下的适用性;Lin等P网 式中:k表示当前描述的是第k条规则;U:表示第 提出了基于VP、MVP索引结构的EBRB系统,并 i个属性;(4,a)为属性U,的置信分布形式; 且通过聚类算法实现了索引参数的自动化选择。 A,表示第i个属性的第j个参考值;a为其对应 采用Liu等IuI所提方法来构建EBRB系统, 的置信度;T表示属性总数;J,表示第i个属性的 相比传统BRB系统,无需训练大量参数,同时能 参考值的个数;O表示第k条规则的规则权重; 取得较好的推理效果。但仍存在以下问题: 6,表示第i个属性的属性权重;D表示第j个结果 I)EBRB系统的激活规则存在规则的不一致性与 属性参考值,B为D,对应的置信度;N表示结果
力。以 RIMER 为基础构建的专家系统称为置信 规则库系统[6] ,它将置信规则库作为载体来表达 知识,并且利用证据推理 (evidence reasoning, ER) 算法实现知识的推理。置信规则库系统已经 成功应用于输油管道检漏[7] 、出租车乘车概率预 测 [8] 、消费者偏好预测[9-10] 等方面。 早期的置信规则库 (belief rule base,BRB) 系 统需要根据领域知识人为设定系统参数,无法推 广到大规模规则库的构建上,因此一些学者提出 了梯度下降优化、差分进化、变速粒子群优化等 基于参数学习的优化方法[11-15]。参数学习的引入 虽然提高了规则库的推理精度,但是大多数参数 学习方法需要反复迭代得出最终结果,无法保证 推理的效率。由于 BRB 的规则数量与条件属性 及条件属性候选值呈指数相关,BRB 的规模易出 现“组合爆炸”,于是一些学者利用主成分分析、 关联系数标准差融合、粗糙集约减等方法 对 BRB 的结构进行优化[16-18] ,这有助于提高规则库 的推理效率,但要求条件属性具有可约减性。 因此,Liu 等 [19] 提出了基于数据驱动的扩展 置信规则库 (extended belief rule base,EBRB) 系 统,它既不需要进行繁复的参数训练,又能更好 解决“组合爆炸”问题。EBRB 系统在传统 BRB 系 统的基础上,扩展了规则的前提属性部分,引入 类似于 BRB 系统中结果属性的置信分布形式,使 得规则库的条件部分对模糊性、不确定性信息具 有更强的表达能力,由此引发了众多学者的关注 并产生了一系列研究成果。Yang 等 [20] 通过分析 规则的不完整性和不一致性,提出了适用于规则 推理过程的激活规则筛选方法。林燕清等[21] 利 用 NSGA-II 多目标优化智能算法来寻找最佳激活 规则子集,改进了 EBRB 系统的整体效果。为了 解决 EBRB 系统中每条规则无序存储导致推理效 率低下的问题,苏群等[22] 提出对 EBRB 系统规则 库构建 BK 树索引,提高了 EBRB 系统的推理性 能;在此基础上,Yang 等 [23] 针对不同条件属性维 度的规则库提出基于多属性搜索框架的 EBRB 系 统,增强 EBRB 系统在多场景下的适用性;Lin 等 [24] 提出了基于 VP、MVP 索引结构的 EBRB 系统,并 且通过聚类算法实现了索引参数的自动化选择。 采用 Liu 等 [19] 所提方法来构建 EBRB 系统, 相比传统 BRB 系统,无需训练大量参数,同时能 取得较好的推理效果。但仍存在以下问题: 1)EBRB 系统的激活规则存在规则的不一致性与 不完整性问题,影响了 EBRB 系统的推理效率与 推理精度;2) 当输入数据与所有规则的激活权重 都较低时,推理出现异常,无法得出结果,即规则 零激活问题。Calzada 等 [25] 提出了动态规则激活 方法,通过调节激活规则的一致性与完整性来提 高 EBRB 系统的推理精度,但是未从本质上解决 规则零激活问题,并且推理效率受算法迭代次数 影响。林燕清等[26] 提出改进的个体匹配度计算 方法来解决规则零激活问题,但同时加剧了激活 规则的不一致性,每一次输入都要通过反复迭代选 取最优子集的方式来降低不一致性,限制了 EBRB 系统的推理效率。 为解决这些问题,本文提出基于改进规则激 活率的扩展置信规则库方法,主要贡献有:1) 在 EBRB 系统中,输入数据与规则库的相似性度量 会直接影响到系统的推理过程,因此本文引入基 于高斯核的动态个体匹配度计算方法,以提高 EBRB 系统的推理能力;2) 本文利用 k 近邻方法, 对产生零激活的输入数据进行二次处理,在保证 系统效率的前提下,解决零激活问题;3) 本文对 EBRB 系统激活规则的一致性与完整性进行讨 论,结合新的个体匹配度计算方法,通过控制规 则激活率来平衡激活规则的一致性与完整性,提 高 EBRB 系统的推理性能。 1 EBRB 专家系统 1.1 EBRB 表示 EBRB 系统中的置信规则格式如式 (1) 所示: Rk : IF U1 is {(A11,αk 11),(A12,αk 12),··· ,(A1J1 ,αk 1J1 )}∧ U2 is {(A21,αk 21),(A22,αk 22),··· ,(A2J2 ,αk 2J2 )} ∧ ···∧ UT is {(AT1,αk T1 ),(AT2,αk T2 ),··· ,(AT JT ,αk T JT )} THEN {(D1 , βk 1 ),(D2 , βk 2 ),··· ,(DN, βk N )} with a rule weight θk and attribute weights δ1 ,δ2 ,··· ,δT ; s.t. ∑N j=1 β k j ⩽ 1, ∑Ji j=1 α k i j ⩽ 1 (1) Ui (Ai j ,αk i j) α k i j β k j 式中:k 表示当前描述的是第 k 条规则; 表示第 i 个属性; 为 属 性 Ui 的置信分布形式; Aij 表示第 i 个属性的第 j 个参考值; 为其对应 的置信度;T 表示属性总数;Ji 表示第 i 个属性的 参考值的个数;θk 表示第 k 条规则的规则权重; δi 表示第 i 个属性的属性权重;Dj 表示第 j 个结果 属性参考值, 为 Dj 对应的置信度;N 表示结果 ·1180· 智 能 系 统 学 报 第 14 卷
第6期 陈楠楠,等:基于改进规则激活率的扩展置信规则库推理方法 ·1181· 属性参考值的总数。 S=1-d (7) 1.2EBRB规则构建 第k条规则的激活权重计算公式如下: 有别于BRB系统的规则库构建方式,EBRB ( 系统中的规则可依据数据生成。假设有L条数 6: Wk= 64= max 据,且每条数据有T个条件属性与一个结果属性: j=1,2,…,76 (8) {(,…,yk=1,2,…,L 以下给出EBRB系统的规则生成步骤: st0≤≤1k=1,2,∑4=1 1)根据领域专家的经验得到,或者通过模 接下来对激活权重不为零的规则进行ER合 糊隶属函数2刃确定每个条件属性参考值{4,i= 1,2,…,T,j=1,2…,J和结果属性参考值{Dj= 成,并获得推理结果。首先将式(1)中的B转化 1,2,…,W}。 为对应的基本概率值: 2)利用1)确定的条件属性参考值和结果属 =ω 性参考值,将训练数据的输入X以及输出y分别 m=l-∑ 转化为对应的置信分布形式。本文针对数值型数 1 =1-w 据给出置信分布转化方法: 首先,考虑生成规则库条件属性的置信分 布。对第k条数据的输入部分X=(,,…,), 式中:m表示第j个结果属性参考值的基本可信 考虑将第i个分量专转化成如下置信分布形式: 度;表示规则激活权重未分配给任何结果属性 E()={A,a)j=1,2,…,J} (2) 参考值的基本可信度;诚表示结果属性参考值的 令%表示属性参考值A对应的数值,且保证 不完备性所导致的基本可信度。根据以上公式可 {Y>yj=1,2,…,J-1。则a崎的计算公式如下: 推导出哈=+。 吃=Y-艾 Y为≤专≤Y+,j=1,2,,J-1(3) 接着对所有的规则进行ER合成,得到结果 Yj+1)一Y +=1-哈,Y6≤≤y#j=1,2,…,J-1(4) 属性参考值D的置信度: =0,t=1,2,…,j-1,j+2,…,J(⑤) c=门树+形+)-自成+】 同理,根据第k条数据的输出值y少,我们也可 计算得到规则的结果属性的置信分布形式: E0y)={(D,5),j=1,2,…,N co=6+-巾 3)利用2)的方法,本文可将数据(…, :y)转化成如式(1)所示的规则,从而得到初步 6-门成 的规则库。 4)确定EBRB中每条规则的权重以及条件属 r1-2似++)-w-+ 性权重。由于EBRB的每条规则都由数据生成 Ci 的,因此规则权重的设定需要考虑到数据质量引 月=1Cj=12.N 起的规则之间的冲突与不一致,将不一致性指标网 引入规则权重的计算可以缓解规则的冲突性。 BD=1-CD 1.3EBRB推理机制 当最终的输出结果要求为单一数值时,可以 EBRB系统规则库生成之后,即可进行EBRB 通过计算规则库的期望效用值来获取最后结果: 推理。给定一个T维输入数据X=(x1,2,…,), 根据式(2)(⑤)可得输入对应的置信分布形式: 2 E(x)={(4,a),i=1,2,…T,j=1,2,…,J 由此,可计算第k条规则与该输入关于第ⅰ个 2EBRB激活方法优化 条件属性的个体匹配度: 2.1一致性与完整性问题 a-a吃) (6) EBRB属于数据驱动的置信规则库,因此规 则库质量会受数据质量的影响。当被激活的规则
属性参考值的总数。 1.2 EBRB 规则构建 有别于 BRB 系统的规则库构建方式,EBRB 系统中的规则可依据数据生成。假设有 L 条数 据,且每条数据有 T 个条件属性与一个结果属性: {(x k 1 , x k 2 ,··· , x k T ; y k )|k = 1,2,··· ,L} 以下给出 EBRB 系统的规则生成步骤: { Ai j ,i = 1,2,··· ,T, j = 1,2,··· , Ji} { Dj , j = 1,2,··· ,N} 1) 根据领域专家的经验得到[1] ,或者通过模 糊隶属函数[27] 确定每个条件属性参考值 和结果属性参考值 。 2) 利用 1) 确定的条件属性参考值和结果属 性参考值,将训练数据的输入 X 以及输出 y 分别 转化为对应的置信分布形式。本文针对数值型数 据给出置信分布转化方法: X k = (x k 1 , x k 2 ,··· , x k T ) x k i 首先,考虑生成规则库条件属性的置信分 布。对第 k 条数据的输入部分 , 考虑将第 i 个分量 转化成如下置信分布形式: E(x k i ) = {(Ai j ,αk i j), j = 1,2,··· , Ji} (2) { γi(j+1) > γi j, j = 1,2,··· , Ji −1 } α k i j 令 γij 表示属性参考值 Aij 对应的数值,且保证 。则 的计算公式如下: α k i j = γi(j+1) − x k i γi(j+1) −γi j , γi j ⩽ x k i ⩽ γi(j+1), j = 1,2,..., Ji −1 (3) α k i(j+1) = 1−α k i j , γi j ⩽ x k i ⩽ γi(j+1), j = 1,2,··· , Ji −1 (4) α k it = 0, t = 1,2,··· , j−1, j+2,··· , Ji (5) y 同理,根据第 k k 条数据的输出值 ,我们也可 计算得到规则的结果属性的置信分布形式: E(y k ) = {(Dj ,β k j ), j = 1,2,··· ,N} (x k 1 , x k 2 ,··· , x k T ; y k ) 3) 利用 2) 的方法,本文可将数据 转化成如式 (1) 所示的规则,从而得到初步 的规则库。 4) 确定 EBRB 中每条规则的权重以及条件属 性权重。由于 EBRB 的每条规则都由数据生成 的,因此规则权重的设定需要考虑到数据质量引 起的规则之间的冲突与不一致,将不一致性指标[19] 引入规则权重的计算可以缓解规则的冲突性。 1.3 EBRB 推理机制 X = (x1, x2,··· , xT ) EBRB 系统规则库生成之后,即可进行 EBRB 推理。给定一个 T 维输入数据 , 根据式 (2)~(5) 可得输入对应的置信分布形式: E (xi) = {(Ai j ,αi j) ,i = 1,2,···T, j = 1,2,··· , Ji } 由此,可计算第 k 条规则与该输入关于第 i 个 条件属性的个体匹配度: d k i = vut∑Ji j=1 (αi, j −α k i, j ) 2 (6) S k i = 1−d k i (7) 第 k 条规则的激活权重计算公式如下: ωk = θk ∏Tk i=1 ( S k i )δ¯ i ∑L l=1 [ θl ∏Tl i=1 ( S l i )δ¯ i ] , δ¯ i = δi max j = 1,2,··· ,Tk { δj } s.t. 0 ⩽ ωk ⩽ 1(k = 1,2,··· ,L), ∑L i=1 ωi = 1 (8) β k j 接下来对激活权重不为零的规则进行 ER 合 成,并获得推理结果。首先将式 (1) 中的 转化 为对应的基本概率值: m k j = ωkβ k j m k D = 1−ωk ∑N j=1 β k j m¯ k D = 1−ωk m˜ k D = ωk 1− ∑N j=1 β k j m k j m¯ k D m˜ k D m k D = m¯ k D+m˜ k D 式中: 表示第 j 个结果属性参考值的基本可信 度; 表示规则激活权重未分配给任何结果属性 参考值的基本可信度; 表示结果属性参考值的 不完备性所导致的基本可信度。根据以上公式可 推导出 。 接着对所有的规则进行 ER 合成,得到结果 属性参考值 Dj 的置信度: Cj = t ∏L l=1 ( m l j +m¯ l D +m˜ l D ) − ∏L l=1 ( m¯ l D +m˜ l D ) C˜ D = t ∏L l=1 ( m¯ l D +m˜ l D ) − ∏L l=1 m¯ l D C¯ D = t ∏L l=1 m¯ l D t −1 = ∑N j=1 ∏L l=1 ( m l j +m¯ l D +m˜ l D ) −(N −1) ∏L l=1 ( m¯ l D +m˜ l D ) βj = Cj 1−C¯ D , j = 1, 2, ··· ,N βD = C˜ D 1−C¯ D 当最终的输出结果要求为单一数值时,可以 通过计算规则库的期望效用值来获取最后结果: f (xt) = ∑N j=1 ( µ ( Dj ) βj ) + (µ(D1)+µ(DN)) 2 1− ∑N j=1 βj 2 EBRB 激活方法优化 2.1 一致性与完整性问题 EBRB 属于数据驱动的置信规则库,因此规 则库质量会受数据质量的影响。当被激活的规则 第 6 期 陈楠楠,等:基于改进规则激活率的扩展置信规则库推理方法 ·1181·
·1182· 智能系统学报 第14卷 中存在冲突规则,或者包含大量与输入相关度低 结合式(1)中a的约束条件,可知式(7)中 的规则时,证据推理的效果会受影响,EBRB系统 S∈[1-V2,1],不符合非负性条件,EBRB系统存 存在规则不一致性问题。相反,当被激活的规则 在隐患,不具备良好的鲁棒性。此外,式(⑦)中个 中只包含少量规则,一些相关度高的规则未被激 体匹配度计算方法是静态的,无法控制规则激活 活时,同样也会影响最终的推理结果,即EBRB系 率以适应不同EBRB系统对激活规则的一致性与 统存在规则不完整性问题。 完整性要求。本文以二维数据为例,利用Calzada 被激活的规则范围越大,越容易造成规则不 等2所提方法,将生成的规则库映射到二维空间 致性问题;被激活的规则范围越小,则规则不 中,如图1所示,其中结点代表规则库的分布, 完整性问题会突显。因此,为了达到更好的推理 图1(a)的规则库分布密度较小,图1(b)的 效果,需要对规则的一致性与完整性进行权衡。 规则库分布密度较大。阴影区域表示利用式() 2.2个体匹配度计算方法改进 计算得到的某一特定输入对应的激活域,位于激 根据1.3节中EBRB系统的推理框架,可以发 活域内的规则将会被激活。观察图1(a),10条规 现式(7)中个体匹配度S需要满足如下条件: 则仅有1条规则位于激活域内,易造成规则不完 1)非负性,即S∈0,1其中S=0表示输入数据 整性问题;相反,图1(b)中10条规则全部位于激 与规则完全不匹配,S=1表示输入数据与规则完 活域内,易造成规则不一致性问题。可见,静态 美匹配;2)单调性,输人数据与规则的相似度越 的个体匹配度计算方法无法适应不同分布下的 高,对应的个体匹配度的值越大。 EBRB系统。 8 6 6 5 4 0 1234567 12456 (a)松散规则库分布 (b)紧凑规则库分布 图1静态个体匹配度计算方法的问题 Fig.1 Problem of static individual matching calculation method 为了解决上述问题,本文将高斯核函数作为 以得到保证;3)函数S、S2都是静态的,无法适应 新的个体匹配度计算公式,通过引入参数σ来控 基于不同数据分布构建的规则库,而如图3所 制规则激活率,对规则的一致性与完整性进行 示,函数S能够通过调整参数σ,对个体匹配度计 权衡: 算方法进行调整,从而使其适应不同分布的规 S=exp(-(d2/2σ2),σ>0 (9) 则库。 易知式(9)中S∈[exp(-1/σ2),1,符合非负 性;且S随的减小而增大,蓝越小说明个体匹 S=1-d 1.0… 配度越高,因此S满足单调性。 0.8 -S-1+7 如图2所示,函数S、S2分别来自文献[19 0.6 .…S,-exp2a 26],函数S为本文所提方法。观察可知,S3相对 0.4 于S,与S2,有如下优点:1)函数S,在d∈[1,V②时 0.2 0 取值小于O,会使EBRB无法正常运作,而函数 0.5 1.0 -0.2 S,的取值始终不小于零;2)函数S2取值区间为 -0.4 [1/(1+V2),1],无法保证激活规则的一致性,而函 图2不同个体匹配度计算方法对比 数S,取值区间为[0,1],因此激活规则的一致性可 Fig.2 Comparison of different individual matching methods
中存在冲突规则,或者包含大量与输入相关度低 的规则时,证据推理的效果会受影响,EBRB 系统 存在规则不一致性问题。相反,当被激活的规则 中只包含少量规则,一些相关度高的规则未被激 活时,同样也会影响最终的推理结果,即 EBRB 系 统存在规则不完整性问题。 被激活的规则范围越大,越容易造成规则不 一致性问题;被激活的规则范围越小,则规则不 完整性问题会突显。因此,为了达到更好的推理 效果,需要对规则的一致性与完整性进行权衡。 2.2 个体匹配度计算方法改进 S k i S k i ∈ [0,1] S k i = 0 S k i = 1 根据 1.3 节中 EBRB 系统的推理框架,可以发 现式 (7) 中个体匹配度 需要满足如下条件: 1) 非负性,即 ,其中 表示输入数据 与规则完全不匹配, 表示输入数据与规则完 美匹配;2) 单调性,输入数据与规则的相似度越 高,对应的个体匹配度的值越大。 S k i ∈ [1− √ 2,1] 结合式 (1) 中 α 的约束条件,可知式 (7) 中 ,不符合非负性条件,EBRB 系统存 在隐患,不具备良好的鲁棒性。此外,式 (7) 中个 体匹配度计算方法是静态的,无法控制规则激活 率以适应不同 EBRB 系统对激活规则的一致性与 完整性要求。本文以二维数据为例,利用 Calzada 等 [25] 所提方法,将生成的规则库映射到二维空间 中,如图 1 所示,其中结点代表规则库的分布, 图 1(a ) 的规则库分布密度较小, 图 1(b ) 的 规则库分布密度较大。阴影区域表示利用式 (7) 计算得到的某一特定输入对应的激活域,位于激 活域内的规则将会被激活。观察图 1(a),10 条规 则仅有 1 条规则位于激活域内,易造成规则不完 整性问题;相反,图 1(b) 中 10 条规则全部位于激 活域内,易造成规则不一致性问题。可见,静态 的个体匹配度计算方法无法适应不同分布下的 EBRB 系统。 8 7 6 5 y x (a) 松散规则库分布 4 3 2 1 0 7654321 (b) 紧凑规则库分布 6 5 y x 4 3 2 1 0 654321 图 1 静态个体匹配度计算方法的问题 Fig. 1 Problem of static individual matching calculation method 为了解决上述问题,本文将高斯核函数作为 新的个体匹配度计算公式,通过引入参数 σ 来控 制规则激活率,对规则的一致性与完整性进行 权衡: S k i = exp (−(d k i ) 2 /(2σ 2 )),σ> 0 (9) S k i ∈ [exp(−1/σ2 ),1] S k i d k i d k i S k i 易知式 (9) 中 ,符合非负 性;且 随 的减小而增大, 越小说明个体匹 配度越高,因此 满足单调性。 d ∈ [1, √ 2] [1/(1+ √ 2),1] [0,1] 如图 2 所示,函数 S1、S2 分别来自文献 [19, 26],函数 S3 为本文所提方法。观察可知,S3 相对 于 S1 与 S2,有如下优点:1) 函数 S1 在 时 取值小于 0,会使 EBRB 无法正常运作,而函数 S3 的取值始终不小于零;2) 函数 S2 取值区间为 ,无法保证激活规则的一致性,而函 数 S3 取值区间为 ,因此激活规则的一致性可 以得到保证;3) 函数 S1、S2 都是静态的,无法适应 基于不同数据分布构建的规则库,而如图 3 所 示,函数 S3 能够通过调整参数 σ,对个体匹配度计 算方法进行调整,从而使其适应不同分布的规 则库。 1.0 0.8 0.6 0.4 S 0.2 d 0 −0.2 −0.4 S1=1−d S2= 1 1+d S3=exp( ) d 2 2σ 0.5 1.0 2 图 2 不同个体匹配度计算方法对比 Fig. 2 Comparison of different individual matching methods ·1182· 智 能 系 统 学 报 第 14 卷
第6期 陈楠楠,等:基于改进规则激活率的扩展置信规则库推理方法 ·1183· 1.0f女 12)for Rx in Rules do 0.8H 0.6 13)if wa threshod do 14)Rules2.append(R) 0.2 15)end if 0 646a2ta.8t2 00.20.40.60.81.01.21.4 16)end for d 17)return Rules2 图3对应不同σ参数的函数S 2.4EBRB推理方法改进 Fig.3 Function S3 corresponding to different o parameters 以第1节的EBRB框架为基础,结合第 2.3规则零激活处理方法 2.2和2.3节基于规则激活率优化的个体匹配度计 观察式(8),可知个体匹配度连乘得到规则激 算方法以及零激活输入二次处理算法,本节将介 活权重,因此如果有一个属性的个体匹配度计算 绍改进后的扩展置信规则库的推理过程。 结果为零,则对应规则的激活权重为零。当所有 图4为改进后的扩展置信规则库的推理过 规则激活权重都为零时,EBRB系统瘫痪,无法得 程,具体步骤描述如下。 到对应输出结果。 为了解决上述问题,林燕清等2提出新的个 开始 体匹配度计算方法: 输人 S=1/(1+d) (10) =(12,,x) 由式(1)和式(6)可知式(10)中S的取值范 执行二次处理 计算X的置信 算法 围为[1/1+V2),1】,虽然可以解决“零激活”问题, 分布 但S最小值也会超过0.4,这导致激活规则集合 N 执行ER推理 存在严重的不一致性,特别是在规则的条件属性 =1 <规则零激活> 算法 较少的情况下。因此,林燕清等2通过反复迭代 选取最优激活子集的方式来降低不一致性,但这 计算输入与第k条 计算激活权重W 输出推理/ 导致系统的推理效率得不到保障。 规的个体匹配度S 结果y 分析以上问题可以发现,主要原因是因为没 有将发生零激活的输入与正常的输入分开处理。 因此本文提出针对规则零激活的二次处理方法, 结束 结合k近邻思想2,在权衡规则的一致性与完整 性的前提下,解决“零激活”问题。具体实现如算 图4改进的EBRB推理流程 法1所示,其中参数1通过对训练数据进行多则 Fig.4 Improved EBRB inference process 交叉的方式获取。 1)给定输入X=(x,2,…,x),首先根据式 算法1零激活输入二次处理算法 (2)(⑤)计算得X的置信分布表示: 输入产生零激活的输入X=(1,2,…,); a={ai=1,2,…,T,j=1,2,…,J} 输出激活权重前1大的规则集合Rules22。 2)根据式(9)得到该输入与第k条规则对应 1)W=体数组初始化为空*/ 的每个条件属性的个体匹配度: 2)for R in Rules do S*={S(x1,U1),S(x2,U2),…,S(xr,U)》 3)for U,in Ri do 3)循环执行2),得到输入X与规则库中所有 4)calculate similarity of(x,U)/*依据式(9), 规则的个体匹配度; σ取较大值,保证规则全激活*/ 4)以步骤2)、3)得到的结果为基础,按照 5)end for 公式(8)计算出每条规则对应的激活权重,如下 6)calculate wa/*(8)*/ 所示: 7)W.append(w) W(X)=(W(X,W2(X),…,W(X)} 8)end for 5)如果步骤4)中出现规则零激活问题,则执 9)sort(W)(descending) 行步骤6):否则执行步骤7): 10)threshod WTt] 6)执行2.3节提出的二次处理算法,重新计 11)Rules2=[ 算个体匹配度,并且只选择激活权重前1大的规
1.0 0.8 0.6 0.4 S 0.2 0.6 0.8 d σ=0.1 σ=0.3 σ=0.5 σ=0.7 σ=0.9 0 0 0.2 0.4 1.0 1.2 1.4 图 3 对应不同 σ 参数的函数 S3 Fig. 3 Function S3 corresponding to different σ parameters 2.3 规则零激活处理方法 观察式 (8),可知个体匹配度连乘得到规则激 活权重,因此如果有一个属性的个体匹配度计算 结果为零,则对应规则的激活权重为零。当所有 规则激活权重都为零时,EBRB 系统瘫痪,无法得 到对应输出结果。 为了解决上述问题,林燕清等[26] 提出新的个 体匹配度计算方法: S k i = 1/(1+d k i ) (10) S k i [1/(1+ √ 2),1] S k i 由式 (1) 和式 (6) 可知式 (10) 中 的取值范 围为 ,虽然可以解决“零激活”问题, 但 最小值也会超过 0.4,这导致激活规则集合 存在严重的不一致性,特别是在规则的条件属性 较少的情况下。因此,林燕清等[26] 通过反复迭代 选取最优激活子集的方式来降低不一致性,但这 导致系统的推理效率得不到保障。 分析以上问题可以发现,主要原因是因为没 有将发生零激活的输入与正常的输入分开处理。 因此本文提出针对规则零激活的二次处理方法, 结合 k 近邻思想[28] ,在权衡规则的一致性与完整 性的前提下,解决“零激活”问题。具体实现如算 法 1 所示,其中参数 t 通过对训练数据进行多则 交叉的方式获取。 算法 1 零激活输入二次处理算法 输入 产生零激活的输入 X = (x1, x2,··· , xT ) ; 输出 激活权重前 t 大的规则集合 Rules2 。 1) W = [] /*数组初始化为空*/ 2) for Rk in Rules do 3) for Ui in Rk do 4) calculate similarity of (xi ,Ui ) /*依据式 (9), σ 取较大值, 保证规则全激活*/ 5) end for 6) calculate wk /*式 (8)*/ 7) W.append(wk ) 8) end for 9) sort(W) (descending) 10) threshod = W[t] 11) Rules2 = [] 12) for Rk in Rules do 13) if wk > threshod do 14) Rules2.append(Rk ) 15) end if 16) end for 17) return Rules2 2.4 EBRB 推理方法改进 以 第 1 节 的 EBRB 框架为基础,结合 第 2.2 和 2.3 节基于规则激活率优化的个体匹配度计 算方法以及零激活输入二次处理算法,本节将介 绍改进后的扩展置信规则库的推理过程。 图 4 为改进后的扩展置信规则库的推理过 程,具体步骤描述如下。 开始 输入 X=(x1 , x2 , …, xT) k=1 k<L Y N 计算X的置信 分布 计算输入与第k条 规的个体匹配度Sk 结束 计算激活权重W 规则零激活 执行ER推理 算法 输出推理 结果y 执行二次处理 算法 k+=1 N Y 图 4 改进的 EBRB 推理流程 Fig. 4 Improved EBRB inference process 1) 给定输入 X = (x1, x2,··· , xT ) ,首先根据 式 (2)~(5) 计算得 X 的置信分布表示: α = { αi j ,i = 1,2,··· ,T, j = 1,2,··· , Ji } 2) 根据式 (9) 得到该输入与第 k 条规则对应 的每个条件属性的个体匹配度: S k = {S k 1 (x1,U1),S k 2 (x2,U2),··· ,S k T (xT ,UT )} 3) 循环执行 2),得到输入 X 与规则库中所有 规则的个体匹配度; 4) 以步骤 2)、3) 得到的结果为基础,按照 公式 (8) 计算出每条规则对应的激活权重,如下 所示: W(X) = {W1(X),W2(X),··· ,WL(X)} 5) 如果步骤 4) 中出现规则零激活问题,则执 行步骤 6);否则执行步骤 7); 6) 执行 2.3 节提出的二次处理算法,重新计 算个体匹配度,并且只选择激活权重前 t 大的规 第 6 期 陈楠楠,等:基于改进规则激活率的扩展置信规则库推理方法 ·1183·