第14卷第3期 智能系统学报 Vol.14 No.3 2019年5月 CAAI Transactions on Intelligent Systems May 2019 D0:10.11992/tis.201804055 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180607.1357.002html 基于模糊超网络的知识获取方法研究 程麟焰2,胡峰2 (1.重庆邮电大学计算机科学与技术学院,重庆400065,2.重庆邮电大学计算智能重庆市重点实验室,重庆 400065) 摘要:本文结合模糊粗糙集理论与超网络的相关知识,提出了一种模糊超网络模型。与传统超网络模型的不 同之处在于,模糊超网络模型采用了模糊等效关系来代替超网络中的分明等效关系,并在此基础上对超边的生 成和演化进行了改进。根据样本的分布将样本集划分成3个区域,即正域、边界域和负域,不同区域的样本按 照不同的方式生成超边:根据分类效果将超边集也划分成3个区域,并对不同区域的超边进行相应地替换处 理。实验结果表明,在正确率、Precision、Recall等指标上,模糊超网络分类算法具有明显的优势。 关键词:模糊等价;模糊集;模糊粗糙集;三支决策:超网络;知识获取方法;分类算法 中图分类号:TP18文献标志码:A文章编号:1673-4785(2019)03-0479-12 中文引用格式:程麟焰,胡峰.基于模糊超网络的知识获取方法研究智能系统学报,2019,14(3):479-490. 英文引用格式:CHENG Linyan,HU Feng.Fuzzy hypernetwork-based knowledge acquisition method J.CAAI transactions on in- telligent systems,2019,14(3):479-490. Fuzzy hypernetwork-based knowledge acquisition method CHENG Linyan,HU Feng'2 (1.College of Computer Science and Technology,Chongqing University of Posts and Telecommunications,Chongqing 400065, China;2.Chongqing Key Laboratory of Computational Intelligence,Chongqing University of Posts and Telecommunications, Chongqing 400065,China) Abstract:Combining the fuzzy rough set theory with the related knowledge on hypernetworks,this paper proposes a fuzzy hypernetwork mode.In comparison with the traditional hypernetwork model,the fuzzy hypernetwork model uses the fuzzy equivalence relationship to replace the distinct equivalence relation in hypernetworks and then improves the generation and evolution of hyperedges on this basis.First,the samples are divided into three regions according to their distribution:positive,boundary,and negative regions.The samples of different regions generate hyperedges in different ways.Second,the hyperedges are also divided into three regions according to their classification results,and the corres- ponding replacement of hyperedges in different regions is implemented.The experimental results show that the fuzzy hypernetwork classification algorithm presents prominent advantages in terms of accuracy,precision,and recall,thus proving the validity of the classification algorithm. Keywords:fuzzy equivalence;fuzzy set;fuzzy rough set;three-way decision;hypernetworks;knowledge acquisition method:classification algorithm 模糊粗糙集理论是1990年由D.Dubios和H.Prade共同提出的处理数值型数据中存在的不 收稿日期:2018-04-26.网络出版日期:2018-06-07. 一致性的数学理论山。经过多年的发展,模糊粗 基金项目:国家自然科学基金项目(61533020,61472056 61309014):重点产业共性关键技术创新专项项目 糙集在理论和应用方面都取得了相当丰富的研究 (cstc2017zdcy-zd小yf0332,cstc2017zdcy-zdzx0046):重庆 市基础与前沿项目(cstc2017 jcyjAX0408). 成果,在系统控制、故障诊断、机器学习与数据挖 通信作者:程麟焰.E-mail:496732322@qq,com. 掘等众多领域都有着广泛的应用。经典的粗糙集
DOI: 10.11992/tis.201804055 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180607.1357.002.html 基于模糊超网络的知识获取方法研究 程麟焰1,2,胡峰1,2 (1. 重庆邮电大学 计算机科学与技术学院,重庆 400065; 2. 重庆邮电大学 计算智能重庆市重点实验室,重庆 400065) 摘 要:本文结合模糊粗糙集理论与超网络的相关知识,提出了一种模糊超网络模型。与传统超网络模型的不 同之处在于,模糊超网络模型采用了模糊等效关系来代替超网络中的分明等效关系,并在此基础上对超边的生 成和演化进行了改进。根据样本的分布将样本集划分成 3 个区域,即正域、边界域和负域,不同区域的样本按 照不同的方式生成超边;根据分类效果将超边集也划分成 3 个区域,并对不同区域的超边进行相应地替换处 理。实验结果表明,在正确率、Precision、Recall 等指标上,模糊超网络分类算法具有明显的优势。 关键词:模糊等价;模糊集;模糊粗糙集;三支决策;超网络;知识获取方法;分类算法 中图分类号:TP18 文献标志码:A 文章编号:1673−4785(2019)03−0479−12 中文引用格式:程麟焰, 胡峰. 基于模糊超网络的知识获取方法研究[J]. 智能系统学报, 2019, 14(3): 479–490. 英文引用格式:CHENG Linyan, HU Feng. Fuzzy hypernetwork-based knowledge acquisition method[J]. CAAI transactions on intelligent systems, 2019, 14(3): 479–490. Fuzzy hypernetwork-based knowledge acquisition method CHENG Linyan1,2 ,HU Feng1,2 (1. College of Computer Science and Technology, Chongqing University of Posts and Telecommunications, Chongqing 400065, China; 2. Chongqing Key Laboratory of Computational Intelligence, Chongqing University of Posts and Telecommunications, Chongqing 400065, China) Abstract: Combining the fuzzy rough set theory with the related knowledge on hypernetworks, this paper proposes a fuzzy hypernetwork mode. In comparison with the traditional hypernetwork model, the fuzzy hypernetwork model uses the fuzzy equivalence relationship to replace the distinct equivalence relation in hypernetworks and then improves the generation and evolution of hyperedges on this basis. First, the samples are divided into three regions according to their distribution: positive, boundary, and negative regions. The samples of different regions generate hyperedges in different ways. Second, the hyperedges are also divided into three regions according to their classification results, and the corresponding replacement of hyperedges in different regions is implemented. The experimental results show that the fuzzy hypernetwork classification algorithm presents prominent advantages in terms of accuracy, precision, and recall, thus proving the validity of the classification algorithm. Keywords: fuzzy equivalence; fuzzy set; fuzzy rough set; three-way decision; hypernetworks; knowledge acquisition method; classification algorithm 模糊粗糙集理论是 1990 年由 D.Dubios 和 H.Prade 共同提出的处理数值型数据中存在的不 一致性的数学理论[1]。经过多年的发展,模糊粗 糙集在理论和应用方面都取得了相当丰富的研究 成果,在系统控制、故障诊断、机器学习与数据挖 掘等众多领域都有着广泛的应用。经典的粗糙集 收稿日期:2018−04−26. 网络出版日期:2018−06−07. 基金项目:国家自然科学基金项 目 (61533020, 61472056, 61309014);重点产业共性关键技术创新专项项目 (cstc2017zdcy-zdyf0332, cstc2017zdcy-zdzx0046);重庆 市基础与前沿项目 (cstc2017jcyjAX0408). 通信作者:程麟焰. E-mail:496732322@qq.com. 第 14 卷第 3 期 智 能 系 统 学 报 Vol.14 No.3 2019 年 5 月 CAAI Transactions on Intelligent Systems May 2019
·480· 智能系统学报 第14卷 理论强调的是对象间的不可区分性,主要用于处 定义2设P是U上的模糊相似关系,对于 理清晰、离散且有限的属性值,而在实际生活中 给定的x∈U,令xp=p(x,y),y∈U,则[xp是论 大部分的数据集都具有多种多样的属性值,粗糙 域U上的一个模糊集,称其为x关于P的模糊邻 集在处理这些本身具有模糊性的数据和连续属性 域o。(x,)表示由模糊相似关系P确定的对象 时存在一定的局限性四。粗糙集理论中的等效关 x和y之间的模糊相似度,可由式(1)确定: 系是研究模糊粗糙集理论的基础,将经典粗糙集 4(,y >u(x.y)P (1) 理论中的被近似对象由清晰集转换为模糊集,并 将论域上的分明等效关系弱化为模糊等效关系即 对于属性a∈P,若a为连续属性,则(x,y) 可得到模糊粗糙集。 可由式(2)表示的模糊相似度确定: 超网络(hypernetworks)是受生物分子网络启 (a(x)-a(y) ua(x,y))=exp (2) 发而建立的一种基于超图实现的认知学习模型, 20.2 能够表示模式特征间的高阶关联关系。目前, 式中:σ。表示所有对象在属性a上取值的标准方 差。若α为离散属性,则按式(3)计算模糊相似度: 国内的研究者们主要研究演化超网络模型,探究 0,a(x)≠ay) 其应用领域并在此基础上对超网络模型进行改 ua(x,y)= 11,a(x)=ay) (3) 进。王进等结合OCDD算法,提出了一种能处 式中a(x)、ay)分别表示对象x、y在属性a上的属 理多值数据的细粒度超网络分类方法;王进等 性值。 在超网络的演化学习过程中引入遗传算法,从而 定义3给定决策表(U,AUD),P是U上的 得到了一种具有较高的分类准确率的模式识别方 模糊相似关系,对于给定的x∈U有 法;为了处理多类型癌症分子问题,王进等提出 闲pa={yμp(x,y)≥,1∈[0,1]} (4) 了一种基于演化超网的多类型癌症分子分型系 式中:[x称为x关于P的-等价类;实数入为模 统。同时,在中文文本分类⑧、评分预测、道路限 糊相似度阈值。 速标志识别等方面,演化超网络模型也得到了 定义4设(U,P)是模糊近似空间,U为论 很好的应用。超网络的研究在国内起步较晚,在 域,P是U上的模糊相似关系,(U,P)上的(L,T)-模 许多领域都值得研究和学习。 糊粗糙近似是一个映射Apr:F(U→F(U)xF(U, 任意X∈F(U),Apr:F(X)=(PX,PTX),其中,PX 本文结合模糊粗糙集的思想提出了一种模 糊超网络(fuzzy hypernetworks,F-hypernet- 称为X在(U,P)中的L下模糊粗糙近似回、pTx称 为T上模糊粗糙近似,两者的隶属函数描述为 works)。在模糊超网络中,对于连续型的属性不 ugax(x)=infsevl(up(x.y).ux(y)).VxEU (5) 需要对其进行离散化处理,解决了传统超网络只 HFx()=supyeuT(μp(x,y)4xy),x∈U (6) 能处理离散型属性的问题,并对传统超网络训 对y∈U,若y∈X,则uxy为1,否则为0。 练过程中具有很大随机性的超边替代环节进行了 4(x,y)由式(I)确定。其中I表示边缘蕴含算子、 改进。 T表示-模: /(x,y)=min(1-x+y,1) (7) 1相关概念 T(x.y)=max(x+y-1,0) (8) 1.1模糊等价类 根据式(⑤),对象x关于模糊正域的隶属度] 定义1给定决策表(U,AUD),其中:U为非 可表示为 空有限论域;A为条件属性集合,也称特征集合; upos(D (x)=sup uex(x) (9) XEUjD D为决策属性集合,也称类别属性集。在没有说 在模糊粗糙集条件下,决策属性D对条件属 明的情况下,属性是指条件属性。PA对应一个 性集P的依赖度为 不可分辨的等效关系,简记为P。若P满足: LPOS (x) ∑4 POSAADY(x) 1)自反性,x∈U,μp(x,x)=l k=yp(D)=- (10) 1U1 IUI 2)对称性,Yx,y∈U,(,y)=y,x k值的大小,反映了条件属性集P的分类能 则称P为U上的模糊相似关系o。 力。决策属性D对属性集P的依赖程度越大,以
理论强调的是对象间的不可区分性,主要用于处 理清晰、离散且有限的属性值,而在实际生活中 大部分的数据集都具有多种多样的属性值,粗糙 集在处理这些本身具有模糊性的数据和连续属性 时存在一定的局限性[2]。粗糙集理论中的等效关 系是研究模糊粗糙集理论的基础,将经典粗糙集 理论中的被近似对象由清晰集转换为模糊集,并 将论域上的分明等效关系弱化为模糊等效关系即 可得到模糊粗糙集[3]。 超网络 (hypernetworks) 是受生物分子网络启 发而建立的一种基于超图实现的认知学习模型, 能够表示模式特征间的高阶关联关系[4]。目前, 国内的研究者们主要研究演化超网络模型,探究 其应用领域并在此基础上对超网络模型进行改 进。王进等[5]结合 OCDD 算法,提出了一种能处 理多值数据的细粒度超网络分类方法;王进等[6] 在超网络的演化学习过程中引入遗传算法,从而 得到了一种具有较高的分类准确率的模式识别方 法;为了处理多类型癌症分子问题,王进等[7]提出 了一种基于演化超网的多类型癌症分子分型系 统。同时,在中文文本分类[8] 、评分预测、道路限 速标志识别[9]等方面,演化超网络模型也得到了 很好的应用。超网络的研究在国内起步较晚,在 许多领域都值得研究和学习。 本文结合模糊粗糙集的思想提出了一种模 糊超网络 (fuzzy hypernetworks, F-hypernetworks)。在模糊超网络中,对于连续型的属性不 需要对其进行离散化处理,解决了传统超网络只 能处理离散型属性的问题,并对传统超网络训 练过程中具有很大随机性的超边替代环节进行了 改进。 1 相关概念 1.1 模糊等价类 P ⊆ A 定义 1 给定决策表 (U, A∪D),其中:U 为非 空有限论域;A 为条件属性集合,也称特征集合; D 为决策属性集合,也称类别属性集。在没有说 明的情况下,属性是指条件属性。 对应一个 不可分辨的等效关系,简记为 P。若 P 满足: 1) 自反性, ∀x ∈ U,µP(x, x) = 1 ; 2) 对称性, ∀x, y ∈ U,µP(x, y) = µP(y, x) ; 则称 P 为 U 上的模糊相似关系[10]。 x ∈ U [x]P = µP(x, y) y ∈ U [x]P µP(x, y) 定义 2 设 P 是 U 上的模糊相似关系,对于 给定的 ,令 , ,则 是论 域 U 上的一个模糊集,称其为 x 关于 P 的模糊邻 域 [10]。 表示由模糊相似关系 P 确定的对象 x 和 y 之间的模糊相似度,可由式 (1) 确定: µP(x, y) = ∑ a∈p µa(x, y) / |P| (1) 对于属性 a ∈ P ,若 a 为连续属性,则 µa(x, y) 可由式 (2) 表示的模糊相似度确定: µa(x, y) = exp( − (a(x)−a(y))2 2σa 2 ) (2) 式中:σa 表示所有对象在属性 a 上取值的标准方 差。若 a 为离散属性,则按式 (3)[11]计算模糊相似度: µa(x, y) = { 0, a(x) , a(y) 1, a(x) = a(y) (3) 式中a(x)、a(y) 分别表示对象 x、y 在属性 a 上的属 性值。 x ∈ U 定义 3 给定决策表 (U, A∪D),P 是 U 上的 模糊相似关系,对于给定的 有 [x]Pλ = { y|µP(x, y) ⩾ λ, λ ∈ [0,1]} (4) 式中: [x]Pλ 称为 x 关于 P 的 λ-等价类;实数 λ 为模 糊相似度阈值。 (U,P) (U,P) Apr : F (U) → F (U)× F (U) X ∈ F (U) Apr : F (X) = (PIX,PTX) PIX (U,P) PTX 定义 4 设 是模糊近似空间,U 为论 域,P 是 U 上的模糊相似关系, 上的 (I, T)-模 糊粗糙近似是一个映射 , 任 意 , ,其中, 称为 X 在 中的 I-下模糊粗糙近似[12] 、 称 为 T-上模糊粗糙近似[12] ,两者的隶属函数描述为 µPIX(x) = infy∈U I(µP(x, y), µX(y)), ∀x ∈ U (5) µPT X (x) = supy∈U T (µP(x, y), µX(y)), ∀x ∈ U (6) ∀y ∈ U y ∈ X µX(y) µP(x, y) 对 ,若 ,则 为 1,否则为 0。 由式 (1) 确定。其中 I 表示边缘蕴含算子、 T 表示 t-模 [3] : I(x, y) = min(1− x+y,1) (7) T(x, y) = max(x+y−1,0) (8) 根据式 (5),对象 x 关于模糊正域的隶属度[13] 可表示为 µPOSP(D) (x) = sup X∈U/D µPIX (x) (9) 在模糊粗糙集条件下,决策属性 D 对条件属 性集 P 的依赖度[13]为 k = γ ′ P (D) = µPOSP(D) (x) |U| = ∑ x∈U µPOSP(D) (x) |U| (10) k 值的大小,反映了条件属性集 P 的分类能 力。决策属性 D 对属性集 P 的依赖程度越大,以 ·480· 智 能 系 统 学 报 第 14 卷
第3期 程麟焰,等:基于模糊超网络的知识获取方法研究 ·481· P为依据进行分类的效果越好。以表1所示的决 ya(D)=0.1185 策信息系统为例计算各个属性的依赖度。 y,(D)=0.2210 表1决策信息系统 由此可以计算出每个属性的依赖度,并称其 Table 1 Decision information system 为属性的重要度。 样本 a 0 1.2模糊超网络模型 1 -0.4 -0.3 0.5 3 -0.4 0.2 -0.1 上 定义5设G=<X,E,>是一个模糊超网络, 3 -0.3 -0.4 0.3 N X={,,…,x}表示模糊超网络的顶点集合, 0.3 -0.3 0 E={e1,e,…,en}为超网络的超边集合,1为模糊超 5 0.2 -0.3 0 Y 6 0.2 0 0 网络模型的最优模糊相似度阈值。超边的条件属 性集为C={c,c2,…,c,D为超边的决策属性,e a1、a2、a为条件属性,D为决策属性。对于 是超边集E中连接k个顶点x,x2,…,x的超 所有x,y∈U,根据式(I)分别计算关于条件属性 边。其中顶点:为样本,且一条超边中的样本具 a1、a2、a的对象间的模糊相似度: 有相同的属性集。 μa,(x,y)= 定义6模糊超网络G=<X,E1,1>,模糊超 1.00001.00000.95580.10930.19660.1966 1.00001.00000.95580.10930.19660.1966 网络G=<X,E2,之,若X=X则1=20 0.95580.95581.00000.19660.32320.3232 定义7模糊超网络G=<X,E,>,超边的属 0.10930.10930.19661.00000.95580.9558 性集为C={G1,C,…,c},VB(BSC),在属性集 0.19660.19660.32320.95581.00001.0000 B上,样本x={c1(x,c2(x,c3(x,…,C(,D(x},C(, 0.19660.19660.32320.95581.00001.0000 c2(x,…,c,(x)表示x在属性C上的取值,D(x)表 4a,(x,y)= 示x的决策分类。 1.00000.09740.91101.00001.00000.4324 定义8给定模糊超网络G=<X,E,1>,样本 0.09741.00000.03490.09740.09740.6889 0.91100.03491.00000.91100.91100.2252 x在属性集B(B二C)上的1-等价类超边集合为 1.00000.09740.91101.00001.00000.4324 [xa={el(e∈E)As(x,e)≥ (11) 1.00000.09740.91101.00001.00000.4324 -等价类样本集合为 0.43240.68890.22520.43240.43241.0000 [xg=yy∈X)A4s(x,y)≥ Ha,(x,y)= 定义9给定模糊超网络G=<X,E,1>, 1.00000.15560.62810.05460.05460.0546 0.15561.00000.62810.89020.89020.8902 Ye∈E,在属性集B(BsC)上,关联超边e的样本 0.62810.62811.00000.35120.35120.3512 集合表示为 0.05460.89020.35121.00001.00001.0000 Ra(e)={xe∈[xsa,x∈X (12) 0.05460.89020.35121.00001.00001.0000 0.05460.89020.35121.00001.00001.0000 定义10给定模糊超网络G=<X,E,1>, 决策划分: Ye∈E,D(e)表示超边e的决策分类,在属性集 U/D={1,3,6,{2,4,5}={X1,X2} B(BcC)上,关联超边e的样本集合为Raa(e),当 x(x={1,0,1,0,0,1} Ra(e)≠O时,超边e对样本分类的置信度为 x(x)={0,1,0,1,1,01 Conf=R(e).D(x)=D()l (13) 根据式(5)可得: I{xr∈Ra(e)川 Lux(1)=0,4k(2)=0,4x(3)=0.0442 定义11给定模糊超网络G=<X,E,>,C为 x(4)=0,4ex(⑤)=0,4ax(⑥)=0 样本的条件属性集,D为样本的决策属性,对任 Lx()=0,0,0.0442,0,0,0 意的样本x∈X有: 1)如果fx)≥a,则x∈POS(X): 同理可得: 2)如果B<f)<a,则x∈BNDX: La4x()=0,0,0,0.0442,0,01 3)如果fx≤B或f(x)=-1,则x∈NEG(X)。 Hpos.(D (x)=sup Hax (x)= max(0,ex(x}={0,0,0.0442,0.0442,0,0 f闭=bc≥AD田=D6 ,yeX(14) Ibc(x,y)≥ a(D)=0.0147 如果{bye(x,y)≥=0则fx)=-1。x)表示 按上述方法分别求出a2、a的依赖度: 在样本x的-等价类样本集合中,与x同类的样
P 为依据进行分类的效果越好。以表 1 所示的决 策信息系统为例计算各个属性的依赖度。 表 1 决策信息系统 Table 1 Decision information system 样本 a1 a2 a3 D 1 −0.4 −0.3 −0.5 N 2 −0.4 0.2 −0.1 Y 3 −0.3 −0.4 −0.3 N 4 0.3 −0.3 0 Y 5 0.2 −0.3 0 Y 6 0.2 0 0 N x, y ∈ U a1、a2、a3 为条件属性,D 为决策属性。对于 所有 ,根据式 (1) 分别计算关于条件属性 a1、a2、a3 的对象间的模糊相似度: µa1 (x, y) = 1.000 0 1.000 0 0.955 8 0.109 3 0.196 6 0.196 6 1.000 0 1.000 0 0.955 8 0.109 3 0.196 6 0.196 6 0.955 8 0.955 8 1.000 0 0.196 6 0.323 2 0.323 2 0.109 3 0.109 3 0.196 6 1.000 0 0.955 8 0.955 8 0.196 6 0.196 6 0.323 2 0.955 8 1.000 0 1.000 0 0.196 6 0.196 6 0.323 2 0.955 8 1.000 0 1.000 0 µa2 (x, y) = 1.000 0 0.097 4 0.911 0 1.000 0 1.000 0 0.432 4 0.097 4 1.000 0 0.034 9 0.097 4 0.097 4 0.688 9 0.911 0 0.034 9 1.000 0 0.911 0 0.911 0 0.225 2 1.000 0 0.097 4 0.911 0 1.000 0 1.000 0 0.432 4 1.000 0 0.097 4 0.911 0 1.000 0 1.000 0 0.432 4 0.432 4 0.688 9 0.225 2 0.432 4 0.432 4 1.000 0 µa3 (x, y) = 1.000 0 0.155 6 0.628 1 0.054 6 0.054 6 0.054 6 0.155 6 1.000 0 0.628 1 0.890 2 0.890 2 0.890 2 0.628 1 0.628 1 1.000 0 0.351 2 0.351 2 0.351 2 0.054 6 0.890 2 0.351 2 1.000 0 1.000 0 1.000 0 0.054 6 0.890 2 0.351 2 1.000 0 1.000 0 1.000 0 0.054 6 0.890 2 0.351 2 1.000 0 1.000 0 1.000 0 决策划分: U/D = {{1,3,6},{2,4,5}}= {X1,X2} µX1 (x) = {1,0,1,0,0,1} µX2 (x) = {0,1,0,1,1,0} 根据式 (5) 可得: µa1 IX1 (1) = 0, µa1 IX1 (2) = 0, µa1 IX1 (3) = 0.044 2 µa1 IX1 (4) = 0, µa1 IX1 (5) = 0, µa1 IX1 (6) = 0 µa1 IX1 (x) = {0,0,0.044 2,0,0,0} 同理可得: µa1 IX2 (x) = {0,0,0,0.044 2,0,0} µPOSa1 (D) (x) = sup X∈U/D µa1 IX (x) = max{µa1 IX1 (x), µa1 IX2 (x)} = {0,0,0.044 2,0.044 2,0,0} γ ′ a1 (D) = 0.014 7 按上述方法分别求出 a2、a3 的依赖度: γ ′ a2 (D) = 0.118 5 γ ′ a3 (D) = 0.221 0 由此可以计算出每个属性的依赖度,并称其 为属性的重要度。 1.2 模糊超网络模型 X = {x1, x2,··· , xn} E = {e1, e2,··· , em} C = {c1, c2,··· , cs} ei xi1, xi2,··· , xik xi 定义 5 设 G=<X, E, λ>是一个模糊超网络, 表示模糊超网络的顶点集合, 为超网络的超边集合,λ 为模糊超 网络模型的最优模糊相似度阈值。超边的条件属 性集为 ,D 为超边的决策属性, 是超边 集 E 中 连 接 k 个顶点 的 超 边。其中顶点 为样本,且一条超边中的样本具 有相同的属性集。 定义 6 模糊超网络 G1=<X1 , E1 , λ1>,模糊超 网络 G2=<X2 , E2 , λ2>,若 X1=X2 则 λ1=λ2。 C = {c1, c2,··· , cs} ∀B(B ⊆ C) x = {c1(x), c2(x), c3(x),··· , cp(x),D(x)} c1(x), c2(x), ··· , cp(x) ci 定义 7 模糊超网络 G=<X, E, λ>,超边的属 性集为 , ,在属性 集 B 上,样本 , 表示 x 在属性 上的取值,D(x) 表 示 x 的决策分类。 B(B ⊆ C) 定义 8 给定模糊超网络 G=<X, E, λ>,样本 x 在属性集 上的 λ-等价类超边集合为 [x]Bλ = {e|(e ∈ E)∧µB (x, e) ⩾ λ} (11) λ-等价类样本集合为 [x] λ B = {y|(y ∈ X)∧µB(x, y) ⩾ λ} ∀e ∈ E B(B ⊆ C) 定 义 9 给定模糊超网 络 G = <X, E, λ > , ,在属性集 上,关联超边 e 的样本 集合表示为 RBλ (e) = {x|e ∈ [x]Bλ , x ∈ X} (12) ∀e ∈ E D(e) B(B ⊆ C) RBλ (e) RBλ (e) , Ø 定义 10 给定模糊超网络 G=<X, E, λ>, , 表示超边 e 的决策分类,在属性集 上,关联超边 e 的样本集合为 ,当 时,超边 e 对样本分类的置信度为 ConfB = |{x|x ∈ RBλ (e),D(x) = D(e)}| |{x|x ∈ RBλ (e)}| (13) x ∈ X 定义 11 给定模糊超网络 G=<X, E, λ>,C 为 样本的条件属性集,D 为样本的决策属性,对任 意的样本 有: 1) 如果 f(x) ⩾ α,则 x ∈ POS(X) ; 2) 如果 β < f(x) < α ,则 x ∈ BND(X) ; 3) 如果 f(x) ⩽ β 或 f(x) = −1 ,则 x ∈ NEG(X)。 f (x) = |{y|µC (x, y) ⩾ λ,D(x) = D(y)}| |{y|µC (x, y) ⩾ λ}| , y ∈ X (14) 如果 |{y|µC (x, y) ⩾ λ}| = 0 则 f(x) = −1。f(x) 表示 在样本 x 的 λ-等价类样本集合中,与 x 同类的样 第 3 期 程麟焰,等:基于模糊超网络的知识获取方法研究 ·481·
·482· 智能系统学报 第14卷 本所占的比例。x)越大,说明x的模糊等价类 负域超边需满足条件: 与x类别一致的概率越大。 max{μs(x,e)}≥0.75 Dx≠DXe) 图1给出了4个样本的1-等价类样本集合, 表2样本-超边相似度 由式(14)可得:fx)=1,fx2)=0.2,f)=0, Table 2 Sample_Hyperedge similarity fx4)=-1。本文实验选取a=1,B=0,fx)≥1,故 u(e,x) ex e3 ea x1是正域样本;0<fx2)<1,x2是边界域样本; X1 0.65 0.30 028 0.20 fx)≤0,x3是负域样本;fx)=-1,x没有1-等价 0.70 0.35 0.46 0.22 类样本,也是负域样本。 0.72 0.28 0.36 0.34 、2、、x均为▲类 0.12 0.10 0.35 0.82 5 0.30 0.15 0.77 0.60 6 0.35 0.27 0.77 0.33 (a)的 (b)x2的 (c)x的 (d)x的 样本集合 样本集合 样本集合 样本集合 对于超边e1,与e1相似度最高的异类样本为 图1等价类样本示例 x,(e1,x)=0.72<0.75,不满足负域条件,所以e1不 Fig.1 Examples of -equivalence class sample 是负域超边,(e1,x)=0.72>0.5不满足正域条件 定义12给定模糊超网络G=<X,E,>,C为 1),所以e是边界域超边。 样本的条件属性集,D为样本的决策属性,任意 对于超边e2,与e2相似度最高的异类样本为 超边集E'(ESE)关于属性集B的正域、负域和边 x1,(e2,x=0.30<0.75,不满足负域条件,所以e2不 界域可分别定义为 是负域超边,与e2相似度最高的同类样本为x2, POS(E)=fel() 4(e2,x=0.35<0.5不满足正域条件2),所以e2是边 maus伍el≥LxeX.ceE' 界域超边。 NEG(E)=dma既eGe>+1与 (15) 对于超边e3,与e3相似度最高的异类样本为 2 x6,(e,x)=0.77>0.75,满足负域条件,所以e是负 x∈X,e∈E) BND(E)=E'-POS(E)-NEG(E) 域超边。 对于超边e4,与e4相似度最高的异类样本为 以表1的决策信息系统为例,图2是表1的 ,4(e4,x=0.34<0.5,与e4相似度最高的同类样本 一个模糊超网络模型,超边集Ey={e1,e2,e3,e4,假 为x4,(e4,x)=0.82>0.5满足正域条件,所以e4是 设超边与各样本的模糊相似度如表2所示,最优 正域超边。 模糊相似度阈值为1=0.5。图2中实线圆区域表 综上所述,POS(Ev)={ea},BND(E)={e,el, 示超边的λ-等价类,虚线圆区域表示该超边的。 NEG(Er)={e3}。 等价类,10=1+(1-)/2=0.75。 2模糊超网络分类算法 ▲Y类样本 ■N类样本 △Y类超边 2.1算法思路 同传统超网络一样,模糊超网络生成算法也 分为三大步骤:初始化超边集,训练样本分类,超 边替代。超网络通过迭代训练的方式进行演化学 习,当分类正确率和迭代次数满足特定条件时, 即可退出迭代,输出模型。由于传统超网络采用 图2模糊超网络示例 随机生成的方式初始化超边,增大了超边替代阶 Fig.2 Example of a Fuzzy hypergraph 段筛选和替换分类能力差的超边的难度。所以 根据式(15)、表2与图2可知,正域超边需同 本文提出的模糊超网络对超边的初始化随机生成 时满足两个条件: 进行了控制,同时在超边替代过程中,对不同域 1)5 中的超边进行相应的处理以提高超网络的分类效 2)m.e})≥0.5。 果。算法流程如图3所示
本所占的比例。f(x) 越大,说明 x 的模糊等价类 与 x 类别一致的概率越大。 f(x1) = 1 f(x2) = 0.2 f(x3) = 0 f(x4) = −1 α = 1, β = 0 f(x1) ⩾ 1 0 < f(x2) < 1 f(x3) ⩽ 0 f(x4) = −1 图 1 给出了 4 个样本的 λ-等价类样本集合, 由 式 (14 ) 可得: , , , 。本文实验选取 , ,故 x 1 是正域样本; , x 2 是边界域样本; ,x3 是负域样本; ,x4 没有 λ-等价 类样本,也是负域样本。 x1、x2、x3、x4均为 类 (a) x1的 样本集合 (b) x2的 样本集合 (c) x3的 样本集合 (d) x4的 样本集合 图 1 λ-等价类样本示例 Fig. 1 Examples of λ-equivalence class sample E ′ (E ′ ⊆ E) 定义 12 给定模糊超网络 G=<X, E, λ>,C 为 样本的条件属性集,D 为样本的决策属性,任意 超边集 关于属性集 B 的正域、负域和边 界域可分别定义为 POS(E ′ ) = {e| max D(x),D(e) {µB (x, e)} < λ∩ max D(x)=D(e) {µB (x, e)} ⩾ λ, x ∈ X, e ∈ E ′ } NEG(E ′ ) = {e| max D(x),D(e) {µB (x, e)} ⩾ λ+ 1−λ 2 , x ∈ X, e ∈ E ′ } BND(E ′ ) = E ′ −POS(E ′ )−NEG(E ′ ) (15) EY = {e1, e2, e3, e4} 以表 1 的决策信息系统为例,图 2 是表 1 的 一个模糊超网络模型,超边集 ,假 设超边与各样本的模糊相似度如表 2 所示,最优 模糊相似度阈值为 λ=0.5。图 2 中实线圆区域表 示超边的 λ-等价类,虚线圆区域表示该超边的 λ0 - 等价类,λ0=λ+(1−λ)/2=0.75。 e1 x2 e2 x1 e3 x5 x3 e4 Y类样本 N类样本 Y类超边 x4 x6 图 2 模糊超网络示例 Fig. 2 Example of a Fuzzy hypergraph 根据式 (15)、表 2 与图 2 可知,正域超边需同 时满足两个条件: max D(x),D(e) 1) {µB(x, e)} < 0.5 ; max D(x)=D(e) 2) {µB (x, e)} ⩾ 0.5。 负域超边需满足条件: max D(x),D(e) {µB (x, e)} ⩾ 0.75 表 2 样本-超边相似度 Table 2 Sample_Hyperedge similarity μ(e, x) e1 e2 e3 e4 x1 0.65 0.30 0.28 0.20 x2 0.70 0.35 0.46 0.22 x3 0.72 0.28 0.36 0.34 x4 0.12 0.10 0.35 0.82 x5 0.30 0.15 0.77 0.60 x6 0.35 0.27 0.77 0.33 对于超边 e1,与 e1 相似度最高的异类样本为 x3,μ(e1 , x3 )=0.72<0.75,不满足负域条件,所以 e1 不 是负域超边,μ(e1 , x3 )=0.72>0.5 不满足正域条件 1),所以 e1 是边界域超边。 对于超边 e2,与 e2 相似度最高的异类样本为 x1,μ(e2 , x1 )=0.30<0.75,不满足负域条件,所以 e2 不 是负域超边,与 e2 相似度最高的同类样本为 x2, μ(e2 , x2 )=0.35<0.5 不满足正域条件 2),所以 e2 是边 界域超边。 对于超边 e3,与 e3 相似度最高的异类样本为 x6,μ(e3 , x6 )=0.77>0.75,满足负域条件,所以 e3 是负 域超边。 对于超边 e4,与 e4 相似度最高的异类样本为 x3,μ(e4 , x3 )=0.34<0.5,与 e4 相似度最高的同类样本 为 x4,μ(e4 , x4 )=0.82>0.5 满足正域条件,所以 e4 是 正域超边。 POS(EY ) = {e4} BND(EY ) = {e1, e2} NEG(EY ) = {e3} 综上所述, , , 。 2 模糊超网络分类算法 2.1 算法思路 同传统超网络一样,模糊超网络生成算法也 分为三大步骤:初始化超边集,训练样本分类,超 边替代。超网络通过迭代训练的方式进行演化学 习,当分类正确率和迭代次数满足特定条件时, 即可退出迭代,输出模型。由于传统超网络采用 随机生成的方式初始化超边,增大了超边替代阶 段筛选和替换分类能力差的超边的难度[14]。所以 本文提出的模糊超网络对超边的初始化随机生成 进行了控制,同时在超边替代过程中,对不同域 中的超边进行相应的处理以提高超网络的分类效 果。算法流程如图 3 所示。 ·482· 智 能 系 统 学 报 第 14 卷
第3期 程麟焰,等:基于模糊超网络的知识获取方法研究 ·483· 开始 根据训练集 根据训练集样本 计算最优入 生成超边 超边替代 生成超边集 初始化超边集 騷 分类,迭代 选代次数大 于100次,且连续10次运算 筛选需要 的最高分类正确率无增 替换的超边集 Y 结束 对攀类 换路 图3分类算法流程 Fig.3 Flow of this algorithm 2.1.1计算最优模糊相似度阈值1 2.1.2超边初始化 由定义6可知,每一个训练样本集都有且只 根据训练集中的样本生成模糊超网络中的超 有一个最优模糊相似度阈值入,所以本文在执行 边。本文设置每个样本直接生成5条超边,超边 分类算法前需要通过循环迭代的方法计算出最 的属性数目与样本一致。每条超边的初始化主要 优1,具体流程如图4所示。初始设置模糊相似 由条件属性初始化和决策属性初始化两部分组成。 度阈值1。为0,然后通过叠加步长来改变1。的取 1)条件属性初始化 值,在不同的值下,采用模糊超网络分类方法 条件属性初始化主要有两种方式:一种是随 对训练集进行十折交叉验证得到相应的分类正 机属性继承,超边从条件属性集中随机选择十分 之七的属性继承样本的属性值,即超边在这些属 确率。将正确率最高的。值作为最优模糊相似 性上的取值与生成该超边的样本相同。剩余属性 度阈值1执行后续的分类算法。值得注意之处在 则根据训练集在该属性上的取值范围随机生成属 于,从理论上说,对于同一个训练集,入是唯一的, 性值。如图5所示,x为样本,e为x按照随机属 本方法计算出的结果仅是一个接近的阈值,一般 性继承方式生成的超边。 步长设置越短越接近最优模糊相似度阈值。本文 x12345678910☐ 所设置的步长=0.01,足以满足实验需求。 1210665678912 开始 设置初始。0 设置步长s 图5随机属性继承示例图 Fig.5 Example of random attribute inheritance 采用模糊超网络分类算法对 训练集进行十折交叉验证 另一种是择优属性继承,超边从所有属性中 选择重要度较高的前十分之七的属性继承样本的 输出分类正确率 若≥1,则。 属性值,剩余属性上的取值则根据训练集中同类 P(),保存结果 样本在该属性上的取值范围随机生成。如图6所 少 Lo-lo+s 示,样本x拥有10个属性,首先利用样本x的- 等价类样本集合按照定义4所示的方法计算出各 个属性的重要度k,然后重新生成重要度较低的 比较PO,Ps,P2s.,PI)大小N 属性1、2、9对应的属性值。 P(n)=max(P(0),P(s),P(2s)., k0.350.230.551.000.540.40.780.400.280.66 P(1)以,则训练集的最优n x12345678910 (结束 e3355345678210 图4计算最优1流程图 图6择优属性继承示例图 Fig.4 Flow chart for calculating optimal Fig.6 Example of preferred attribute inheritance
开始 根据训练集样本 生成超边 生成超边集 利用超边集对 训练集分类 筛选需要 替换的超边集 替换需要 替换的超边 输出最高分类正确 率对应的超网络 对测试集分类 结束 输出结果 根据训练集 计算最优 λ N Y 初始化超边集 分类,迭代 超边替代 迭代次数大 于 100 次,且连续 10 次运算 的最高分类正确率无增长 图 3 分类算法流程 Fig. 3 Flow of this algorithm 2.1.1 计算最优模糊相似度阈值 λ 由定义 6 可知,每一个训练样本集都有且只 有一个最优模糊相似度阈值 λ,所以本文在执行 分类算法前需要通过循环迭代的方法计算出最 优 λ,具体流程如图 4 所示。初始设置模糊相似 度阈值 λ0 为 0,然后通过叠加步长来改变 λ0 的取 值,在不同的 λ0 值下,采用模糊超网络分类方法 对训练集进行十折交叉验证[15]得到相应的分类正 确率。将正确率最高的 λ0 值作为最优模糊相似 度阈值 λ 执行后续的分类算法。值得注意之处在 于,从理论上说,对于同一个训练集,λ 是唯一的, 本方法计算出的结果仅是一个接近的阈值,一般 步长设置越短越接近最优模糊相似度阈值。本文 所设置的步长 s=0.01,足以满足实验需求。 开始 采用模糊超网络分类算法对 训练集进行十折交叉验证 输出分类正确率 P(λ0 ),保存结果 λ0=1 比较P(0), P(s), P(2s),... ,P(1)大小 若P(n)=max{P(0), P(s), P(2s),... , P(1)},则训练集的最优 λ=n 结束 设置初始 λ0=0 设置步长s Y 若 λ0≥1,则 λ0=1 N λ0=λ0+s 图 4 计算最优 λ 流程图 Fig. 4 Flow chart for calculating optimal λ 2.1.2 超边初始化 根据训练集中的样本生成模糊超网络中的超 边。本文设置每个样本直接生成 5 条超边,超边 的属性数目与样本一致。每条超边的初始化主要 由条件属性初始化和决策属性初始化两部分组成。 1) 条件属性初始化 条件属性初始化主要有两种方式:一种是随 机属性继承,超边从条件属性集中随机选择十分 之七的属性继承样本的属性值,即超边在这些属 性上的取值与生成该超边的样本相同。剩余属性 则根据训练集在该属性上的取值范围随机生成属 性值。如图 5 所示,x 为样本,e 为 x 按照随机属 性继承方式生成的超边。 1 2 3 4 5 6 7 8 9 10 1 2 10 66 5 6 7 8 9 12 x e 图 5 随机属性继承示例图 Fig. 5 Example of random attribute inheritance 另一种是择优属性继承,超边从所有属性中 选择重要度较高的前十分之七的属性继承样本的 属性值,剩余属性上的取值则根据训练集中同类 样本在该属性上的取值范围随机生成。如图 6 所 示,样本 x 拥有 10 个属性,首先利用样本 x 的 λ- 等价类样本集合按照定义 4 所示的方法计算出各 个属性的重要度 k,然后重新生成重要度较低的 属性 1、2、9 对应的属性值。 1 2 3 4 3 4 5 6 7 8 9 10 33 55 5 6 7 8 12 10 x k 0.35 0.23 0.55 1.00 0.54 0.44 0.78 0.40 0.28 0.66 e 图 6 择优属性继承示例图 Fig. 6 Example of preferred attribute inheritance 第 3 期 程麟焰,等:基于模糊超网络的知识获取方法研究 ·483·