当前位置：和泉文库 > 电气与自动化 > 浏览文档

【知识工程】结合卷积特征提取和路径语义的知识推理

文件格式：PDF，文件大小：4.56MB，售价：3.9元

文档详细内容（约10页）

第16卷第4期智能系统学报 Vol.16 No.4 2021年7月 CAAI Transactions on Intelligent Systems Jul.2021 D0:10.11992/tis.202008007 网络出版地址：https:/kns.cnki.net/kcms/detail/23.1538.TP.20210629.1130.002.html 结合卷积特征提取和路径语义的知识推理陈新元2，谢晟祎3，陈庆强，刘羽 (1.闽江学院计算机与控制工程学院，福建福州350121：2.福州墨尔本理工职业学院信息工程系，福建福州 350121;3.福建农业职业技术学院教学科研处，福建福州350181,4.福建工程学院信息科学与工程学院，福建福州350118：5.福州墨尔本理工职业学院现代教育技术中心，福建福州350121) 摘要：传统特征提取方法大多基于嵌入表达，常忽略了路径语义：基于关系路径的推理方法多考虑单一路径，性能仍有提升空间。为进一步提升知识推理能力，使用自定义的卷积神经网络框架编码随机游走生成的多条路径，利用双向长短期记忆网络的隐藏状态合并向量序列，结合注意力机制实现差异化的多路径语义信息集成，计算候选关系与实体对的概率得分，用于判断三元组是否成立。NELL995和FB15k-237数据集上的链路预测结果证明方案可行，F等指标相比主流模型也有一定优势；进一步在大型数据集和稀疏数据集上验证方案可行。关键词：知识图谱；知识推理；嵌入表示；路径信息：卷积神经网络；长短期记忆网络；注意力机制；链路预测中图分类号：TP391文献标志码：A文章编号：1673-4785(2021)04-0729-10 中文引用格式：陈新元，谢晟祎，陈庆强，等.结合卷积特征提取和路径语义的知识推理J引.智能系统学报，2021,16(4)： 729-738 英文引用格式：CHEN Xinyuan,XIE Shengyi,.CHEN Qingqiang,.etal.Knowledge-based inference on convolutional feature extrac-. tion and path semantics Jl.CAAI transactions on intelligent systems,2021,16(4):729-738. Knowledge-based inference on convolutional feature extraction and path semantics CHEN Xinyuan,XIE Shengyi,CHEN Qingqiang LIU Yu' (1.College of Computer and Control Engineering,Minjiang University,Fuzhou 350121,China;2.Department of Information Engin- eering,Fuzhou Melbourne Polytechnic,Fuzhou 350121,China;3.Teaching and Research Division,,Fujian Vocational College of Agriculture,Fuzhou 350181,China;4.Information Science and Engineering College,Fujian University of Technology,Fuzhou 350118.China:5.Modern Education Technical Center,Fuzhou Melbourne Polytechnic,Fuzhou 350121.China) Abstract:Embedding-based feature extraction methods usually ignore path semantics,there is still scope of improve- ment of relational path-based algorithms,which generally consider single paths.To further boost the performance of knowledge-based inferences,a self-defined convolutional neural network framework was employed to encode multiple paths generated by random walks into low-dimensional representations that are merged to form a single vector of hid- den states with long-short term memory (LSTM);this is accomplished by combining the attention mechanism-based processes.Semantic information of multiple paths is integrated with various weight distributions used for measuring probability scores of triples comprising candidate relations and entity pairs to determine whether the triples hold or not. Link prediction experiments performed on NELL995 and FB15k-237 demonstrated the capability of the proposed mod- el.Scores of F and other indicators also confirmed the advantages of our framework compared with mainstream mod- els.The model was further tested on FC17 and NELL-One. Keywords:knowledge graph;knowledge inference;embedding representation;path information;convolutional neural network(CNN);long-short term memory (LSTM);attention mechanism;link prediction 收稿日期：2020-08-06.网络出版日期：2021-06-29. 知识库(knowledge base,KB)以三元组的形基金项目：中国高等教育学会2020年度中外合作办学研究课题(ZWHZBX202003). 式编码事实，三元组由实体和关系组成。主流知通信作者：陈庆强.E-mail:3204193260@qq.com 识库（如NELL、YAGO、Freebase!等）在语义

DOI: 10.11992/tis.202008007 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20210629.1130.002.html 结合卷积特征提取和路径语义的知识推理陈新元1,2，谢晟祎3 ，陈庆强4 ，刘羽5 （1. 闽江学院计算机与控制工程学院，福建福州 350121; 2. 福州墨尔本理工职业学院信息工程系，福建福州 350121; 3. 福建农业职业技术学院教学科研处，福建福州 350181; 4. 福建工程学院信息科学与工程学院，福建福州 350118; 5. 福州墨尔本理工职业学院现代教育技术中心，福建福州 350121）摘要：传统特征提取方法大多基于嵌入表达，常忽略了路径语义；基于关系路径的推理方法多考虑单一路径，性能仍有提升空间。为进一步提升知识推理能力，使用自定义的卷积神经网络框架编码随机游走生成的多条路径，利用双向长短期记忆网络的隐藏状态合并向量序列，结合注意力机制实现差异化的多路径语义信息集成，计算候选关系与实体对的概率得分，用于判断三元组是否成立。NELL995 和 FB15k-237 数据集上的链路预测结果证明方案可行，F1 等指标相比主流模型也有一定优势；进一步在大型数据集和稀疏数据集上验证方案可行。关键词：知识图谱；知识推理；嵌入表示；路径信息；卷积神经网络；长短期记忆网络；注意力机制；链路预测中图分类号：TP391 文献标志码：A 文章编号：1673−4785(2021)04−0729−10 中文引用格式：陈新元, 谢晟祎, 陈庆强, 等. 结合卷积特征提取和路径语义的知识推理 [J]. 智能系统学报, 2021, 16(4): 729–738. 英文引用格式：CHEN Xinyuan, XIE Shengyi, CHEN Qingqiang, et al. Knowledge-based inference on convolutional feature extraction and path semantics[J]. CAAI transactions on intelligent systems, 2021, 16(4): 729–738. Knowledge-based inference on convolutional feature extraction and path semantics CHEN Xinyuan1,2 ，XIE Shengyi3 ，CHEN Qingqiang4 ，LIU Yu5 (1. College of Computer and Control Engineering, Minjiang University, Fuzhou 350121, China; 2. Department of Information Engineering, Fuzhou Melbourne Polytechnic, Fuzhou 350121, China; 3. Teaching and Research Division,, Fujian Vocational College of Agriculture, Fuzhou 350181, China; 4. Information Science and Engineering College, Fujian University of Technology, Fuzhou 350118, China; 5. Modern Education Technical Center, Fuzhou Melbourne Polytechnic, Fuzhou 350121, China) Abstract: Embedding-based feature extraction methods usually ignore path semantics; there is still scope of improvement of relational path-based algorithms, which generally consider single paths. To further boost the performance of knowledge-based inferences, a self-defined convolutional neural network framework was employed to encode multiple paths generated by random walks into low-dimensional representations that are merged to form a single vector of hidden states with long-short term memory (LSTM); this is accomplished by combining the attention mechanism-based processes. Semantic information of multiple paths is integrated with various weight distributions used for measuring probability scores of triples comprising candidate relations and entity pairs to determine whether the triples hold or not. Link prediction experiments performed on NELL995 and FB15k-237 demonstrated the capability of the proposed model. Scores of F1 and other indicators also confirmed the advantages of our framework compared with mainstream models. The model was further tested on FC17 and NELL-One. Keywords: knowledge graph; knowledge inference; embedding representation; path information; convolutional neural network (CNN); long-short term memory (LSTM); attention mechanism; link prediction 知识库 (knowledge base, KB)[1] 以三元组的形式编码事实，三元组由实体和关系组成。主流知识库 (如 NELL[2] 、YAGO[3] 、Freebase[4] 等) 在语义收稿日期：2020−08−06. 网络出版日期：2021−06−29. 基金项目：中国高等教育学会 2020 年度中外合作办学研究课题 (ZWHZBX202003). 通信作者：陈庆强. E-mail：3204193260@qq.com. 第 16 卷第 4 期智能系统学报 Vol.16 No.4 2021 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2021

·730· 智能系统学报第16卷搜索和问题解答等领域应用广泛。 w,以提高表达能力。然而，现有知识库缺失大量事实，即三元组不 1.2神经网络模型完整，缺少实体或关系例。知识图谱补全(know 近年来，在自然语言处理(natural language ledge graph completion,.KGC)旨在解决该问题， processing,NLP)领域，最初用于计算机视觉的通过提取局部模式或语义特征，用已知信息生成 CNN大放光彩，其参数规模和计算开销远少于新的有效事实0，许多学者对KGC的核心概全连接神经网络。ConvE在ComplEx!的基础上念、关键问题、主流技术和未来方向进行了分析、引入CNN,将'w、",转化并拼接后作为卷积层输总结和展望21切。模式提取借助贝叶斯扩展或张入，过滤器提取特征映射张量后，将其向量化并量矩阵分解增强表达能力，但往往忽略了路径与"，计算点积，得到三元组评分。ConvE的二维携带的语义信息，经典模型如RESCAL TransE、卷积被证实能加强实体/关系间的交互，更好地提 DistMult7和ConvE!。上述模型大多忽略路径取关系属性用于学习嵌入表示。携带的语义信息。 13附加语义模型在知识推理中，实体对间的多条关系路径所上述模型大多只考虑直接关联，忽略了关系携带的语义信息有助于判定三元组的有效性0。路径蕴含的语义信息4.。Zhang等B认为，在复 Neelakantan等2u和Das等2al使用循环神经网络杂现实场景中进行推理，集成关系路径的丰富语 (recurrent neural networks,RNN)进行关系路径嵌义信息很有必要；Xiog等m则认为知识库的持入以减小计算开销。由于常规RNN无法学习到续动态增长和稀疏性决定了few-shot、one-shot甚长序列的语义依赖，Hochreiter等2)提出了LSTM 至是zero-shot的推理需求，而语义信息等辅助知 (long short-.term memory),引入门控结构计算遗忘识有助于实现这类推理。Lao等9.20验证了关系和更新的信息。Xu等21将注意力机制引入图像路径对知识补全的辅助作用：使用深度优先的随物体识别；目前该机制已应用到机器翻译和知识机游走算法生成路径，使用逻辑回归或决策树等补全。Xiong等2结合嵌入模型和路径模型的优二分类方法训练并预测链路。关系路径后续也有点，使用强化学习框架，在TransE的基础上将智许多改进研究B-3,如Das等Iao提出MINERVA 能体编码至连续空间中，通过最优关系采样和路方案，在知识图遍历中使用历史路径信息，Lin等径扩展进行推理，同时设计了自定义的奖励函数，在其基础上改进了奖励函数。此外，Lin等2和兼顾局部模式提取和语义关联识别262。 Luo等1将关系路径与TransE结合，进一步提升本文设计了PKICLA方案(path-based know- 知识表达能力。然而，多数相关研究将路径视为 ledge inference with CNN,LSTM and attention mech- 原子性特征，导致特征矩阵的规模庞大，计算开 anism),结合卷积神经网络(convolutional neural 销高44。 networks,CNN)和双向LSTM实现基于关系路径 1.4 融合模型嵌入的局部特征提取和向量序列合并，同时借助 RNN原本用于处理序列数据，在语音识别、注意力机制实现多路径权重分配，集成关系语义 NLP和连续图像处理等领域取得成功，因此评分，在NELL995和FB15k-237数据集上进行链 Neelakantan等提出Path-RNN,将路径分解为关路预测，比较PKICLA与其他主流模型的性能。系序列，用作RNN的输入，通过层内的参数共享 1相关研究降低计算开销，选择得分最高的路径(Max运算)以补全缺失三元组。然而，单一路径可能无 1.1嵌入模型法提供足够的语义参照，因此Das等2四使用Mean KGC中，嵌人模型的基本思路是学习节点和和LogSumExp等指标集成多路径信息，但忽略了关系的低维矢量表示，保留原有结构信息和知识不同路径与候选关系的语义关联程度存在差异。约束，如TransE将关系映射为平移向量，认为若由于常规RNN存在梯度消失问题，难以学习三元组成立，则平移后的头部向量应靠近尾部向到长距离的语义依赖关系，因此LSTM模型P)引量，即yh+y,≈，其中yh、”,、,是实体和关系的入门控结构计算遗忘和更新的信息，后续产生了嵌入向量表示。三元组局部特征在各向量同一维许多变种6。度的映射中得以保留。许多模型对TransE进行近来用于调整资源分配的注意力机制也在了优化，TransH9为关系分配超平面w,以体现实 NLP领域得到应用47，Bahdanau等)和Vaswani 体的角色差异，TransR3o使用投影矩阵W,替换等9将之用于机器翻译的解码器设计；Jiang等网

搜索[5] 和问题解答[6] 等领域[7] 应用广泛。然而，现有知识库缺失大量事实，即三元组不完整，缺少实体或关系[8]。知识图谱补全 (knowledge graph completion, KGC)[9] 旨在解决该问题，通过提取局部模式或语义特征，用已知信息生成新的有效事实[10-11] ，许多学者对 KGC 的核心概念、关键问题、主流技术和未来方向进行了分析、总结和展望[12-13]。模式提取借助贝叶斯扩展或张量/矩阵分解[14] 增强表达能力，但往往忽略了路径携带的语义信息，经典模型如 RESCAL[15] 、TransE[16] 、 DistMult[17] 和 ConvE[18]。上述模型大多忽略路径携带的语义信息。在知识推理中，实体对间的多条关系路径所携带的语义信息有助于判定三元组的有效性[19-20]。 Neelakantan 等 [21] 和 Das 等 [22] 使用循环神经网络 (recurrent neural networks, RNN) 进行关系路径嵌入以减小计算开销。由于常规 RNN 无法学习到长序列的语义依赖，Hochreiter 等 [23] 提出了 LSTM (long short-term memory)，引入门控结构计算遗忘和更新的信息。Xu 等 [24] 将注意力机制引入图像物体识别；目前该机制已应用到机器翻译和知识补全。Xiong 等 [25] 结合嵌入模型和路径模型的优点，使用强化学习框架，在 TransE 的基础上将智能体编码至连续空间中，通过最优关系采样和路径扩展进行推理，同时设计了自定义的奖励函数, 兼顾局部模式提取和语义关联识别[26-28]。本文设计了 PKICLA 方案 (path-based knowledge inference with CNN, LSTM and attention mechanism)，结合卷积神经网络 (convolutional neural networks, CNN) 和双向 LSTM 实现基于关系路径嵌入的局部特征提取和向量序列合并，同时借助注意力机制实现多路径权重分配，集成关系语义评分，在 NELL995 和 FB15k-237 数据集上进行链路预测，比较 PKICLA 与其他主流模型的性能。 1 相关研究 1.1 嵌入模型 vh +vr ≈ vt vh vr vt wr Wr KGC 中，嵌入模型的基本思路是学习节点和关系的低维矢量表示，保留原有结构信息和知识约束，如 TransE 将关系映射为平移向量，认为若三元组成立，则平移后的头部向量应靠近尾部向量，即，其中、、是实体和关系的嵌入向量表示。三元组局部特征在各向量同一维度的映射中得以保留。许多模型对 TransE 进行了优化，TransH[29] 为关系分配超平面以体现实体的角色差异，TransR[30] 使用投影矩阵替换 wr 以提高表达能力。 1.2 神经网络模型 vh vr vt 近年来，在自然语言处理 (natural language processing, NLP) 领域，最初用于计算机视觉的 CNN 大放光彩[31] ，其参数规模和计算开销远少于全连接神经网络。ConvE 在 ComplEx[32] 的基础上引入 CNN，将、转化并拼接后作为卷积层输入，过滤器提取特征映射张量后，将其向量化并与计算点积，得到三元组评分。ConvE 的二维卷积被证实能加强实体/关系间的交互，更好地提取关系属性用于学习嵌入表示[33]。 1.3 附加语义模型上述模型大多只考虑直接关联，忽略了关系路径蕴含的语义信息[34-35]。Zhang 等 [36] 认为，在复杂现实场景中进行推理，集成关系路径的丰富语义信息很有必要；Xiong 等 [37] 则认为知识库的持续动态增长和稀疏性决定了 few-shot、one-shot 甚至是 zero-shot 的推理需求，而语义信息等辅助知识有助于实现这类推理。Lao 等 [19-20] 验证了关系路径对知识补全的辅助作用：使用深度优先的随机游走算法生成路径，使用逻辑回归或决策树等二分类方法训练并预测链路。关系路径后续也有许多改进研究[38-39] ，如 Das 等 [40] 提出 MINERVA 方案，在知识图遍历中使用历史路径信息，Lin 等 [41] 在其基础上改进了奖励函数。此外，Lin 等 [42] 和 Luo 等 [43] 将关系路径与 TransE 结合，进一步提升知识表达能力。然而，多数相关研究将路径视为原子性特征，导致特征矩阵的规模庞大，计算开销高[44-45]。 1.4 融合模型 RNN 原本用于处理序列数据，在语音识别、 N LP 和连续图像处理等领域取得成功，因此 Neelakantan 等 [21] 提出 Path-RNN，将路径分解为关系序列，用作 RNN 的输入，通过层内的参数共享降低计算开销，选择得分最高的路径 (Max 运算) 以补全缺失三元组。然而，单一路径可能无法提供足够的语义参照，因此 Das 等 [22] 使用 Mean 和 LogSumExp 等指标集成多路径信息，但忽略了不同路径与候选关系的语义关联程度存在差异。由于常规 RNN 存在梯度消失问题，难以学习到长距离的语义依赖关系，因此 LSTM 模型[23] 引入门控结构计算遗忘和更新的信息，后续产生了许多变种[46]。近来用于调整资源分配的注意力机制也在 NLP 领域得到应用[47] ，Bahdanau 等 [48] 和 Vaswani 等 [49] 将之用于机器翻译的解码器设计；Jiang 等 [27] ·730· 智能系统学报第 16 卷

第4期陈新元，等：结合卷积特征提取和路径语义的知识推理 ·731· 提出了基于注意力机制的知识推理方案，根据路径；其次将前、后向LSTM的隐藏状态拼接，合并径的语义匹配程度为其分配不同的权重。Nath- 关系序列特征，实体对的多条路径相当于在多个 ani等B使用注意力机制提取知识图中的近邻信整句级别上并行映射：最后使用基于注意力机制息，用于发现近似关系簇，以及同一实体的角色的方法集成不同路径与候选关系的语义关联信差异。息，计算关系与实体对的概率得分，用于判定三 Wang等Iso和Zhang等B6认为，长距离的多元组是否成立。跳推理有助于发掘实体关联，从而提高知识推理模型在现实场景中的性能，但注意力机制在长序 2 PKICLA 列上的分配机制有待优化，有研究尝试集成上述 PKICLA模型框架如图1所示。在给定实体框架以取长补短，Zhou等26提出Att-BLSTM用对和候选关系的前提下，利用CNN将通过随机游于关系分类，词级嵌入后使用双向LSTM)合并走得到的实体间多条路径分别依据其关系序列编句级信息并结合注意力机制评分：Chiu等s使用码为低维表示，将变长路径映射到定长的向量序 LSTM和CNN的混合模型识别命名实体，降低特列，保留其局部结构；使用双向LSTM将路径的征工程的计算量。特征序列合并为单一向量，减少计算开销；由于由于基于嵌入特征提取的模型和基于关系路不同路径与候选关系的语义关联程度不同，结合径语义的模型各有优点，因此本文在前人工作基注意力机制计算各路径的相关性并分配权重，加础上将嵌入表示与语义提取结合，提出PKICLA 权计算关系的状态向量，通过该关系与相应实体模型，首先使用自定义的CNN框架编码完整路对的概率得分判定三元组是否有效。实体对_1.随机游走。路径集合刀 (ese) 2.过滤器 {12，} 卷积操作嵌入表示 e F P=P1,Pz 1.卷积 2.全连接步长为2 t内核候选关系注意力机制 r n条编码路径 score(p r) 双向LSTM P() 图1 PKICLA模型框架 Fig.1 Model framework of PKICLA 2.1路径关系序列的向量嵌入 ing algorithm)算法得到与候选三元组(e,r,e)的给定KG包括实体集E和关系集R。三元组头/尾实体e、e,对应且概率较高的路径。PRA通 (h,r,t)中，h∈E表示头实体或源实体，t∈E表示过Random Walk,在全图范围内从源实体开始寻尾实体或目标实体，r∈R表示关系。三元组的向找并一一列举到达目标实体的长度符合要求的n 量表示为(e,r,e),体现实体和关系的有序链接。条路径，记录每条路径上的关系和中间实体，完实体对间可能存在多条路径，因此将路径视作原整路径π可表示为{e,r1,e1,r2,e2,…,e-1,I,e,…, 子性特征会导致特征矩阵随数据规模上升迅速膨 r,e}eⅡ，其关系序列可表示为{r,2,…,r山其中张。ConvE使用CNN提取三元组的局部特征，大 (e-l,r,e)表示路径中的第i个三元组。记录不同大降低了参数规模；本文采用自定义的CNN框架路径到达目标实体的概率，根据预设阈值进行筛将路径嵌入低维表示。首先使用PRA(path rank-. 选。Ⅱ表示筛选后的路径集合。不同路径的关系

提出了基于注意力机制的知识推理方案，根据路径的语义匹配程度为其分配不同的权重。Nathani 等 [34] 使用注意力机制提取知识图中的近邻信息，用于发现近似关系簇，以及同一实体的角色差异。 Wang 等 [50] 和 Zhang 等 [36] 认为，长距离的多跳推理有助于发掘实体关联，从而提高知识推理模型在现实场景中的性能，但注意力机制在长序列上的分配机制有待优化，有研究尝试集成上述框架以取长补短，Zhou 等 [26] 提出 Att-BLSTM 用于关系分类，词级嵌入后使用双向 LSTM[51] 合并句级信息并结合注意力机制评分；Chiu 等 [52] 使用 LSTM 和 CNN 的混合模型识别命名实体，降低特征工程的计算量。由于基于嵌入特征提取的模型和基于关系路径语义的模型各有优点，因此本文在前人工作基础上将嵌入表示与语义提取结合，提出 PKICLA 模型，首先使用自定义的 CNN 框架编码完整路径；其次将前、后向 LSTM 的隐藏状态拼接，合并关系序列特征，实体对的多条路径相当于在多个整句级别上并行映射；最后使用基于注意力机制的方法集成不同路径与候选关系的语义关联信息，计算关系与实体对的概率得分，用于判定三元组是否成立。 2 PKICLA PKICLA 模型框架如图 1 所示。在给定实体对和候选关系的前提下，利用 CNN 将通过随机游走得到的实体间多条路径分别依据其关系序列编码为低维表示，将变长路径映射到定长的向量序列，保留其局部结构；使用双向 LSTM 将路径的特征序列合并为单一向量，减少计算开销；由于不同路径与候选关系的语义关联程度不同，结合注意力机制计算各路径的相关性并分配权重，加权计算关系的状态向量，通过该关系与相应实体对的概率得分判定三元组是否有效。双向 LSTM 注意力机制卷积操作实体对 (es , et ) 嵌入表示候选关系 r 1. 随机游走 2. 过滤器 r es r1 e1 rt et 1. 卷积 2. 全连接步长为 2 τ 内核 {c1 , c2 , …, ct} ci=[ci1 , ci2 , …, ciτ] k … hi … … … h1 h1 h1 hi score(pi , r) P(r|es , et ) k 2 k 2 n 条编码路径 r P={p1 , p2 , …, pn} 路径集合 {π1 , π2 , …, πn} pi pi ht ht ht ci c1 ct α1 αi αn k k ∏ … … 图 1 PKICLA 模型框架 Fig. 1 Model framework of PKICLA 2.1 路径关系序列的向量嵌入 (h, r, t) h ∈ E t ∈ E r ∈ R (es ,r, et) 给定 KG 包括实体集 E 和关系集 R。三元组中，表示头实体或源实体，表示尾实体或目标实体，表示关系。三元组的向量表示为，体现实体和关系的有序链接。实体对间可能存在多条路径，因此将路径视作原子性特征会导致特征矩阵随数据规模上升迅速膨胀。ConvE 使用 CNN 提取三元组的局部特征，大大降低了参数规模；本文采用自定义的 CNN 框架将路径嵌入低维表示。首先使用 PRA(path rank- (es ,r, et) es et n π {es ,r1, e1,r2, e2, ··· , ei−1,ri , ei , ··· , rt , et} ∈ Π {r1,r2, ··· ,rt} (ei−1,ri , ei) i Π ing algorithm) 算法得到与候选三元组的头/尾实体、对应且概率较高的路径。PRA 通过 Random Walk，在全图范围内从源实体开始寻找并一一列举到达目标实体的长度符合要求的条路径，记录每条路径上的关系和中间实体，完整路径可表示为，其关系序列可表示为，其中表示路径中的第个三元组。记录不同路径到达目标实体的概率，根据预设阈值进行筛选。表示筛选后的路径集合。不同路径的关系第 4 期陈新元，等：结合卷积特征提取和路径语义的知识推理 ·731·

·732· 智能系统学报第16卷数不同，取最长的路径，其关系数或关系序列的集合P={p1,P2,…,pn,P∈R。双向LSTM的输长度用t表示；将所有路径设为相同长度t,长度出作为注意力层的输入。不足的使用零填充。 2.3 基于注意力机制的路径集成本文使用实体类型对应的向量表示22，进一主流PRA常使用Max或Mean运算，忽略了步减小参数规模，同时解决测试集中部分实体在不同路径提供的推理证据存在差异，因此本文使训练集中未出现的问题。将头/尾实体对和候选用Bahdanau等4提出的基于累加性注意力机制关系通过嵌入矩阵转化为k维向量，即e,e,r∈R, (additive attention)的路径信息集成，该方法对于作为路径卷积编码的输入。过滤器ω的尺寸不同区间数值的适应能力优于简单的点积计算语 (size)和步长(stride)对特征提取和计算开销影响义相关度得分2，。将候选关系的向量表示r与较大，本文使用统一的w∈R3提取特征，步长为头/尾实体对的多条路径编码分别匹配，计算每条 2,避免抽取无意义的局部特征。使用多个卷积核路径的语义相关度得分score(p,r(式(1)，进而为遍历路径，令Ω和τ分别表示卷积核和核数，即其分配独立权重α（式(2）)，加权计算得到候选关 π=2。以路径上所有三元组为单位/窗口，逐个系的状态向量c(式(3)，并以之计算候选关系与提取其局部模式。拼接所有卷积核提取的特征，对应头/尾实体对的概率得分P(re,e(式(4)，用路径第i个特征向量可表示为c1=[c1,c2,…,crJ, c∈R,car=f(ω，[e-1,r,e]+b),其中f表示ReLU 于判定三元组是否有效。非线性激活函数（优于线性函数21-2斗，b为偏置系 score(pi,r)=tanh(piw,)r (1) exp(score(pi,r)) 数。卷积处理路径后，得到其向量序列表示 a:= (2) {c1,c2,…,cl,作为双向LSTM的输人。 exp(score(pi,r)) 2.2双向LSTM提取路径特征常规RNN存在梯度消失问题，难以学习长 c->op (3) 序列的语义信息；Zhou等21使用双向LSTM 1 P(rle,,e,)=f(W(c+r)) (4) (BLSTM)并通过peephole connections查看当前神式中：W,∈R,W。∈Rk为权重参数；f表示非线经节点/细胞的状态，增加CEC(constant error ca- rousel)到各门的双向关联；Lu等s]使用的双向性激活函数，本文使用sigmoid。通过权重分配，与候选关系语义关联程度不同的路径得以区分。 GRU(bidirectional gated recurrent unit)则通过类似耦合门控的设计简化了细胞结构和参数规模，保本文使用Adam优化器s训练PKICLA以优留了近似性能：其中重置门，对维度信息进行化结果，损失函数定义如式（⑤）所示： 1 调整，更新门z,以及(1-z)可视作对应原始忘记门 L⑧)=N 和输入门（后者也可遗忘部分信息）。本文使用双向 LSTM将路径的向量序列表示合并为单一向量。 logP(rle;.e,)+ ∑log1-PGe.e,》 (eret)eT+ 他e 将卷积层输出序列的每个向量视作LSTM中 Θ 的一个时间步，每个时间步将一个T维的向量c (5) 馈送到LSTM细胞。双向LSTM分别由前向和后目标函数中N为训练样本总数；T+、T分别向的相反方向读取数据，其输出分别表示为和表示有效三元组和无效三元组的集合；Θ表示所 ,即前向从左向右，后向从右向左。双向处理路有需要学习的参数，随机初始化；使用L2正则化防止过拟合。径后，得到两组不同的隐藏状态，即对于向量序列{c1,c2,,cl,前向LSTM网络得到状态序列 3实验与分析 ,…,元n…,,后向网络则是抗…，…， ,}。为降低参数规模，本文将前向网络序列的最 31任务与评价指标后隐藏状态和后向网络序列的最前隐藏状态拼链路预测从已知信息中推理新的事实，用于接，生成完整路径π的向量表示p=,p∈R, 知识补全，方法是计算给定头尾实体与特定关系连接的概率得分，判定三元组是否有效。度量指从而保留关系序列的秩序信息。为便于拼接，以标通常为原始正确实体在所有候选项中的排序，及与候选关系匹配，将细胞的隐藏状态数设为如：查询(Joe Biden,isPresidentOf,?),期望实验结 2o本文在Keras的Time Distributed层使用相同果中，“theU.S.”或“America”应得分较高，或排编码器并行处理所有”条路径，得到其向量表示序较前

t t 数不同，取最长的路径，其关系数或关系序列的长度用表示；将所有路径设为相同长度，长度不足的使用零填充。 k es , et ,r ∈ R k ω ω ∈ R k×3 Ω τ τ = |Ω| i ci = [ci1, ci2, ··· , ciτ], ci ∈ R τ , ciτ = f (ωτ [ei−1,ri , ei]+b) f b {c1, c2, ··· , ct} 本文使用实体类型对应的向量表示[22] ，进一步减小参数规模，同时解决测试集中部分实体在训练集中未出现的问题。将头/尾实体对和候选关系通过嵌入矩阵转化为维向量，即，作为路径卷积编码的输入。过滤器的尺寸 (size) 和步长 (stride) 对特征提取和计算开销影响较大，本文使用统一的提取特征，步长为 2，避免抽取无意义的局部特征。使用多个卷积核遍历路径，令和分别表示卷积核和核数，即。以路径上所有三元组为单位/窗口，逐个提取其局部模式。拼接所有卷积核提取的特征，路径第个特征向量可表示为，其中表示 ReLU 非线性激活函数 (优于线性函数[21-22] )，为偏置系数。卷积处理路径后，得到其向量序列表示，作为双向 LSTM 的输入。 2.2 双向 LSTM 提取路径特征 rt zt (1−zt) 常规 RNN 存在梯度消失问题，难以学习长序列的语义信息；Zhou 等 [ 2 6 ] 使用双向 LSTM (BLSTM) 并通过 peephole connections 查看当前神经节点/细胞的状态，增加 CEC(constant error carousel) 到各门的双向关联；Lu 等 [53] 使用的双向 GRU(bidirectional gated recurrent unit) 则通过类似耦合门控的设计简化了细胞结构和参数规模，保留了近似性能[54] ；其中重置门对维度信息进行调整，更新门以及可视作对应原始忘记门和输入门 (后者也可遗忘部分信息)。本文使用双向 LSTM 将路径的向量序列表示合并为单一向量。 τ ci −→hj ←−hj {c1, c2, ··· , ct} −→h1, −→h2,··· , −→hj ,··· , −→ht ←−h1, ←−h2,··· , ←−hj ,··· , ←−ht π p = [ −→ht , ←−h1 ] , p ∈ R k k 2 n 将卷积层输出序列的每个向量视作 LSTM 中的一个时间步，每个时间步将一个维的向量馈送到 LSTM 细胞。双向 LSTM 分别由前向和后向的相反方向读取数据，其输出分别表示为和，即前向从左向右，后向从右向左。双向处理路径后，得到两组不同的隐藏状态，即对于向量序列，前向 LSTM 网络得到状态序列 { }，后向网络则是{ }。为降低参数规模，本文将前向网络序列的最后隐藏状态和后向网络序列的最前隐藏状态拼接，生成完整路径的向量表示，从而保留关系序列的秩序信息。为便于拼接，以及与候选关系匹配，将细胞的隐藏状态数设为。本文在 Keras 的 Time Distributed 层使用相同编码器并行处理所有条路径，得到其向量表示 P = {p1, p2, ··· , pn}, P ∈ R 集合 k×n。双向 LSTM 的输出作为注意力层的输入。 2.3 基于注意力机制的路径集成 r score (pi ,r) αi c P(r|es , et) 主流 PRA 常使用 Max 或 Mean 运算，忽略了不同路径提供的推理证据存在差异，因此本文使用 Bahdanau 等 [48] 提出的基于累加性注意力机制 (additive attention) 的路径信息集成，该方法对于不同区间数值的适应能力优于简单的点积计算语义相关度得分[22, 49]。将候选关系的向量表示与头/尾实体对的多条路径编码分别匹配，计算每条路径的语义相关度得分 (式 (1))，进而为其分配独立权重 (式 (2))，加权计算得到候选关系的状态向量 (式 (3))，并以之计算候选关系与对应头/尾实体对的概率得分 (式 (4))，用于判定三元组是否有效。 score (pi ,r) = tanh(piWs)r (1) αi = exp(score (pi ,r)) ∑n i=1 exp(score (pi ,r)) (2) c = ∑n i=1 αi pi (3) P(r|es , et) = f ( Wp ( c+ r)) (4) Ws ∈ R k×k Wp ∈ R k 式中： , 为权重参数； f 表示非线性激活函数，本文使用 sigmoid。通过权重分配，与候选关系语义关联程度不同的路径得以区分。本文使用 Adam 优化器[55] 训练 PKICLA 以优化结果，损失函数定义如式 (5) 所示： L(Θ) = − 1  N  ∑ (es,r,et)∈T + logP(r|es , et)+ ∑ (eˆs,rˆ,eˆt)∈T − log(1− P(rˆ|eˆs , eˆt))   + λ||Θ||2 2 (5) N T + T − Θ 目标函数中为训练样本总数；、分别表示有效三元组和无效三元组的集合；表示所有需要学习的参数，随机初始化；使用 L2 正则化防止过拟合。 3 实验与分析 3.1 任务与评价指标链路预测从已知信息中推理新的事实，用于知识补全，方法是计算给定头/尾实体与特定关系连接的概率得分，判定三元组是否有效。度量指标通常为原始正确实体在所有候选项中的排序，如：查询 (Joe Biden, isPresidentOf,?)，期望实验结果中，“the U.S.”或“America”应得分较高，或排序较前。 ·732· 智能系统学报第 16 卷

第4期陈新元，等：结合卷积特征提取和路径语义的知识推理 ·733· 实验使用平均精度均值(mean average preci- 统计信息如表1所示。从NELL995中删除无推 sion,MAP)、正确三元组的平均倒数排名(mean re- 理价值的generalizations和haswikipediaurl关系， ciprocal rank,MRR)、Hits@l(排名在第I位的有效保留频率最高的Top200关系的三元组。Toutan- 实体的比例)、Hits@3(取前3位)、Hits@5(取前 ova等3列在FB15k基础上删除可逆三元组，生成 5位)和F等指标进行评估。MAP取头/尾实体 FB15k-237,防止算法高分漏洞。FC17的主要数预测排序的均值；Hits@1和Hits@3将头/尾预测据来自Freebase,同时集成了ClueWeb中对应实视为同一任务，合并计算hit rate. 体链接；选择其中频率最高的46个关系用于实 3.2数据集验。NELL-One是NELL数据集中三元组实例数本文在FB15k-237和NELL995这两个常规数 ∈[50,50o]的关系集合。表1NELL-One中Train 据集，FC17大型数据集（模拟现实复杂场景）， Set、Dev.Set和Test Set使用关系数而非实例三元和NELL-One稀疏数据集Bm上进行链路预测，其组数表1数据集统计信息 Table 1 Dataset Statistics 数据集 #entities #relations #Train Set #Dev.Set #Test Set #Tasks NELL995 75492 200 154213 5000 5000 12 FB15k-237 14541 237 272115 17535 20466 20 FC17 18M 25994 305k 12k 12k 名 NELL-One 68545 358 51 11 67 对于上述数据集中的每一个关系，确保Train 特征，该模型侧重复杂数据集上的关系预测： Set和Dev.Set/Test Set中无重复三元组（含反 7)M-walk2(2018),同样使用RL和RNN框向)。将无对应关系路径的实体对删除。将路径架，结合随机抽样搜索路径空间：长度限制设定为4，相应的元素个数最多为9（含 8)GMHB6(2020),多跳知识推理框架，结合局中间实体，含填充)。将Random Walk的概率阈值部特征和图结构整体特征，针对复杂现实场景设设置为0.1。计；该模型在FC17数据集上进行预测；参考Bordes等的实验，使用Bernoulli方法网 9)Gmatchingl37(2018),针对few-shot的近似度随机替换实体创建无效三元组，具体如下：给定量推理框架。有效三元组(h,八，)，h和分别是每个尾部对应 GMH使用ConvE作为预训练模型，距离上限头实体和每个头部对应尾实体的平均数量，使用设置为6时性能最优；其他基准模型均使用原方和分别表示生成新三元组化，5)和案的最优性能建议参数。 nh+7:7h+刀：实验在Dev.Set上验证，若最后l0轮(epoch) (h,rr)的概率。对应准确率提升<102则停止训练并确定最优参 3.3模型与参数设置数。超参数池设置如下：minibatch size-=64,学习实验中用于比较的基准模型包括：率y∈[105,10-，5×10](Adam优化器其他参数默 1)DistMult刀(2015)，使用对角矩阵表示目标认)，k∈[50,100,200]，LSTM中隐藏节点数∈[64，关系； 128],t∈[50,1001，L2正则化系数∈[0,0.001,0.01 2)DeepPath2(2017),基于TransE6的强化学 0.1.0.51. 习(reinforcement learning,RL)框架； 3.4结果与分析 3)Single--Model2a(2017),使用RNN处理关系常规数据集上实验结果如表2所示，最优表序列，本文采用原方案推荐的LogSumExp; 现设置为粗体，次优设置为斜体+下划线。PKICLA 4)At-Model+Type2(2017),可视作基于注意相比Single-Model和Att-Model+-Type这两个相似力机制的Single-Model,.本文重新实现：模型有一定的提升，在较大数据集，特别是关系 5)ConvE!181(2018),使用2维卷积处理实体/ 类型分布相比NELL995复杂得多的FB15k-237 关系嵌入；数据集上，优势明显；在NELL995上，由于部分实 6)G-GAT(2019),使用注意力机制提取近邻体对的路径较少，基于关系路径语义的模型的

实验使用平均精度均值 (mean average precision, MAP)、正确三元组的平均倒数排名 (mean reciprocal rank, MRR)、Hits@1(排名在第 1 位的有效实体的比例)、Hits@3(取前 3 位)、Hits@5(取前 5 位) 和 F1 等指标进行评估。MAP 取头/尾实体预测排序的均值；Hits@1 和 Hits@3 将头/尾预测视为同一任务，合并计算 hit rate。 3.2 数据集本文在 FB15k-237 和 NELL995 这两个常规数据集，FC17 大型数据集 (模拟现实复杂场景) [27, 36] 和 NELL-One 稀疏数据集[37] 上进行链路预测，其 ∈ [50,500] 统计信息如表 1 所示。从 NELL995 中删除无推理价值的 generalizations 和 haswikipediaurl 关系，保留频率最高的 Top 200 关系的三元组。Toutanova 等 [39] 在 FB15k 基础上删除可逆三元组，生成 FB15k-237，防止算法高分漏洞。FC17 的主要数据来自 Freebase，同时集成了 ClueWeb 中对应实体链接；选择其中频率最高的 46 个关系用于实验。NELL-One 是 NELL 数据集中三元组实例数的关系集合。表 1NELL-One 中 Train Set、Dev. Set 和 Test Set 使用关系数而非实例三元组数。表 1 数据集统计信息 Table 1 Dataset Statistics 数据集 #entities #relations #Train Set #Dev. Set #Test Set #Tasks NELL995 75492 200 154213 5 000 5 000 12 FB15k-237 14541 237 272115 17 535 20 466 20 FC17 18M 25 994 305k 12k 12k 46 NELL-One 68545 358 51 5 11 67 对于上述数据集中的每一个关系，确保 Train Set 和 Dev. Set/Test Set 中无重复三元组 (含反向)。将无对应关系路径的实体对删除。将路径长度限制设定为 4，相应的元素个数最多为 9(含中间实体，含填充)。将 Random Walk 的概率阈值设置为 0.1。 (h, r, t) ηh ηt ηt ηh +ηt ηh ηh +ηt (h ′ , r, t) (h, r,t ′ ) 参考 Bordes 等 [16] 的实验，使用 Bernoulli 方法[29] 随机替换实体创建无效三元组，具体如下：给定有效三元组，和分别是每个尾部对应头实体和每个头部对应尾实体的平均数量，使用和分别表示生成新三元组和的概率。 3.3 模型与参数设置实验中用于比较的基准模型包括： 1)DistMult[17] (2015)，使用对角矩阵表示目标关系； 2)DeepPath[25] (2017)，基于 TransE[16] 的强化学习 (reinforcement learning, RL) 框架； 3)Single-Model[22] (2017)，使用 RNN 处理关系序列，本文采用原方案推荐的 LogSumExp； 4)Att-Model+Type[27] (2017)，可视作基于注意力机制的 Single-Model，本文重新实现； 5)ConvE[18] (2018)，使用 2 维卷积处理实体/ 关系嵌入； 6)G-GAT[34] (2019)，使用注意力机制提取近邻特征，该模型侧重复杂数据集上的关系预测； 7)M-walk[28] (2018)，同样使用 RL 和 RNN 框架，结合随机抽样搜索路径空间； 8)GMH[36] (2020)，多跳知识推理框架，结合局部特征和图结构整体特征，针对复杂现实场景设计；该模型在 FC17 数据集上进行预测； 9)Gmatching[37] (2018)，针对 few-shot 的近似度量推理框架。 GMH 使用 ConvE 作为预训练模型，距离上限设置为 6 时性能最优；其他基准模型均使用原方案的最优性能建议参数。 γ ∈ [10−5 ,10−4 ,5×10−4 ] k τ 实验在 Dev. Set 上验证，若最后 10 轮 (epoch) 对应准确率提升<10−2 则停止训练并确定最优参数。超参数池设置如下：minibatch size=64，学习率 (Adam 优化器其他参数默认)， ∈[50, 100, 200]，LSTM 中隐藏节点数∈[64, 128]， ∈[50, 100]，L2 正则化系数∈[0, 0.001, 0.01, 0.1, 0.5]。 3.4 结果与分析常规数据集上实验结果如表 2 所示，最优表现设置为粗体，次优设置为斜体+下划线。PKICLA 相比 Single-Model 和 Att-Model+Type 这两个相似模型有一定的提升，在较大数据集，特别是关系类型分布相比 NELL995 复杂得多的 FB15k-237 数据集上，优势明显；在 NELL995 上，由于部分实体对的路径较少，基于关系路径语义的模型的第 4 期陈新元，等：结合卷积特征提取和路径语义的知识推理 ·733·

点击进入文档下载页（PDF格式）

共10页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录