第16卷第4期 智能系统学报 Vol.16 No.4 2021年7月 CAAI Transactions on Intelligent Systems Jul.2021 D0:10.11992/tis.202008007 网络出版地址:https:/kns.cnki.net/kcms/detail/23.1538.TP.20210629.1130.002.html 结合卷积特征提取和路径语义的知识推理 陈新元2,谢晟祎3,陈庆强,刘羽 (1.闽江学院计算机与控制工程学院,福建福州350121:2.福州墨尔本理工职业学院信息工程系,福建福州 350121;3.福建农业职业技术学院教学科研处,福建福州350181,4.福建工程学院信息科学与工程学院,福建 福州350118:5.福州墨尔本理工职业学院现代教育技术中心,福建福州350121) 摘要:传统特征提取方法大多基于嵌入表达,常忽略了路径语义:基于关系路径的推理方法多考虑单一路径,性 能仍有提升空间。为进一步提升知识推理能力,使用自定义的卷积神经网络框架编码随机游走生成的多条路 径,利用双向长短期记忆网络的隐藏状态合并向量序列,结合注意力机制实现差异化的多路径语义信息集成,计 算候选关系与实体对的概率得分,用于判断三元组是否成立。NELL995和FB15k-237数据集上的链路预测结 果证明方案可行,F等指标相比主流模型也有一定优势;进一步在大型数据集和稀疏数据集上验证方案可行。 关键词:知识图谱;知识推理;嵌入表示;路径信息:卷积神经网络;长短期记忆网络;注意力机制;链路预测 中图分类号:TP391文献标志码:A文章编号:1673-4785(2021)04-0729-10 中文引用格式:陈新元,谢晟祎,陈庆强,等.结合卷积特征提取和路径语义的知识推理J引.智能系统学报,2021,16(4): 729-738 英文引用格式:CHEN Xinyuan,XIE Shengyi,.CHEN Qingqiang,.etal.Knowledge-based inference on convolutional feature extrac-. tion and path semantics Jl.CAAI transactions on intelligent systems,2021,16(4):729-738. Knowledge-based inference on convolutional feature extraction and path semantics CHEN Xinyuan,XIE Shengyi,CHEN Qingqiang LIU Yu' (1.College of Computer and Control Engineering,Minjiang University,Fuzhou 350121,China;2.Department of Information Engin- eering,Fuzhou Melbourne Polytechnic,Fuzhou 350121,China;3.Teaching and Research Division,,Fujian Vocational College of Agriculture,Fuzhou 350181,China;4.Information Science and Engineering College,Fujian University of Technology,Fuzhou 350118.China:5.Modern Education Technical Center,Fuzhou Melbourne Polytechnic,Fuzhou 350121.China) Abstract:Embedding-based feature extraction methods usually ignore path semantics,there is still scope of improve- ment of relational path-based algorithms,which generally consider single paths.To further boost the performance of knowledge-based inferences,a self-defined convolutional neural network framework was employed to encode multiple paths generated by random walks into low-dimensional representations that are merged to form a single vector of hid- den states with long-short term memory (LSTM);this is accomplished by combining the attention mechanism-based processes.Semantic information of multiple paths is integrated with various weight distributions used for measuring probability scores of triples comprising candidate relations and entity pairs to determine whether the triples hold or not. Link prediction experiments performed on NELL995 and FB15k-237 demonstrated the capability of the proposed mod- el.Scores of F and other indicators also confirmed the advantages of our framework compared with mainstream mod- els.The model was further tested on FC17 and NELL-One. Keywords:knowledge graph;knowledge inference;embedding representation;path information;convolutional neural network(CNN);long-short term memory (LSTM);attention mechanism;link prediction 收稿日期:2020-08-06.网络出版日期:2021-06-29. 知识库(knowledge base,KB)以三元组的形 基金项目:中国高等教育学会2020年度中外合作办学研究课 题(ZWHZBX202003). 式编码事实,三元组由实体和关系组成。主流知 通信作者:陈庆强.E-mail:3204193260@qq.com 识库(如NELL、YAGO、Freebase!等)在语义
DOI: 10.11992/tis.202008007 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20210629.1130.002.html 结合卷积特征提取和路径语义的知识推理 陈新元1,2,谢晟祎3 ,陈庆强4 ,刘羽5 (1. 闽江学院 计算机与控制工程学院,福建 福州 350121; 2. 福州墨尔本理工职业学院 信息工程系,福建 福州 350121; 3. 福建农业职业技术学院 教学科研处,福建 福州 350181; 4. 福建工程学院 信息科学与工程学院,福建 福州 350118; 5. 福州墨尔本理工职业学院 现代教育技术中心,福建 福州 350121) 摘 要:传统特征提取方法大多基于嵌入表达,常忽略了路径语义;基于关系路径的推理方法多考虑单一路径,性 能仍有提升空间。为进一步提升知识推理能力,使用自定义的卷积神经网络框架编码随机游走生成的多条路 径,利用双向长短期记忆网络的隐藏状态合并向量序列,结合注意力机制实现差异化的多路径语义信息集成,计 算候选关系与实体对的概率得分,用于判断三元组是否成立。NELL995 和 FB15k-237 数据集上的链路预测结 果证明方案可行,F1 等指标相比主流模型也有一定优势;进一步在大型数据集和稀疏数据集上验证方案可行。 关键词:知识图谱;知识推理;嵌入表示;路径信息;卷积神经网络;长短期记忆网络;注意力机制;链路预测 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2021)04−0729−10 中文引用格式:陈新元, 谢晟祎, 陈庆强, 等. 结合卷积特征提取和路径语义的知识推理 [J]. 智能系统学报, 2021, 16(4): 729–738. 英文引用格式:CHEN Xinyuan, XIE Shengyi, CHEN Qingqiang, et al. Knowledge-based inference on convolutional feature extraction and path semantics[J]. CAAI transactions on intelligent systems, 2021, 16(4): 729–738. Knowledge-based inference on convolutional feature extraction and path semantics CHEN Xinyuan1,2 ,XIE Shengyi3 ,CHEN Qingqiang4 ,LIU Yu5 (1. College of Computer and Control Engineering, Minjiang University, Fuzhou 350121, China; 2. Department of Information Engineering, Fuzhou Melbourne Polytechnic, Fuzhou 350121, China; 3. Teaching and Research Division,, Fujian Vocational College of Agriculture, Fuzhou 350181, China; 4. Information Science and Engineering College, Fujian University of Technology, Fuzhou 350118, China; 5. Modern Education Technical Center, Fuzhou Melbourne Polytechnic, Fuzhou 350121, China) Abstract: Embedding-based feature extraction methods usually ignore path semantics; there is still scope of improvement of relational path-based algorithms, which generally consider single paths. To further boost the performance of knowledge-based inferences, a self-defined convolutional neural network framework was employed to encode multiple paths generated by random walks into low-dimensional representations that are merged to form a single vector of hidden states with long-short term memory (LSTM); this is accomplished by combining the attention mechanism-based processes. Semantic information of multiple paths is integrated with various weight distributions used for measuring probability scores of triples comprising candidate relations and entity pairs to determine whether the triples hold or not. Link prediction experiments performed on NELL995 and FB15k-237 demonstrated the capability of the proposed model. Scores of F1 and other indicators also confirmed the advantages of our framework compared with mainstream models. The model was further tested on FC17 and NELL-One. Keywords: knowledge graph; knowledge inference; embedding representation; path information; convolutional neural network (CNN); long-short term memory (LSTM); attention mechanism; link prediction 知识库 (knowledge base, KB)[1] 以三元组的形 式编码事实,三元组由实体和关系组成。主流知 识库 (如 NELL[2] 、YAGO[3] 、Freebase[4] 等) 在语义 收稿日期:2020−08−06. 网络出版日期:2021−06−29. 基金项目:中国高等教育学会 2020 年度中外合作办学研究课 题 (ZWHZBX202003). 通信作者:陈庆强. E-mail:3204193260@qq.com. 第 16 卷第 4 期 智 能 系 统 学 报 Vol.16 No.4 2021 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2021
·730· 智能系统学报 第16卷 搜索和问题解答等领域应用广泛。 w,以提高表达能力。 然而,现有知识库缺失大量事实,即三元组不 1.2神经网络模型 完整,缺少实体或关系例。知识图谱补全(know 近年来,在自然语言处理(natural language ledge graph completion,.KGC)旨在解决该问题, processing,NLP)领域,最初用于计算机视觉的 通过提取局部模式或语义特征,用已知信息生成 CNN大放光彩,其参数规模和计算开销远少于 新的有效事实0,许多学者对KGC的核心概 全连接神经网络。ConvE在ComplEx!的基础上 念、关键问题、主流技术和未来方向进行了分析、 引入CNN,将'w、",转化并拼接后作为卷积层输 总结和展望21切。模式提取借助贝叶斯扩展或张 入,过滤器提取特征映射张量后,将其向量化并 量矩阵分解增强表达能力,但往往忽略了路径 与",计算点积,得到三元组评分。ConvE的二维 携带的语义信息,经典模型如RESCAL TransE、 卷积被证实能加强实体/关系间的交互,更好地提 DistMult7和ConvE!。上述模型大多忽略路径 取关系属性用于学习嵌入表示。 携带的语义信息。 13附加语义模型 在知识推理中,实体对间的多条关系路径所 上述模型大多只考虑直接关联,忽略了关系 携带的语义信息有助于判定三元组的有效性0。 路径蕴含的语义信息4.。Zhang等B认为,在复 Neelakantan等2u和Das等2al使用循环神经网络 杂现实场景中进行推理,集成关系路径的丰富语 (recurrent neural networks,RNN)进行关系路径嵌 义信息很有必要;Xiog等m则认为知识库的持 入以减小计算开销。由于常规RNN无法学习到 续动态增长和稀疏性决定了few-shot、one-shot甚 长序列的语义依赖,Hochreiter等2)提出了LSTM 至是zero-shot的推理需求,而语义信息等辅助知 (long short-.term memory),引入门控结构计算遗忘 识有助于实现这类推理。Lao等9.20验证了关系 和更新的信息。Xu等21将注意力机制引入图像 路径对知识补全的辅助作用:使用深度优先的随 物体识别;目前该机制已应用到机器翻译和知识 机游走算法生成路径,使用逻辑回归或决策树等 补全。Xiong等2结合嵌入模型和路径模型的优 二分类方法训练并预测链路。关系路径后续也有 点,使用强化学习框架,在TransE的基础上将智 许多改进研究B-3,如Das等Iao提出MINERVA 能体编码至连续空间中,通过最优关系采样和路 方案,在知识图遍历中使用历史路径信息,Lin等 径扩展进行推理,同时设计了自定义的奖励函数, 在其基础上改进了奖励函数。此外,Lin等2和 兼顾局部模式提取和语义关联识别262。 Luo等1将关系路径与TransE结合,进一步提升 本文设计了PKICLA方案(path-based know- 知识表达能力。然而,多数相关研究将路径视为 ledge inference with CNN,LSTM and attention mech- 原子性特征,导致特征矩阵的规模庞大,计算开 anism),结合卷积神经网络(convolutional neural 销高44。 networks,CNN)和双向LSTM实现基于关系路径 1.4 融合模型 嵌入的局部特征提取和向量序列合并,同时借助 RNN原本用于处理序列数据,在语音识别、 注意力机制实现多路径权重分配,集成关系语义 NLP和连续图像处理等领域取得成功,因此 评分,在NELL995和FB15k-237数据集上进行链 Neelakantan等提出Path-RNN,将路径分解为关 路预测,比较PKICLA与其他主流模型的性能。 系序列,用作RNN的输入,通过层内的参数共享 1相关研究 降低计算开销,选择得分最高的路径(Max运 算)以补全缺失三元组。然而,单一路径可能无 1.1嵌入模型 法提供足够的语义参照,因此Das等2四使用Mean KGC中,嵌人模型的基本思路是学习节点和 和LogSumExp等指标集成多路径信息,但忽略了 关系的低维矢量表示,保留原有结构信息和知识 不同路径与候选关系的语义关联程度存在差异。 约束,如TransE将关系映射为平移向量,认为若 由于常规RNN存在梯度消失问题,难以学习 三元组成立,则平移后的头部向量应靠近尾部向 到长距离的语义依赖关系,因此LSTM模型P)引 量,即yh+y,≈,其中yh、”,、,是实体和关系的 入门控结构计算遗忘和更新的信息,后续产生了 嵌入向量表示。三元组局部特征在各向量同一维 许多变种6。 度的映射中得以保留。许多模型对TransE进行 近来用于调整资源分配的注意力机制也在 了优化,TransH9为关系分配超平面w,以体现实 NLP领域得到应用47,Bahdanau等)和Vaswani 体的角色差异,TransR3o使用投影矩阵W,替换 等9将之用于机器翻译的解码器设计;Jiang等网
搜索[5] 和问题解答[6] 等领域[7] 应用广泛。 然而,现有知识库缺失大量事实,即三元组不 完整,缺少实体或关系[8]。知识图谱补全 (knowledge graph completion, KGC)[9] 旨在解决该问题, 通过提取局部模式或语义特征,用已知信息生成 新的有效事实[10-11] ,许多学者对 KGC 的核心概 念、关键问题、主流技术和未来方向进行了分析、 总结和展望[12-13]。模式提取借助贝叶斯扩展或张 量/矩阵分解[14] 增强表达能力,但往往忽略了路径 携带的语义信息,经典模型如 RESCAL[15] 、TransE[16] 、 DistMult[17] 和 ConvE[18]。上述模型大多忽略路径 携带的语义信息。 在知识推理中,实体对间的多条关系路径所 携带的语义信息有助于判定三元组的有效性[19-20]。 Neelakantan 等 [21] 和 Das 等 [22] 使用循环神经网络 (recurrent neural networks, RNN) 进行关系路径嵌 入以减小计算开销。由于常规 RNN 无法学习到 长序列的语义依赖,Hochreiter 等 [23] 提出了 LSTM (long short-term memory),引入门控结构计算遗忘 和更新的信息。Xu 等 [24] 将注意力机制引入图像 物体识别;目前该机制已应用到机器翻译和知识 补全。Xiong 等 [25] 结合嵌入模型和路径模型的优 点,使用强化学习框架,在 TransE 的基础上将智 能体编码至连续空间中,通过最优关系采样和路 径扩展进行推理,同时设计了自定义的奖励函数, 兼顾局部模式提取和语义关联识别[26-28]。 本文设计了 PKICLA 方案 (path-based knowledge inference with CNN, LSTM and attention mechanism),结合卷积神经网络 (convolutional neural networks, CNN) 和双向 LSTM 实现基于关系路径 嵌入的局部特征提取和向量序列合并,同时借助 注意力机制实现多路径权重分配,集成关系语义 评分,在 NELL995 和 FB15k-237 数据集上进行链 路预测,比较 PKICLA 与其他主流模型的性能。 1 相关研究 1.1 嵌入模型 vh +vr ≈ vt vh vr vt wr Wr KGC 中,嵌入模型的基本思路是学习节点和 关系的低维矢量表示,保留原有结构信息和知识 约束,如 TransE 将关系映射为平移向量,认为若 三元组成立,则平移后的头部向量应靠近尾部向 量,即 ,其中 、 、 是实体和关系的 嵌入向量表示。三元组局部特征在各向量同一维 度的映射中得以保留。许多模型对 TransE 进行 了优化,TransH[29] 为关系分配超平面 以体现实 体的角色差异,TransR[30] 使用投影矩阵 替换 wr 以提高表达能力。 1.2 神经网络模型 vh vr vt 近年来,在自然语言处理 (natural language processing, NLP) 领域,最初用于计算机视觉的 CNN 大放光彩[31] ,其参数规模和计算开销远少于 全连接神经网络。ConvE 在 ComplEx[32] 的基础上 引入 CNN,将 、 转化并拼接后作为卷积层输 入,过滤器提取特征映射张量后,将其向量化并 与 计算点积,得到三元组评分。ConvE 的二维 卷积被证实能加强实体/关系间的交互,更好地提 取关系属性用于学习嵌入表示[33]。 1.3 附加语义模型 上述模型大多只考虑直接关联,忽略了关系 路径蕴含的语义信息[34-35]。Zhang 等 [36] 认为,在复 杂现实场景中进行推理,集成关系路径的丰富语 义信息很有必要;Xiong 等 [37] 则认为知识库的持 续动态增长和稀疏性决定了 few-shot、one-shot 甚 至是 zero-shot 的推理需求,而语义信息等辅助知 识有助于实现这类推理。Lao 等 [19-20] 验证了关系 路径对知识补全的辅助作用:使用深度优先的随 机游走算法生成路径,使用逻辑回归或决策树等 二分类方法训练并预测链路。关系路径后续也有 许多改进研究[38-39] ,如 Das 等 [40] 提出 MINERVA 方案,在知识图遍历中使用历史路径信息,Lin 等 [41] 在其基础上改进了奖励函数。此外,Lin 等 [42] 和 Luo 等 [43] 将关系路径与 TransE 结合,进一步提升 知识表达能力。然而,多数相关研究将路径视为 原子性特征,导致特征矩阵的规模庞大,计算开 销高[44-45]。 1.4 融合模型 RNN 原本用于处理序列数据,在语音识别、 N LP 和连续图像处理等领域取得成功,因 此 Neelakantan 等 [21] 提出 Path-RNN,将路径分解为关 系序列,用作 RNN 的输入,通过层内的参数共享 降低计算开销,选择得分最高的路径 (Max 运 算) 以补全缺失三元组。然而,单一路径可能无 法提供足够的语义参照,因此 Das 等 [22] 使用 Mean 和 LogSumExp 等指标集成多路径信息,但忽略了 不同路径与候选关系的语义关联程度存在差异。 由于常规 RNN 存在梯度消失问题,难以学习 到长距离的语义依赖关系,因此 LSTM 模型[23] 引 入门控结构计算遗忘和更新的信息,后续产生了 许多变种[46]。 近来用于调整资源分配的注意力机制也在 NLP 领域得到应用[47] ,Bahdanau 等 [48] 和 Vaswani 等 [49] 将之用于机器翻译的解码器设计;Jiang 等 [27] ·730· 智 能 系 统 学 报 第 16 卷
第4期 陈新元,等:结合卷积特征提取和路径语义的知识推理 ·731· 提出了基于注意力机制的知识推理方案,根据路 径;其次将前、后向LSTM的隐藏状态拼接,合并 径的语义匹配程度为其分配不同的权重。Nath- 关系序列特征,实体对的多条路径相当于在多个 ani等B使用注意力机制提取知识图中的近邻信 整句级别上并行映射:最后使用基于注意力机制 息,用于发现近似关系簇,以及同一实体的角色 的方法集成不同路径与候选关系的语义关联信 差异。 息,计算关系与实体对的概率得分,用于判定三 Wang等Iso和Zhang等B6认为,长距离的多 元组是否成立。 跳推理有助于发掘实体关联,从而提高知识推理 模型在现实场景中的性能,但注意力机制在长序 2 PKICLA 列上的分配机制有待优化,有研究尝试集成上述 PKICLA模型框架如图1所示。在给定实体 框架以取长补短,Zhou等26提出Att-BLSTM用 对和候选关系的前提下,利用CNN将通过随机游 于关系分类,词级嵌入后使用双向LSTM)合并 走得到的实体间多条路径分别依据其关系序列编 句级信息并结合注意力机制评分:Chiu等s使用 码为低维表示,将变长路径映射到定长的向量序 LSTM和CNN的混合模型识别命名实体,降低特 列,保留其局部结构;使用双向LSTM将路径的 征工程的计算量。 特征序列合并为单一向量,减少计算开销;由于 由于基于嵌入特征提取的模型和基于关系路 不同路径与候选关系的语义关联程度不同,结合 径语义的模型各有优点,因此本文在前人工作基 注意力机制计算各路径的相关性并分配权重,加 础上将嵌入表示与语义提取结合,提出PKICLA 权计算关系的状态向量,通过该关系与相应实体 模型,首先使用自定义的CNN框架编码完整路 对的概率得分判定三元组是否有效。 实体对_1.随机游走。路径集合刀 (ese) 2.过滤器 {12,} 卷积操作 嵌入表示 e F P=P1,Pz 1.卷积 2.全连接 步长为2 t内核 候选关系 注意力机制 r n条编码路径 score(p r) 双向LSTM P() 图1 PKICLA模型框架 Fig.1 Model framework of PKICLA 2.1路径关系序列的向量嵌入 ing algorithm)算法得到与候选三元组(e,r,e)的 给定KG包括实体集E和关系集R。三元组 头/尾实体e、e,对应且概率较高的路径。PRA通 (h,r,t)中,h∈E表示头实体或源实体,t∈E表示 过Random Walk,在全图范围内从源实体开始寻 尾实体或目标实体,r∈R表示关系。三元组的向 找并一一列举到达目标实体的长度符合要求的n 量表示为(e,r,e),体现实体和关系的有序链接。 条路径,记录每条路径上的关系和中间实体,完 实体对间可能存在多条路径,因此将路径视作原 整路径π可表示为{e,r1,e1,r2,e2,…,e-1,I,e,…, 子性特征会导致特征矩阵随数据规模上升迅速膨 r,e}eⅡ,其关系序列可表示为{r,2,…,r山其中 张。ConvE使用CNN提取三元组的局部特征,大 (e-l,r,e)表示路径中的第i个三元组。记录不同 大降低了参数规模;本文采用自定义的CNN框架 路径到达目标实体的概率,根据预设阈值进行筛 将路径嵌入低维表示。首先使用PRA(path rank-. 选。Ⅱ表示筛选后的路径集合。不同路径的关系
提出了基于注意力机制的知识推理方案,根据路 径的语义匹配程度为其分配不同的权重。Nathani 等 [34] 使用注意力机制提取知识图中的近邻信 息,用于发现近似关系簇,以及同一实体的角色 差异。 Wang 等 [50] 和 Zhang 等 [36] 认为,长距离的多 跳推理有助于发掘实体关联,从而提高知识推理 模型在现实场景中的性能,但注意力机制在长序 列上的分配机制有待优化,有研究尝试集成上述 框架以取长补短,Zhou 等 [26] 提出 Att-BLSTM 用 于关系分类,词级嵌入后使用双向 LSTM[51] 合并 句级信息并结合注意力机制评分;Chiu 等 [52] 使用 LSTM 和 CNN 的混合模型识别命名实体,降低特 征工程的计算量。 由于基于嵌入特征提取的模型和基于关系路 径语义的模型各有优点,因此本文在前人工作基 础上将嵌入表示与语义提取结合,提出 PKICLA 模型,首先使用自定义的 CNN 框架编码完整路 径;其次将前、后向 LSTM 的隐藏状态拼接,合并 关系序列特征,实体对的多条路径相当于在多个 整句级别上并行映射;最后使用基于注意力机制 的方法集成不同路径与候选关系的语义关联信 息,计算关系与实体对的概率得分,用于判定三 元组是否成立。 2 PKICLA PKICLA 模型框架如图 1 所示。在给定实体 对和候选关系的前提下,利用 CNN 将通过随机游 走得到的实体间多条路径分别依据其关系序列编 码为低维表示,将变长路径映射到定长的向量序 列,保留其局部结构;使用双向 LSTM 将路径的 特征序列合并为单一向量,减少计算开销;由于 不同路径与候选关系的语义关联程度不同,结合 注意力机制计算各路径的相关性并分配权重,加 权计算关系的状态向量,通过该关系与相应实体 对的概率得分判定三元组是否有效。 双向 LSTM 注意力机制 卷积操作 实体对 (es , et ) 嵌入表示 候选关系 r 1. 随机游走 2. 过滤器 r es r1 e1 rt et 1. 卷积 2. 全连接 步长为 2 τ 内核 {c1 , c2 , …, ct} ci=[ci1 , ci2 , …, ciτ] k … hi … … … h1 h1 h1 hi score(pi , r) P(r|es , et ) k 2 k 2 n 条编码路径 r P={p1 , p2 , …, pn} 路径集合 {π1 , π2 , …, πn} pi pi ht ht ht ci c1 ct α1 αi αn k k ∏ … … 图 1 PKICLA 模型框架 Fig. 1 Model framework of PKICLA 2.1 路径关系序列的向量嵌入 (h, r, t) h ∈ E t ∈ E r ∈ R (es ,r, et) 给定 KG 包括实体集 E 和关系集 R。三元组 中, 表示头实体或源实体, 表示 尾实体或目标实体, 表示关系。三元组的向 量表示为 ,体现实体和关系的有序链接。 实体对间可能存在多条路径,因此将路径视作原 子性特征会导致特征矩阵随数据规模上升迅速膨 胀。ConvE 使用 CNN 提取三元组的局部特征,大 大降低了参数规模;本文采用自定义的 CNN 框架 将路径嵌入低维表示。首先使用 PRA(path rank- (es ,r, et) es et n π {es ,r1, e1,r2, e2, ··· , ei−1,ri , ei , ··· , rt , et} ∈ Π {r1,r2, ··· ,rt} (ei−1,ri , ei) i Π ing algorithm) 算法得到与候选三元组 的 头/尾实体 、 对应且概率较高的路径。PRA 通 过 Random Walk,在全图范围内从源实体开始寻 找并一一列举到达目标实体的长度符合要求的 条路径,记录每条路径上的关系和中间实体,完 整路径 可表示为 ,其关系序列可表示为 ,其中 表示路径中的第 个三元组。记录不同 路径到达目标实体的概率,根据预设阈值进行筛 选。 表示筛选后的路径集合。不同路径的关系 第 4 期 陈新元,等:结合卷积特征提取和路径语义的知识推理 ·731·
·732· 智能系统学报 第16卷 数不同,取最长的路径,其关系数或关系序列的 集合P={p1,P2,…,pn,P∈R。双向LSTM的输 长度用t表示;将所有路径设为相同长度t,长度 出作为注意力层的输入。 不足的使用零填充。 2.3 基于注意力机制的路径集成 本文使用实体类型对应的向量表示22,进一 主流PRA常使用Max或Mean运算,忽略了 步减小参数规模,同时解决测试集中部分实体在 不同路径提供的推理证据存在差异,因此本文使 训练集中未出现的问题。将头/尾实体对和候选 用Bahdanau等4提出的基于累加性注意力机制 关系通过嵌入矩阵转化为k维向量,即e,e,r∈R, (additive attention)的路径信息集成,该方法对于 作为路径卷积编码的输入。过滤器ω的尺寸 不同区间数值的适应能力优于简单的点积计算语 (size)和步长(stride)对特征提取和计算开销影响 义相关度得分2,。将候选关系的向量表示r与 较大,本文使用统一的w∈R3提取特征,步长为 头/尾实体对的多条路径编码分别匹配,计算每条 2,避免抽取无意义的局部特征。使用多个卷积核 路径的语义相关度得分score(p,r(式(1),进而为 遍历路径,令Ω和τ分别表示卷积核和核数,即 其分配独立权重α(式(2)),加权计算得到候选关 π=2。以路径上所有三元组为单位/窗口,逐个 系的状态向量c(式(3),并以之计算候选关系与 提取其局部模式。拼接所有卷积核提取的特征, 对应头/尾实体对的概率得分P(re,e(式(4),用 路径第i个特征向量可表示为c1=[c1,c2,…,crJ, c∈R,car=f(ω,[e-1,r,e]+b),其中f表示ReLU 于判定三元组是否有效。 非线性激活函数(优于线性函数21-2斗,b为偏置系 score(pi,r)=tanh(piw,)r (1) exp(score(pi,r)) 数。卷积处理路径后,得到其向量序列表示 a:= (2) {c1,c2,…,cl,作为双向LSTM的输人。 exp(score(pi,r)) 2.2双向LSTM提取路径特征 常规RNN存在梯度消失问题,难以学习长 c->op (3) 序列的语义信息;Zhou等21使用双向LSTM 1 P(rle,,e,)=f(W(c+r)) (4) (BLSTM)并通过peephole connections查看当前神 式中:W,∈R,W。∈Rk为权重参数;f表示非线 经节点/细胞的状态,增加CEC(constant error ca- rousel)到各门的双向关联;Lu等s]使用的双向 性激活函数,本文使用sigmoid。通过权重分配, 与候选关系语义关联程度不同的路径得以区分。 GRU(bidirectional gated recurrent unit)则通过类似 耦合门控的设计简化了细胞结构和参数规模,保 本文使用Adam优化器s训练PKICLA以优 留了近似性能:其中重置门,对维度信息进行 化结果,损失函数定义如式(⑤)所示: 1 调整,更新门z,以及(1-z)可视作对应原始忘记门 L⑧)=N 和输入门(后者也可遗忘部分信息)。本文使用双向 LSTM将路径的向量序列表示合并为单一向量。 logP(rle;.e,)+ ∑log1-PGe.e,》 (eret)eT+ 他e 将卷积层输出序列的每个向量视作LSTM中 Θ 的一个时间步,每个时间步将一个T维的向量c (5) 馈送到LSTM细胞。双向LSTM分别由前向和后 目标函数中N为训练样本总数;T+、T分别 向的相反方向读取数据,其输出分别表示为和 表示有效三元组和无效三元组的集合;Θ表示所 ,即前向从左向右,后向从右向左。双向处理路 有需要学习的参数,随机初始化;使用L2正则化 防止过拟合。 径后,得到两组不同的隐藏状态,即对于向量序 列{c1,c2,,cl,前向LSTM网络得到状态序列 3实验与分析 ,…,元n…,,后向网络则是抗…,…, ,}。为降低参数规模,本文将前向网络序列的最 31任务与评价指标 后隐藏状态和后向网络序列的最前隐藏状态拼 链路预测从已知信息中推理新的事实,用于 接,生成完整路径π的向量表示p=,p∈R, 知识补全,方法是计算给定头尾实体与特定关系 连接的概率得分,判定三元组是否有效。度量指 从而保留关系序列的秩序信息。为便于拼接,以 标通常为原始正确实体在所有候选项中的排序, 及与候选关系匹配,将细胞的隐藏状态数设为 如:查询(Joe Biden,isPresidentOf,?),期望实验结 2o本文在Keras的Time Distributed层使用相同 果中,“theU.S.”或“America”应得分较高,或排 编码器并行处理所有”条路径,得到其向量表示 序较前
t t 数不同,取最长的路径,其关系数或关系序列的 长度用 表示;将所有路径设为相同长度 ,长度 不足的使用零填充。 k es , et ,r ∈ R k ω ω ∈ R k×3 Ω τ τ = |Ω| i ci = [ci1, ci2, ··· , ciτ], ci ∈ R τ , ciτ = f (ωτ [ei−1,ri , ei]+b) f b {c1, c2, ··· , ct} 本文使用实体类型对应的向量表示[22] ,进一 步减小参数规模,同时解决测试集中部分实体在 训练集中未出现的问题。将头/尾实体对和候选 关系通过嵌入矩阵转化为 维向量,即 , 作为路径卷积编码的输入。过滤器 的尺寸 (size) 和步长 (stride) 对特征提取和计算开销影响 较大,本文使用统一的 提取特征,步长为 2,避免抽取无意义的局部特征。使用多个卷积核 遍历路径,令 和 分别表示卷积核和核数,即 。以路径上所有三元组为单位/窗口,逐个 提取其局部模式。拼接所有卷积核提取的特征, 路径第 个特征向量可表示为 ,其中 表示 ReLU 非线性激活函数 (优于线性函数[21-22] ), 为偏置系 数。卷积处理路径后,得到其向量序列表示 ,作为双向 LSTM 的输入。 2.2 双向 LSTM 提取路径特征 rt zt (1−zt) 常规 RNN 存在梯度消失问题,难以学习长 序列的语义信息;Zhou 等 [ 2 6 ] 使用双向 LSTM (BLSTM) 并通过 peephole connections 查看当前神 经节点/细胞的状态,增加 CEC(constant error carousel) 到各门的双向关联;Lu 等 [53] 使用的双向 GRU(bidirectional gated recurrent unit) 则通过类似 耦合门控的设计简化了细胞结构和参数规模,保 留了近似性能[54] ;其中重置门 对维度信息进行 调整,更新门 以及 可视作对应原始忘记门 和输入门 (后者也可遗忘部分信息)。本文使用双向 LSTM 将路径的向量序列表示合并为单一向量。 τ ci −→hj ←−hj {c1, c2, ··· , ct} −→h1, −→h2,··· , −→hj ,··· , −→ht ←−h1, ←−h2,··· , ←−hj ,··· , ←−ht π p = [ −→ht , ←−h1 ] , p ∈ R k k 2 n 将卷积层输出序列的每个向量视作 LSTM 中 的一个时间步,每个时间步将一个 维的向量 馈送到 LSTM 细胞。双向 LSTM 分别由前向和后 向的相反方向读取数据,其输出分别表示为 和 ,即前向从左向右,后向从右向左。双向处理路 径后,得到两组不同的隐藏状态,即对于向量序 列 ,前向 LSTM 网络得到状态序列 { },后向网络则是{ }。为降低参数规模,本文将前向网络序列的最 后隐藏状态和后向网络序列的最前隐藏状态拼 接,生成完整路径 的向量表示 , 从而保留关系序列的秩序信息。为便于拼接,以 及与候选关系匹配,将细胞的隐藏状态数设为 。本文在 Keras 的 Time Distributed 层使用相同 编码器并行处理所有 条路径,得到其向量表示 P = {p1, p2, ··· , pn}, P ∈ R 集合 k×n。双向 LSTM 的输 出作为注意力层的输入。 2.3 基于注意力机制的路径集成 r score (pi ,r) αi c P(r|es , et) 主流 PRA 常使用 Max 或 Mean 运算,忽略了 不同路径提供的推理证据存在差异,因此本文使 用 Bahdanau 等 [48] 提出的基于累加性注意力机制 (additive attention) 的路径信息集成,该方法对于 不同区间数值的适应能力优于简单的点积计算语 义相关度得分[22, 49]。将候选关系的向量表示 与 头/尾实体对的多条路径编码分别匹配,计算每条 路径的语义相关度得分 (式 (1)),进而为 其分配独立权重 (式 (2)),加权计算得到候选关 系的状态向量 (式 (3)),并以之计算候选关系与 对应头/尾实体对的概率得分 (式 (4)),用 于判定三元组是否有效。 score (pi ,r) = tanh(piWs)r (1) αi = exp(score (pi ,r)) ∑n i=1 exp(score (pi ,r)) (2) c = ∑n i=1 αi pi (3) P(r|es , et) = f ( Wp ( c+ r)) (4) Ws ∈ R k×k Wp ∈ R k 式中: , 为权重参数; f 表示非线 性激活函数,本文使用 sigmoid。通过权重分配, 与候选关系语义关联程度不同的路径得以区分。 本文使用 Adam 优化器[55] 训练 PKICLA 以优 化结果,损失函数定义如式 (5) 所示: L(Θ) = − 1 N ∑ (es,r,et)∈T + logP(r|es , et)+ ∑ (eˆs,rˆ,eˆt)∈T − log(1− P(rˆ|eˆs , eˆt)) + λ||Θ||2 2 (5) N T + T − Θ 目标函数中 为训练样本总数; 、 分别 表示有效三元组和无效三元组的集合; 表示所 有需要学习的参数,随机初始化;使用 L2 正则化 防止过拟合。 3 实验与分析 3.1 任务与评价指标 链路预测从已知信息中推理新的事实,用于 知识补全,方法是计算给定头/尾实体与特定关系 连接的概率得分,判定三元组是否有效。度量指 标通常为原始正确实体在所有候选项中的排序, 如:查询 (Joe Biden, isPresidentOf,?),期望实验结 果中,“the U.S.”或“America”应得分较高,或排 序较前。 ·732· 智 能 系 统 学 报 第 16 卷
第4期 陈新元,等:结合卷积特征提取和路径语义的知识推理 ·733· 实验使用平均精度均值(mean average preci- 统计信息如表1所示。从NELL995中删除无推 sion,MAP)、正确三元组的平均倒数排名(mean re- 理价值的generalizations和haswikipediaurl关系, ciprocal rank,MRR)、Hits@l(排名在第I位的有效 保留频率最高的Top200关系的三元组。Toutan- 实体的比例)、Hits@3(取前3位)、Hits@5(取前 ova等3列在FB15k基础上删除可逆三元组,生成 5位)和F等指标进行评估。MAP取头/尾实体 FB15k-237,防止算法高分漏洞。FC17的主要数 预测排序的均值;Hits@1和Hits@3将头/尾预测 据来自Freebase,同时集成了ClueWeb中对应实 视为同一任务,合并计算hit rate. 体链接;选择其中频率最高的46个关系用于实 3.2数据集 验。NELL-One是NELL数据集中三元组实例数 本文在FB15k-237和NELL995这两个常规数 ∈[50,50o]的关系集合。表1NELL-One中Train 据集,FC17大型数据集(模拟现实复杂场景), Set、Dev.Set和Test Set使用关系数而非实例三元 和NELL-One稀疏数据集Bm上进行链路预测,其 组数 表1数据集统计信息 Table 1 Dataset Statistics 数据集 #entities #relations #Train Set #Dev.Set #Test Set #Tasks NELL995 75492 200 154213 5000 5000 12 FB15k-237 14541 237 272115 17535 20466 20 FC17 18M 25994 305k 12k 12k 名 NELL-One 68545 358 51 11 67 对于上述数据集中的每一个关系,确保Train 特征,该模型侧重复杂数据集上的关系预测: Set和Dev.Set/Test Set中无重复三元组(含反 7)M-walk2(2018),同样使用RL和RNN框 向)。将无对应关系路径的实体对删除。将路径 架,结合随机抽样搜索路径空间: 长度限制设定为4,相应的元素个数最多为9(含 8)GMHB6(2020),多跳知识推理框架,结合局 中间实体,含填充)。将Random Walk的概率阈值 部特征和图结构整体特征,针对复杂现实场景设 设置为0.1。 计;该模型在FC17数据集上进行预测; 参考Bordes等的实验,使用Bernoulli方法网 9)Gmatchingl37(2018),针对few-shot的近似度 随机替换实体创建无效三元组,具体如下:给定 量推理框架。 有效三元组(h,八,),h和分别是每个尾部对应 GMH使用ConvE作为预训练模型,距离上限 头实体和每个头部对应尾实体的平均数量,使用 设置为6时性能最优;其他基准模型均使用原方 和分别表示生成新三元组化,5)和 案的最优性能建议参数。 nh+7:7h+刀: 实验在Dev.Set上验证,若最后l0轮(epoch) (h,rr)的概率。 对应准确率提升<102则停止训练并确定最优参 3.3模型与参数设置 数。超参数池设置如下:minibatch size-=64,学习 实验中用于比较的基准模型包括: 率y∈[105,10-,5×10](Adam优化器其他参数默 1)DistMult刀(2015),使用对角矩阵表示目标 认),k∈[50,100,200],LSTM中隐藏节点数∈[64, 关系; 128],t∈[50,1001,L2正则化系数∈[0,0.001,0.01 2)DeepPath2(2017),基于TransE6的强化学 0.1.0.51. 习(reinforcement learning,RL)框架; 3.4结果与分析 3)Single--Model2a(2017),使用RNN处理关系 常规数据集上实验结果如表2所示,最优表 序列,本文采用原方案推荐的LogSumExp; 现设置为粗体,次优设置为斜体+下划线。PKICLA 4)At-Model+Type2(2017),可视作基于注意 相比Single-Model和Att-Model+-Type这两个相似 力机制的Single-Model,.本文重新实现: 模型有一定的提升,在较大数据集,特别是关系 5)ConvE!181(2018),使用2维卷积处理实体/ 类型分布相比NELL995复杂得多的FB15k-237 关系嵌入; 数据集上,优势明显;在NELL995上,由于部分实 6)G-GAT(2019),使用注意力机制提取近邻 体对的路径较少,基于关系路径语义的模型的
实验使用平均精度均值 (mean average precision, MAP)、正确三元组的平均倒数排名 (mean reciprocal rank, MRR)、Hits@1(排名在第 1 位的有效 实体的比例)、Hits@3(取前 3 位)、Hits@5(取前 5 位) 和 F1 等指标进行评估。MAP 取头/尾实体 预测排序的均值;Hits@1 和 Hits@3 将头/尾预测 视为同一任务,合并计算 hit rate。 3.2 数据集 本文在 FB15k-237 和 NELL995 这两个常规数 据集,FC17 大型数据集 (模拟现实复杂场景) [27, 36] 和 NELL-One 稀疏数据集[37] 上进行链路预测,其 ∈ [50,500] 统计信息如表 1 所示。从 NELL995 中删除无推 理价值的 generalizations 和 haswikipediaurl 关系, 保留频率最高的 Top 200 关系的三元组。Toutanova 等 [39] 在 FB15k 基础上删除可逆三元组,生成 FB15k-237,防止算法高分漏洞。FC17 的主要数 据来自 Freebase,同时集成了 ClueWeb 中对应实 体链接;选择其中频率最高的 46 个关系用于实 验。NELL-One 是 NELL 数据集中三元组实例数 的关系集合。表 1NELL-One 中 Train Set、Dev. Set 和 Test Set 使用关系数而非实例三元 组数。 表 1 数据集统计信息 Table 1 Dataset Statistics 数据集 #entities #relations #Train Set #Dev. Set #Test Set #Tasks NELL995 75492 200 154213 5 000 5 000 12 FB15k-237 14541 237 272115 17 535 20 466 20 FC17 18M 25 994 305k 12k 12k 46 NELL-One 68545 358 51 5 11 67 对于上述数据集中的每一个关系,确保 Train Set 和 Dev. Set/Test Set 中无重复三元组 (含反 向)。将无对应关系路径的实体对删除。将路径 长度限制设定为 4,相应的元素个数最多为 9(含 中间实体,含填充)。将 Random Walk 的概率阈值 设置为 0.1。 (h, r, t) ηh ηt ηt ηh +ηt ηh ηh +ηt (h ′ , r, t) (h, r,t ′ ) 参考 Bordes 等 [16] 的实验,使用 Bernoulli 方法[29] 随机替换实体创建无效三元组,具体如下:给定 有效三元组 , 和 分别是每个尾部对应 头实体和每个头部对应尾实体的平均数量,使用 和 分别表示生成新三元组 和 的概率。 3.3 模型与参数设置 实验中用于比较的基准模型包括: 1)DistMult[17] (2015),使用对角矩阵表示目标 关系; 2)DeepPath[25] (2017),基于 TransE[16] 的强化学 习 (reinforcement learning, RL) 框架; 3)Single-Model[22] (2017),使用 RNN 处理关系 序列,本文采用原方案推荐的 LogSumExp; 4)Att-Model+Type[27] (2017),可视作基于注意 力机制的 Single-Model,本文重新实现; 5)ConvE[18] (2018),使用 2 维卷积处理实体/ 关系嵌入; 6)G-GAT[34] (2019),使用注意力机制提取近邻 特征,该模型侧重复杂数据集上的关系预测; 7)M-walk[28] (2018),同样使用 RL 和 RNN 框 架,结合随机抽样搜索路径空间; 8)GMH[36] (2020),多跳知识推理框架,结合局 部特征和图结构整体特征,针对复杂现实场景设 计;该模型在 FC17 数据集上进行预测; 9)Gmatching[37] (2018),针对 few-shot 的近似度 量推理框架。 GMH 使用 ConvE 作为预训练模型,距离上限 设置为 6 时性能最优;其他基准模型均使用原方 案的最优性能建议参数。 γ ∈ [10−5 ,10−4 ,5×10−4 ] k τ 实验在 Dev. Set 上验证,若最后 10 轮 (epoch) 对应准确率提升<10−2 则停止训练并确定最优参 数。超参数池设置如下:minibatch size=64,学习 率 (Adam 优化器其他参数默 认), ∈[50, 100, 200],LSTM 中隐藏节点数∈[64, 128], ∈[50, 100],L2 正则化系数∈[0, 0.001, 0.01, 0.1, 0.5]。 3.4 结果与分析 常规数据集上实验结果如表 2 所示,最优表 现设置为粗体,次优设置为斜体+下划线。PKICLA 相比 Single-Model 和 Att-Model+Type 这两个相似 模型有一定的提升,在较大数据集,特别是关系 类型分布相比 NELL995 复杂得多的 FB15k-237 数据集上,优势明显;在 NELL995 上,由于部分实 体对的路径较少,基于关系路径语义的模型的 第 4 期 陈新元,等:结合卷积特征提取和路径语义的知识推理 ·733·