第16卷第3期 智能系统学报 Vol.16 No.3 2021年5月 CAAI Transactions on Intelligent Systems May 2021 D0L:10.11992tis.202008036 用于关系抽取的注意力图长短时记忆神经网络 张勇,高大林,巩敦卫,陶一凡 (中国矿业大学信息与控制工程学院,江苏徐州221116) 摘要:关系抽取是信息获取中一项关键技术。句子结构树能够捕获单词之间的长距离依赖关系,已被广泛用 于关系抽取任务中。但是,现有方法存在过度依赖句子结构树本身信息而忽略外部信息的不足。本文提出一 种新型的图神经网络模型,即注意力图长短时记忆神经网络(attention graph long short term memory neural net- wok,AGLSTM)。该模型采用一种软修剪策略自动学习对关系抽取有用的句子结构信息;通过引入注意力机 制,结合句法图信息学习句子的结构特征;并设计一种新型的图长短时记忆神经网络,使得模型能够更好地融 合句法图信息和句子的时序信息。与10种典型的关系抽取方法进行对比,实验验证了该模型的优异性能。 关键词:关系抽取:句子结构树;句法图;图神经网络;注意力图长短时记忆神经网络:软修剪策略;注意力机 制;长短时记忆神经网络 中图分类号:TP311文献标志码:A文章编号:1673-4785(2021)03-0518-10 中文引用格式:张勇,高大林,巩敦卫,等.用于关系抽取的注意力图长短时记忆神经网络.智能系统学报,2021,16(3): 518-527. 英文引用格式:ZHANG Yong,GAO Dalin,.GONG Dunwei,.etal.Attention graph long short-term memory neural network for re- lation extractionJ.CAAI transactions on intelligent systems,2021,16(3):518-527. Attention graph long short-term memory neural network for relation extraction ZHANG Yong,GAO Dalin,GONG Dunwei,TAO Yifan (School of Information and Control Engineering,China University of Mining and Technology,Xuzhou 221116,China) Abstract:Relation extraction is a key technology in information acquisition.The sentence structure tree that can cap- ture long-distance dependencies between words has been widely used in relational extraction tasks.However,existing methods still have the disadvantage of relying too much on the information of sentence structure tree and ignoring ex- ternal information.This paper proposes a new graph neural network structure,namely the attention graph long short term memory neural network(AGLSTM).The model adopts a soft pruning strategy to automatically learn sentence structure information useful for relation extraction tasks;then the attention mechanism is introduced and combined with the syntactic graph information to learn the structural features of the sentence;And designed a new type of graph long short term memory neural network to better fuse syntactic graph information and sentence timing information.Com- pared with 10 typical relational extraction methods,experiments verify the excellent performance of the proposed method. Keywords:relation extraction;sentence structure tree;syntactic diagram;graph neural network;AGLSTM;soft prun- ing strategy;attention mechanism:LSTM 关系抽取是信息抽取的一个重要组成部分, 序列模型和依赖关系模型。序列模型主要针对单 已被成功用于医学知识发现山、知识图谱构建 词序列进行建模),而依赖关系模型则是以句法 和问答推理间等诸多自然语言处理问题。关系抽 依存关系树为基础,构建依赖关系模型”。已有 取是指从非结构化的文本中抽取出实体对之间的 研究表明,相对序列模型而言,依赖关系模型可 三元组信息。 以利用句法依存树提取出句子中隐藏的非局部语 现有关系抽取模型或方法可大体分为2类: 法关系8叨,进而建立句内长距离的依赖关系。然 收稿日期:2020-08-30. 而,在生成句法依存树时,它常依赖句法结构规 基金项目:国家重点研发计划项目(2020YFB1708200):科技部 科技创新2030重大项目(2020AAA0107300). 则对句子结构进行修剪。这种基于规则的修剪策 通信作者:高大林.E-mail:1367963012@qq.com 略可能会删除句子结构所包含的重要隐式信息
DOI: 10.11992/tis.202008036 用于关系抽取的注意力图长短时记忆神经网络 张勇,高大林,巩敦卫,陶一凡 (中国矿业大学 信息与控制工程学院,江苏 徐州 221116) 摘 要:关系抽取是信息获取中一项关键技术。句子结构树能够捕获单词之间的长距离依赖关系,已被广泛用 于关系抽取任务中。但是,现有方法存在过度依赖句子结构树本身信息而忽略外部信息的不足。本文提出一 种新型的图神经网络模型,即注意力图长短时记忆神经网络 (attention graph long short term memory neural network, AGLSTM)。该模型采用一种软修剪策略自动学习对关系抽取有用的句子结构信息;通过引入注意力机 制,结合句法图信息学习句子的结构特征;并设计一种新型的图长短时记忆神经网络,使得模型能够更好地融 合句法图信息和句子的时序信息。与 10 种典型的关系抽取方法进行对比,实验验证了该模型的优异性能。 关键词:关系抽取;句子结构树;句法图;图神经网络;注意力图长短时记忆神经网络;软修剪策略;注意力机 制;长短时记忆神经网络 中图分类号:TP311 文献标志码:A 文章编号:1673−4785(2021)03−0518−10 中文引用格式:张勇, 高大林, 巩敦卫, 等. 用于关系抽取的注意力图长短时记忆神经网络 [J]. 智能系统学报, 2021, 16(3): 518–527. 英文引用格式:ZHANG Yong, GAO Dalin, GONG Dunwei, et al. Attention graph long short-term memory neural network for relation extraction[J]. CAAI transactions on intelligent systems, 2021, 16(3): 518–527. Attention graph long short-term memory neural network for relation extraction ZHANG Yong,GAO Dalin,GONG Dunwei,TAO Yifan (School of Information and Control Engineering, China University of Mining and Technology, Xuzhou 221116, China) Abstract: Relation extraction is a key technology in information acquisition. The sentence structure tree that can capture long-distance dependencies between words has been widely used in relational extraction tasks. However, existing methods still have the disadvantage of relying too much on the information of sentence structure tree and ignoring external information. This paper proposes a new graph neural network structure, namely the attention graph long short term memory neural network (AGLSTM). The model adopts a soft pruning strategy to automatically learn sentence structure information useful for relation extraction tasks; then the attention mechanism is introduced and combined with the syntactic graph information to learn the structural features of the sentence; And designed a new type of graph long short term memory neural network to better fuse syntactic graph information and sentence timing information. Compared with 10 typical relational extraction methods, experiments verify the excellent performance of the proposed method. Keywords: relation extraction; sentence structure tree; syntactic diagram; graph neural network; AGLSTM; soft pruning strategy; attention mechanism; LSTM 关系抽取是信息抽取的一个重要组成部分, 已被成功用于医学知识发现[1] 、知识图谱构建[2] 和问答推理[3] 等诸多自然语言处理问题。关系抽 取是指从非结构化的文本中抽取出实体对之间的 三元组信息。 现有关系抽取模型或方法可大体分为 2 类: 序列模型和依赖关系模型。序列模型主要针对单 词序列进行建模[4-5] ,而依赖关系模型则是以句法 依存关系树为基础,构建依赖关系模型[6-7]。已有 研究表明,相对序列模型而言,依赖关系模型可 以利用句法依存树提取出句子中隐藏的非局部语 法关系[8-9] ,进而建立句内长距离的依赖关系。然 而,在生成句法依存树时,它常依赖句法结构规 则对句子结构进行修剪。这种基于规则的修剪策 略可能会删除句子结构所包含的重要隐式信息。 收稿日期:2020−08−30. 基金项目:国家重点研发计划项目 (2020YFB1708200);科技部 科技创新 2030 重大项目 (2020AAA0107300). 通信作者:高大林. E-mail:1367963012@qq.com. 第 16 卷第 3 期 智 能 系 统 学 报 Vol.16 No.3 2021 年 5 月 CAAI Transactions on Intelligent Systems May 2021
第3期 张勇,等:用于关系抽取的注意力图长短时记忆神经网络 ·519· 为此,Guo等o提出了一种基于软修剪的关系提 CNN)提取词汇级和句子级特征,进而完成关系 取模型,用以实现模型自主学习句法结构,而无 抽取;Zhang等l6利用长短时记忆神经网络学习 需对句法结构进行硬性修剪。虽然所提模型可以 实体对之间的长期依赖性;Zhang等u例在词嵌入 很好地学习句法结构,但是,由于图卷积模型本 的基础上考虑单词的位置和词性、句子结构依赖 身的无向性,其对上下文中时序特征的学习能力 等信息,设计了一种新型的长短时记忆神经网络 较弱。 进行关系抽取。马语丹等2通过引入注意力机 目前,已有学者以句法依存树为基础,提出了 制提取实体的网络环境信息,生成全局的上下文 多种图神经网络模型,但是所提模型大多是基于 特征。鉴于LSTM对文本信息建模的优越性,以 图卷积神经网络。图卷积神经网络可以很好地 及句子结构信息对文本关系抽取任务的重要性, 学习图结构数据的信息,却难以有效处理时序数 学者们还提出了结合句子结构信息建模的SDP 据。这就意味着,面向具备时序特性的文本数 LSTM和Tree-LSTM等改进模型。 据,只依赖图卷积神经网络并不能很好地抽取文 远程监督关系提取方法借助知识库,利用知 本中时序信息。相对图卷积神经网络,长短时记 识库中包含的知识来对非结构化文本进行标注。 忆神经网络(long short term memory neural network. 这种方法可以自动构建大量训练数据,不仅解决 LSTM)可以有效提取上下文的时序信息。目前, 了现有方法数据量不足的缺点,而且增强了模型 部分学者开始尝试将其用于跨句关系的抽取问 的跨领域适应能力。Mintz等2u最早提出了远程 题,并提出了多种图长短时记忆神经网络21)。 监督的基本假设,定义了远程监督任务。然而, 但是,这些方法都是基于修剪后句子结构树的信 远程监督在解决数据量不足的同时,容易带来较 息来构建图神经网络,依然存在误删有用信息的 大的噪声。为此,越来越多的学者开始关注对远 不足。另外,传统方法对句子结构信息的使用完 程监督方法的改进研究。Zeng等22融合分段卷 全依赖于句子结构树。如果句子结构树中蕴含错 积神经网络和多实例学习(multiple instance learn- 误信息,很容易累加错误信息。 ing,ML),提出了一种混合关系提取模型。该模 鉴于此,本文提出一种注意力图长短时记忆 型通过PCNN提取句子特征,利用ML消除错误 神经网络(attention graph long short term memory 样本噪声,进而实现远程监督关系抽取。 neural network,.AGLSTM)。采用注意力机制与句 子结构树相结合的方式建立句子的全局结构信 2所提关系抽取模型 息,生成全局注意力权重矩阵,并将其用于构造 2.1模型框架 AGLSTM模型。所提方法不仅可以充分利用 为同时学习句法图中句子的结构特征和句 LSTM学习句子的时序结构特征,而且可以根据 子之间的时序结构特征,提出一种新的图神经 句法图信息自行学习句子的结构特征。相对于完 网络结构,即注意力图长短时记忆神经网络 全依赖句子结构树的传统方法,本文方法是在原 (AGLSTM)。图I给出了融合AGLSTM模型的关 始句子结构树的基础上,利用注意力机制使得模 系抽取框架。 型自行学习句子结构中的信息,不仅可以得到更 2.2 Embedding层 加有效的关系抽取模型,而且鲁棒性更好。 关系抽取方法需要考虑语料中的实体语义特 1相关工作 征和实体位置特征。在自然语言处理领域中,词 向量表示常用于表示词的语义信息。本文通过词 关系抽取是自然语言处理中的一项重要分支 嵌入方法对整个语料库进行训练,得到语料库的 任务,在从非结构化文本中抽取结构性信息时起 词向量矩阵,其中每个词表示为一个dd维的向 着重要作用。现有主流关系抽取技术可分为 量wd。另外,为了更好地表示实体的语义特 2种:远程监督关系抽取4均和有监督关系抽取。 征,利用stanfordparser工具对语料库进行命名实 有监督关系抽取法把关系抽取看作一种多分 体识别NER)分析,将生成的NER标签映射成一 类任务进行处理。早期的研究成果主要是使用核 个daer维的向量waer。将wuod和waer连接即为词 函数等机器学习方法设计分类器叨,并进行关系 的实体表示向量。 提取任务。随着深度学习的兴起,深度神经网络 本文采用Zeng等1提出的实体位置嵌入方 已在关系抽取中得到了广泛应用。Zeng等u1采 法引入实体位置信息。将句中每一个单词与实体 用深度卷积神经网络(convolutional neural network, 对(e1,e2)的相对位置(p1,P2)映射成d维的距离
为此,Guo 等 [10] 提出了一种基于软修剪的关系提 取模型,用以实现模型自主学习句法结构,而无 需对句法结构进行硬性修剪。虽然所提模型可以 很好地学习句法结构,但是,由于图卷积模型本 身的无向性,其对上下文中时序特征的学习能力 较弱。 目前,已有学者以句法依存树为基础,提出了 多种图神经网络模型,但是所提模型大多是基于 图卷积神经网络[11]。图卷积神经网络可以很好地 学习图结构数据的信息,却难以有效处理时序数 据。这就意味着,面向具备时序特性的文本数 据,只依赖图卷积神经网络并不能很好地抽取文 本中时序信息。相对图卷积神经网络,长短时记 忆神经网络 (long short term memory neural network, LSTM) 可以有效提取上下文的时序信息。目前, 部分学者开始尝试将其用于跨句关系的抽取问 题,并提出了多种图长短时记忆神经网络[12-13]。 但是,这些方法都是基于修剪后句子结构树的信 息来构建图神经网络,依然存在误删有用信息的 不足。另外,传统方法对句子结构信息的使用完 全依赖于句子结构树。如果句子结构树中蕴含错 误信息,很容易累加错误信息。 鉴于此,本文提出一种注意力图长短时记忆 神经网络 (attention graph long short term memory neural network, AGLSTM)。采用注意力机制与句 子结构树相结合的方式建立句子的全局结构信 息,生成全局注意力权重矩阵,并将其用于构造 AGLSTM 模型。所提方法不仅可以充分利用 LSTM 学习句子的时序结构特征,而且可以根据 句法图信息自行学习句子的结构特征。相对于完 全依赖句子结构树的传统方法,本文方法是在原 始句子结构树的基础上,利用注意力机制使得模 型自行学习句子结构中的信息,不仅可以得到更 加有效的关系抽取模型,而且鲁棒性更好。 1 相关工作 关系抽取是自然语言处理中的一项重要分支 任务,在从非结构化文本中抽取结构性信息时起 着重要作用。现有主流关系抽取技术可分为 2 种:远程监督关系抽取[14-15] 和有监督关系抽取[5, 16]。 有监督关系抽取法把关系抽取看作一种多分 类任务进行处理。早期的研究成果主要是使用核 函数等机器学习方法设计分类器[17] ,并进行关系 提取任务。随着深度学习的兴起,深度神经网络 已在关系抽取中得到了广泛应用。Zeng 等 [18] 采 用深度卷积神经网络 (convolutional neural network, CNN) 提取词汇级和句子级特征,进而完成关系 抽取;Zhang 等 [16] 利用长短时记忆神经网络学习 实体对之间的长期依赖性;Zhang 等 [19] 在词嵌入 的基础上考虑单词的位置和词性、句子结构依赖 等信息,设计了一种新型的长短时记忆神经网络 进行关系抽取。马语丹等[20] 通过引入注意力机 制提取实体的网络环境信息,生成全局的上下文 特征。鉴于 LSTM 对文本信息建模的优越性,以 及句子结构信息对文本关系抽取任务的重要性, 学者们还提出了结合句子结构信息建模的 SDPLSTM[6] 和 Tree-LSTM[7] 等改进模型。 远程监督关系提取方法借助知识库,利用知 识库中包含的知识来对非结构化文本进行标注。 这种方法可以自动构建大量训练数据,不仅解决 了现有方法数据量不足的缺点,而且增强了模型 的跨领域适应能力。Mintz 等 [21] 最早提出了远程 监督的基本假设,定义了远程监督任务。然而, 远程监督在解决数据量不足的同时,容易带来较 大的噪声。为此,越来越多的学者开始关注对远 程监督方法的改进研究。Zeng 等 [22] 融合分段卷 积神经网络和多实例学习 (multiple instance learning,MIL),提出了一种混合关系提取模型。该模 型通过 PCNN 提取句子特征,利用 MIL 消除错误 样本噪声,进而实现远程监督关系抽取。 2 所提关系抽取模型 2.1 模型框架 为同时学习句法图中句子的结构特征和句 子之间的时序结构特征,提出一种新的图神经 网络结构,即注意力图长短时记忆神经网 络 (AGLSTM)。图 1 给出了融合 AGLSTM 模型的关 系抽取框架。 2.2 Embedding 层 dword wword dner wner wword wner 关系抽取方法需要考虑语料中的实体语义特 征和实体位置特征。在自然语言处理领域中,词 向量表示常用于表示词的语义信息。本文通过词 嵌入方法对整个语料库进行训练,得到语料库的 词向量矩阵,其中每个词表示为一个 维的向 量 。另外,为了更好地表示实体的语义特 征,利用 stanfordparser 工具对语料库进行命名实 体识别 (NER) 分析,将生成的 NER 标签映射成一 个 维的向量 。将 和 连接即为词 的实体表示向量。 (e1, e2) (p1, p2) dpos 本文采用 Zeng 等 [18] 提出的实体位置嵌入方 法引入实体位置信息。将句中每一个单词与实体 对 的相对位置 映射成 维的距离 第 3 期 张勇,等:用于关系抽取的注意力图长短时记忆神经网络 ·519·
·520· 智能系统学报 第16卷 向量(w,w),其中w表示单词对实体e1的距 将实体语义特征嵌人与实体位置特征嵌入融 离信息,w表示单词对实体e的距离信息。最 合,作为模型嵌入层的输出,即wu=[wwod:Wner Wpos], 终实体的位置特征表示为wos=[wo,w]。 向量长度为dn=dod+daer+2 dps Softmax Layer 0.20.30.80.3 0. MaxPooling 0.20.50.10.1 0.40.40.10.3 0.80.20.20.1 注意力层 AGLSTM层 04020603 0.30.40.10.4 020.40.10.1 0.270. 0.70.3030.2 0.6+●0.3 Bi-LSTM层 哥 岛岛 句子结构关系树 全连接关系图 初始权重矩阵A said 2 He said indiary 模型输入: said 2 句子结构 said1 1 0 1 信息输入 He 1 (diary 5 diary 5) 0011 P,表示位置 嵌入向量 n表示单词 实体嵌人向量 囡 句子嵌入输人 句法结构信息输入 He said in the diary that he had assets of $250000 and that he had recently been promoted. 图1 AGLSTM模型的关系抽取框架 Fig.1 Relation extraction framework based on the AGLSTM model 2.3Bi-LSTM层 a11 a12 嵌入层输出的特征矩阵w包含每一个单词 A= .: 本身的信息,句子中每个词所包含的信息均独 anl an2 立。因为句子结构信息包含单词与单词间的相互 如图1右侧句子结构信息输入部分中初始权 关系,所以,为更好地将数据本身与句子结构信 重矩阵所示。将得到的邻接矩阵A与经过Bi- 息相结合,需要先通过一层双向LSTM层来获取 LSTM得到的文本特征相结合,输入到所提模型 词与词之间的语义连接,方法如下: 的AGLSTM层。 h,=LSTM(wh1) 2.5注意力图长短时记忆神经网络(AGLSTM) 克,=STM(w,hr-i) 现有方法大都依据句法结构信息将句子处理 成邻接子树,如图2所示。因为在子树中只有相 最终,将Bi-LSTM的正向和反向隐藏层输出 连叶子结点的单词可以构成联系,这些方法有可 相连接,可以得到输出特征h,=h,⊕h,。 能丢失远程单词之间的关联信息。鉴于此,本文 2.4句法结构矩阵的生成 采用软修剪策略,将句子的邻接子树转换为全连 对文本数据进行语义信息抽取时,不仅要考 接的边加权图;并通过注意力的形式,使模型可 虑句子所包含单词的特征信息,而且需要挖掘句 以根据初始邻接矩阵信息自行训练注意力权重, 子本身所蕴含的结构信息。已有大量研究成果将 进而更全面地学习句子的结构信息。 句法结构用于关系抽取,取得了很好的效果。 AGLSTM是由图长短时记忆神经网络(graph 为建立句法结构矩阵,首先利用句法依存分 析提取出每个句子序列S={S,S2,…,Sn}的句法结 long short term memory neural network,GLSTM) 构。例如,对句子He said in the diary that he had 注意力机制结合而成,如图1左侧所示。GLSTM assets of $250000 and that he had recently been 中每一个单词节点,的表达包括:单词节点的输 promoted.”进行句法分析,图2给出了它的句法 入特征向量表示x,句法图内所有与该单词相连 树。接着,将提取出的句法树信息转换成全连接 的边的表达和h。每一个边的表达是通过相 图的矩阵形式。图1右侧句子结构信息输入部分 连神经元节点的特征与边权重乘积得到,网络结 展示了构建初始邻接权重矩阵A的过程,其中, 构如图3所示。GLSTM中边权重只有1或0两 全连接关系图展示了扩展后的依存树。进一步, 种状态,当为0时代表该边不存在,而AGLSTM 将依存关系图写成矩阵形式,得到初始的句法结 是采用全连接的结构,边权重为0~1中的归一化 构邻接矩阵 值,因此学习到的信息更加丰富
(w 1 pos,w 2 pos) w 1 pos e1 w 2 pos e2 wpos = [w 1 pos,w 2 pos] 向量 ,其中 表示单词对实体 的距 离信息, 表示单词对实体 的距离信息。最 终实体的位置特征表示为 。 wu = [wword;wner;wpos] dw = dword +dner +2dpos 将实体语义特征嵌入与实体位置特征嵌入融 合,作为模型嵌入层的输出,即 , 向量长度为 。 h1 m1 m2 . . . . . . . . . MaxPooling Bi-LSTM 层 AGLSTM 层 模型输入: w 表示单词 嵌入向量 p 表示位置 嵌入向量 n 表示单词 实体嵌入向量 . . . . . . . . . . . . . . . said_2 He_1 diary_5 in_3 句子结构关系树 said_2 He_1 diary_5 in_3 in in He He diary diary said said 全连接关系图 初始权重矩阵 A A1 An G1 Gn 注意力层 句子结构 信息输入 . . . 0.3 0.8 0.2 0.1 0.4 0.3 0.2 0.2 ... ... ... ... ... ... ... ... 0.2 0.6 0.3 0.4 0.2 0.1 0.3 0.3 . . . He said in the diary that he had assets of $250000 and that he had recently been promoted. Softmax Layer 句子嵌入输入 句法结构信息输入 m3 mn−1 mn hn−1 hn−1 wn−1 pn−1 nn−1 wn pn nn hn h1 hn w1 p1 n1 n2 n3 p2 w2 w3 p3 h2 h3 h2 h3 0.8 0.2 0.2 0.1 0.4 0.4 0.1 0.3 0.2 0.5 0.1 0.1 0.2 0.3 0.8 0.3 0.7 0.3 0.3 0.2 0.2 0.4 0.1 0.1 0.3 0.4 0.1 0.4 0.4 0.2 0.6 0.3 1 1 0 0 1 1 0 1 0 0 1 1 0 1 1 1 图 1 AGLSTM 模型的关系抽取框架 Fig. 1 Relation extraction framework based on the AGLSTM model 2.3 Bi-LSTM 层 嵌入层输出的特征矩阵 wu 包含每一个单词 本身的信息,句子中每个词所包含的信息均独 立。因为句子结构信息包含单词与单词间的相互 关系,所以,为更好地将数据本身与句子结构信 息相结合,需要先通过一层双向 LSTM 层来获取 词与词之间的语义连接,方法如下: −→ht = −−−−−→ LSTM(wu, −−→ht−1) ←−ht = ←−−−−− LSTM(wu, ←−− ht−1) ht = −→ht ⊕ ←−ht 最终,将 Bi-LSTM 的正向和反向隐藏层输出 相连接,可以得到输出特征 。 2.4 句法结构矩阵的生成 对文本数据进行语义信息抽取时,不仅要考 虑句子所包含单词的特征信息,而且需要挖掘句 子本身所蕴含的结构信息。已有大量研究成果将 句法结构用于关系抽取,取得了很好的效果。 为建立句法结构矩阵,首先利用句法依存分 析提取出每个句子序列 S={S1 ,S2 , …, Sn}的句法结 构。例如,对句子“He said in the diary that he had assets of $250 000 and that he had recently been promoted.”进行句法分析,图 2 给出了它的句法 树。接着,将提取出的句法树信息转换成全连接 图的矩阵形式。图 1 右侧句子结构信息输入部分 展示了构建初始邻接权重矩阵 A 的过程,其中, 全连接关系图展示了扩展后的依存树。进一步, 将依存关系图写成矩阵形式,得到初始的句法结 构邻接矩阵 A = a11 a12 ··· a1n . . . . . . . . . an1 an2 ··· ann A 如图 1 右侧句子结构信息输入部分中初始权 重矩阵所示。将得到的邻接矩阵 与经过 BiLSTM 得到的文本特征相结合,输入到所提模型 的 AGLSTM 层。 2.5 注意力图长短时记忆神经网络 (AGLSTM) 现有方法大都依据句法结构信息将句子处理 成邻接子树,如图 2 所示。因为在子树中只有相 连叶子结点的单词可以构成联系,这些方法有可 能丢失远程单词之间的关联信息。鉴于此,本文 采用软修剪策略,将句子的邻接子树转换为全连 接的边加权图;并通过注意力的形式,使模型可 以根据初始邻接矩阵信息自行训练注意力权重, 进而更全面地学习句子的结构信息。 wj xj h in j h out j AGLSTM 是由图长短时记忆神经网络 (graph long short term memory neural network, GLSTM) 和 注意力机制结合而成,如图 1 左侧所示。GLSTM 中每一个单词节点 的表达包括:单词节点的输 入特征向量表示 ,句法图内所有与该单词相连 的边的表达 和 。每一个边的表达是通过相 连神经元节点的特征与边权重乘积得到,网络结 构如图 3 所示。GLSTM 中边权重只有 1 或 0 两 种状态,当为 0 时代表该边不存在,而 AGLSTM 是采用全连接的结构,边权重为 0~1 中的归一化 值,因此学习到的信息更加丰富。 ·520· 智 能 系 统 学 报 第 16 卷
第3期 张勇,等:用于关系抽取的注意力图长短时记忆神经网络 ·521 root 0 said 2 He 1 diary_5 had 8 the_4 he_7 assets 9 and 13 promoted 19) 25000012 the 14 he 15 had 16 recently 17 been 18 of_10 S11 图2句法分析树示例 Fig.2 Schematic diagram of the syntactic analysis 重矩阵A。A中每一项代表节点a到b的边权 重。采用多头注意力机制(multi-head-attention), 使模型从不同表征子空间中获得多层面的信息, 最终可得到k个注意力权重矩阵: A k=1,2,…,n 图3 GLSTM网络结构 Fig.3 Structure of the GLSTM network aa点…am 在AGLSTM中每2个单词节点之间的边权 式中:每个矩阵A代表句子结构的一个权重图 重为注意力层所得多头注意力矩阵中相应元素的 G。图1中右侧注意力层给出了注意力层输出的 权重值。h和h的计算公式分别为 k个矩阵A*(k=1,2,…,m),每一个注意力权重矩 h=∑ah, 阵A分别与权重图G一一对应。最后,将k个注 (1) (位ieall 意力权重矩阵进行线性变换,整合成最终的权重 h=∑ah (2) 矩阵A,即为AGLSTM层的重要参数。 (kkea Self-attention机制可以交互计算序列中任意 式中:为从节点i到节点j的句子结构权重;h 位置,从而捕获整个序列内的依赖关系。具体 表示节点j的所有边的输入;h"表示节点j所有 地,Self-attention计算公式为 边的输出;h;和h:为节点i和k的隐藏状态特 u:tanh(W.HLsTM +b.) 征。GLSTM网络定义为 A=softmax(Wu,) ij=(Wixj+Uah+U2hgu+b) (3) 式中:HsTM是Bi-LSTM层提取的文本特征向量; oj=(Woxj+Uoihin+Uh +bo) u,是以tanh为激活函数的感知机层得到的隐藏特 (4) 征向量。通过softmax函数获得标准化的权重矩 fj=(Wixj+Unhi+Uphou+br) (5) 阵A。经过k次self-attention计算,可以得到多 uj=(Wuxj+Umhi+Uho+ba) (6) 头注意力机制输出的k个注意力权重矩阵A*。 cj=fjoc-1+i⊙uj (7 将得到的注意力权重矩阵A代入式(1)、(2), h;=o,⊙tanh(cji) (8) 计算单词节点w,的隐藏状态;再将得到的和 式中:、0和∫分别是输入门、输出门和遗忘 h用于式(3(8)中,通过注意力机制与GLSTM 门:W.、Ux和b(x∈(i,o,f,w)为模型参数:h;为节 的网络结构相结合,进而构造AGLSTM层。 点j的隐藏状态特征。 2.6线性连接层 结合注意力机制和GLSTM,构造注意力图长 根据多头注意力层,可以得到k个不同的注 短时记忆神经网络(AGLSTM)。利用注意力机制 意力权重矩阵A。AGLSTM层输出便得到k个不 对句子结构特征进行注意力运算,得到注意力权 同的结果。本文利用线性连接层将这k个不同的
root_0 said_2 He_1 diary_5 in_3 the_4 the_6 the_14 had_8 had_16 he_7 he_15 assets_9 and_13 250 000_12 of_10 $_11 promoted_19 recently_17 been_18 图 2 句法分析树示例 Fig. 2 Schematic diagram of the syntactic analysis m1 m . . . 2 m3 mn−1 mn 图 3 GLSTM 网络结构 Fig. 3 Structure of the GLSTM network h in j h out j 在 AGLSTM 中每 2 个单词节点之间的边权 重为注意力层所得多头注意力矩阵中相应元素的 权重值。 和 的计算公式分别为 h in j = ∑ (i, j)i∈all αi jhi (1) h out j = ∑ (j,k)k∈all αjkhk (2) αi j h in j h out j hi hk 式中: 为从节点 i 到节点 j 的句子结构权重; 表示节点 j 的所有边的输入; 表示节点 j 所有 边的输出; 和 为节点 i 和 k 的隐藏状态特 征。GLSTM 网络定义为 ij = σ(Wixj +Ui1h in j +Ui2h out j + bi) (3) oj = σ(Wo xj +Uo1h in j +Uo2h out j + bo) (4) fj = σ(Wf xj +Uf 1h in j +Uf 2h out j + bf) (5) uj = σ(Wu xj +Uu1h in j +Uu2h out j + bu) (6) cj = fj ⊙ cj−1 + ij ⊙uj (7) hj = oj ⊙tanh(cj) (8) ij oj fj Wx Ux bx(x ∈ (i,o, f,u)) hj 式中: 、 和 分别是输入门、输出门和遗忘 门; 、 和 为模型参数; 为节 点 j 的隐藏状态特征。 结合注意力机制和 GLSTM,构造注意力图长 短时记忆神经网络 (AGLSTM)。利用注意力机制 对句子结构特征进行注意力运算,得到注意力权 A k A 重矩阵 。 k 中每一项代表节点 a 到 b 的边权 重。采用多头注意力机制 (multi-head-attention), 使模型从不同表征子空间中获得多层面的信息, 最终可得到 k 个注意力权重矩阵: A k = α k 11 α k 12 ··· α k 1n . . . . . . . . . α k n1 α k n2 ··· α k nn , k = 1,2,··· ,n A k A k (k = 1,2,··· ,n) A k A 式中:每个矩阵 代表句子结构的一个权重图 G。图 1 中右侧注意力层给出了注意力层输出的 k 个矩阵 ,每一个注意力权重矩 阵 分别与权重图 G 一一对应。最后,将 k 个注 意力权重矩阵进行线性变换,整合成最终的权重 矩阵 ,即为 AGLSTM 层的重要参数。 Self-attention 机制可以交互计算序列中任意 位置,从而捕获整个序列内的依赖关系。具体 地,Self-attention 计算公式为 ut = tanh(WwHLSTM + bw) A k = softmax(Wuut) HLSTM ut A k A k 式中: 是 Bi-LSTM 层提取的文本特征向量; 是以 tanh 为激活函数的感知机层得到的隐藏特 征向量。通过 softmax 函数获得标准化的权重矩 阵 。经过 k 次 self-attention 计算,可以得到多 头注意力机制输出的 k 个注意力权重矩阵 。 A k wj h in j h out j 将得到的注意力权重矩阵 代入式 (1)、(2), 计算单词节点 的隐藏状态;再将得到的 和 用于式 (3)~(8) 中,通过注意力机制与 GLSTM 的网络结构相结合,进而构造 AGLSTM 层。 2.6 线性连接层 A 根据多头注意力层,可以得到 k 个不同的注 意力权重矩阵 。AGLSTM 层输出便得到 k 个不 同的结果。本文利用线性连接层将这 k 个不同的 第 3 期 张勇,等:用于关系抽取的注意力图长短时记忆神经网络 ·521·
·522· 智能系统学报 第16卷 结果整合成最终的输出特征。线性连接层定义的 例,依次设置k=2,3,4,5,6],下面讨论k值对所提 数学形式为 模型性能的影响。表1展示了不同k值下所提模 hicomb=Wcomb hout +bcomb 型的F指标值。可以看出,当仁4时,模型得到 式中:Wob是线性连接层的权重矩阵;bomb是线性 了最佳的F指标值。鉴于此,后续实验中设置一4。 连接层的偏置矩阵;ncomb为最终输出的特征。 表1不同k值下所提模型的实验结果 2.7输出层 Table 1 Experimental results obtained using the pro- 针对最终输出的特征homb,先通过最大池化 posed model with different k values 号 层,保留句子中最重要的特征,再通过softmax函 k头数 F 数计算每一个类别的条件概率,进而输出模型预 =2 84.6 测特征的标签类别。每一个特征对应标签类别的 =3 85.1 预测概率为 =4 85.3 i,i=1,2…,N =5 84.7 p(h)= 了hob k=6 84.6 3.3评价指标 3 实验分析 本文采用关系抽取任务中常用的3类评价指 标:精确率P、召回率R和F值。二分类中常用 3.1数据集 的计算公式为 本节在2个常用的关系抽取数据集中验证所 TP P= 提模型的有效性。它们分别是TACRED数据集 TP+FP TP 和SemEval2010task8数据集2。 TACRED数据集:该数据集共106264条实 R=P+F时 2PR 例,分为训练集68124条,验证集22631条,测试集 F1= P+R 15509条。数据集引入了41种关系类型和一种 式中:TP((true positives)表示将正样本预测为正的 特殊的“no relation”类型,来描述实例中相关实 样本数;FP(false positives)表示将负样本预测为正 体对之间的关系。 的样本数;FN(false nagatives)表示将正样本预测 SemEval2010task8数据集:该数据集主要用 为负的样本数。 于对名词性实体之间的语义关系进行分类。它采 3.4对比算法 用9种关系类型和一种特殊的关系类型“Other'” 将AGLSTM模型与10种典型关系抽取方法 来描述实体对之间的关系。数据集一共包含10717 进行对比,它们分别为 条实例,其中,8000条实例为训练数据,其余为测 I)逻辑回归模型(logistics regression,LR)o 试数据。 2)支持向量机模型(support vector machine, 3.2模型参数与性能指标 SVM) 采用Adam算法优化本文所提模型,网络隐 3)双向LSTM模型+注意力机制(BiLSTM什At) 藏层节点数设置为300。为防止过拟合,在输入 该模型将双向LSTM模型与注意力机制结合进行 层和AGLSTM层同时引入损失率(dropout),并且 关系抽取。 在目标函数中引入L2正则化项,正则化因子取值 4)位置感知注意力LSTM模型(PA-LSTM)9: 为O.001。对于TACRED数据集,模型参数设置 该模型通过对引入实体位置的注意力机制建立 学习率为0.7,在输入层和AGLSTM层的损失率 模型。 都设为0.5。对于SemEval2010task8数据集,模 5)最短依存路径LSTM模型(SDP-LSTM)6: 型设置学习率为0.5,在输入层和AGLSTM层的 该模型使用2个实体之间的最短依存路径,并结 损失率分别设为0.5和0.3。采用预训练好的Glove 合LSTM模型进行建模。 向量对数据集进行词向量训练,生成词嵌入向 6)树结构LSTM模型(tree-LSTM)m:不同于 量;结合实体位置嵌入和NER标签嵌人,生成最 以往的顺序LSTM模型,该模型结合句子依存关 终嵌人层向量。 系树将LSTM推广到树形结构。 在注意力层,多头注意力机制的参数k会对 7)分段注意力LSTM模型(SA-LSTM)2:考 模型性能产生较大的影响。以SemEval数据集为 虑到部分实体关系信息包含在句子中的某些片段
结果整合成最终的输出特征。线性连接层定义的 数学形式为 hcomb=Wcombhout+bcomb Wcomb bcomb hcomb 式中: 是线性连接层的权重矩阵; 是线性 连接层的偏置矩阵; 为最终输出的特征。 2.7 输出层 针对最终输出的特征 hcomb,先通过最大池化 层,保留句子中最重要的特征,再通过 softmax 函 数计算每一个类别的条件概率,进而输出模型预 测特征的标签类别。每一个特征对应标签类别的 预测概率为 p(hi) = h i comb ∑N n=1 h n comb , i = 1,2,··· ,N 3 实验分析 3.1 数据集 本节在 2 个常用的关系抽取数据集中验证所 提模型的有效性。它们分别是 TACRED 数据集[19] 和 SemEval 2010 task 8 数据集[23]。 TACRED 数据集:该数据集共 106 264 条实 例,分为训练集 68124 条,验证集 22 631 条,测试集 15 509 条。数据集引入了 41 种关系类型和一种 特殊的“no relation”类型,来描述实例中相关实 体对之间的关系。 SemEval 2010 task 8 数据集:该数据集主要用 于对名词性实体之间的语义关系进行分类。它采 用 9 种关系类型和一种特殊的关系类型“Other” 来描述实体对之间的关系。数据集一共包含 10 717 条实例,其中,8 000 条实例为训练数据,其余为测 试数据。 3.2 模型参数与性能指标 采用 Adam 算法优化本文所提模型,网络隐 藏层节点数设置为 300。为防止过拟合,在输入 层和 AGLSTM 层同时引入损失率 (dropout),并且 在目标函数中引入 L2 正则化项,正则化因子取值 为 0.001。对于 TACRED 数据集,模型参数设置 学习率为 0.7,在输入层和 AGLSTM 层的损失率 都设为 0.5。对于 SemEval 2010 task8 数据集,模 型设置学习率为 0.5,在输入层和 AGLSTM 层的 损失率分别设为 0.5 和 0.3。采用预训练好的 Glove 向量[24] 对数据集进行词向量训练,生成词嵌入向 量;结合实体位置嵌入和 NER 标签嵌入,生成最 终嵌入层向量。 在注意力层,多头注意力机制的参数 k 会对 模型性能产生较大的影响。以 SemEval 数据集为 例,依次设置 k=[2,3,4,5,6],下面讨论 k 值对所提 模型性能的影响。表 1 展示了不同 k 值下所提模 型的 F1 指标值。可以看出,当 k=4 时,模型得到 了最佳的 F1 指标值。鉴于此,后续实验中设置 k=4。 表 1 不同 k 值下所提模型的实验结果 Table 1 Experimental results obtained using the proposed model with different k values % k头数 F1 k=2 84.6 k=3 85.1 k=4 85.3 k=5 84.7 k=6 84.6 3.3 评价指标 本文采用关系抽取任务中常用的 3 类评价指 标:精确率 P、召回率 R 和 F1 值。二分类中常用 的计算公式为 P = TP TP+FP R = TP TP+FN F1 = 2PR P+R 式中:TP(true positives) 表示将正样本预测为正的 样本数;FP(false positives) 表示将负样本预测为正 的样本数;FN(false nagatives) 表示将正样本预测 为负的样本数。 3.4 对比算法 将 AGLSTM 模型与 10 种典型关系抽取方法 进行对比,它们分别为 1) 逻辑回归模型 (logistics regression, LR)。 2) 支持向量机模型 (support vector machine, SVM)。 3) 双向 LSTM 模型+注意力机制 (BiLSTM+Att)[4] : 该模型将双向 LSTM 模型与注意力机制结合进行 关系抽取。 4) 位置感知注意力 LSTM 模型 (PA-LSTM)[19] : 该模型通过对引入实体位置的注意力机制建立 模型。 5) 最短依存路径 LSTM 模型 (SDP-LSTM)[6] : 该模型使用 2 个实体之间的最短依存路径,并结 合 LSTM 模型进行建模。 6) 树结构 LSTM 模型 (tree-LSTM)[7] :不同于 以往的顺序 LSTM 模型,该模型结合句子依存关 系树将 LSTM 推广到树形结构。 7) 分段注意力 LSTM 模型 (SA-LSTM)[25] :考 虑到部分实体关系信息包含在句子中的某些片段 ·522· 智 能 系 统 学 报 第 16 卷