第14卷第3期 智能系统学报 Vol.14 No.3 2019年5月 CAAI Transactions on Intelligent Systems May 2019 D0:10.11992/tis.201805006 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20181223.1553.006html 面向中文开放领域的多元实体关系抽取研究 姚贤明,甘健侯2,徐坚1 (1.曲靖师范学院信息工程学院,云南曲靖655011;2.云南师范大学民族教有信息化教有部重点实验室,云 南昆明650500) 摘要:针对当前中文开放领域多元实体关系抽取研究较少的情况,借鉴国外已有的研究成果,结合中文自身 的特点,提出了中文领域多元实体关系抽取的方法。该方法以句法分析结果的根节点作为入口,迭代地获取所 有谓语的主语、宾语及其定语成分,再利用句法分析结果对这些成分进行完善,最终获取句子中的多个实体之 间的语义关系。该方法被应用在不同的领域并进行了对比分析,实验结果表明:其具有一定的参考价值。另 外,对实验数据进行了详细的分析,归纳了错误的主要情形,为今后的研究工作指明了方向。 关键词:中文、开放域:多元实体关系;依存句法分析:句法结构:关系抽取:语义关系:主谓宾 中图分类号:TP311文献标志码:A文章编号:1673-4785(2019)03-0597-08 中文引用格式:姚贤明,甘健侯,徐坚.面向中文开放领域的多元实体关系抽取研究J.智能系统学报,2019,14(3): 597-604. 英文引用格式:YAO Xianming,GAN Jianhou,XU Jian.Chinese open domain oriented n-ary entity relation extractionJ.CAAI transactions on intelligent systems,2019,14(3):597-604. Chinese open domain oriented n-ary entity relation extraction YAO Xianming',GAN Jianhou',XU Jian (1.School of Information Engineering,Qujing Normal University,Qujing 655011,China;2.Key Laboratory of Educational In- formatization for Nationalities(YNNU),Ministry of Education,Kunming 650500,China) Abstract:In view of the scant research conducted regarding n-ary entity relation extraction in the Chinese open domain, in this paper,we propose a method for performing n-ary entity relation extraction in the Chinese domain based on exist- ing research conducted abroad and Chinese characteristics.Starting with the root node of syntactic analysis,we obtain the subject,object,and attributive components of all the predicates.Then,we use the syntactic analysis result to perfect these elements and,finally,obtain the semantic relations of the n-ary entity.For comparative analysis,we applied the proposed method to different domains.The experimental results demonstrate its reference value.In addition,we ana- lyzed the experimental data in detail and have summarized the main errors,which indicate the direction for future re- search. Keywords:Chinese open domain;n-ary entity relation;dependency syntax analysis;semantic structure;relation extrac- tion;semantic relation;subject predicate object 实体关系抽取是指从文本中抽取实体与实体 实体关系抽取任务最早在1989年的MUC评 之间,实体与数值表达式之间的语义关系,这种 测会议中被提出,在ACE、TAC等一系列评测会 语义关系体现了二者之间的相互作用山。例如 议的推动下,获得了长足的发展,陆续提出了基 “邓兆祥游览庐山”,其中“邓兆祥”与“庐山”之间 于规则的B、基于支持向量机等有监督的-和基 存在“游览”关系回。 于聚类等无监督-实体关系获取方法,本文称 收稿日期:2018-05-07.网络出版日期:2018-12-25. 这些方法为传统方法。传统方法主要是面向特定 基金项目:国家自然科学基金项目(61562093):云南省应用基 础研究计划重点项目(2016FA024). 领域,预先定义了实体类型和关系类型,通过人 通信作者:徐坚.E-mail:qjncxj@126.com. 工标注训练数据提交给机器学习算法自动学习分
DOI: 10.11992/tis.201805006 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20181223.1553.006.html 面向中文开放领域的多元实体关系抽取研究 姚贤明1 ,甘健侯2 ,徐坚1 (1. 曲靖师范学院 信息工程学院,云南 曲靖 655011; 2. 云南师范大学 民族教育信息化教育部重点实验室,云 南 昆明 650500) 摘 要:针对当前中文开放领域多元实体关系抽取研究较少的情况,借鉴国外已有的研究成果,结合中文自身 的特点,提出了中文领域多元实体关系抽取的方法。该方法以句法分析结果的根节点作为入口,迭代地获取所 有谓语的主语、宾语及其定语成分,再利用句法分析结果对这些成分进行完善,最终获取句子中的多个实体之 间的语义关系。该方法被应用在不同的领域并进行了对比分析,实验结果表明:其具有一定的参考价值。另 外,对实验数据进行了详细的分析,归纳了错误的主要情形,为今后的研究工作指明了方向。 关键词:中文、开放域;多元实体关系;依存句法分析;句法结构;关系抽取;语义关系;主谓宾 中图分类号:TP311 文献标志码:A 文章编号:1673−4785(2019)03−0597−08 中文引用格式:姚贤明, 甘健侯, 徐坚. 面向中文开放领域的多元实体关系抽取研究[J]. 智能系统学报, 2019, 14(3): 597–604. 英文引用格式:YAO Xianming, GAN Jianhou, XU Jian. Chinese open domain oriented n-ary entity relation extraction[J]. CAAI transactions on intelligent systems, 2019, 14(3): 597–604. Chinese open domain oriented n-ary entity relation extraction YAO Xianming1 ,GAN Jianhou2 ,XU Jian1 (1. School of Information Engineering, Qujing Normal University, Qujing 655011, China; 2. Key Laboratory of Educational Informatization for Nationalities (YNNU), Ministry of Education, Kunming 650500, China) Abstract: In view of the scant research conducted regarding n-ary entity relation extraction in the Chinese open domain, in this paper, we propose a method for performing n-ary entity relation extraction in the Chinese domain based on existing research conducted abroad and Chinese characteristics. Starting with the root node of syntactic analysis, we obtain the subject, object, and attributive components of all the predicates. Then, we use the syntactic analysis result to perfect these elements and, finally, obtain the semantic relations of the n-ary entity. For comparative analysis, we applied the proposed method to different domains. The experimental results demonstrate its reference value. In addition, we analyzed the experimental data in detail and have summarized the main errors, which indicate the direction for future research. Keywords: Chinese open domain; n-ary entity relation; dependency syntax analysis; semantic structure; relation extraction; semantic relation; subject predicate object 实体关系抽取是指从文本中抽取实体与实体 之间,实体与数值表达式之间的语义关系,这种 语义关系体现了二者之间的相互作用[1]。例如 “邓兆祥游览庐山”,其中“邓兆祥”与“庐山”之间 存在“游览”关系[2]。 实体关系抽取任务最早在 1989 年的 MUC 评 测会议中被提出,在 ACE、TAC 等一系列评测会 议的推动下,获得了长足的发展,陆续提出了基 于规则的[3-4] 、基于支持向量机等有监督的[5-6]和基 于聚类等无监督[7-8]实体关系获取方法[9] ,本文称 这些方法为传统方法。传统方法主要是面向特定 领域,预先定义了实体类型和关系类型,通过人 工标注训练数据提交给机器学习算法自动学习分 收稿日期:2018−05−07. 网络出版日期:2018−12−25. 基金项目:国家自然科学基金项目 (61562093);云南省应用基 础研究计划重点项目 (2016FA024). 通信作者:徐坚. E-mail:qjncxj@126.com. 第 14 卷第 3 期 智 能 系 统 学 报 Vol.14 No.3 2019 年 5 月 CAAI Transactions on Intelligent Systems May 2019
·598· 智能系统学 报 第14卷 类规则,从而实现文本中实体关系的自动识别。 l984),关系3:(Doublethink,describes,.a fictional 随着互联网的飞速发展,海量多源异构信息 concept)2。 构成了互联网的主体,机器翻译、问答系统和知 从上面的结果可看出,相对于二元实体关系 识库等应用系统的发展也逐渐面向互联网开展相 抽取仅仅只能抽取一对实体之间的语义关系而 关研究,传统方法已经不能满足现实的需求,因 言,多元实体关系抽取能够抽取到更多的实体之 为在当前环境中,实体类型、实体关系都是未知 间的关系。在英文中,多元实体关系占据了40% 的,虽然有部分文章提出了上百种实体类型0山, 的所有实体关系,因此,多元实体关系的抽取是 对相关研究也产生了积极影响,但是仍然不能满 实体关系抽取中一项十分重要的工作,而这也是 足现实中千变万化的需求,因此开放域实体关系 今后实体关系发展的一个重要方向。目前,在英 抽取任务被提出9。 文的多元实体关系抽取方面已经取得了初步的研 开放域实体关系抽取的发展正在经历2个阶 究成果25-29 段21:二元实体关系抽取、多元实体关系抽取。 在中文领域,多元实体关系抽取方面目前鲜 二元实体关系抽取主要以抽取动词为主,通 有提及,主要的工作集中在二元实体关系抽取0训。 常是从一句完整的语句中抽取到一对实体之间的 本文以Kraken系统提供的方法为基础,结合中文 关系。以TextRunner、KnowItAll!、WOEs、和 自身的特点,提出了基于依存语法的开放域多元 Reverbl71等为代表的系统已推动了二元实体关 实体关系抽取方法,本文将该方法应用于民族、 系抽取接近成熟。采用的方法主要包括远程监 自然科学、法律、经济、人文历史5个领域以验证 督(distant supervision)和有监督的方法。远程监 该方法的有效性,实验结果表明,该方法具有一 督0利用百科信息框的结构化信息对非结构化 定的参考价值。 文本进行自动标注,训练识别模型,通过一定的 1中文多元实体关系抽取 技巧(trick)能达到较好的效果,该方法降低了人 工标注语料的繁重负担;有监督的方法仍然以支 在英文的实体关系抽取中,主要以谓语作为 持向量机等方法为主,但是在特征选择方面,通 实体之间关系的指示词,因此在中文的关系抽取 常选择句法、依存关系等具有领域通用性的特 中沿用了该方法B。文献[2]以谓语作为关键字, 征2,从而使其模型具有跨领域能力。 构建上下文特征,训练识别器,实现了旅游领域 多元实体关系指的是语句中多个实体之间存 的实体关系抽取,但是仍属于有监督的方法,而 在的不同语义关系,因此多元实体关系抽取的任 且针对的是二元关系抽取。文献[33]利用依存分 务是抽取这些实体之间的语义关系。相对于二元 析结果,结合启发规则实现三元组的抽取。文献 实体关系抽取来说,该任务具有更大的挑战性。 [34]以句法分析结果作为基础,以动词为中心,抽 目前,多元实体关系的抽取还处于探索阶段。文 取主谓宾结构,同时给出了句子中存在多个连续 献[23]在构建Kraken系统的过程中,给出了多元 动词的复杂情况下,抽取主谓宾结构的解决方 实体关系抽取的基本思路如下: 案,但是该文献没有详细给出存在零指代的情况 1)检测事件短语。Kraken将动词、修饰词和 下获取主语的方法。总体而言,在中文实体关系 介词视为事件。 抽取方面,仍然缺乏针对复杂中文句子结构的有 2)检测实体中心词。Kraken从事件短语出 效实体关系抽取方法,在多元实体关系抽取方面 发,根据nsubject等依存关系找到实体中心词。 更是缺乏相关研究。 3)检测实体全称。Kraken从实体中心词出 从中文句法结构来看,主语、谓语和宾语构 发,递归地查找所有向下连接的实体词。 成了句子的主体,是描述事实的基本组成单元。 最终,Kraken将实体全称和事件短语组合成 语句可以是由一个主谓宾构成的简单句子,也可 三元组,并将其视为抽取到的实体关系。以句子 以是由多个主谓宾构成的复杂语句.复杂语句以 "Doublethink,a word that was coined by Orwell 动词作为事件链,表述了实体(主语、宾语)之间 in the novel 1984,describes a fictional concept." 的语义关系。 为例,使用该方法可获得3个实体间的语义关系: 以语句“1937年6月4日,周恩来第一次登上 关系l:(Doublethink,.was coined,by Orwell), 庐山,人住仙岩旅馆,同蒋介石进行国共第二次 关系2:(Doublethink,was coined,in the novel 合作谈判。为例,其中包含了3个连续事件:
类规则,从而实现文本中实体关系的自动识别。 随着互联网的飞速发展,海量多源异构信息 构成了互联网的主体,机器翻译、问答系统和知 识库等应用系统的发展也逐渐面向互联网开展相 关研究,传统方法已经不能满足现实的需求,因 为在当前环境中,实体类型、实体关系都是未知 的,虽然有部分文章提出了上百种实体类型[10-11] , 对相关研究也产生了积极影响,但是仍然不能满 足现实中千变万化的需求,因此开放域实体关系 抽取任务被提出[9]。 开放域实体关系抽取的发展正在经历 2 个阶 段 [12-13] :二元实体关系抽取、多元实体关系抽取。 二元实体关系抽取主要以抽取动词为主,通 常是从一句完整的语句中抽取到一对实体之间的 关系。以 TextRunner[14] 、KnowItAll[15] 、WOE[16] 、和 Reverb[17-18]等为代表的系统已推动了二元实体关 系抽取接近成熟。采用的方法主要包括远程监 督 (distant supervision) 和有监督的方法。远程监 督 [19-20]利用百科信息框的结构化信息对非结构化 文本进行自动标注,训练识别模型,通过一定的 技巧 (trick) 能达到较好的效果,该方法降低了人 工标注语料的繁重负担;有监督的方法仍然以支 持向量机等方法为主,但是在特征选择方面,通 常选择句法、依存关系等具有领域通用性的特 征 [21-22] ,从而使其模型具有跨领域能力。 多元实体关系指的是语句中多个实体之间存 在的不同语义关系,因此多元实体关系抽取的任 务是抽取这些实体之间的语义关系。相对于二元 实体关系抽取来说,该任务具有更大的挑战性。 目前,多元实体关系的抽取还处于探索阶段。文 献[23]在构建 Kraken 系统的过程中,给出了多元 实体关系抽取的基本思路如下: 1) 检测事件短语。Kraken 将动词、修饰词和 介词视为事件。 2) 检测实体中心词。Kraken 从事件短语出 发,根据 nsubject 等依存关系找到实体中心词。 3) 检测实体全称。Kraken 从实体中心词出 发,递归地查找所有向下连接的实体词。 最终,Kraken 将实体全称和事件短语组合成 三元组,并将其视为抽取到的实体关系。以句子 “Doublethink, a word that was coined by Orwell in the novel 1984, describes a fictional concept.” 为例,使用该方法可获得 3 个实体间的语义关系: 关系 1:(Doublethink, was coined, by Orwell), 关系 2:(Doublethink, was coined, in the novel 1984),关系 3:(Doublethink, describes, a fictional concept)[23]。 从上面的结果可看出,相对于二元实体关系 抽取仅仅只能抽取一对实体之间的语义关系而 言,多元实体关系抽取能够抽取到更多的实体之 间的关系。在英文中,多元实体关系占据了 40% 的所有实体关系[24] ,因此,多元实体关系的抽取是 实体关系抽取中一项十分重要的工作,而这也是 今后实体关系发展的一个重要方向。目前,在英 文的多元实体关系抽取方面已经取得了初步的研 究成果[25-29]。 在中文领域,多元实体关系抽取方面目前鲜 有提及,主要的工作集中在二元实体关系抽取[30-31]。 本文以 Kraken 系统提供的方法为基础,结合中文 自身的特点,提出了基于依存语法的开放域多元 实体关系抽取方法,本文将该方法应用于民族、 自然科学、法律、经济、人文历史 5 个领域以验证 该方法的有效性,实验结果表明,该方法具有一 定的参考价值。 1 中文多元实体关系抽取 在英文的实体关系抽取中,主要以谓语作为 实体之间关系的指示词,因此在中文的关系抽取 中沿用了该方法[32]。文献[2]以谓语作为关键字, 构建上下文特征,训练识别器,实现了旅游领域 的实体关系抽取,但是仍属于有监督的方法,而 且针对的是二元关系抽取。文献[33]利用依存分 析结果,结合启发规则实现三元组的抽取。文献 [34]以句法分析结果作为基础,以动词为中心,抽 取主谓宾结构,同时给出了句子中存在多个连续 动词的复杂情况下,抽取主谓宾结构的解决方 案,但是该文献没有详细给出存在零指代的情况 下获取主语的方法。总体而言,在中文实体关系 抽取方面,仍然缺乏针对复杂中文句子结构的有 效实体关系抽取方法,在多元实体关系抽取方面 更是缺乏相关研究。 从中文句法结构来看,主语、谓语和宾语构 成了句子的主体,是描述事实的基本组成单元。 语句可以是由一个主谓宾构成的简单句子,也可 以是由多个主谓宾构成的复杂语句,复杂语句以 动词作为事件链,表述了实体 (主语、宾语) 之间 的语义关系。 以语句“1937 年 6 月 4 日,周恩来第一次登上 庐山,入住仙岩旅馆,同蒋介石进行国共第二次 合作谈判。” [2]为例,其中包含了 3 个连续事件: ·598· 智 能 系 统 学 报 第 14 卷
第3期 姚贤明,等:面向中文开放领域的多元实体关系抽取研究 ·599· 登上→入住→进行,对应的实体关系分别为:(周 看,可得出如下2个重要事实:事实1,(遗传信 恩来,登上,庐山)、(周恩来,入住,仙岩旅馆)和 息,位于,染色体上面);事实2,(染色体,跟遗传 (周恩来,进行,国共第二次合作谈判)。 有,关系)。另外更为重要的是,这两个事实都是 对于语句“到1910年的时候,美国科学家摩 “德国科学家摩尔根”“发现”而“知道”的,因此,这 尔根,他研究果蝇的遗传规律的时候发现,遗传 里还存在另外一层实体与事实之间的关系(德国 信息是位于染色体上面,所以知道染色体跟遗传 科学家摩尔根,发现,事实1)和(德国科学家摩尔 有非常大的关系”,该句子的句法结构分析结果如 根,知道,事实2),展开即为(德国科学家摩尔根, 图1和图2所示(限于篇幅,本文将句法分析结果 发现,(遗传信息,位于,染色体上面))和(德国科 分割成为两部分,两部分的首尾以词语“发现”作 学家摩尔根,知道,(染色体,跟遗传有,关系))。 为连接点)。从图中的结果可以看出,各个单句之 除此之外,该句中还存在另外一个实体关系(德 间不完全是以动词为主的连续链结构(COO),也 国科学家摩尔根,研究,果蝇遗传规律),只是该实 包括以宾语(VOB)为主的连续链结构。直观上 体关系隐藏在偏正结构中。 HED ADV WP SBV ATT RAD POB VOB ATT RAD ATT ATT WP SBV RAD ADV 时候 美国科学 遗传 律 时候 wp ns wp 图1句子依存句法分析结果(第1部分) Fig.1 Dependency parsing analysis result for example sentence(part 1) VOB COO VOB VOB WP SRV VOB ADV ADV ATT WP SBV ADV POB RAD 发现 遗传信息 位于 染色体 上面 所以 知道 染色体 跟遗传有非常 大的 关系 wp n nd wp c b d a 图2例句“到1910年的时候…”依存句法分析结果(第2部分) Fig.2 Dependency parsing analysis result for sentence "Dao4 1910 nian2 del shi2 hou4"(part 2) 通过以上的分析可知,实体关系在句子中呈 句法分析结果。 现以下3个特点: 2)事件链获取。获取句法分析结果中的 1)实体关系在谓语上表现为连续链结构。所 root节点作为入口,查找与该节点以LTP中定义 有连续的事件依照出现的先后顺序以CO0相互 的事件关系(COO,IS)相连接的动词并添加到动 连接。 词集合。 2)实体关系在实体本身也可能存在蕴含关 3)主谓宾获取。依据LTP定义的主语角色 系。作为实体关系中的实体,可能为一实体名 (SBV)和宾语角色(VOB,IOB,FOB),查找每个动 称,也可能为一事件,或者该事件本身又是一种 词的主语和宾语集合(可能存在多个主语和宾语 迭代的结构。 并列的情形)。如果连接的角色是名词则将其添 3)存在一些游离状态的实体关系。这些关系 加到对应的主语或宾语集合,并查找其他并列的 以松耦合的形式构成句子的一部分。 主语或宾语;如果连接的角色是动词,则以该动 基于以上特点,本文提出了基于依存语法的 词作为root节点,并跳转到2)。 开放域多元实体关系抽取方法。该方法以哈工 4)实体关系获取。将每次循环过程中获取到 大LTP平台的句法分析结果作为依据,抽取句子 的主谓宾添加到实体关系集合中,如果存在主语 中以主谓宾结构为代表的实体关系,具体算法步 或宾语并列的情况,则进行组合之后添加到实体 骤为: 关系集合中。 1)句法分析。将句子提交到LTP平台获取 5)顺序扫描句子中所有尚未在上述步骤中查
登上→入住→进行,对应的实体关系分别为:(周 恩来,登上,庐山)、(周恩来,入住,仙岩旅馆) 和 (周恩来,进行,国共第二次合作谈判)。 对于语句“到 1910 年的时候,美国科学家摩 尔根,他研究果蝇的遗传规律的时候发现,遗传 信息是位于染色体上面,所以知道染色体跟遗传 有非常大的关系”,该句子的句法结构分析结果如 图 1 和图 2 所示 (限于篇幅,本文将句法分析结果 分割成为两部分,两部分的首尾以词语“发现”作 为连接点)。从图中的结果可以看出,各个单句之 间不完全是以动词为主的连续链结构 (COO),也 包括以宾语 (VOB) 为主的连续链结构。直观上 看,可得出如下 2 个重要事实:事实 1,(遗传信 息,位于,染色体上面);事实 2,(染色体,跟遗传 有,关系)。另外更为重要的是,这两个事实都是 “德国科学家摩尔根”“发现”而“知道”的,因此,这 里还存在另外一层实体与事实之间的关系 (德国 科学家摩尔根,发现,事实 1) 和 (德国科学家摩尔 根,知道,事实 2),展开即为 (德国科学家摩尔根, 发现,(遗传信息,位于,染色体上面)) 和 (德国科 学家摩尔根,知道,(染色体,跟遗传有,关系))。 除此之外,该句中还存在另外一个实体关系 (德 国科学家摩尔根,研究,果蝇遗传规律),只是该实 体关系隐藏在偏正结构中。 p nt u n wp ns n nh wp r v v v n n n u u Root 1910 到 年 的 时候 , , 美国 科学家 摩尔根 他 研究 果蝇 的 的 遗传 规律 时候 发现 H E D H E D WP WP ATTH E D RAD ATT ATT SBV ADV RAD ATT ATT VOB RAD ATT SBV HED H E H E D H E D H E H E H E D H E D H E D H E D H E D POB ADV 图 1 句子依存句法分析结果 (第 1 部分) Fig. 1 Dependency parsing analysis result for example sentence (part 1) v v v v v v wp n n nd wp c p d a u n n 发现 遗传 信息 位于 染色体 染色体 上面 所以 知道 跟 遗传 有 非常 大 的 关系 H E D H E D H E D H E D H E D H E D H E D H E D H E D H E D H E D H E D H E D WP ATT WP COO VOB VOB VOB SBV ATT ADV VOB SBV ADV POB ADV ATT RAD , , 图 2 例句“到 1910 年的时候······”依存句法分析结果 (第 2 部分) Fig. 2 Dependency parsing analysis result for sentence “Dao4 1910 nian2 de1 shi2 hou4” (part 2) 通过以上的分析可知,实体关系在句子中呈 现以下 3 个特点: 1) 实体关系在谓语上表现为连续链结构。所 有连续的事件依照出现的先后顺序以 COO 相互 连接。 2) 实体关系在实体本身也可能存在蕴含关 系。作为实体关系中的实体,可能为一实体名 称,也可能为一事件,或者该事件本身又是一种 迭代的结构。 3) 存在一些游离状态的实体关系。这些关系 以松耦合的形式构成句子的一部分。 基于以上特点,本文提出了基于依存语法的 开放域多元实体关系抽取方法。该方法以哈工 大 LTP 平台的句法分析结果作为依据,抽取句子 中以主谓宾结构为代表的实体关系,具体算法步 骤为: 1) 句法分析。将句子提交到 LTP 平台获取 句法分析结果。 2 ) 事件链获取。获取句法分析结果中 的 root 节点作为入口,查找与该节点以 LTP 中定义 的事件关系 (COO,IS) 相连接的动词并添加到动 词集合。 3) 主谓宾获取。依据 LTP 定义的主语角色 (SBV) 和宾语角色 (VOB,IOB,FOB),查找每个动 词的主语和宾语集合 (可能存在多个主语和宾语 并列的情形)。如果连接的角色是名词则将其添 加到对应的主语或宾语集合,并查找其他并列的 主语或宾语;如果连接的角色是动词,则以该动 词作为 root 节点,并跳转到 2)。 4) 实体关系获取。将每次循环过程中获取到 的主谓宾添加到实体关系集合中,如果存在主语 或宾语并列的情况,则进行组合之后添加到实体 关系集合中。 5) 顺序扫描句子中所有尚未在上述步骤中查 第 3 期 姚贤明,等:面向中文开放领域的多元实体关系抽取研究 ·599·
·600· 智能系统学报 第14卷 找到的动词,将其作为root节点,跳转到2)。 从表1中数据可以看出,总体的指标达到了 6)主语填充。利用一定的规则,对实体关系 60%左右,取得了一定的效果,也证明了本文中 集合中缺乏主语(零指代)的主谓宾组合填充其 的方法具有一定可行性。在历史领域的文本中性 主语。 能较差,但在其他领域中都有不俗的表现,而且 7)获取主语和宾语的定语部分。依据LTP 在不同领域中的表现相对比较稳定,说明该方法 平台定义的属性角色(ATT)获取主语和宾语的定 具有一定的跨领域能力。 语部分。 表2中列出了本文与其他文献开放域实体 8)输出所有以主谓宾形式表示的实体关系。 关系抽取的性能对比结果。其中,ZORE是文献 该算法的核心思想就是根据事件关系顺序和 [35]中提出的ZORE系统,使用句法分析结果抽 递归地查找所有的主谓宾结构,然后获取实体的 取中文开放域实体关系,与本文采用的方法类 修饰成分。值得注意的是,由于实体关系之间存 在蕴含关系,一个事实可能为另外一个事实的成 似,该系统的准确率等指标是性能最佳情况下 分,需要采用迭代的方式来获取,3)中最后获取 的表现,该文献也是较早研究中文开放域实体 oot节点就体现了该过程。该算法能够有效地获 关系抽取的工作之一;UnCORE是哈工大素兵教 取句子中复杂的多元实体关系,避免无意义的实 授在文献[30]中提出的面向大规模网络文本的 体关系对抽取结果的影响。 无指导中文开放式实体关系抽取模型,在该文 献中给出了正确率,但是因为文本规模较大,无 2实验结果分析 法统计召回率,因此相关指标没有给出;Kraken 作为目前比较新的研究方向,多元实体关系 是文献[23]在英文领域抽取多元实体关系的性 抽取尚缺乏权威的评测数据,在中文领域中目前 能表现,这也是英文多元实体关系抽取研究最 亦如此。为了获得更加客观公正的测试结果,同 早的工作之一。 时也为了验证算法的跨领域抽取能力,本文选取 表2与其他开放域实体关系抽取系统性能对比 了历史、经济、民族、科技、法律5个领域的文本 Table 2 Comparisons with other open domain entity rela- 进行测试。其中经济和科技的文本属于口述性文 tion extraction systems % 本,民族领域文本来源于百度百科,法律文本则 指标 ZORE UnCORE Kraken 本文 来自于法律条款,民族和法律领域的文本相对来 准确率 76.8 80 68 67 说更加标准规范。 召回率 28.9 68 57 本文从这些领域文本中选取了部分具有代表 F值 42 68 61 性的句子作为评测数据,总共包含167个句子,其 中包含多个实体关系的句子总数为149个,客观 从表2中的数据可以看出,与ZORE相比, 存在的实体关系总数为408对,抽取到的正确实 本文的召回率更高,体现出本文从文本中抽取 体关系数量为214对,由此可见,该方法获取到的 到的实体关系数量更丰富,对于复杂句式效果 数量远大于二元实体关系抽取。 更好,同时F值也更高。与UnCORE系统相比, 为了对具体领域的抽取效果有更直观的印 本文的准确率不高,但是UnCORE系统是在大 象,本文采用信息抽取中常用的指标对系统性能 规模文本环境下运行的,数据的冗余性使得准 进行评估,即正确率、召回率和F值。3个指标的 确率得以提升,而召回率和F值这些指标却无 数据来源于上述选取的167个句子。每个指标在 法统计。与Kraken系统相比,本文所有的指标 具体每个领域中的性能表现如表1所示。 略有小幅下降,但是作为在中文领域中的一种 表1本文算法在不同领域中的表现 尝试,本文得到这样的运行表现证明该方法具 Table 1 Performance of algorithm in this paper in differ- ent domains % 有一定的参考价值。 本文对实体关系抽取在不同领域错误的原因 指标 历史 经济 民族 科技 法律 平均 进行分析,对抽取到的实体关系的错误部分与未 准确率 50 70 69 68 77 67 抽取到的实体关系进行了统计,将错误的原因大 召回率 29 67 59 70 60 57 致分成6种情形,具体每种错误在不同领域中的 F值 37 69 63 69 68 占比如表3所示
找到的动词,将其作为 root 节点,跳转到 2)。 6) 主语填充。利用一定的规则,对实体关系 集合中缺乏主语 (零指代) 的主谓宾组合填充其 主语。 7) 获取主语和宾语的定语部分。依据 LTP 平台定义的属性角色 (ATT) 获取主语和宾语的定 语部分。 8) 输出所有以主谓宾形式表示的实体关系。 该算法的核心思想就是根据事件关系顺序和 递归地查找所有的主谓宾结构,然后获取实体的 修饰成分。值得注意的是,由于实体关系之间存 在蕴含关系,一个事实可能为另外一个事实的成 分,需要采用迭代的方式来获取,3) 中最后获取 root 节点就体现了该过程。该算法能够有效地获 取句子中复杂的多元实体关系,避免无意义的实 体关系对抽取结果的影响。 2 实验结果分析 作为目前比较新的研究方向,多元实体关系 抽取尚缺乏权威的评测数据,在中文领域中目前 亦如此。为了获得更加客观公正的测试结果,同 时也为了验证算法的跨领域抽取能力,本文选取 了历史、经济、民族、科技、法律 5 个领域的文本 进行测试。其中经济和科技的文本属于口述性文 本,民族领域文本来源于百度百科,法律文本则 来自于法律条款,民族和法律领域的文本相对来 说更加标准规范。 本文从这些领域文本中选取了部分具有代表 性的句子作为评测数据,总共包含 167 个句子,其 中包含多个实体关系的句子总数为 149 个,客观 存在的实体关系总数为 408 对,抽取到的正确实 体关系数量为 214 对,由此可见,该方法获取到的 数量远大于二元实体关系抽取。 为了对具体领域的抽取效果有更直观的印 象,本文采用信息抽取中常用的指标对系统性能 进行评估,即正确率、召回率和 F 值。3 个指标的 数据来源于上述选取的 167 个句子。每个指标在 具体每个领域中的性能表现如表 1 所示。 表 1 本文算法在不同领域中的表现 Table 1 Performance of algorithm in this paper in different domains % 指标 历史 经济 民族 科技 法律 平均 准确率 50 70 69 68 77 67 召回率 29 67 59 70 60 57 F 值 37 69 63 69 68 61 从表 1 中数据可以看出,总体的指标达到了 60% 左右,取得了一定的效果,也证明了本文中 的方法具有一定可行性。在历史领域的文本中性 能较差,但在其他领域中都有不俗的表现,而且 在不同领域中的表现相对比较稳定,说明该方法 具有一定的跨领域能力。 表 2 中列出了本文与其他文献开放域实体 关系抽取的性能对比结果。其中,ZORE 是文献 [35]中提出的 ZORE 系统,使用句法分析结果抽 取中文开放域实体关系,与本文采用的方法类 似,该系统的准确率等指标是性能最佳情况下 的表现,该文献也是较早研究中文开放域实体 关系抽取的工作之一;UnCORE 是哈工大秦兵教 授在文献[30]中提出的面向大规模网络文本的 无指导中文开放式实体关系抽取模型,在该文 献中给出了正确率,但是因为文本规模较大,无 法统计召回率,因此相关指标没有给出;Kraken 是文献[23]在英文领域抽取多元实体关系的性 能表现,这也是英文多元实体关系抽取研究最 早的工作之一。 表 2 与其他开放域实体关系抽取系统性能对比 Table 2 Comparisons with other open domain entity relation extraction systems % 指标 ZORE UnCORE Kraken 本文 准确率 76.8 80 68 67 召回率 28.9 68 57 F 值 42 68 61 从表 2 中的数据可以看出,与 ZORE 相比, 本文的召回率更高,体现出本文从文本中抽取 到的实体关系数量更丰富,对于复杂句式效果 更好,同时 F 值也更高。与 UnCORE 系统相比, 本文的准确率不高,但是 UnCORE 系统是在大 规模文本环境下运行的,数据的冗余性使得准 确率得以提升,而召回率和 F 值这些指标却无 法统计。与 Kraken 系统相比,本文所有的指标 略有小幅下降,但是作为在中文领域中的一种 尝试,本文得到这样的运行表现证明该方法具 有一定的参考价值。 本文对实体关系抽取在不同领域错误的原因 进行分析,对抽取到的实体关系的错误部分与未 抽取到的实体关系进行了统计,将错误的原因大 致分成 6 种情形,具体每种错误在不同领域中的 占比如表 3 所示。 ·600· 智 能 系 统 学 报 第 14 卷
第3期 姚贤明,等:面向中文开放领域的多元实体关系抽取研究 ·601· 表3本文算法在不同领域中出现错误的原因及占比统计 Table 3 Case of errors and its proportion in different domain with method used in this paper % 序号 错误情形 错误描述 历史 经济 民族 科技 法律 占比 情形1 动词词性 13.25 18.52 17.34 14.49 61.19 27.30 情形2 动词相邻 11.92 10.19 1.45 4.35 1.53 6.62 3 情形3 实体在辅助结构中 49.01 41.67 31.79 50.72 2.29 32.96 4 情形4 主语填充 7.28 8.33 3.18 2.90 0.57 4.60 5 情形5 并列结构 14.57 12.04 26.01 5.80 28.68 19.41 6 情形6 其他 3.97 9.26 20.23 21.74 5.74 9.10 从表3可看出,导致错误的原因比较集中,主 加结构中。以句子“从公元前21世纪以后,相继 要包括情形1、情形3和情形5,占比总和达到了 出现了夏、商、西周几个王朝”为例,本例中包含 79.67%,这也为今后的工作指明了方向。对于每 实体关系(公元前21世纪以后,出现,夏王朝),此 种错误的分析如下: 处时间“公元前21世纪以后”虽然不是主语,但是 情形1动词词性导致的错误,名动词被标 作为时间修饰成分,同样也描述了基本的事实, 注为动词,导致名词性短语难以正确识别。本文 因此可作为实体关系而被抽取。但是在该句中, 使用的分词工具为哈尔滨工业大学LTP语言技 “从公元前21世纪以后”是作为ADV类型的状中 术平台B本地工具包(LTP4),工具中动词只包含 结构存在,本文采用的方法无法抽取到实体“公元 种类型“v”,该词性分类体系与北京理工大学 前21世纪以后”这种时间类型的实体词。该情形 的NLPIR刀采用的计算所汉语词性标记集不同, 是广泛存在于多元实体关系抽取中的问题,在错 后者将动词(v)分成了9种(vd、vn、vshi、vyou、 误中的总占比为32.96%,同时由于本文之前尚未 vf、vx、Vi、l、Vg)类型,每种类型的动词的作用更 定义该类型实体关系的抽取规则,几乎所有的实 加清晰。本文使用LTP平台的主要原因是该平 体关系都没有被检测到,因此增加此类实体抽取 台具有句法分析、依存分析等功能,同时该平台 规则将在很大程度上提升召回率。 的分词能力在本文所使用的语料中表现更佳。 情形4省略了主语情况下,主语的自动填 LTP平台对句子“三线建设,是1964年在毛 充结果带来的错误。在中文行文中,省略语与指 泽东同志和中共中央的决策下进行的一场以战备 代是广泛存在的现象,在实体关系抽取结果中占 为中心的经济建设战略”的词性标注结果为:“三 据非常大的比例。本文采用了简单的规则来弥补 线j建设N,wp是N1964年/nt.”,从本例中 此问题:在缺乏主语或存在代词的情况下,向前 可以看出本句的主语为“三线建设”,但是由于“建 一个语言片段寻找主语实体词,将找到的第一个 设”的词性为“v”,根据本文算法,会继续寻找其 主语作为被省略的主语或代词的实体词,如果在 主语,从而导致主语“三线建设”识别失败,但是 一个句子中前面位置找不到实体词,则向后寻 如果将其标注为动名词“vn”,则可以有效地提取 找。例如:语句“汉族是中国的主体民族,是上古 到该主语。从表2中可以看出,该问题导致抽取 时期黄帝和炎帝部落的后裔”,该句第二个语言片 失败的占比达到了27.30%,其影响非常大。本文 段表达的是“汉族是上古时期黄帝和炎帝部落的 曾尝试使用NLPIR对该问题进行修复,但是由于 后裔”,但是“汉族”本身是前一个语句的主语,通 分词结果不同,因此效果不佳。 过本文的主语填充规则可以轻松地获得事实(汉 情形2动词相邻,在位置上前后紧密连 族,是,上古时期黄帝部落后裔)和(汉族,是,上 接。以句子“毛泽东所说的‘屁股’,是指基础工 古时期炎帝部落后裔)。该方法有效地降低了主 业”,其分词结果为“,wp是W指W基础h工 语被省略的情况对实体抽取的影响。但是由于该 业v”。直观上说,“是指”可作为本句中的谓语, 方法过于简单,也带来了一些错误,如找到错误 然而由于在句法分析结果中二者是以VOB连接, 的主语,或主语找不到的情况。 因此会以情形1中相同的方式进行处理,从而导 情形5实体词存在并列的情况。实体词并 致错误的发生。 列出现的现象在文本中是广泛存在的,存在几个 情形3实体词(主语或宾语等)在句子的附 并列关系就存在几种事实,而本文的抽取规则尚
表 3 本文算法在不同领域中出现错误的原因及占比统计 Table 3 Case of errors and its proportion in different domain with method used in this paper % 序号 错误情形 错误描述 历史 经济 民族 科技 法律 占比 1 情形 1 动词词性 13.25 18.52 17.34 14.49 61.19 27.30 2 情形 2 动词相邻 11.92 10.19 1.45 4.35 1.53 6.62 3 情形 3 实体在辅助结构中 49.01 41.67 31.79 50.72 2.29 32.96 4 情形 4 主语填充 7.28 8.33 3.18 2.90 0.57 4.60 5 情形 5 并列结构 14.57 12.04 26.01 5.80 28.68 19.41 6 情形 6 其他 3.97 9.26 20.23 21.74 5.74 9.10 从表 3 可看出,导致错误的原因比较集中,主 要包括情形 1、情形 3 和情形 5,占比总和达到了 79.67%,这也为今后的工作指明了方向。对于每 种错误的分析如下: 情形 1 动词词性导致的错误,名动词被标 注为动词,导致名词性短语难以正确识别。本文 使用的分词工具为哈尔滨工业大学 LTP 语言技 术平台[36]本地工具包 (LTP4J),工具中动词只包含 一种类型“v”,该词性分类体系与北京理工大学 的 NLPIR[37]采用的计算所汉语词性标记集不同, 后者将动词 (v) 分成了 9 种 (vd、vn、vshi、vyou、 vf、vx、vi、vl、vg) 类型,每种类型的动词的作用更 加清晰。本文使用 LTP 平台的主要原因是该平 台具有句法分析、依存分析等功能,同时该平台 的分词能力在本文所使用的语料中表现更佳。 LTP 平台对句子“三线建设,是 1964 年在毛 泽东同志和中共中央的决策下进行的一场以战备 为中心的经济建设战略”的词性标注结果为:“三 线/j 建设/v,/wp 是/v 1964 年/nt······”,从本例中 可以看出本句的主语为“三线建设”,但是由于“建 设”的词性为“v”,根据本文算法,会继续寻找其 主语,从而导致主语“三线建设”识别失败,但是 如果将其标注为动名词“vn”,则可以有效地提取 到该主语。从表 2 中可以看出,该问题导致抽取 失败的占比达到了 27.30%,其影响非常大。本文 曾尝试使用 NLPIR 对该问题进行修复,但是由于 分词结果不同,因此效果不佳。 情形 2 动词相邻,在位置上前后紧密连 接。以句子“毛泽东所说的‘屁股’,是指基础工 业”,其分词结果为“······,/wp 是/v 指/v 基础/n 工 业/v”。直观上说,“是指”可作为本句中的谓语, 然而由于在句法分析结果中二者是以 VOB 连接, 因此会以情形 1 中相同的方式进行处理,从而导 致错误的发生。 情形 3 实体词 (主语或宾语等) 在句子的附 加结构中。以句子“从公元前 21 世纪以后,相继 出现了夏、商、西周几个王朝”为例,本例中包含 实体关系 (公元前 21 世纪以后,出现,夏王朝),此 处时间“公元前 21 世纪以后”虽然不是主语,但是 作为时间修饰成分,同样也描述了基本的事实, 因此可作为实体关系而被抽取。但是在该句中, “从公元前 21 世纪以后”是作为 ADV 类型的状中 结构存在,本文采用的方法无法抽取到实体“公元 前 21 世纪以后”这种时间类型的实体词。该情形 是广泛存在于多元实体关系抽取中的问题,在错 误中的总占比为 32.96%,同时由于本文之前尚未 定义该类型实体关系的抽取规则,几乎所有的实 体关系都没有被检测到,因此增加此类实体抽取 规则将在很大程度上提升召回率。 情形 4 省略了主语情况下,主语的自动填 充结果带来的错误。在中文行文中,省略语与指 代是广泛存在的现象,在实体关系抽取结果中占 据非常大的比例。本文采用了简单的规则来弥补 此问题:在缺乏主语或存在代词的情况下,向前 一个语言片段寻找主语实体词,将找到的第一个 主语作为被省略的主语或代词的实体词,如果在 一个句子中前面位置找不到实体词,则向后寻 找。例如:语句“汉族是中国的主体民族,是上古 时期黄帝和炎帝部落的后裔”,该句第二个语言片 段表达的是“汉族是上古时期黄帝和炎帝部落的 后裔”,但是“汉族”本身是前一个语句的主语,通 过本文的主语填充规则可以轻松地获得事实 (汉 族,是,上古时期黄帝部落后裔) 和 (汉族,是,上 古时期炎帝部落后裔)。该方法有效地降低了主 语被省略的情况对实体抽取的影响。但是由于该 方法过于简单,也带来了一些错误,如找到错误 的主语,或主语找不到的情况。 情形 5 实体词存在并列的情况。实体词并 列出现的现象在文本中是广泛存在的,存在几个 并列关系就存在几种事实,而本文的抽取规则尚 第 3 期 姚贤明,等:面向中文开放领域的多元实体关系抽取研究 ·601·