工程科学学报 Chinese Journal of Engineering 知识图谱的最新进展、关键技术和挑战 马忠贵倪润宇余开航 Recent advances,key techniques and future challenges of knowledge graph MA Zhong-gui,NI Run-yu,YU Kai-hang 引用本文: 马忠贵,倪润宇,余开航.知识图谱的最新进展、关键技术和挑战[J.工程科学学报,2020,42(10:1254-1266.doi: 10.13374j.issn2095-9389.2020.02.28.001 MA Zhong-gui,NI Run-yu,YU Kai-hang.Recent advances,key techniques and future challenges of knowledge graph[J].Chinese Journal of Engineering,.2020.42(10y:1254-1266.doi:10.13374j.issn2095-9389.2020.02.28.001 在线阅读View online::htps:/doi.org/10.13374.issn2095-9389.2020.02.28.001 您可能感兴趣的其他文章 Articles you may be interested in 钢包工作衬用耐火材料的研究现状及最新进展 Current research and latest developments on refractories used as ladle linings 工程科学学报.2019,41(6:695 https:/doi.org10.13374.issn2095-9389.2019.06.001 基于CART决策树的冲压成形仿真数据挖掘 Data mining of deep drawing simulation results based on CART decision tree theory 工程科学学报.2018.40(11):1373htps:/doi.org10.13374.issn2095-9389.2018.11.011 脉动热管的理论研究与应用新进展 New progress in the theoretical research and application of pulsating heat pipe 工程科学学报.2019,41(9%:1115htps:1doi.org/10.13374j.issn2095-9389.2019.09.002 中国膏体技术发展现状与趋势 Status and prospects of paste technology in China 工程科学学报.2018,40(5:517 https:oi.org10.13374.issn2095-9389.2018.05.001 基于文本语料的涉恐事件实体属性抽取 Entity and attribute extraction of terrorism event based on text corpus 工程科学学报.2020,42(4:500 https:/doi.org10.13374.issn2095-9389.2019.09.13.003 区块链技术及其研究进展 Survey of blockchain technology and its advances 工程科学学报.2019,41(11):1361 https:/1oi.org/10.13374.issn2095-9389.2019.03.26.004
知识图谱的最新进展、关键技术和挑战 马忠贵 倪润宇 余开航 Recent advances, key techniques and future challenges of knowledge graph MA Zhong-gui, NI Run-yu, YU Kai-hang 引用本文: 马忠贵, 倪润宇, 余开航. 知识图谱的最新进展、关键技术和挑战[J]. 工程科学学报, 2020, 42(10): 1254-1266. doi: 10.13374/j.issn2095-9389.2020.02.28.001 MA Zhong-gui, NI Run-yu, YU Kai-hang. Recent advances, key techniques and future challenges of knowledge graph[J]. Chinese Journal of Engineering, 2020, 42(10): 1254-1266. doi: 10.13374/j.issn2095-9389.2020.02.28.001 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.02.28.001 您可能感兴趣的其他文章 Articles you may be interested in 钢包工作衬用耐火材料的研究现状及最新进展 Current research and latest developments on refractories used as ladle linings 工程科学学报. 2019, 41(6): 695 https://doi.org/10.13374/j.issn2095-9389.2019.06.001 基于CART决策树的冲压成形仿真数据挖掘 Data mining of deep drawing simulation results based on CART decision tree theory 工程科学学报. 2018, 40(11): 1373 https://doi.org/10.13374/j.issn2095-9389.2018.11.011 脉动热管的理论研究与应用新进展 New progress in the theoretical research and application of pulsating heat pipe 工程科学学报. 2019, 41(9): 1115 https://doi.org/10.13374/j.issn2095-9389.2019.09.002 中国膏体技术发展现状与趋势 Status and prospects of paste technology in China 工程科学学报. 2018, 40(5): 517 https://doi.org/10.13374/j.issn2095-9389.2018.05.001 基于文本语料的涉恐事件实体属性抽取 Entity and attribute extraction of terrorism event based on text corpus 工程科学学报. 2020, 42(4): 500 https://doi.org/10.13374/j.issn2095-9389.2019.09.13.003 区块链技术及其研究进展 Survey of blockchain technology and its advances 工程科学学报. 2019, 41(11): 1361 https://doi.org/10.13374/j.issn2095-9389.2019.03.26.004
工程科学学报.第42卷.第10期:1254-1266.2020年10月 Chinese Journal of Engineering,Vol.42,No.10:1254-1266,October 2020 https://doi.org/10.13374/j.issn2095-9389.2020.02.28.001;http://cje.ustb.edu.cn 知识图谱的最新进展、关键技术和挑战 马忠贵区,倪润宇,余开航 北京科技大学计算机与通信工程学院.北京100083 ☒通信作者,E-mail:zhongguima@ustb.edu.cn 摘要围绕知识图谱的全生命周期技术,从知识抽取、知识融合、知识推理、知识应用几个层面展开综述,重点介绍了知识 融合技术和知识推理技术.通过知识抽取技术,可从已有的结构化、半结构化、非结构化样本源以及一些开源的百科类网站 抽取实体、关系、属性等知识要素.通过知识融合,可消除实体、关系、属性等指称项与实体对象之间的歧义,得到一系列基 本的事实表达.通过本体抽取、知识推理和质量评估形成最终的知识图谱库.按照知识抽取、知识融合、知识推理3个步骤 对知识图谱迭代更新,实现碎片化的互联网知识的自动抽取、自动关联和融合、自动加工,从而拥有词条自动化链接、词条编 辑辅助功能,最终达成全流程自动化知识获取的目标.最后,讨论知识图谱未来的发展方向与可能存在的挑战 关键词知识工程:知识图谱:知识融合:知识推理:知识抽取与表示 分类号TP391.1 Recent advances,key techniques and future challenges of knowledge graph MA Zhong-gu,NI Run-yu,YU Kai-hang School of Computer and Communication Engineering,University of Science and Technology Beijing,Beijing 100083,China Corresponding author,E-mail:zhongguima @ustb.edu.cn ABSTRACT The Google knowledge graph is a knowledge base used by Google and its services to enhance the search engine's results with information gathered from a variety of sources.Since its inception by Google to improve users'quality of experience of the search engine,the knowledge graph has become a term that is recently ubiquitously used in medical,education,finance,e-commerce and other industries to promote artificial intelligence (Al),which evolves from perceptual intelligence to cognitive intelligence.As a branch of knowledge engineering,a knowledge graph is based on the semantic network of knowledge engineering,and it combines the latest advancements achieved in machine learning,natural language processing,knowledge representation,and inference.Both academia and industries are showing keen interest in Al,and several studies are in progress under promotion of big data.With its powerful semantic processing and open interconnection capabilities,the knowledge graph can break the data isolation in different scenarios,and can generate application value in intelligent information services such as intelligent search and recommendation,intelligent question answering,and content distribution networks,thereby making information services more intelligent.The state of the art of knowledge graph technologies is outlined by introducing a process of building a knowledge graph.A knowledge graph is a structured representation of facts,consisting of entities,relations and semantic descriptions.A comprehensive summary of the overall lifecycle technologies of the knowledge graph is provided,including knowledge extraction,knowledge fusion,knowledge reasoning,and knowledge application.But the focus is on knowledge fusion and knowledge reasoning.Entities,relations,attributes,and other knowledge elements can be extracted from existing structured,semi-structured,unstructured data sources,and websites given in encyclopedia using knowledge extraction. With knowledge fusion,the ambiguity between referential items such as entities,relations,and attributes can be eliminated,and a series of basic facts can be obtained.The final knowledge base is formed through ontology extraction,knowledge reasoning and quality 收稿日期:2020-02-28 基金项目:中央高校基本科研业务费专项资金资助项目(FRF-DF-20-12,FRF-GF-18-017B)
知识图谱的最新进展、关键技术和挑战 马忠贵苣,倪润宇,余开航 北京科技大学计算机与通信工程学院,北京 100083 苣通信作者,E-mail:zhongguima@ustb.edu.cn 摘 要 围绕知识图谱的全生命周期技术,从知识抽取、知识融合、知识推理、知识应用几个层面展开综述,重点介绍了知识 融合技术和知识推理技术. 通过知识抽取技术,可从已有的结构化、半结构化、非结构化样本源以及一些开源的百科类网站 抽取实体、关系、属性等知识要素. 通过知识融合,可消除实体、关系、属性等指称项与实体对象之间的歧义,得到一系列基 本的事实表达. 通过本体抽取、知识推理和质量评估形成最终的知识图谱库. 按照知识抽取、知识融合、知识推理 3 个步骤 对知识图谱迭代更新,实现碎片化的互联网知识的自动抽取、自动关联和融合、自动加工,从而拥有词条自动化链接、词条编 辑辅助功能,最终达成全流程自动化知识获取的目标. 最后,讨论知识图谱未来的发展方向与可能存在的挑战. 关键词 知识工程;知识图谱;知识融合;知识推理;知识抽取与表示 分类号 TP391.1 Recent advances, key techniques and future challenges of knowledge graph MA Zhong-gui苣 ,NI Run-yu,YU Kai-hang School of Computer and Communication Engineering, University of Science and Technology Beijing, Beijing 100083, China 苣 Corresponding author, E-mail: zhongguima@ustb.edu.cn ABSTRACT The Google knowledge graph is a knowledge base used by Google and its services to enhance the search engine's results with information gathered from a variety of sources. Since its inception by Google to improve users' quality of experience of the search engine, the knowledge graph has become a term that is recently ubiquitously used in medical, education, finance, e-commerce and other industries to promote artificial intelligence (AI), which evolves from perceptual intelligence to cognitive intelligence. As a branch of knowledge engineering, a knowledge graph is based on the semantic network of knowledge engineering, and it combines the latest advancements achieved in machine learning, natural language processing, knowledge representation, and inference. Both academia and industries are showing keen interest in AI, and several studies are in progress under promotion of big data. With its powerful semantic processing and open interconnection capabilities, the knowledge graph can break the data isolation in different scenarios, and can generate application value in intelligent information services such as intelligent search and recommendation, intelligent question answering, and content distribution networks, thereby making information services more intelligent. The state of the art of knowledge graph technologies is outlined by introducing a process of building a knowledge graph. A knowledge graph is a structured representation of facts, consisting of entities, relations and semantic descriptions. A comprehensive summary of the overall lifecycle technologies of the knowledge graph is provided, including knowledge extraction, knowledge fusion, knowledge reasoning, and knowledge application. But the focus is on knowledge fusion and knowledge reasoning. Entities, relations, attributes, and other knowledge elements can be extracted from existing structured, semi-structured, unstructured data sources, and websites given in encyclopedia using knowledge extraction. With knowledge fusion, the ambiguity between referential items such as entities, relations, and attributes can be eliminated, and a series of basic facts can be obtained. The final knowledge base is formed through ontology extraction, knowledge reasoning and quality 收稿日期: 2020−02−28 基金项目: 中央高校基本科研业务费专项资金资助项目(FRF-DF-20-12, FRF-GF-18-017B) 工程科学学报,第 42 卷,第 10 期:1254−1266,2020 年 10 月 Chinese Journal of Engineering, Vol. 42, No. 10: 1254−1266, October 2020 https://doi.org/10.13374/j.issn2095-9389.2020.02.28.001; http://cje.ustb.edu.cn
马忠贵等:知识图谱的最新进展、关键技术和挑战 ·1255 evaluation.Following the three steps of knowledge extraction,knowledge fusion,and knowledge reasoning,it can iteratively update the knowledge graph and realize full process automation knowledge acquisition,such as realizing the automatic extraction,automatic association and fusion,automatic processing of fragmented Internet knowledge,and realizing automatic linking of entries and auxiliary functions of entry editing.Finally,the future directions and possible challenges of the knowledge graph are discussed. KEY WORDS knowledge engineering;knowledge graph;knowledge fusion;knowledge reasoning:knowledge extraction and representation 随着知识的不断积累和科学的飞速发展,人 维.限于篇幅,针对知识图谱的4个关键技术进行 类社会进行了多次改变社会结构的重大生产力革 了取舍,重点介绍了知识融合与知识推理技术的 命.最近的生产力革命正是由Wb技术发展引发 最新进展.同时,简要介绍了知识图谱目前的挑战 的信息革命.伴随着Web技术不断地演进与发 并展望了未来的发展方向 展,人类即将迈向基于知识互联的崭新“wb3.0” 1知识抽取与表示 时代川.受语义网络(Semantic network)和语义网 (Semantic web)的启发,Google公司提出了知识图 对于知识图谱而言,首要的问题是:如何从海 谱(Knowledge graph)闪,目的是为了提高搜索引擎 量的数据提取有用信息并将得到的信息有效表示 的智能能力,增强用户的搜索质量和体验.随后, 并储存,就是所谓的知识抽取与表示技术.知识抽 这一概念被传播开来,并广泛应用于医疗、教育、 取与表示,也可以称为信息抽取,其目标主要是从 金融、电商等行业中,推动人工智能从感知智能向 样本源中抽取特定种类的信息,例如实体、关系和 认知智能跨越.目前,已经涌现出一大批知识图 属性,并将这些信息通过一定形式表达并储存.对 谱,其中国外具有代表性的有YAGO!)、DBpedia、 于知识图谱,一般而言采用DF描述知识,形式上 Freebase、NELL、Probase等;国内出现了开放知 将有效信息表示为(主语,谓语,宾语)三元组的结 识图谱项目OpenKG,中文知识图谱CN-DBpedia9、 构,某些文献中也表示为(头实体,关系,尾实体) zhishi.meIo等.知识图谱的本质是连接实体间关 的结构.针对信息抽取种类的不同,知识抽取又可 系的图,即揭示实体之间关系的语义网络叫,普遍 分为实体抽取、关系抽取以及属性抽取.图1展示 采用资源描述框架(Resource description framework, 了知识图谱的技术架构. RDF)来描述知识.知识图谱全生命周期主要包括 实体抽取也称为命名实体识别,主要目标是 3种关键技术:(1)从样本源中获取数据,并将其表 从样本源中识别出命名实体.实体是知识图谱最 示为结构化知识的知识抽取与表示技术;(2)融合 基本的元素,实体抽取的完整性、准确率、召回率 异源知识的知识融合技术:(3)根据知识图谱中已 将直接影响知识图谱的质量).文献将实体抽 有的知识进行知识推理和质量评估 取的方法归纳为3种:(1)基于规则与词典的方法 近几年,越来越多的学者将目光聚焦在了认 通常需要为目标实体编写相应的规则,然后在原 知智能上,知识图谱受到越来越广泛的关注.除了 始语料中进行匹配,Quimbaya等2o提出了一个基 知识图谱的技术文章爆发式增长之外,综述文章 于词典的实体抽取方法,并应用于电子健康记录 也越来越多.文献[1]针对知识图谱的相关技术 (2)基于统计机器学习的方法.主要利用数据来对 进行了全面解析,文献12-13]综述了知识图谱核 模型进行训练,然后再利用训练好的模型去识别 心技术的研究进展以及典型应用,文献[14总结 实体,Liu等将K近邻(K-nearest neighbors,.KNN) 了面向知识图谱的推理方法并展望了未来的研究 算法和线性条件随机场(Conditional random fields, 方向,文献[15]定义知识图谱与本体的关系并简述 CRF)模型结合来识别实体,(3)面向开放域的 了已开发的国内外知识图谱.2019年年末和2020 抽取方法,主要是针对海量网络数据,Jain与 年年初,国内有3本知识图谱的专著问世6,我 Pennacchiotti2四提出通过已知实体的语义特征来 们有了写作本论文的动机.与已有的综述文献相 识别命名实体,并提出实体聚类的无监督开放域 比,本文的主要贡献如下:梳理了知识图谱全生命 聚类算法.Zhang与Elhadad2]提出一个无监督的 周期技术,从知识抽取与表示、知识融合、知识推 实体抽取方法,利用术语、语料库统计信息以及浅 理、知识应用4个层面展开综述,建立方法论思 层语法知识从生物医学中抽取实体
evaluation. Following the three steps of knowledge extraction, knowledge fusion, and knowledge reasoning, it can iteratively update the knowledge graph and realize full process automation knowledge acquisition, such as realizing the automatic extraction, automatic association and fusion, automatic processing of fragmented Internet knowledge, and realizing automatic linking of entries and auxiliary functions of entry editing. Finally, the future directions and possible challenges of the knowledge graph are discussed. KEY WORDS knowledge engineering; knowledge graph; knowledge fusion; knowledge reasoning; knowledge extraction and representation 随着知识的不断积累和科学的飞速发展,人 类社会进行了多次改变社会结构的重大生产力革 命. 最近的生产力革命正是由 Web 技术发展引发 的信息革命. 伴随着 Web 技术不断地演进与发 展,人类即将迈向基于知识互联的崭新“Web3.0” 时代[1] . 受语义网络(Semantic network)和语义网 (Semantic web)的启发,Google 公司提出了知识图 谱(Knowledge graph) [2] ,目的是为了提高搜索引擎 的智能能力,增强用户的搜索质量和体验. 随后, 这一概念被传播开来,并广泛应用于医疗、教育、 金融、电商等行业中,推动人工智能从感知智能向 认知智能跨越. 目前,已经涌现出一大批知识图 谱,其中国外具有代表性的有 YAGO[3]、DBpedia[4]、 Freebase[5]、NELL[6]、Probase[7] 等;国内出现了开放知 识图谱项目 OpenKG[8] ,中文知识图谱 CN-DBpedia[9]、 zhishi.me[10] 等. 知识图谱的本质是连接实体间关 系的图,即揭示实体之间关系的语义网络[11] ,普遍 采用资源描述框架(Resource description framework, RDF)来描述知识. 知识图谱全生命周期主要包括 3 种关键技术:(1)从样本源中获取数据,并将其表 示为结构化知识的知识抽取与表示技术;(2)融合 异源知识的知识融合技术;(3)根据知识图谱中已 有的知识进行知识推理和质量评估. 近几年,越来越多的学者将目光聚焦在了认 知智能上,知识图谱受到越来越广泛的关注. 除了 知识图谱的技术文章爆发式增长之外,综述文章 也越来越多. 文献 [11] 针对知识图谱的相关技术 进行了全面解析,文献 [12−13] 综述了知识图谱核 心技术的研究进展以及典型应用,文献 [14] 总结 了面向知识图谱的推理方法并展望了未来的研究 方向,文献 [15] 定义知识图谱与本体的关系并简述 了已开发的国内外知识图谱. 2019 年年末和 2020 年年初,国内有 3 本知识图谱的专著问世[16−18] ,我 们有了写作本论文的动机. 与已有的综述文献相 比,本文的主要贡献如下:梳理了知识图谱全生命 周期技术,从知识抽取与表示、知识融合、知识推 理、知识应用 4 个层面展开综述,建立方法论思 维. 限于篇幅,针对知识图谱的 4 个关键技术进行 了取舍,重点介绍了知识融合与知识推理技术的 最新进展. 同时,简要介绍了知识图谱目前的挑战 并展望了未来的发展方向. 1 知识抽取与表示 对于知识图谱而言,首要的问题是:如何从海 量的数据提取有用信息并将得到的信息有效表示 并储存,就是所谓的知识抽取与表示技术. 知识抽 取与表示,也可以称为信息抽取,其目标主要是从 样本源中抽取特定种类的信息,例如实体、关系和 属性,并将这些信息通过一定形式表达并储存. 对 于知识图谱,一般而言采用 RDF 描述知识,形式上 将有效信息表示为(主语,谓语,宾语)三元组的结 构,某些文献中也表示为(头实体,关系,尾实体) 的结构. 针对信息抽取种类的不同,知识抽取又可 分为实体抽取、关系抽取以及属性抽取. 图 1 展示 了知识图谱的技术架构. 实体抽取也称为命名实体识别,主要目标是 从样本源中识别出命名实体. 实体是知识图谱最 基本的元素,实体抽取的完整性、准确率、召回率 将直接影响知识图谱的质量[12] . 文献[19] 将实体抽 取的方法归纳为 3 种:(1)基于规则与词典的方法. 通常需要为目标实体编写相应的规则,然后在原 始语料中进行匹配,Quimbaya 等[20] 提出了一个基 于词典的实体抽取方法,并应用于电子健康记录. (2)基于统计机器学习的方法. 主要利用数据来对 模型进行训练,然后再利用训练好的模型去识别 实体,Liu 等[21] 将 K 近邻(K-nearest neighbors,KNN) 算法和线性条件随机场(Conditional random fields, CRF)模型结合来识别实体. ( 3)面向开放域的 抽取方法 . 主要是针对海量网络数据 , Jain 与 Pennacchiotti[22] 提出通过已知实体的语义特征来 识别命名实体,并提出实体聚类的无监督开放域 聚类算法. Zhang 与 Elhadad[23] 提出一个无监督的 实体抽取方法,利用术语、语料库统计信息以及浅 层语法知识从生物医学中抽取实体. 马忠贵等: 知识图谱的最新进展、关键技术和挑战 · 1255 ·
.1256 工程科学学报.第42卷,第10期 Knowledge Other knowledge bases applications Intelligent search Structured data Knowledge Knowledge combination reasoning Intelligent recommendation Semi- Entity extraction Question structured Entity Quality answering data disambiguation evaluation Relation extraction Unstructured Entity alignment data Attribute extraction Knowledge extraction Knowledge fusion Knowledge Data sources graph 图1知识图谐的技术架构 Fig.I Architecture of the Knowledge Graph 通过实体抽取获取的实体之间往往是离散且 的结果.最近的工作通过强化学习来处理句子级 无关联的.通过关系抽取,可以建立起实体间的语 的去噪,这种学习将来自远程监督的标签视为事 义链接.关系抽取技术主要分为3种:(1)基于模 实.然而,很少有工作专注于直接校正噪声标签的 板的关系抽取.使用模板通过人工或者机器学习 标签级降噪.Sun等o提出了一种基于强化学习 的方法抽取实体关系,虽然准确率高且针对性强, 的标签去噪方法,用于远程监督关系提取.该模型 但是其也具有不适用于大规模数据集、低召回 由两个模块组成:抽取网络和策略网络.标签去噪 率、难以维护等缺点.(2)基于监督学习的关系抽 的核心是在策略网络中设计一个策略来获取潜在 取.将大量人工标注的数据送入模型中训练,刘克 标签,可以在其中选择使用远距离监督标签或从 彬等24根据本体知识库训练模型,在开放数据集 抽取网络预测标签的操作.实验结果表明,强化学 中对关系进行抽取,取得了极高的准确率.Sun与 习对于噪声标签的校正是有效的,并且所提出的 Han提出了名为FTK(Feature-enriched tree kernel) 方法可以胜过最新的关系抽取系统 的模型,利用设计好的有效特征训练,计算关系实 属性抽取的目标是补全实体信息,通过从样 例相似度并通过支持向量机对关系进行分类.(3) 本源中获取实体属性信息或属性值.实体属性可 基于半监督或无监督学习的关系抽取.基于少量 以看作是属性值与实体间的一种关系,因而可以 人工标注数据或者无标注数据,使用最大期望 通过关系抽取的解决思路来获得.Wu与weld (Expectation maximization)等算法的半监督关系抽 利用百科类网站的半结构化数据,训练抽取模型, 取方法进行关系抽取.Sun与Grishman2提出名 之后将抽取模型应用在非结构化数据中抽取属 为LGCo-Testing的主动学习系统,Fu与Grishman7 性.Chang等B提出了基于张量分解的关系抽取 则进一步优化了这个系统.Ji等提出基于句子 方法,这一方法也可以应用在属性抽取中,通过利 级注意力和实体描述的神经网络关系抽取模型 用关于实体种类相应的领域知识来更好地获得实 APCNNS.该模型实际采用了多示例学习的策略, 体所缺少的属性值 将同一关系的样例句子组成样例包,关系分类是 2知识融合 基于样例包的特征进行的.实验结果表明,该模型 可以有效地提高远程监督关系抽取的准确率.在 通过知识抽取与表示,初步获得了数量可观 采用多示例学习策略时,有可能出现整个样例包 的形式化知识.由于知识来源的不同,导致知识的 都包含大量噪声的情况.针对这一问题,Feng等9, 质量参差不齐,知识之间存在着冲突或者重叠.此 提出了基于强化学习的关系分类模型CNN-RL 时初步建立的知识图谱,知识的数量和质量都有 Convolutional neural networks and reinforcement 待提高.应用知识融合技术对多源知识进行处理, learning),该模型包括2个重要模块:样例选择器 一方面提升知识图谱的质量,另一方面丰富知识 和关系分类器.实验结果表明:该模型获得了比句 的存量.Zhao等B]对最新的知识融合进行了综 子级卷积神经网络和样例包级关系分类模型更好 述.早期的知识融合是通过传统的数据融合方法
通过实体抽取获取的实体之间往往是离散且 无关联的. 通过关系抽取,可以建立起实体间的语 义链接. 关系抽取技术主要分为 3 种:(1)基于模 板的关系抽取. 使用模板通过人工或者机器学习 的方法抽取实体关系,虽然准确率高且针对性强, 但是其也具有不适用于大规模数据集、低召回 率、难以维护等缺点. (2)基于监督学习的关系抽 取. 将大量人工标注的数据送入模型中训练,刘克 彬等[24] 根据本体知识库训练模型,在开放数据集 中对关系进行抽取,取得了极高的准确率. Sun 与 Han[25] 提出了名为 FTK(Feature-enriched tree kernel) 的模型,利用设计好的有效特征训练,计算关系实 例相似度并通过支持向量机对关系进行分类. (3) 基于半监督或无监督学习的关系抽取. 基于少量 人工标注数据或者无标注数据,使用最大期望 (Expectation maximization)等算法的半监督关系抽 取方法进行关系抽取. Sun 与 Grishman[26] 提出名 为 LGCo-Testing 的主动学习系统,Fu 与 Grishman[27] 则进一步优化了这个系统. Ji 等[28] 提出基于句子 级注意力和实体描述的神经网络关系抽取模型 APCNNS. 该模型实际采用了多示例学习的策略, 将同一关系的样例句子组成样例包,关系分类是 基于样例包的特征进行的. 实验结果表明,该模型 可以有效地提高远程监督关系抽取的准确率. 在 采用多示例学习策略时,有可能出现整个样例包 都包含大量噪声的情况. 针对这一问题,Feng 等[29] 提出了基于强化学习的关系分类模型 CNN-RL ( Convolutional neural networks and reinforcement learning),该模型包括 2 个重要模块:样例选择器 和关系分类器. 实验结果表明:该模型获得了比句 子级卷积神经网络和样例包级关系分类模型更好 的结果. 最近的工作通过强化学习来处理句子级 的去噪,这种学习将来自远程监督的标签视为事 实. 然而,很少有工作专注于直接校正噪声标签的 标签级降噪. Sun 等[30] 提出了一种基于强化学习 的标签去噪方法,用于远程监督关系提取. 该模型 由两个模块组成:抽取网络和策略网络. 标签去噪 的核心是在策略网络中设计一个策略来获取潜在 标签,可以在其中选择使用远距离监督标签或从 抽取网络预测标签的操作. 实验结果表明,强化学 习对于噪声标签的校正是有效的,并且所提出的 方法可以胜过最新的关系抽取系统. 属性抽取的目标是补全实体信息,通过从样 本源中获取实体属性信息或属性值. 实体属性可 以看作是属性值与实体间的一种关系,因而可以 通过关系抽取的解决思路来获得. Wu 与 Weld[31] 利用百科类网站的半结构化数据,训练抽取模型, 之后将抽取模型应用在非结构化数据中抽取属 性. Chang 等[32] 提出了基于张量分解的关系抽取 方法,这一方法也可以应用在属性抽取中,通过利 用关于实体种类相应的领域知识来更好地获得实 体所缺少的属性值. 2 知识融合 通过知识抽取与表示,初步获得了数量可观 的形式化知识. 由于知识来源的不同,导致知识的 质量参差不齐,知识之间存在着冲突或者重叠. 此 时初步建立的知识图谱,知识的数量和质量都有 待提高. 应用知识融合技术对多源知识进行处理, 一方面提升知识图谱的质量,另一方面丰富知识 的存量. Zhao 等[33] 对最新的知识融合进行了综 述. 早期的知识融合是通过传统的数据融合方法 Other knowledge bases Entity disambiguation Entity alignment Knowledge fusion Knowledge combination Knowledge reasoning Entity extraction Relation extraction Attribute extraction Knowledge extraction Quality evaluation Knowledge graph Structured data Semistructured data Unstructured data Data sources Knowledge applications Intelligent search Intelligent recommendation Question answering …… 图 1 知识图谱的技术架构 Fig.1 Architecture of the Knowledge Graph · 1256 · 工程科学学报,第 42 卷,第 10 期
马忠贵等:知识图谱的最新进展、关键技术和挑战 1257 完成,Dong等B比较了传统的数据融合方法,选 同的支持向量机的核函数来学习不同的集成学习 择了几种方法改良,并应用到知识融合中.随着知 算法,例如bagging、boosing、voting等.具体流程 识图谱的飞速发展,目前也出现了专门的知识融 是将命名实体作为输入,根据Wikipedia中的知识 合方法.下面从实体消歧、实体对齐和知识合并 生成候选实体,构造特征向量,最后送入集成学习 3个方面进行综述 模块里完成实体消歧, 2.1实体消歧 值得一提的是,Agarwal等提出了利用时间 对于知识图谱中的每一个实体都应有清晰的 的实体消歧思路,通过计算实体的时序特征来和 指向,即明确对应某个现实世界中存在的事物.初 输入的命名实体上下文的时序比较,即使命名实 步构建的知识图谱中,因数据来源复杂,存在着同 体的上下文提供的信息不充分也可以完成实体消 名异义的实体例如,名称为“乔丹”的实体既可以 歧任务.Dong)将基于相似度特征的随机森林模 指美国著名篮球运动员,也可以指葡萄牙足球运 型和基于XGBoost、基于逻辑回归以及基于神经 动员,还可以指某个运动品牌.为了确保每一个实 网络的方法进行比较,随机森林模型不仅拥有极 体有明确的含义,采用实体消歧技术来使得同名 高的准确率和召回率,且不像XGBoost和神经网 实体得以区分, 络那样容易受到超参数的影响,在实体消歧任务 利用已有的知识库和知识图谱中隐含的信息 中表现突出 来帮助进行语义消歧,Han与ZhaoBs提出使用维 2.2实体对齐 基百科(Wikipedia)作为背景知识,通过利用 在现实生活中,一个事物对应着不止一个称 Wikipedia的语义知识,例如社会关系来更精确地 呼,例如,“中华人民共和国”和“中国”都对应于 衡量实体间的相似性,从而提升实体消歧的效果, 同一个实体.在知识图谱中也同样存在着同义异 Sen提出了主题模型,利用知识库中存在的文本 名的实体,通过实体对齐,将这些实体指向同一客 信息,学习共有实体组来实现实体集体消歧 观事物.苏佳林等提出基于决策树的自适应属 Guo与Barbosa!刃基于语义相似性的自然概念提 性选择的实体对齐方法.通过联合学习将实体嵌 出了两个针对集体消歧的方法.通过在知识库上 入表示在一个向量空间后,由信息增益选出最优 知识子图中随机游走得到的概率分布来表示实体 约束属性,训练实体对齐模型,计算最优约束属性 和文档的语义,之后基于迭代的贪婪逼近算法和 相似度和实体语义相似度完成实体对齐 学习排序的方法来进行实体消歧任务,Zhu与 Cheng等I提出了一个全自动的实体对齐框架, Iglesias提出了基于语义上下文相似度的命名实 包括候选实体生成器、选择器和清理器,利用搜索 体消歧方法,基于上下文和知识图谱中实体的信 引擎使用者的查询信息和查询后的点击记录,计算 息词之间的语义相似度来进行实体消歧.另外还 出实体间的相似度,完成实体对齐任务.Pantel等s 提出了Category2Vec模型,将目录也用嵌入向量 提出了一个大规模相似性模型,在MapReduce框 的形式表示出来.主要思想是候选实体和上下文 架下实施并且部署了超过2000亿从互联网上爬取 单词间应存在语义联系,利用该联系来帮助选出 得到的单词.通过计算5亿terms得到的相似度矩 正确的实体 阵来进行实体对齐任务.Chakrabarti等刃通过一 在线百科全书由专家和网络用户编写,有着 个同义发现框架将实体相似性作为输入生成一个 高覆盖率和结构信息丰富的特点.Shen等B9提出 满足简单自然属性的同义词,提出了两种新的相 LINDEN(A framework for Linking named entities 似性度量法,并通过在bing系统上实际应用,发现 with knowledge base via semantic knowledge)模型, 可以有效识别同义词.Mudgal等s1综述了基于深 同时利用Wikipedia和WordNet,基于文本相似性 度学习的实体对齐方法,通过将这些方法分类,分 和主题一致性进行实体消歧.Ratinov等o提出名 别组合设计空间中属性嵌人、属性相似度表示、 GLOW(Global and local approaches of Wikipedia) 分类的各个方法,得到最具代表性的平滑倒词频 的系统,GLOW组合捕捉实体指称与Wikipedia题 (Smooth inverse frequency,.SIF)、循环神经网络 目间的相关性的本地模型和选择准确歧义语境的 (Recurrent neural network,RNN),Attention Hybrid 方法.统计Wikipedia中实体的频率作为候选实体 共4种解决方案 的排序依据.Alokaili与Menail提出了基于支持 针对基于嵌入表示的实体对齐,Sun等9提出 向量机的集成学习来解决实体消歧问题,使用不 自举的方法解决标记训练数据不足的问题.根据
完成,Dong 等[34] 比较了传统的数据融合方法,选 择了几种方法改良,并应用到知识融合中. 随着知 识图谱的飞速发展,目前也出现了专门的知识融 合方法. 下面从实体消歧、实体对齐和知识合并 3 个方面进行综述. 2.1 实体消歧 对于知识图谱中的每一个实体都应有清晰的 指向,即明确对应某个现实世界中存在的事物. 初 步构建的知识图谱中,因数据来源复杂,存在着同 名异义的实体. 例如,名称为“乔丹”的实体既可以 指美国著名篮球运动员,也可以指葡萄牙足球运 动员,还可以指某个运动品牌. 为了确保每一个实 体有明确的含义,采用实体消歧技术来使得同名 实体得以区分. 利用已有的知识库和知识图谱中隐含的信息 来帮助进行语义消歧,Han 与 Zhao[35] 提出使用维 基 百 科 ( Wikipedia) 作 为 背 景 知 识 , 通 过 利 用 Wikipedia 的语义知识,例如社会关系来更精确地 衡量实体间的相似性,从而提升实体消歧的效果. Sen[36] 提出了主题模型,利用知识库中存在的文本 信息 ,学习共有实体组来实现实体集体消歧 . Guo 与 Barbosa[37] 基于语义相似性的自然概念提 出了两个针对集体消歧的方法. 通过在知识库上 知识子图中随机游走得到的概率分布来表示实体 和文档的语义,之后基于迭代的贪婪逼近算法和 学习排序的方法来进行实体消歧任务. Zhu 与 Iglesias[38] 提出了基于语义上下文相似度的命名实 体消歧方法,基于上下文和知识图谱中实体的信 息词之间的语义相似度来进行实体消歧. 另外还 提出了 Category2Vec 模型,将目录也用嵌入向量 的形式表示出来. 主要思想是候选实体和上下文 单词间应存在语义联系,利用该联系来帮助选出 正确的实体. 在线百科全书由专家和网络用户编写,有着 高覆盖率和结构信息丰富的特点. Shen 等[39] 提出 LINDEN( A framework for Linking named entities with knowledge base via semantic knowledge)模型 , 同时利用 Wikipedia 和 WordNet,基于文本相似性 和主题一致性进行实体消歧. Ratinov 等[40] 提出名 为 GLOW(Global and local approaches of Wikipedia) 的系统,GLOW 组合捕捉实体指称与 Wikipedia 题 目间的相关性的本地模型和选择准确歧义语境的 方法. 统计 Wikipedia 中实体的频率作为候选实体 的排序依据. Alokaili 与 Menai[41] 提出了基于支持 向量机的集成学习来解决实体消歧问题,使用不 同的支持向量机的核函数来学习不同的集成学习 算法,例如 bagging、boosing、voting 等. 具体流程 是将命名实体作为输入,根据 Wikipedia 中的知识 生成候选实体,构造特征向量,最后送入集成学习 模块里完成实体消歧. 值得一提的是,Agarwal 等[42] 提出了利用时间 的实体消歧思路,通过计算实体的时序特征来和 输入的命名实体上下文的时序比较,即使命名实 体的上下文提供的信息不充分也可以完成实体消 歧任务. Dong[43] 将基于相似度特征的随机森林模 型和基于 XGBoost、基于逻辑回归以及基于神经 网络的方法进行比较,随机森林模型不仅拥有极 高的准确率和召回率,且不像 XGBoost 和神经网 络那样容易受到超参数的影响,在实体消歧任务 中表现突出. 2.2 实体对齐 在现实生活中,一个事物对应着不止一个称 呼,例如,“中华人民共和国”和“中国”都对应于 同一个实体. 在知识图谱中也同样存在着同义异 名的实体,通过实体对齐,将这些实体指向同一客 观事物. 苏佳林等[44] 提出基于决策树的自适应属 性选择的实体对齐方法. 通过联合学习将实体嵌 入表示在一个向量空间后,由信息增益选出最优 约束属性,训练实体对齐模型,计算最优约束属性 相似度和实体语义相似度完成实体对齐. Cheng 等[45] 提出了一个全自动的实体对齐框架, 包括候选实体生成器、选择器和清理器,利用搜索 引擎使用者的查询信息和查询后的点击记录,计算 出实体间的相似度,完成实体对齐任务. Pantel 等[46] 提出了一个大规模相似性模型,在 MapReduce 框 架下实施并且部署了超过 2000 亿从互联网上爬取 得到的单词. 通过计算 5 亿 terms 得到的相似度矩 阵来进行实体对齐任务. Chakrabarti 等[47] 通过一 个同义发现框架将实体相似性作为输入生成一个 满足简单自然属性的同义词,提出了两种新的相 似性度量法,并通过在 bing 系统上实际应用,发现 可以有效识别同义词. Mudgal 等[48] 综述了基于深 度学习的实体对齐方法,通过将这些方法分类,分 别组合设计空间中属性嵌入、属性相似度表示、 分类的各个方法,得到最具代表性的平滑倒词频 ( Smooth inverse frequency, SIF) 、循环神经网络 (Recurrent neural network,RNN)、Attention 和 Hybrid 共 4 种解决方案. 针对基于嵌入表示的实体对齐,Sun 等[49] 提出 自举的方法解决标记训练数据不足的问题. 根据 马忠贵等: 知识图谱的最新进展、关键技术和挑战 · 1257 ·