网络出版时间:2017-08-1817:0949 网络出版地址:htp/ kns cnki. net/kcms/detail/51.1196p.20170818.1709.086html 号4甲究优先出版 原创性时效性就是科研成果的生命力 《计算机应用研究》编辑部致力于高效的编排 为的就是将您的成果以最快的速度 呈现于世 数字优先出版可将您的文章提前8-10个月发布于中国知网和万方数据等在线平台 医学知识图谱构建技术与研究进展 作者 袁凯琦,邓扬,陈道源,张冰,雷凯,沈颖 机构 北京大学深圳研究生院深圳市云计算关键技术与应用重点实验室 基金项目 国家自然科学基金青年基金资助项目(61602013),深圳市科创委基础研究项目 (CY]20160330095313861;JCY20151030154330711;JcY20151014093505032) 预排期卷 《计算机应用研究》2018年第35卷第7期 摘要 医学知识图谱是实现智慧医疗的基石,有望带来更高效精准的医疗服务。然而,现有知识图 谱构建技术在医学领域中普遍存在效率低,限制多,拓展性差等问题。针对医疗数据跨语种 专业性强,结构复杂等特点,对构建医学知识图谱的关键技术进行了自底向上的全面解析 涵盖了医学知识表示、抽取、融合和推理以及质量评估五部分内容。此外,还介绍了医学知 识图谱在信息检索、知识问答、智能诊断等医疗服务中的应用现状。最后,结合当前医学知 识图谱构建技术面临的重大挑战和关键问题,对其发展前景进行了展望。 关键词 知识图谱;知识获取;知识融合氵知识推理;自然语言处理 作者简介 袁凯琦(1993-),女,广东湛江人,硕士研究生,主要研究方向为知识图谱,知识推理;邓 扬(1993-),男,硕士研究生,主要研究方向为自然语言处理、知识图谱、自动问答、信息 抽取;陈道源(1994-),男,硕士研究生,主要研究方向为知识图谱、知识表示学习;张冰 (1993-),女,硕士研究生,主要研究方向为知识图谱,知识融合;雷凯(1976-),男,主 任,副研究员,硕导,博士,主要研究方向为计算机网络、命名数据网络、社交网络、文本 处理等;沈颖(1984-),女(通信作者),博土,主要研究方向为自然语言处理,知识图谱, 医学信息学,大数据管理 中图分类号TP391 访问地址 http://www.arocmag.com/article/02-2018-07-068.html 发布日期 2017年8月17日 引用格式 袁凯琦,邓扬,陈道源,张冰,雷凯,沈颖.医学知识图谱构建技术与研究进展囗/OL].2018 35(7).[2017-08-17].http://www.arocmag.com/article/02-2018-07-068.html
———————————————————————————————————————————————— 医学知识图谱构建技术与研究进展 作者 袁凯琦,邓扬,陈道源,张冰,雷凯,沈颖 机构 北京大学深圳研究生院 深圳市云计算关键技术与应用重点实验室 基金项目 国家 自然科学基 金青年基金 资助项目( 61602013),深圳市科 创委基础研 究项目 (JCYJ20160330095313861;JCYJ20151030154330711;JCYJ20151014093505032) 预排期卷 《计算机应用研究》 2018 年第 35 卷第 7 期 摘要 医学知识图谱是实现智慧医疗的基石,有望带来更高效精准的医疗服务。然而,现有知识图 谱构建技术在医学领域中普遍存在效率低,限制多,拓展性差等问题。针对医疗数据跨语种, 专业性强,结构复杂等特点,对构建医学知识图谱的关键技术进行了自底向上的全面解析, 涵盖了医学知识表示、抽取、融合和推理以及质量评估五部分内容。此外,还介绍了医学知 识图谱在信息检索、知识问答、智能诊断等医疗服务中的应用现状。最后,结合当前医学知 识图谱构建技术面临的重大挑战和关键问题,对其发展前景进行了展望。 关键词 知识图谱;知识获取;知识融合;知识推理;自然语言处理 作者简介 袁凯琦(1993-),女,广东湛江人,硕士研究生,主要研究方向为知识图谱,知识推理;邓 扬(1993-),男,硕士研究生,主要研究方向为自然语言处理、知识图谱、自动问答、信息 抽取;陈道源(1994-),男,硕士研究生,主要研究方向为知识图谱、知识表示学习;张冰 (1993-),女,硕士研究生,主要研究方向为知识图谱,知识融合;雷凯(1976-),男,主 任,副研究员,硕导,博士,主要研究方向为计算机网络、命名数据网络、社交网络、文本 处理等;沈颖(1984-),女(通信作者),博士,主要研究方向为自然语言处理,知识图谱, 医学信息学,大数据管理. 中图分类号 TP391 访问地址 http://www.arocmag.com/article/02-2018-07-068.html 发布日期 2017 年 8 月 17 日 引用格式 袁凯琦, 邓扬, 陈道源, 张冰, 雷凯, 沈颖. 医学知识图谱构建技术与研究进展[J/OL]. 2018, 35(7). [2017-08-17]. http://www.arocmag.com/article/02-2018-07-068.html. 网络出版时间:2017-08-18 17:09:49 网络出版地址:http://kns.cnki.net/kcms/detail/51.1196.tp.20170818.1709.086.html
第35卷第7期 计算机应用研究 Vol. 35 No. 7 优先出版 Application Research of Computers 医学知识图谱构建技术与研究进展 袁凯琦,邓扬,陈道源,张冰,雷凯,沈颖 (北京大学深圳研究生院深圳市云计算关键技术与应用重点实验室,广东深圳518055) 摘要:医学知识图谱是实现智慧医疗的基石,有望带来更高效精准的医疗服务。然而,现有知识图谱构建技术在医 学领域中普遍存在效率低,限制多,拓展性差等问题。针对医疗数据跨语种,专业性强,结构复杂等特点,对构建医 学知识图谱的关键技术进行了自底向上的全面解析,涵盖了医学知识表示、抽取、融合和推理以及质量评估五部分内 容。此外,还介绍了医学知识图谱在信息检索、知识问答、智能诊断等医疗服务中的应用现状。最后,结合当前医学 知识图谱构建技术面临的重大挑战和关键问題,对其发展前景进行了展望。 关键词:知识图谱;知识获取;知识融合;知识推理;自然语言处理 中图分类号:TP391 Construction techniques and research development of medical knowledge graph Yuan Kaiqi, Deng Yang, Chen Daoyuan, Zhang Bing, Lei Kai, Shen Ying (Institute of Big Data Technologies Shenzhen Key lab for Cloud Computing Technology Applications. School of electronic and Computer Engineering(SECE)Peking University, Shenzhen Guangdong 518055, China) Abstract: Medical knowledge graph is the cornerstone of Artificial Intelligence and Smart Healthcare, and leading to more ccurate medical service. However, current constructing techniques of knowledge graph have some common defects in efficiency, scalability and applicability. Considering the specific features of medical data, this paper analyzes and classifies the key techniques and methods involved in the construction of medical knowledge graph in a bottom-up cluding representation, extraction, fusion and reasoning of medical knowledge and quality assessment of medical know graph. Furthermore, the paper also introduces the research and application of search engine, question-answering system and decision support system based on medical knowledge graph. Finally, the paper summarizes challenges and major problems of medical knowledge graph, and prospects for future development Key Words: knowledge graph; knowledge extraction; knowledge fusion; knowledge reasoning; natural language processing 识服务领域的一个新热点,受到国内外学者和工业界广泛关注。 0引言 知识图谱的前身是语义网,它吸收了语义网、本体在知识 自1998年万维网之父 Tim berners-Lee提出语义网,人们组织和表达方面的理念,使得知识更易于在计算机之间和计算 不断在网络等电子载体上表达和修正对客观世界的理解,形成机与人之间交换、流通和加工。具体来说,一个知识图谱由模 了一个概念标准化的过程,同时随着链接开放数据( Linked式图、数据图及两者之间的关系组成:模式图对人类知识领域 Open Data)的规模增,互联网上散落了越来越多的知识元数的概念层面进行描述,强调概念及概念关系的形式化表达,模 式图中节点是概念实体,边是概念间的语义关系,如part-of 知识图谱就是在这样的大数据背景下产生的一种知识表示数据图对物理世界层面进行描述,强调一系列客观事实。数据 和管理的方式,强调语义检索能力。近年来,在人工智能的蓬图中的节点有两类,一是模式图中的概念实体,二是描述性字 勃发展下,知识图谱涉及到的知识抽取、表示、融合、推理、符串,数据图中的边是具体事实的语义描述:模式图和数据图 问答等关键问题得到一定程度的解决和突破,知识图谱成为知之间的关系指数据图的实例与模式图的概念之间的对应,或者 基金项目:国家自然科学基金青年基金資助项目(61602013),深圳市科创委基础研究项目(JCY20160330095313861:JCYJ20151030154330711 JCYJ20l51014093505032) 作者简介:袁凯琦(1993-),女,广东湛江人,硕士研究生,主要研究方向为知识图谱,知识推理:邓扬(1993-),男,硕士研究生,主 研究生,主要研究方向为知识图谱,知识鼬合:雷凯(1976-),男,主任,副研究员,硕导,博士,主要研究方向为计算机网络、命名数据网络、社交网络 文本处理等:沈颖(1984-),女(通信作者),博士,主要研究方向为自然语言处理,知识图谱,医学信息学,大数据管理
第 35 卷第 7 期 计算机应用研究 Vol. 35 No. 7 优先出版 Application Research of Computers Online Publication —————————— 基金项目:国家自然科学基金青年基金资助项目(61602013),深圳市科创委基础研究项目(JCYJ20160330095313861;JCYJ20151030154330711; JCYJ20151014093505032) 作者简介:袁凯琦(1993-),女,广东湛江人,硕士研究生,主要研究方向为知识图谱,知识推理;邓扬(1993-),男,硕士研究生,主要研究方向为 自然语言处理、知识图谱、自动问答、信息抽取;陈道源(1994-),男,硕士研究生,主要研究方向为知识图谱、知识表示学习;张冰(1993-),女,硕士 研究生,主要研究方向为知识图谱,知识融合;雷凯(1976-),男,主任,副研究员,硕导,博士,主要研究方向为计算机网络、命名数据网络、社交网络、 文本处理等;沈颖(1984-),女(通信作者),博士,主要研究方向为自然语言处理,知识图谱,医学信息学,大数据管理. 医学知识图谱构建技术与研究进展 * 袁凯琦,邓 扬,陈道源,张 冰,雷 凯,沈 颖† (北京大学深圳研究生院 深圳市云计算关键技术与应用重点实验室, 广东 深圳 518055) 摘 要:医学知识图谱是实现智慧医疗的基石,有望带来更高效精准的医疗服务。然而,现有知识图谱构建技术在医 学领域中普遍存在效率低,限制多,拓展性差等问题。针对医疗数据跨语种,专业性强,结构复杂等特点,对构建医 学知识图谱的关键技术进行了自底向上的全面解析,涵盖了医学知识表示、抽取、融合和推理以及质量评估五部分内 容。此外,还介绍了医学知识图谱在信息检索、知识问答、智能诊断等医疗服务中的应用现状。最后,结合当前医学 知识图谱构建技术面临的重大挑战和关键问题,对其发展前景进行了展望。 关键词:知识图谱;知识获取;知识融合;知识推理;自然语言处理 中图分类号:TP391 Construction techniques and research development of medical knowledge graph Yuan Kaiqi, Deng Yang, Chen Daoyuan, Zhang Bing, Lei Kai, Shen Ying † (Institute of Big Data Technologies Shenzhen Key Lab for Cloud Computing Technology & Applications. School of Electronic and Computer Engineering (SECE)Peking University, Shenzhen Guangdong 518055, China) Abstract: Medical knowledge graph is the cornerstone of Artificial Intelligence and Smart Healthcare, and leading to more efficient and accurate medical service. However, current constructing techniques of knowledge graph have some common defects in efficiency, scalability and applicability. Considering the specific features of medical data, this paper analyzes and classifies the key techniques and methods involved in the construction of medical knowledge graph in a bottom-up way, including representation, extraction, fusion and reasoning of medical knowledge and quality assessment of medical knowledge graph. Furthermore, the paper also introduces the research and application of search engine, question-answering system and decision support system based on medical knowledge graph. Finally, the paper summarizes challenges and major problems of medical knowledge graph, and prospects for future development. Key Words: knowledge graph; knowledge extraction; knowledge fusion; knowledge reasoning; natural language processing 0 引言 自 1998 年万维网之父 Tim Berners-Lee 提出语义网,人们 不断在网络等电子载体上表达和修正对客观世界的理解,形成 了一个概念标准化的过程,同时随着链接开放数据 (Linked Open Data)的规模激增,互联网上散落了越来越多的知识元数 据。 知识图谱就是在这样的大数据背景下产生的一种知识表示 和管理的方式,强调语义检索能力。近年来,在人工智能的蓬 勃发展下,知识图谱涉及到的知识抽取、表示、融合、推理、 问答等关键问题得到一定程度的解决和突破,知识图谱成为知 识服务领域的一个新热点,受到国内外学者和工业界广泛关注。 知识图谱的前身是语义网,它吸收了语义网、本体在知识 组织和表达方面的理念,使得知识更易于在计算机之间和计算 机与人之间交换、流通和加工。具体来说,一个知识图谱由模 式图、数据图及两者之间的关系组成:模式图对人类知识领域 的概念层面进行描述,强调概念及概念关系的形式化表达,模 式图中节点是概念实体,边是概念间的语义关系,如 part-of; 数据图对物理世界层面进行描述,强调一系列客观事实。数据 图中的节点有两类,一是模式图中的概念实体,二是描述性字 符串,数据图中的边是具体事实的语义描述;模式图和数据图 之间的关系指数据图的实例与模式图的概念之间的对应,或者
优先出版 袁凯琦,等:医学知识图谱构建技术与研究进展 第35卷第7期 说模式图是数据图的模具。 法由于表示能力有限且缺乏灵活性,不再作为主要的知识表示 著名的通用知识图谱中有,谷歌“ Knowledge Graph”[]、方法,更多是作为医学知识表示的辅助或补充。 搜狗“知立方”1、YAGO[2]、 DBpedia3]等,它们具有规模大 本体表示法以网络的形式表示知识,即以(实体1,关系, 领域宽,包含大量常识等特点。目前,医学是知识图谱应用最实体2)三元组来表示相关联的两个节点(实体),在知识图谱 广的垂直领域之一,如上海曙光医院构建的中医药知识图谱凹、國提出之后逐渐得到认可。它借鉴了语义网表示法但又有所区 本体医疗知识库 SNOMED-CT2, IBM Watson Health3等应用近别:本体关注的是实体固有特征,比后者更聚焦,更深入,因 两年也开始进入人们视线 而也具有更大的发展潜力。而本体的描述语言也多种多样:主 知识图谱是智能大数据的前沿研究问题,它以独有的技术要有RDF和RDFS、DAML、OWL等。使用本体表示医学术 优势顺应了信息化时代的发展,比如渐增式的数据模式设计:语可以提升数据整合能力:建立强大、可互操作的医疗信息系 良好的数据集成:现有RDF、OWL等标准支持:语义搜索和统:满足重用共享传输医疗数据的需求:提供基于不同语义标 知识推理能力等。在医学领域,随着区域卫生信息化及医疗信准的统计聚合。医学领域本体的构建,需要深入分析医学术语 息系统的发展,积累了海量的医学数据。如何从这些数据中提的结构和概念,才能将晦涩甚至是跨语言的医学知识有效地表 炼信息,并加以管理、共享及应用,是推进医学智能化的关键达出来。目前的医学知识本体库有:医学概念知识库 问题,是医学知识检索、临床诊断、医疗质量管理、电子病历 L inkBasel9, TAMBIS本体库(IaO1等等 及健康档案智能化处理的基础。 知识图谱的节点个数影响着网络的结构复杂度及推理的效 本文首先介绍了医学知识图谱的构建技术,主要涉及到医率和难度。知识表示学习借助机器学习,将研究对象的语义信 学知识表示:医学知识抽取,包括实体、关系、属性的抽取:息表示为稠密低维向量,有效解决数据稀疏问题,从而提升知 医学知识融合:医学知识推理和质量评估五个部分。然后介绍识融合和推理性能間。低维向量表示是一种分布式表示 了基于医学知识图谱的包括检索、问答、决策等的应用现状 ( distributed representation)12,它模仿人脑中使用多个神经元 最后对医学知识图谱的研究、应用重点,面临的挑战以及未来存储对象的工作机制,使用多维度向量表示对象的语义信息 的发展趋势进行了展望。 知识表示学习中的代表模型有:结构化表示法( Structu Embedding,SE)I,单层神经网络模型( single layer model 1医学知识图谱构建 SLM)叫,隐变量模型( latent factor model,LFM)S,基于 本文将医学知识图谱构建技术归纳为五部分,即医学知识 TransE[1!6]的翻译模型等等。这些模型考虑实体间的协同性和 的表示、抽取、融合、推理以及质量评估。通过从大量的结构计算开销,用向量表示实体,再对表示实体的向量或关系进行 化或非结构化的医学数据中提取出实体、关系、属性等知识图相应的矩阵变换,提出评价函数来衡量实体间的相关性,并为 谱的组成元素,选择合理高效的方式存入知识库。医学知识融之后的知识补全和推理提供重要参考。 Kleyko等人证明了分 合对医学知识库内容进行消歧和链接,增强知识库内部的逻辑布式表示方法表示医学图像进行分类精度能够与最佳经典方法 性和表达能力,并通过人工或自动的方式为医学知识图谱更新相同: Henriksson等人18对比使用多种知识表示方法表示EHR 旧知识或补充新知识。借助知识推理,推出缺失事实,自动完中4类记录:诊断记录,药物使用记录,治疗方法和病程记录 成疾病诊断与治疗。质量评估则是保障数据的重要手段,提高显然,知识表示学习无疑为医学知识图谱的知识表示开辟了新 医学知识图谱的可信度和准确度。 思路。 1.1医学知识表示 12医学知识抽取 知识表示是为描述世界所做的一组约定,是知识符号化、 医学知识图谱的构建主要是从非结构化数据中人工或自动 形式化、模式化的过程,主要研究计算机存储知识的方法,其地提取实体、关系和属性。人工提取是通过专家依据一定规则 表示方式影响系统的知识获取、存储及运用的效率。然而医学收集并整理相关信息,提取知识。目前通过人工构建的医学知 数据种类繁杂,存储方式不一,电子病历格式和标准不同,经识库包括临床医学知识库、 SNOMED-CT、ICD-10等。自动 常涉及交叉领域等特点,导致医学领域与其他领域在知识表示提取则是利用机器学习、人工智能、数据挖掘等信息抽取技术 方面有所差异,同时也给医学领域的知识表示带来极大的挑战。从数据源中自动提取出知识图谱的基本组成元素。自动构建医 早期医疗知识库运用的知识表示方法有:谓词逻辑表示法,学知识库的典型例子有一体化医学语言系统UMLS。人工提 产生式表示法,框架表示法,语义网表示法等等。比如,取的代价太大,知识的自动提取是目前重点的研究方向,也是 SNOMED-CT,早期的MYCⅣN系统间,大肠杆菌数据库将来构建知识图谱的趋势。本节主要介绍如何自动从数据源中 EcoCyc[7等。随着知识图谱中知识增长、关系复杂化,这些方抽取知识和信息,包括实体、关系和属性抽取 1.2.1实体抽取 识别文本中的生物医学实体,其目的在于通过识别关键概 www.snomed.org 念进一步提取关系和其他信息,并将识别的概念以标准化的形 VWw
优先出版 袁凯琦,等:医学知识图谱构建技术与研究进展 第 35 卷第 7 期 说模式图是数据图的模具。 著名的通用知识图谱中有,谷歌“Knowledge Graph”[1]、 搜狗“知立方”1、YAGO[2]、DBpedia[3]等,它们具有规模大、 领域宽,包含大量常识等特点。目前,医学是知识图谱应用最 广的垂直领域之一,如上海曙光医院构建的中医药知识图谱[4]、 本体医疗知识库 SNOMED-CT2,IBM Watson Health3等应用近 两年也开始进入人们视线。 知识图谱是智能大数据的前沿研究问题,它以独有的技术 优势顺应了信息化时代的发展,比如渐增式的数据模式设计; 良好的数据集成;现有 RDF、OWL 等标准支持;语义搜索和 知识推理能力等。在医学领域,随着区域卫生信息化及医疗信 息系统的发展,积累了海量的医学数据。如何从这些数据中提 炼信息,并加以管理、共享及应用,是推进医学智能化的关键 问题,是医学知识检索、临床诊断、医疗质量管理、电子病历 及健康档案智能化处理的基础。 本文首先介绍了医学知识图谱的构建技术,主要涉及到医 学知识表示;医学知识抽取,包括实体、关系、属性的抽取; 医学知识融合;医学知识推理和质量评估五个部分。然后介绍 了基于医学知识图谱的包括检索、问答、决策等的应用现状。 最后对医学知识图谱的研究、应用重点,面临的挑战以及未来 的发展趋势进行了展望。 1 医学知识图谱构建 本文将医学知识图谱构建技术归纳为五部分,即医学知识 的表示、抽取、融合、推理以及质量评估。通过从大量的结构 化或非结构化的医学数据中提取出实体、关系、属性等知识图 谱的组成元素,选择合理高效的方式存入知识库。医学知识融 合对医学知识库内容进行消歧和链接,增强知识库内部的逻辑 性和表达能力,并通过人工或自动的方式为医学知识图谱更新 旧知识或补充新知识。借助知识推理,推出缺失事实,自动完 成疾病诊断与治疗。质量评估则是保障数据的重要手段,提高 医学知识图谱的可信度和准确度。 1.1 医学知识表示 知识表示是为描述世界所做的一组约定,是知识符号化、 形式化、模式化的过程[5],主要研究计算机存储知识的方法,其 表示方式影响系统的知识获取、存储及运用的效率。然而医学 数据种类繁杂,存储方式不一,电子病历格式和标准不同,经 常涉及交叉领域等特点,导致医学领域与其他领域在知识表示 方面有所差异,同时也给医学领域的知识表示带来极大的挑战。 早期医疗知识库运用的知识表示方法有:谓词逻辑表示法, 产生式表示法,框架表示法,语义网表示法等等。比如, SNOMED-CT,早期的 MYCIN 系统[6],大肠杆菌数据库 EcoCyc[7]等。随着知识图谱中知识增长、关系复杂化,这些方 1 https://www.sogou.com/ 2 http://www.snomed.org/ 3 http://www-935.ibm.com/industries/hea lthcare/index.html 法由于表示能力有限且缺乏灵活性,不再作为主要的知识表示 方法,更多是作为医学知识表示的辅助或补充。 本体表示法以网络的形式表示知识,即以(实体 1,关系, 实体 2)三元组来表示相关联的两个节点(实体),在知识图谱 [8]提出之后逐渐得到认可。它借鉴了语义网表示法但又有所区 别:本体关注的是实体固有特征,比后者更聚焦,更深入,因 而也具有更大的发展潜力。而本体的描述语言也多种多样:主 要有 RDF 和 RDF-S、DAML、OWL 等。使用本体表示医学术 语可以提升数据整合能力:建立强大、可互操作的医疗信息系 统;满足重用共享传输医疗数据的需求;提供基于不同语义标 准的统计聚合。 医学领域本体的构建,需要深入分析医学术语 的结构和概念,才能将晦涩甚至是跨语言的医学知识有效地表 达 出 来 。 目 前 的 医 学 知 识 本 体 库 有 : 医 学 概 念 知 识 库 LinkBase[9],TAMBIS 本体库 (TaO)[10]等等。 知识图谱的节点个数影响着网络的结构复杂度及推理的效 率和难度。知识表示学习借助机器学习,将研究对象的语义信 息表示为稠密低维向量,有效解决数据稀疏问题,从而提升知 识融合和推理性能[11]。低维向量表示是一种分布式表示 (distributed representation)[12],它模仿人脑中使用多个神经元 存储对象的工作机制,使用多维度向量表示对象的语义信息。 知识表示学习中的代表模型有:结构化表示法(Structure Embedding,SE)[13],单层神经网络模型(single layer model, SLM)[14],隐变量模型(latent factor model,LFM)[15],基于 TransE[16]的翻译模型等等。这些模型考虑实体间的协同性和 计算开销,用向量表示实体,再对表示实体的向量或关系进行 相应的矩阵变换,提出评价函数来衡量实体间的相关性,并为 之后的知识补全和推理提供重要参考。Kleyko 等人[17]证明了分 布式表示方法表示医学图像进行分类精度能够与最佳经典方法 相同;Henriksson 等人[18]对比使用多种知识表示方法表示 EHR 中 4 类记录:诊断记录,药物使用记录,治疗方法和病程记录。 显然,知识表示学习无疑为医学知识图谱的知识表示开辟了新 思路。 1.2 医学知识抽取 医学知识图谱的构建主要是从非结构化数据中人工或自动 地提取实体、关系和属性。人工提取是通过专家依据一定规则 收集并整理相关信息,提取知识。目前通过人工构建的医学知 识库包括临床医学知识库[19]、SNOMED-CT、ICD-10 等。自动 提取则是利用机器学习、人工智能、数据挖掘等信息抽取技术, 从数据源中自动提取出知识图谱的基本组成元素。自动构建医 学知识库的典型例子有一体化医学语言系统 UMLS[20]。人工提 取的代价太大,知识的自动提取是目前重点的研究方向,也是 将来构建知识图谱的趋势。本节主要介绍如何自动从数据源中 抽取知识和信息,包括实体、关系和属性抽取。 1.2.1 实体抽取 识别文本中的生物医学实体,其目的在于通过识别关键概 念进一步提取关系和其他信息,并将识别的概念以标准化的形
优先出版 袁凯琦,等:医学知识图谱构建技术与研究进展 第35卷第7期 式表示出来。医学领域的实体抽取是从医学数据源中提取出特续提升模型性能,从小样本中进行学习,自我探索逐步学习新 定类型的命名实体。本节将医学实体的抽取方法归纳为三类:知识,形成一个交互学习过程。 于医学词典及规则的方法、基于医学数据源的统计学和机器 3)深度学习方法 学习方法以及深度学习方法。 深度学习近年来开始被广泛应用于命名实体识别,最具代 1)基于医学词典及规则的方法 表性的模型是2011年 Collobert(301提出的一个深层神经网络模 该方法通过人工定义规则和模式匹配生成词典或使用现有型,其效果和性能超过了传统算法。Sahu等人所提出的CNN 医学词典从语料中抽取医学实体,该方法是具有挑战性的。首与RNN级联的方法生成词嵌入特征,其结果优于目前最好的 先,目前没有完整的字典囊括所有类型的生物命名实体,所以算法且不需要过多的特征工程。 简单的文本匹配算法是不足以应对实体识别的。其次,相同的在医学领域,We等人基于CRF和双向RNN生成特征 单词或短语其意义可根据上下文的改变而指代不同的物体(如,再使用SWM进行疾病命名实体识别。目前医学信息命名实体 铁蛋白可以是生物物质或实验室测试方法)。再次,许多生物或识别任务中最主流的深度学习模型是 BILSTM-CRE模型, 药物实体同时拥有多个名称(如PTEN和MMAC1指代相同的 Jagannatha等人对比了CRF, BILSTM, BILSTM-CRE三种 基因)。因此,基于医学词典及规则只在最早期被广泛使用。模型,以及一些它们的改进模型,在英文电子病历命名实体识 Friedman等人[21]通过自定义语义模式和语法来识别电子病历别的效果,实验结果表明所有基于LSTM的模型都比CRF效 中的医学信息。Wu[22]等人使用了clHV和 SNOMED-CT两果更好,并且 BILSTM结合CRF模型能够进一步提高评测结果 个医学词典得到了不错的实验结果。虽然该方法能达到很高的2%-5%的准确率。 准确度,但无法彻底解决上述问题,也过分依赖专家编写的词1.2.2实体抽取 典和规则,无法适应医学领域词汇不断涌现的现实情况。 本文将医学实体关系抽取归结为两类:a)同类型医学实体 2)基于医学数据源和数学模型的机器学习方法 层级关系抽取,如疾病的“肠胃病-慢性胃炎”等:b)不同类 该方法通过使用统计学和机器学习方法,结合医学数据源型关系抽取,如“疾病-症状”等。 的特点训练模型,进行实体识别。在英文医学实体抽取方面 1)同类型医学实体层级关系抽取 最具代表性的标注语料是12B2201024发布的英文电子病历标 类型医学实体层级关系相对较为单一,主要是is-a和 注语料。另外,还有 Semeval4、 NTCIR等评测,以及NCB25]part-of关系。由于医学有其严谨的学科体系和行业规范,因此 语料库等,都提供了英文医学实体标注数据 此类关系往往在医学词典、百科、信息标准中进行 目前常用方法有隐马尔可夫模型(HMM),条件随机场模 ICD-10、 SNOMED等医疗词典或医疗数据库重点关注 型(CRF),支持向量机模型(SM)等。 Kazama等人6使用医学专业术语、受限词汇的分类和概念标准化工作,权威且涵 SVM模型进行生物医学命名实体识别,引入了POS,词缓存,盖范围广,在数量和质量上都有所保障,被医疗行业广泛认可 无监督训练得到的HMM状态等特征。该方法在GENA语料是抽取层级间实体关系的首选来源。针对具体的医疗词典、知 库中准确率高于最大熵标记方法,并能较高效地应用于大规模识库提供的数据格式和开放AP接口,可通过爬虫、正则表达 语料集。Zhou等人2通过一系列特征训练HMM模型,包括词式、D2R映射等技术从中抽取分层结构,抽取三元组来匹配 构成特征,形态特征,POS,语义触发,文献内名称别名等。添加上下位关系 其识别准确率达66.5%,在 GENIA语料库中的召回率达66.6%。 2)不同类型医学实体关系抽取 综合以上方法,Chen和 Friedman28利用 MEDLEE系统来识别 不同类型医学实体间的语义关系识别大致基于两大不同数 与生物医学文本中与表型信息相对应的短语。该系统使用自然据源而实现。一是百科或其他结构化数据源,如 Medline,UMLS 语言技术来识别期刊文章摘要中存在的表型短语。生物医学的等:二是半结构化的电子病历。 实体识别常常可使用较小的表型相关术语的知识库。Chen和 学实体类型相对有限(主要是疾病、症状、治疗、药品 Friedman9自动导入与语义类别相关的数千个UMLS术语,如等),目前通常在两个实体间预定义好要抽取的关系类型,再将 细胞体功能和细胞功能障碍,以及哺乳动物本体中的几百个术抽取任务转换为分类问题来处理。如何预定义实体关系目前尚 语:并手动添加了几百个术语。实验结果表明,其实体识别准未有统一的标准,这取决于医学知识图谱构建过程中模式图的 确率达640%,召回率达77.1%。虽然结果不高,但为之后的设置、实体识别情况、语料来源、构建目的及应用场景等,如 研究人员提供了一条可行的思路。 在12B22010评测中,将电子病历中的实体关系分成了医疗问 在医学领域,命名实体识别的痛点在于数据质量的良莠不题与医疗问题、医疗问题与治疗、医疗问题与检查三类 齐以及人工标注的专业性要求高。目前有专门研究如何降低对 近几年, Uzuner团队在句子层面抽取了六类医疗实体关 于数据标注依赖的硏究,其原理主要是利用海量未标注数据持系,使用实体顺序和距离、链接语法和词汇特征来训练6个 SVM分类器,通过对比实验,指出词汇特征在实体关系识别中 //www.senseval.org/ //research. nii ac jp/ntcir 的重要作用。在此基础上,基于 Medline摘要, Frunza等[36]
优先出版 袁凯琦,等:医学知识图谱构建技术与研究进展 第 35 卷第 7 期 式表示出来。医学领域的实体抽取是从医学数据源中提取出特 定类型的命名实体。本节将医学实体的抽取方法归纳为三类: 基于医学词典及规则的方法、基于医学数据源的统计学和机器 学习方法以及深度学习方法。 1)基于医学词典及规则的方法 该方法通过人工定义规则和模式匹配生成词典或使用现有 医学词典从语料中抽取医学实体,该方法是具有挑战性的。首 先,目前没有完整的字典囊括所有类型的生物命名实体,所以 简单的文本匹配算法是不足以应对实体识别的。其次,相同的 单词或短语其意义可根据上下文的改变而指代不同的物体(如, 铁蛋白可以是生物物质或实验室测试方法)。再次,许多生物或 药物实体同时拥有多个名称(如 PTEN 和 MMAC1 指代相同的 基因)。因此,基于医学词典及规则只在最早期被广泛使用。 Friedman 等人[21]通过自定义语义模式和语法来识别电子病历 中的医学信息。Wu[22]等人使用了 CHV[23]和 SNOMED-CT 两 个医学词典得到了不错的实验结果。虽然该方法能达到很高的 准确度,但无法彻底解决上述问题,也过分依赖专家编写的词 典和规则,无法适应医学领域词汇不断涌现的现实情况。 2)基于医学数据源和数学模型的机器学习方法 该方法通过使用统计学和机器学习方法,结合医学数据源 的特点训练模型,进行实体识别。在英文医学实体抽取方面, 最具代表性的标注语料是 I2B2 2010[24]发布的英文电子病历标 注语料。另外,还有 SemEval4、NTCIR5等评测,以及 NCBI[25] 语料库等,都提供了英文医学实体标注数据。 目前常用方法有隐马尔可夫模型(HMM),条件随机场模 型(CRF),支持向量机模型(SVM)等。Kazama 等人[26]使用 SVM 模型进行生物医学命名实体识别,引入了 POS,词缓存, 无监督训练得到的 HMM 状态等特征。该方法在 GENIA 语料 库中准确率高于最大熵标记方法,并能较高效地应用于大规模 语料集。Zhou 等人[27]通过一系列特征训练 HMM 模型,包括词 的构成特征,形态特征,POS,语义触发,文献内名称别名等。 其识别准确率达66.5%,在GENIA语料库中的召回率达66.6%。 综合以上方法,Chen 和 Friedman[28]利用 MEDLEE 系统来识别 与生物医学文本中与表型信息相对应的短语。该系统使用自然 语言技术来识别期刊文章摘要中存在的表型短语。生物医学的 实体识别常常可使用较小的表型相关术语的知识库。Chen 和 Friedman[29]自动导入与语义类别相关的数千个 UMLS 术语,如 细胞体功能和细胞功能障碍,以及哺乳动物本体中的几百个术 语;并手动添加了几百个术语。实验结果表明,其实体识别准 确率达 64.0%,召回率达 77.1%。虽然结果不高,但为之后的 研究人员提供了一条可行的思路。 在医学领域,命名实体识别的痛点在于数据质量的良莠不 齐以及人工标注的专业性要求高。目前有专门研究如何降低对 于数据标注依赖的研究,其原理主要是利用海量未标注数据持 4 http://www.senseval.org/ 5 http://research.nii.ac.jp/ntcir 续提升模型性能,从小样本中进行学习,自我探索逐步学习新 知识,形成一个交互学习过程。 3)深度学习方法 深度学习近年来开始被广泛应用于命名实体识别,最具代 表性的模型是 2011 年 Collobert[30]提出的一个深层神经网络模 型,其效果和性能超过了传统算法。Sahu 等人[31]所提出的 CNN 与 RNN 级联的方法生成词嵌入特征,其结果优于目前最好的 算法且不需要过多的特征工程。 在医学领域,We 等人[32]基于 CRF 和双向 RNN 生成特征, 再使用 SVM 进行疾病命名实体识别。目前医学信息命名实体 识别任务中最主流的深度学习模型是 BiLSTM-CRF 模型, Jagannatha 等人[33]对比了 CRF,BiLSTM,BiLSTM-CRF 三种 模型,以及一些它们的改进模型,在英文电子病历命名实体识 别的效果,实验结果表明所有基于 LSTM 的模型都比 CRF 效 果更好,并且 BiLSTM 结合 CRF 模型能够进一步提高评测结果 2%-5%的准确率。 1.2.2 实体抽取 本文将医学实体关系抽取归结为两类:a)同类型医学实体 层级关系抽取,如疾病的“肠胃病-慢性胃炎”等;b)不同类 型关系抽取,如“疾病-症状”等。 1)同类型医学实体层级关系抽取 同类型医学实体层级关系相对较为单一,主要是 is-a 和 part-of 关系。由于医学有其严谨的学科体系和行业规范,因此 此类关系往往在医学词典、百科、信息标准中进行。 ICD-10[34]、SNOMED 等医疗词典或医疗数据库重点关注 医学专业术语、受限词汇的分类和概念标准化工作,权威且涵 盖范围广,在数量和质量上都有所保障,被医疗行业广泛认可, 是抽取层级间实体关系的首选来源。针对具体的医疗词典、知 识库提供的数据格式和开放 API 接口,可通过爬虫、正则表达 式、D2R 映射等技术从中抽取分层结构,抽取三元组来匹配、 添加上下位关系。 2)不同类型医学实体关系抽取 不同类型医学实体间的语义关系识别大致基于两大不同数 据源而实现。一是百科或其他结构化数据源,如 Medline,UMLS 等;二是半结构化的电子病历。 医学实体类型相对有限(主要是疾病、症状、治疗、药品 等),目前通常在两个实体间预定义好要抽取的关系类型,再将 抽取任务转换为分类问题来处理。如何预定义实体关系目前尚 未有统一的标准,这取决于医学知识图谱构建过程中模式图的 设置、实体识别情况、语料来源、构建目的及应用场景等,如 在 I2B2 2010 评测中,将电子病历中的实体关系分成了医疗问 题与医疗问题、医疗问题与治疗、医疗问题与检查三类。 近几年,Uzuner 团队[35]在句子层面抽取了六类医疗实体关 系,使用实体顺序和距离、链接语法和词汇特征来训练 6 个 SVM 分类器,通过对比实验,指出词汇特征在实体关系识别中 的重要作用。在此基础上,基于 Medline 摘要,Frunza 等[36]
优先出版 袁凯琦,等:医学知识图谱构建技术与研究进展 第35卷第7期 抽取了疾病、治疗间的三种关系,并引入UMLS生物和医疗实科中被称为希舒美,在A+医学百科中别名有阿齐霉素、阿奇 体特征,取得了不错的实验结果。而 Abacha等[37]在同样的任红霉素、叠氮红霉素等,商品名有泰力特、希舒美、舒美特等。 务中使用人工模板和SM的混合模型,取得了9407%的平均因此实体对齐是医学知识融合中非常重要的一步。实体对齐 F值。该研究指出,在样本数较少时,模板匹配方法起主要作是判断多源异构数据中的实体是否指向真实世界同一对象的过 用,而面向海量样本时则SⅤM起主要作用。 此外,在关系识别的分类方法对比研究中, Bruijn等人38 现有的对齐算法有成对实体对齐与集体实体对齐两类。成 在2B22010评测中对比研究了有监督分类和基于 Self-training对实体对齐方法只考虑实例及其属性相似度,包括基于传统概 的半监督分类的表现,表明了UMLS、依存句法分析结果和未率模型的实体对齐方法和基于机器学习的实体对齐方法。前者 标记数据对关系识别有着显著影响。除了预定义关系然后转换以 Fellegi等人将基于属性相似性评分的实体对齐问题转换 为分类任务来处理的方法,还有少量研究采用了模板匹配、统为分类问题的工作为基础,至今仍应用于很多实体对齐工作中 计共现等方法来抽取关系。如在 Medline摘要中通过统计基因后者常用的对齐方法有分类回归树算法S、I3决策树算法、 名的共现来提取关系,并根据共现矩阵生成了关系图围9,或在SvM分类方法、集成学习框架等基于有监督学习的方法 Medline摘要中通过语法依赖树进行图的模式匹配,进而抽取和无监督学习下的层次图模型等基于无监督学习的方法。 因果关系 集体实体对齐在成对实体对齐的基础上在计算实体相似度 1.2.3属性抽取 时加入了实体间的相互关系,分为局部集体实体对齐与全局集 属性抽取是指对属性和属性值对( attribute- value pair,体实体对齐。前者典型算法是使用向量空间模型和余弦相似度 P)的抽取,其中属性的抽取是指为医学实体构造属性列表,计算实体相似性绚,准确率不高,但召回率和运行速度比较可 如药品的属性包括适应症、禁忌症等。属性值的抽取是指为各观。后者通过不同匹配决策之间的相互影响来调整实体间的相 实体附加具体的属性值,如阿莫西林是青霉素过敏者禁用。常似度,又分为基于相似性传播和基于概率模型的集体实体对齐 见的抽取方法包括从开放链接数据提取叫、从结构化数据库提方法。基于相似性传播的方法通过初始匹配以“ bootstrapping 取、从百科类站点提取、从垂直网站进行包装器归纳、以及利方式迭代地产生新的匹配l. Lacoste- Julien等人2在此基础上 用模式匹配从査询日志中提取等。对于医学知识图谱来说,主提出的 SiGMa算法更适合大规模知识库,但需要一定的人工干 要通过上文提及的医学词典和主流医学站点来进行。值得一提预。基于概率模型的方法通过为实体匹配关系和决策建立复杂 的是,前者关于属性和属性值对的描述相对比较稀疏(特别对的概率模型,包括关系贝叶斯网络模型[53]、LDA分配模型 于中文领域),因此需从主流医学站点进一步抽取整合。 [54]、CRF模型561和 Markov逻辑网模型58等,可以提高 对于AVP结构化程度比较高的网站,如维基百科、A+医匹配效果,但效率还有待提高。 学百科等,有规整的信息框( Info Box),可以方便地爬取识别 当来自不同知识源的数据出现数据冲突时,需要考虑知识 InfoBox部分,直接提取该实体对应的属性名和属性值,置信源的可靠性以及不同信息在各知识源中出现的频度等因素。阮 度高,但规模较小。而对于更多形式各异、半结构化的医药站形等人在构建中医药知识图谱时对数据源的可信度进行评 点和垂直文本来说,通常是构建面向站点的包装器,从待抽取分,结合数据在不同来源中出现的次数,对数据项进行排序 站点采样并标注几个典型的详细页面( Detailed pages),利用这并补充到相应的属性值字段中。 些页面通过模式学习自动构建出一个或多个类 Xpath表示的模 随着知识库规模扩大和实体数量的增加,知识库中的实体 式,然后将其应用在该站点的其他详细页面中从而实现自动化对齐越来越受到重视,如何准确高效地实体对齐是未来知识融 的AVP抽取 合的研究重点之一。 1.3医学知识融合 1.3.2知识库融合 知识融合是高层次的知识组织2,使不同来源的知识在同 构建知识库时需求和设计理念不同会导致知识库中数据的 一框架规范下进行数据整合、消歧、加工、推理验证、更新等多样性和异构性。对于庞杂的医疗知识来说,当前多数知识库 步骤?,目的是解决知识复用的问题,增强知识库内部的逻辑性都是针对某个科室或者某类疾病或药物来构建的,比如脾胃病 和表达能力。针对知识图谱中不同粒度的知识对象,知识融合知识库、中医药知识图谱等,若要得到更完善的医疗知识 可细分为实体对齐、知识库的融合等 图谱,需要对不同的医疗知识库进行融合以及将尚未涵盖的知 1.3.1实体对齐 识和不断产生的新知识融合到已有的知识图谱中。医疗知识图 医疗知识图谱中知识来源的多样性导致了知识重复、知识谱的构建是一个不断迭代更新的过程 质量良莠不齐、知识间关联不够明确等问题。医学实体在不同 知识库融合的研究工作始于“本体匹配”,初期针对本体类 的数据源中存在严重的多元指代问题,例如阿奇霉素在百度百别的语义相似性进行匹配。随着知识库规模扩大和结构复杂 化,类别、属性以及实体和它们之间的相互关系等也成为考虑 http://www.a-hospital.com/ 7张坤面向知识图 索技术(搜狗)htp/ wwwcPsc.org.cn/kgl/ 的因素。 Suchanek等人提出的基于概率的知识融合算法
优先出版 袁凯琦,等:医学知识图谱构建技术与研究进展 第 35 卷第 7 期 抽取了疾病、治疗间的三种关系,并引入 UMLS 生物和医疗实 体特征,取得了不错的实验结果。而 Abacha 等[37]在同样的任 务中使用人工模板和 SVM 的混合模型,取得了 94.07%的平均 F 值。该研究指出,在样本数较少时,模板匹配方法起主要作 用,而面向海量样本时则 SVM 起主要作用。 此外,在关系识别的分类方法对比研究中,Bruijn 等人[38] 在 I2B2 2010 评测中对比研究了有监督分类和基于 Self-training 的半监督分类的表现,表明了 UMLS、依存句法分析结果和未 标记数据对关系识别有着显著影响。除了预定义关系然后转换 为分类任务来处理的方法,还有少量研究采用了模板匹配、统 计共现等方法来抽取关系。如在 Medline 摘要中通过统计基因 名的共现来提取关系,并根据共现矩阵生成了关系图[39],或在 Medline 摘要中通过语法依赖树进行图的模式匹配,进而抽取 因果关系[40]。 1.2.3 属性抽取 属性抽取是指对属性和属性值对(attribute-value pair, AVP)的抽取,其中属性的抽取是指为医学实体构造属性列表, 如药品的属性包括适应症、禁忌症等。属性值的抽取是指为各 实体附加具体的属性值,如阿莫西林是青霉素过敏者禁用。常 见的抽取方法包括从开放链接数据提取[41]、从结构化数据库提 取、从百科类站点提取、从垂直网站进行包装器归纳、以及利 用模式匹配从查询日志中提取等。对于医学知识图谱来说,主 要通过上文提及的医学词典和主流医学站点来进行。值得一提 的是,前者关于属性和属性值对的描述相对比较稀疏(特别对 于中文领域),因此需从主流医学站点进一步抽取整合。 对于 AVP 结构化程度比较高的网站,如维基百科、A+医 学百科6等,有规整的信息框(InfoBox),可以方便地爬取识别 InfoBox 部分,直接提取该实体对应的属性名和属性值,置信 度高,但规模较小。而对于更多形式各异、半结构化的医药站 点和垂直文本来说,通常是构建面向站点的包装器,从待抽取 站点采样并标注几个典型的详细页面(Detailed Pages),利用这 些页面通过模式学习自动构建出一个或多个类 Xpath 表示的模 式,然后将其应用在该站点的其他详细页面中从而实现自动化 的 AVP 抽取。 1.3 医学知识融合 知识融合是高层次的知识组织[42],使不同来源的知识在同 一框架规范下进行数据整合、消歧、加工、推理验证、更新等 步骤7,目的是解决知识复用的问题,增强知识库内部的逻辑性 和表达能力。针对知识图谱中不同粒度的知识对象,知识融合 可细分为实体对齐、知识库的融合等。 1.3.1 实体对齐 医疗知识图谱中知识来源的多样性导致了知识重复、知识 质量良莠不齐、知识间关联不够明确等问题。 医学实体在不同 的数据源中存在严重的多元指代问题,例如阿奇霉素在百度百 6 http://www.a-hospital.com/ 7 张坤.面向知识图谱的搜索技术(搜狗) http://www.cipsc.org.cn/kg1/ 科中被称为希舒美,在 A+医学百科中别名有阿齐霉素、阿奇 红霉素、叠氮红霉素等,商品名有泰力特、希舒美、舒美特等。 因此实体对齐是医学知识融合中非常重要的一步。实体对齐[43] 是判断多源异构数据中的实体是否指向真实世界同一对象的过 程。 现有的对齐算法有成对实体对齐与集体实体对齐两类。成 对实体对齐方法只考虑实例及其属性相似度,包括基于传统概 率模型的实体对齐方法和基于机器学习的实体对齐方法。前者 以 Fellegi 等人[44]将基于属性相似性评分的实体对齐问题转换 为分类问题的工作为基础,至今仍应用于很多实体对齐工作中; 后者常用的对齐方法有分类回归树算法[45]、ID3 决策树算法[46]、 SVM 分类方法[47]、集成学习框架[48]等基于有监督学习的方法 和无监督学习下的层次图模型[49]等基于无监督学习的方法。 集体实体对齐在成对实体对齐的基础上在计算实体相似度 时加入了实体间的相互关系,分为局部集体实体对齐与全局集 体实体对齐。前者典型算法是使用向量空间模型和余弦相似度 计算实体相似性[50],准确率不高,但召回率和运行速度比较可 观。后者通过不同匹配决策之间的相互影响来调整实体间的相 似度,又分为基于相似性传播和基于概率模型的集体实体对齐 方法。基于相似性传播的方法通过初始匹配以“bootstrapping” 方式迭代地产生新的匹配[51]。Lacoste-Julien 等人[52]在此基础上 提出的 SiGMa 算法更适合大规模知识库,但需要一定的人工干 预。基于概率模型的方法通过为实体匹配关系和决策建立复杂 的概率模型,包括关系贝叶斯网络模型[53]、LDA 分配模型 [54]、CRF 模型[55,56]和 Markov 逻辑网模型[57,58]等,可以提高 匹配效果,但效率还有待提高。 当来自不同知识源的数据出现数据冲突时,需要考虑知识 源的可靠性以及不同信息在各知识源中出现的频度等因素。阮 彤等人[59]在构建中医药知识图谱时对数据源的可信度进行评 分,结合数据在不同来源中出现的次数,对数据项进行排序, 并补充到相应的属性值字段中。 随着知识库规模扩大和实体数量的增加,知识库中的实体 对齐越来越受到重视,如何准确高效地实体对齐是未来知识融 合的研究重点之一。 1.3.2 知识库融合 构建知识库时需求和设计理念不同会导致知识库中数据的 多样性和异构性。对于庞杂的医疗知识来说,当前多数知识库 都是针对某个科室或者某类疾病或药物来构建的,比如脾胃病 知识库[60]、中医药知识图谱[4]等,若要得到更完善的医疗知识 图谱,需要对不同的医疗知识库进行融合以及将尚未涵盖的知 识和不断产生的新知识融合到已有的知识图谱中。医疗知识图 谱的构建是一个不断迭代更新的过程。 知识库融合的研究工作始于“本体匹配”,初期针对本体类 别的语义相似性进行匹配[61]。随着知识库规模扩大和结构复杂 化,类别、属性以及实体和它们之间的相互关系等也成为考虑 的因素。Suchanek 等人提出的基于概率的知识融合算法