项目研究与进展
- 21 - 项目研究与进展
22
- 22 -
面向微生物领域的大规模知识图谱研究 一国家重点研发项目“科学大数据管理系统” 2016年,科技部依据《国家中长期科学和技术发展规划纲要(2006-2020年)》、《关 于促进云计算创新发展,培育信息产业新业态的意见》、《国务院关于印发促进大数据发展 行动纲要的通知》等文件,会同相关部门组织开展了《云计算和大数据重点专项实施方案》 编制工作,并在此基础上启动“云计算和大数据重点专项”2016年度项目。该专项的总体 目标是形成自主可控的云计算和大数据系统解决方案、技术体系和标准规范;在云计算与大 数据的重大设备、核心软件、支撑平台等方面突破一批关键技术;基本形成以自主云计算与 大数据骨干企业为主体的产业生态体系和具有全球竞争优势的云计算与大数据产业集群;提 升资源汇聚、数据收集、存储管理、分析挖掘、安全保障、按需服务等能力,实现核心关键 技术自主可控,促进我国云计算和大数据技术的研究与应用达到国际领先水平,加快建成信 息强国。 科学大数据管理系统即面向特定领域的大数据管理系统是该专项之下的项目之一。随着 大规模巡天望远镜、大型粒子加速器、高通量基因测序仪等源源不断产生巨量科学数据,使 得全球科技创新进入科学大数据时代。科学大数据的管理与分析水平,是能否在未来分秒必 争的重大科学发现中胜出的关键。同时,科学大数据管理面临一系列问题和挑战,主要表现 在:(1)超大规模关系数据管理;(2)多源数据关联和知识发现;(3)科学计算的高效 数据处理。 研究背景 生命科学领域100亿级RDF知识图谱数据来源于上百个分布在全球的不同数据源,包 括欧洲生物信息研究所、美国国家人类基因组研究中心以及由中国科学院微生物研究所牵头 的世界微生物数据中心等。其中,由中科院微生物所牵头的世界微生物数据中心( Word data Center for Microorganism,wDcM)隶属于国际生命科学联盟下属的世界微生物菌种保藏联 合会和国际教科文组织下属的国际微生物资源中心。2010年,该数据中心落户中科院微生 物研究所。这是我国生物学领域的第一个世界数据中心,也是国际生物学领域第一个设立在 发展中国家的世界数据中心。如何进一步充分利用现有计算机技术,挖掘微生物大数据乃至 科学大数据中的巨量信息成为亟待解决的问题之 “图数据管理关键技术及系统”课题面向大规模图数据管理需求,研究图数据索引方法 和査询优化策略,分布式系统设计及联邦査询方法,图数据交互式检索和分析。其围绕图数 据管理的核心问题,以微生物大数据为应用背景,研究海量图数据的索引方法和查询优化策 略,实现基于结构感知的高通量、并行化的图模式查询;研究基于数据划分的分布式系统设 计及联邦査询方法,实现跨地域多节点的分布式RDF图数据管理;研究并实现图数据的交 互式检索和分析。 二、研究意义 通过本课题的研究,计划实现一个高效的大规模科学RDF知识图谱数据管理系统。这
- 23 - 面向微生物领域的大规模知识图谱研究 —国家重点研发项目“科学大数据管理系统” 2016 年,科技部依据《国家中长期科学和技术发展规划纲要(2006-2020 年)》、《关 于促进云计算创新发展,培育信息产业新业态的意见》、《国务院关于印发促进大数据发展 行动纲要的通知》等文件,会同相关部门组织开展了《云计算和大数据重点专项实施方案》 编制工作,并在此基础上启动“云计算和大数据重点专项”2016 年度项目。该专项的总体 目标是形成自主可控的云计算和大数据系统解决方案、技术体系和标准规范;在云计算与大 数据的重大设备、核心软件、支撑平台等方面突破一批关键技术;基本形成以自主云计算与 大数据骨干企业为主体的产业生态体系和具有全球竞争优势的云计算与大数据产业集群;提 升资源汇聚、数据收集、存储管理、分析挖掘、安全保障、按需服务等能力,实现核心关键 技术自主可控,促进我国云计算和大数据技术的研究与应用达到国际领先水平,加快建成信 息强国。 科学大数据管理系统即面向特定领域的大数据管理系统是该专项之下的项目之一。随着 大规模巡天望远镜、大型粒子加速器、高通量基因测序仪等源源不断产生巨量科学数据,使 得全球科技创新进入科学大数据时代。科学大数据的管理与分析水平,是能否在未来分秒必 争的重大科学发现中胜出的关键。同时,科学大数据管理面临一系列问题和挑战,主要表现 在:(1)超大规模关系数据管理;(2)多源数据关联和知识发现;(3)科学计算的高效 数据处理。 一、 研究背景 生命科学领域 100 亿级 RDF 知识图谱数据来源于上百个分布在全球的不同数据源,包 括欧洲生物信息研究所、美国国家人类基因组研究中心以及由中国科学院微生物研究所牵头 的世界微生物数据中心等。其中,由中科院微生物所牵头的世界微生物数据中心(Word Data Center for Microorganism,WDCM)隶属于国际生命科学联盟下属的世界微生物菌种保藏联 合会和国际教科文组织下属的国际微生物资源中心。2010 年,该数据中心落户中科院微生 物研究所。这是我国生物学领域的第一个世界数据中心,也是国际生物学领域第一个设立在 发展中国家的世界数据中心。如何进一步充分利用现有计算机技术,挖掘微生物大数据乃至 科学大数据中的巨量信息成为亟待解决的问题之一。 “图数据管理关键技术及系统”课题面向大规模图数据管理需求,研究图数据索引方法 和查询优化策略,分布式系统设计及联邦查询方法,图数据交互式检索和分析。其围绕图数 据管理的核心问题,以微生物大数据为应用背景,研究海量图数据的索引方法和查询优化策 略,实现基于结构感知的高通量、并行化的图模式查询;研究基于数据划分的分布式系统设 计及联邦查询方法,实现跨地域多节点的分布式 RDF 图数据管理;研究并实现图数据的交 互式检索和分析。 二、 研究意义 通过本课题的研究,计划实现一个高效的大规模科学 RDF 知识图谱数据管理系统。这
个系统能支持在生命科学领域中对关于生物资源、文献、序列和疾病等内容的100亿级关联 数据上进行知识发现和“六步”以上的关联挖掘。这个系统还能支持对分布在全球各个科研 机构的跨地域、多中心RDF知识图谱网络进行统一的检索与查询。这个系统能极大地协助 中科院微生物所牵头的国际微生物中心进行更加高效的研究,进而加快我国在生命科学研究 领域的研究发展。 此外,本系统还支持构建RDF知识图谱服务平台来辅助国际微生物中心将自身的研究 成果以RDF知识图谱的形式进行发布并提供浏览和查询接口服务。这将极大地提高我国在 生命科学研究领域的影响力。 另外,随着生物技术的日益发展,特别是测序技术的迅猛发展,目前微生物学的研究已 经全面步入基因组研究时代。随之而来的便是对大规模数据有效应用的需求。传统的数据分 析方法很难配备生命科学的数据产生速度和对数据分析的需求,因此,对面向生物技术发展 和产业应用的大规模数据分析已经成为必然。本课题采用了先进的数据管理及分析技术,将 极大地帮助生物学家从数据中挖掘宝贵的财富,更好地用好这笔资源,从而推动生物技术进 步和生物产业发展。 三、研究内容 本课题的主要研究内容包括四个方面,即基于图结构的索引和查询优化策略、分布式 RDF知识图谱数据管理系统构建、RDF知识图谱数据上的分布式大规模知识并行推理框架研 究以及面向海量图数据的交互式检索和分析平台 (1)基于图结构的索引和查询优化策略 科学大数据的重要特点之一是数据的复杂关联性,即数据的图结构特征。我们拟研究和 构建海量图数据管理系统,支持两类图数据的管理,一类是数据库系统中存在百万量级的小 规模图结构数据(图中节点规模小于1000),例如化学(生物、药物)分子结构式库;另 外一类是数据库系统中存储一张规模巨大的数据图,例如蛋白交互网络、文献引用关联图等。 本课题将重点研究以下两类查询的优化策略:一类是结构模式匹配查询;另外一类是节点关 联发现查询。 结构模式匹配査询优化策略。研究模式匹配在图査询及在结构检索化学、药物领域的査 询方法与策略。在设计面向持续更新数据图的图模式匹配查询处理算法基础上,研究基于结 构和节点内容相似性相结合的图模式匹配查询。针对科研数据呈现的复杂关联、多边性,对 索引的轻量级更新有了新的要求,为提高动态图中索引更新问题,拟研究基于树状多层摘要 图的方式,将索引更新约束在局部范围内 节点关联发现査询策略。硏究关联数据中“语义路径模式”挖掘,通过挖掘路径实现与 自然语言中关系短语的语义表达的直接对应,从而更加准确地发现知识图谱中不同实体之间 的语义关联。 (2)分布式RDF知识图谱数据管理系统构建 科学领域的海量信息可通过RDF方式表示为知识图谱,领域知识图谱数据量已经远超 出单机存储管理能力。本课题研究通过利用跨地域计算中心实现分布式知识图谱数据管理策 略与支持高效图数据检索策略,并硏制不同策略分布式知识图谱管理系统
- 24 - 个系统能支持在生命科学领域中对关于生物资源、文献、序列和疾病等内容的 100 亿级关联 数据上进行知识发现和“六步”以上的关联挖掘。这个系统还能支持对分布在全球各个科研 机构的跨地域、多中心 RDF 知识图谱网络进行统一的检索与查询。这个系统能极大地协助 中科院微生物所牵头的国际微生物中心进行更加高效的研究,进而加快我国在生命科学研究 领域的研究发展。 此外,本系统还支持构建 RDF 知识图谱服务平台来辅助国际微生物中心将自身的研究 成果以 RDF 知识图谱的形式进行发布并提供浏览和查询接口服务。这将极大地提高我国在 生命科学研究领域的影响力。 另外,随着生物技术的日益发展,特别是测序技术的迅猛发展,目前微生物学的研究已 经全面步入基因组研究时代。随之而来的便是对大规模数据有效应用的需求。传统的数据分 析方法很难配备生命科学的数据产生速度和对数据分析的需求,因此,对面向生物技术发展 和产业应用的大规模数据分析已经成为必然。本课题采用了先进的数据管理及分析技术,将 极大地帮助生物学家从数据中挖掘宝贵的财富,更好地用好这笔资源,从而推动生物技术进 步和生物产业发展。 三、 研究内容 本课题的主要研究内容包括四个方面,即基于图结构的索引和查询优化策略、分布式 RDF 知识图谱数据管理系统构建、RDF 知识图谱数据上的分布式大规模知识并行推理框架研 究以及面向海量图数据的交互式检索和分析平台。 (1)基于图结构的索引和查询优化策略 科学大数据的重要特点之一是数据的复杂关联性,即数据的图结构特征。我们拟研究和 构建海量图数据管理系统,支持两类图数据的管理,一类是数据库系统中存在百万量级的小 规模图结构数据(图中节点规模小于 1000),例如化学(生物、药物)分子结构式库;另 外一类是数据库系统中存储一张规模巨大的数据图,例如蛋白交互网络、文献引用关联图等。 本课题将重点研究以下两类查询的优化策略:一类是结构模式匹配查询;另外一类是节点关 联发现查询。 结构模式匹配查询优化策略。研究模式匹配在图查询及在结构检索化学、药物领域的查 询方法与策略。在设计面向持续更新数据图的图模式匹配查询处理算法基础上,研究基于结 构和节点内容相似性相结合的图模式匹配查询。针对科研数据呈现的复杂关联、多边性,对 索引的轻量级更新有了新的要求,为提高动态图中索引更新问题,拟研究基于树状多层摘要 图的方式,将索引更新约束在局部范围内。 节点关联发现查询策略。研究关联数据中“语义路径模式”挖掘,通过挖掘路径实现与 自然语言中关系短语的语义表达的直接对应,从而更加准确地发现知识图谱中不同实体之间 的语义关联。 (2)分布式 RDF 知识图谱数据管理系统构建 科学领域的海量信息可通过 RDF 方式表示为知识图谱,领域知识图谱数据量已经远超 出单机存储管理能力。本课题研究通过利用跨地域计算中心实现分布式知识图谱数据管理策 略与支持高效图数据检索策略,并研制不同策略分布式知识图谱管理系统
研制基于数据划分的分布式知识图谱管理系统。在知识图谱的实际存储过程中,研究 RDF型知识图谱数据在不同计算节点上的存储策略。研究系统局部计算特性,构建分布式知 识图谱数据管理系统。研究图数据进行结构化查询在各计算中心本地局部计算与局部匹配方 法。研究局部匹配结果归并与连接方法。系统框架如图1所示 上本地局部匹 结构化查询 →上本地同部匹配一阳并所有 本地局部 最终查询匹配 回→区地局图 初始化 图1基于数据划分的分布式知识图谱管理系统架构图 联邦型分布式知识图谱管理系统。在利用RDF管理知识图谱过程中,研究RDF知识图 谱数据在不同机器上分布与数据源“自治”方法,构建联邦型分布式RDF知识图谱。研究 图数据结构化査询分解方法,构建子查询分配与通信策略。研究不同RDF数据源局部匹配 结果连接方法。系统框架如图2所示 淘分解与数 控制机器 图2联邦型分布式知识图谱管理系统架构图 (3)RDF知识图谱数据上的分布式大规模知识并行推理框架研究 本课题将基于固态硬盘SSD的 MapReduce框架和基于图形处理器GpU的 Spark框架 分别构建大规模知识的并行推理框架。具体包括:设计GpU+ MapReduce框架,构建 RDF/RDFS/OwL- Horst上的并行推理框架,基于图技术构建能支持轻量级 OWL-Lite上的并行 推理框架,构建RDF/RDFS流的并行推理框架,研究提议并行推理机制的基础理论问题,实 现相应的并行推理系统 (4)面向海量图数据的交互式检索和分析平台 目前图数据管理的挑战之一是其具有“弱模式”特点,即图数据不同于关系数据具有明 确的模式( Schema)信息。“弱模式”的图数据对于用户査询和检索提出了挑战。因此 在本课题中我们拟构建面向图数据的交互式检索和分析平台。具体研究内容包括面向RDF 知识图谱的自然语言检索方法和复杂图数据的语义摘要和交互式检索方法 面向知识图谱的自然语言交互式检索方法。研究知识图谱中自然语言查询接口方法。研 究交互式检索方法,允许用户交互式修正Q/A系统并将自然语言问题翻译成结构化查询语 句,提高知识图谱Q/A系统的准确性 复杂图数据的语义摘要和交互式检索方法。研究图结构的层次化摘要表示方法,协助用 户理解复杂图数据模式与复杂图数据交互式浏览。硏究不同层次的图结构摘要(图立方)
- 25 - 研制基于数据划分的分布式知识图谱管理系统。在知识图谱的实际存储过程中,研究 RDF 型知识图谱数据在不同计算节点上的存储策略。研究系统局部计算特性,构建分布式知 识图谱数据管理系统。研究图数据进行结构化查询在各计算中心本地局部计算与局部匹配方 法。研究局部匹配结果归并与连接方法。系统框架如图 1 所示。 图 1 基于数据划分的分布式知识图谱管理系统架构图 联邦型分布式知识图谱管理系统。在利用 RDF 管理知识图谱过程中,研究 RDF 知识图 谱数据在不同机器上分布与数据源“自治”方法,构建联邦型分布式 RDF 知识图谱。研究 图数据结构化查询分解方法,构建子查询分配与通信策略。研究不同 RDF 数据源局部匹配 结果连接方法。系统框架如图 2 所示。 图 2 联邦型分布式知识图谱管理系统架构图 (3)RDF 知识图谱数据上的分布式大规模知识并行推理框架研究 本课题将基于固态硬盘 SSD 的 MapReduce 框架和基于图形处理器 GPU 的 Spark 框架, 分别构建大规模知识的并行推理框架。具体包括:设计 GPU + MapReduce 框架,构建 RDF/RDFS/OWL-Horst 上的并行推理框架,基于图技术构建能支持轻量级 OWL-Lite 上的并行 推理框架,构建 RDF/RDFS 流的并行推理框架,研究提议并行推理机制的基础理论问题,实 现相应的并行推理系统。 (4)面向海量图数据的交互式检索和分析平台 目前图数据管理的挑战之一是其具有“弱模式”特点,即图数据不同于关系数据具有明 确的模式(Schema)信息。“弱模式”的图数据对于用户查询和检索提出了挑战。因此, 在本课题中我们拟构建面向图数据的交互式检索和分析平台。具体研究内容包括面向 RDF 知识图谱的自然语言检索方法和复杂图数据的语义摘要和交互式检索方法。 面向知识图谱的自然语言交互式检索方法。研究知识图谱中自然语言查询接口方法。研 究交互式检索方法,允许用户交互式修正 Q/A 系统并将自然语言问题翻译成结构化查询语 句,提高知识图谱 Q/A 系统的准确性。 复杂图数据的语义摘要和交互式检索方法。研究图结构的层次化摘要表示方法,协助用 户理解复杂图数据模式与复杂图数据交互式浏览。研究不同层次的图结构摘要(图立方)