生物信息学 的研究领域,广泛应用于医药、化学、食品和农业等行业。 (十二)生物医学文本挖掘 近年来,生物医学领域的文献数量迅速增加。这些文献作为科学 研究成果的载体,大多以电子格式提供且易于获取。如何从海量的文 献中挖掘蕴藏的知识对于生物医学研究和应用至关重要。融合自然语 言处理技术的生物医学文本挖掘应运而生。其任务包括生物医学命名 实体识别、文本分类、关系抽取、知识图谱构建等。其中,命名实体 识别是具有挑战性的关键基础任务。常用于生物医学命名实体识别的 模型有基于规则、基于字典、基于机器学习(尤其是深度学习)的方 法。目前,命名实体识别面临的问题包括同义词、替换表达、一词多 义或歧义、缩写等,因而可能需要大量的人工标注。如何在保持精度 的同时减少标注训练集、运用迁移学习和半监督学习等是生物医学文 本挖掘的发展方向。 第四节生物信息学面临的挑战 近年来,生物信息学家已经取得了多项研究成果,获得了海量的 生物数据,确定了数千个基因的功能,其中包括搜索碱基对序列匹配 的有效方法、统计学工具,利用新的计算机工具组装整个基因组等, 但生物信息学的发展面临着新的挑战,迫切需要新的研究手段和研究 方法。 生物信息学并不是一个足以乐观的领域,究其原因,它是基于分 子生物学与多种学科交叉而成的新学科,现有的形势仍表现为各种学 科的简单堆砌,相互之间的联系并不是特别紧密。在处理大规模数据 21
生物信息学 21 的研究领域,广泛应用于医药、化学、食品和农业等行业。 (十二)生物医学文本挖掘 近年来,生物医学领域的文献数量迅速增加。这些文献作为科学 研究成果的载体,大多以电子格式提供且易于获取。如何从海量的文 献中挖掘蕴藏的知识对于生物医学研究和应用至关重要。融合自然语 言处理技术的生物医学文本挖掘应运而生。其任务包括生物医学命名 实体识别、文本分类、关系抽取、知识图谱构建等。其中,命名实体 识别是具有挑战性的关键基础任务。常用于生物医学命名实体识别的 模型有基于规则、基于字典、基于机器学习(尤其是深度学习)的方 法。目前,命名实体识别面临的问题包括同义词、替换表达、一词多 义或歧义、缩写等,因而可能需要大量的人工标注。如何在保持精度 的同时减少标注训练集、运用迁移学习和半监督学习等是生物医学文 本挖掘的发展方向。 第四节 生物信息学面临的挑战 近年来,生物信息学家已经取得了多项研究成果,获得了海量的 生物数据,确定了数千个基因的功能,其中包括搜索碱基对序列匹配 的有效方法、统计学工具,利用新的计算机工具组装整个基因组等, 但生物信息学的发展面临着新的挑战,迫切需要新的研究手段和研究 方法。 生物信息学并不是一个足以乐观的领域,究其原因,它是基于分 子生物学与多种学科交叉而成的新学科,现有的形势仍表现为各种学 科的简单堆砌,相互之间的联系并不是特别紧密。在处理大规模数据
生物信息学 方面,没有行之有效的一般性方法,而对于大规模数据内在的生成机 制也没有完全明了,这使得生物信息学的研究短期内很难有突破性的 结果。那么,要得到真正的解决,最终不能从计算机科学得到,真正 的解决方法可能还是得从生物学自身,从数学上的新思路来获得本质 性的动力。毫无疑问,正如Dulbecco在1986年所说:“人类的DNA 序列是人类的真谛,这个世界上发生的一切事情,都与这一序列息息 相关”。然而,要完全破译这一序列及相关的内容,我们还有相当长 的路要走。 我们很难预测生物信息学在未来几十年将给生物学的发展带来 什么样的根本性突破,但是人类科学研究史表明,科学数据的大量积 累将导致重大的科学规律的发现。例如,对数百颗天体运行数据的分 析导致开普勒三大定律和万有引力定律的发现:数十种元素和上万种 化合物数据的积累导致元素周期表的发现;氢原子光谱学数据的积累 促成量子理论的提出,为量子力学的建立奠定了基础。我们有理由认 为,今日生物学数据的巨大积累也将导致重大生物学规律的发现。 统计学原理表明,在一定程度上,统计结果的显著性与数据量的 对数成正比。因此,随着数据库中数据量的飞速增长,基于数据库的 研究工作必将有所突破。可以相信,随着人类基因组计划的完成及蛋 白质组学研究的逐步开展,生物信息学在揭示生命的奥秘中会更加成 熟和完善,生物信息学科也将随之得到巨大发展。相信生物信息学将 发挥越来越大的作用,并推动生物学进入一个全新的境界。 《第三次技术革命》里有这样的描述:“一场与工业革命和以计 22
生物信息学 22 方面,没有行之有效的一般性方法,而对于大规模数据内在的生成机 制也没有完全明了,这使得生物信息学的研究短期内很难有突破性的 结果。那么,要得到真正的解决,最终不能从计算机科学得到,真正 的解决方法可能还是得从生物学自身,从数学上的新思路来获得本质 性的动力。毫无疑问,正如 Dulbecco 在 1986 年所说:“人类的 DNA 序列是人类的真谛,这个世界上发生的一切事情,都与这一序列息息 相关”。然而,要完全破译这一序列及相关的内容,我们还有相当长 的路要走。 我们很难预测生物信息学在未来几十年将给生物学的发展带来 什么样的根本性突破,但是人类科学研究史表明,科学数据的大量积 累将导致重大的科学规律的发现。例如,对数百颗天体运行数据的分 析导致开普勒三大定律和万有引力定律的发现;数十种元素和上万种 化合物数据的积累导致元素周期表的发现;氢原子光谱学数据的积累 促成量子理论的提出,为量子力学的建立奠定了基础。我们有理由认 为,今日生物学数据的巨大积累也将导致重大生物学规律的发现。 统计学原理表明,在一定程度上,统计结果的显著性与数据量的 对数成正比。因此,随着数据库中数据量的飞速增长,基于数据库的 研究工作必将有所突破。可以相信,随着人类基因组计划的完成及蛋 白质组学研究的逐步开展,生物信息学在揭示生命的奥秘中会更加成 熟和完善,生物信息学科也将随之得到巨大发展。相信生物信息学将 发挥越来越大的作用,并推动生物学进入一个全新的境界。 《第三次技术革命》里有这样的描述:“一场与工业革命和以计
生物信息学 算机为基础的革命有相同影响力的变化正在开始。下一个伟大时代将 是基因组革命时代,它现在处于初期阶段”。基因组学的发展已经进 入后基因组研究阶段,致力于蛋白质功能研究的蛋白质组学和功能蛋 白质组学正在蓬勃发展,在生物信息学发展的带动下,我们必定能够 揭示各种生命现象的奥秘,并带动多个学科的跨越式发展。生物信息 学的发展将对分子生物学、药物设计、工作流管理和医疗成像等领域 产生巨大的影响,极有可能引发新的产业革命。此外,生物信息学所 倡导的全球范围的资源共享也将对整个自然科学,乃至人类社会的发 展产生深远的影响。 23
生物信息学 23 算机为基础的革命有相同影响力的变化正在开始。下一个伟大时代将 是基因组革命时代,它现在处于初期阶段”。基因组学的发展已经进 入后基因组研究阶段,致力于蛋白质功能研究的蛋白质组学和功能蛋 白质组学正在蓬勃发展,在生物信息学发展的带动下,我们必定能够 揭示各种生命现象的奥秘,并带动多个学科的跨越式发展。生物信息 学的发展将对分子生物学、药物设计、工作流管理和医疗成像等领域 产生巨大的影响,极有可能引发新的产业革命。此外,生物信息学所 倡导的全球范围的资源共享也将对整个自然科学,乃至人类社会的发 展产生深远的影响
生物信息学 第二章生物学数据库及其检索 第一节生物学数据库简介 一、什么是数据库 数据库(database)是一类用于存储和管理数据的计算机文档,是 统一管理的相关数据的集合,其存储形式有利于数据信息的检索与调 用。数据库开发的主要任务就是将数据以结构化记录的形式进行组织, 以便于信息的检索。数据库的每一条记录(record),也可以称为条目 (entry),包含了多个描述某一类数据特性或属性的字段(field),如 基因名、来源物种、序列的创建日期等,这也是数据结构化的基础: 值(value)则是指每个记录中某个字段的具体内容。当我们进行数据 库记录的检索时,就是利用查询语言在整个数据库中查找符合条件 (即对特定字段包含特定内容的限定)的所有记录的过程。例如,我 们可以在GenBank核酸序列数据库中查找所有来源于人类(organism: Homosapiens)、最近30天公布的(publishedinthelast.30days)、类型为 mRNA(moleculartype:mRNA)的核酸序列。 二、 数据库的类型 到目前为止,生物学数据库使用了4种不同的数据库结构类型: 平面文件、关系型数据库、面向对象数据库和基于Internet平台的 XML。 最早的数据库是以平面文件的格式(flatfileformat)进行保存的, 这种格式是将多个记录以特殊约定的分隔符(如P或”)进行区分, 而每一个记录内的众多字段也是通过一些特定的分隔符(如“,”或“:”) 24
生物信息学 24 第二章 生物学数据库及其检索 第一节 生物学数据库简介 一、 什么是数据库 数据库(database)是一类用于存储和管理数据的计算机文档,是 统一管理的相关数据的集合,其存储形式有利于数据信息的检索与调 用。数据库开发的主要任务就是将数据以结构化记录的形式进行组织, 以便于信息的检索。数据库的每一条记录(record),也可以称为条目 (entry),包含了多个描述某一类数据特性或属性的字段(field),如 基因名、来源物种、序列的创建日期等,这也是数据结构化的基础; 值(value)则是指每个记录中某个字段的具体内容。当我们进行数据 库记录的检索时,就是利用查询语言在整个数据库中查找符合条件 (即对特定字段包含特定内容的限定)的所有记录的过程。例如,我 们可以在 GenBank 核酸序列数据库中查找所有来源于人类(organism: Homosapiens)、最近 30 天公布的(publishedinthelast30days)、类型为 mRNA(moleculartype:mRNA)的核酸序列。 二、 数据库的类型 到目前为止,生物学数据库使用了 4 种不同的数据库结构类型: 平面文件、关系型数据库、面向对象数据库和基于 Internet 平台的 XML。 最早的数据库是以平面文件的格式(flatfileformat)进行保存的, 这种格式是将多个记录以特殊约定的分隔符(如“/”或“|”)进行区分, 而每一个记录内的众多字段也是通过一些特定的分隔符(如“,”或“:”)
生物信息学 加以区分。数据库文件就是由这些字段及内容所组成,并不包含什么 隐藏的计算机指令。显而易见,这样的数据库就会形成一个很长的文 本文件。因此,要想在平面文件格式的数据库中检索某一类信息,计 算机必须通读整个文件。当记录逐渐变多或描述记录的字段很复杂时, 这种格式的数据库就变得非常难于进行检索。于是,更多的数据库则 是使用了包含能够帮助寻找数据记录间隐含关系的计算机操作指令 的数据库管理系统,以便于数据的接入与检索。根据不同的数据结构 类型,数据库管理系统可以分为关系型数据库管理系统和对象型数据 库管理系统。关系型数据库及其管理系统的具体内容请参见本章第二 节及第十三章第三节。 三、生物学数据库 生物学数据库的类型多种多样。根据存放数据类型的不同,可以 分为序列(如GenBank、Swiss-Prot等)、(三维)结构(如PDB)、文 献(如NCBI的PubMed)、序列特征(如PROSITE、Pfam等)、基因 组图谱(如MapViewer、Ensembl等)、表达谱等多种数据库,每一种 还可以进行更细致层次的划分。根据数据库存储的具体内容还可以分 为一级数据库和二级数据库(primaryandsecondarydatabase),以及用 户针对性更强的专用数据库(specializeddatabase)。 (一) 一级数据库与二级数据库 一级数据库属于档案数据库(archive),库中的主要内容是来源 于实验室操作所得到的原始数据结果(如测序得到的序列或经过X射 线晶体衍射所得到的三维结构数据等),当然也会包含一些基本的说 25
生物信息学 25 加以区分。数据库文件就是由这些字段及内容所组成,并不包含什么 隐藏的计算机指令。显而易见,这样的数据库就会形成一个很长的文 本文件。因此,要想在平面文件格式的数据库中检索某一类信息,计 算机必须通读整个文件。当记录逐渐变多或描述记录的字段很复杂时, 这种格式的数据库就变得非常难于进行检索。于是,更多的数据库则 是使用了包含能够帮助寻找数据记录间隐含关系的计算机操作指令 的数据库管理系统,以便于数据的接入与检索。根据不同的数据结构 类型,数据库管理系统可以分为关系型数据库管理系统和对象型数据 库管理系统。关系型数据库及其管理系统的具体内容请参见本章第二 节及第十三章第三节。 三、 生物学数据库 生物学数据库的类型多种多样。根据存放数据类型的不同,可以 分为序列(如 GenBank、Swiss-Prot 等)、(三维)结构(如 PDB)、文 献(如 NCBI 的 PubMed)、序列特征(如 PROSITE、Pfam 等)、基因 组图谱(如 MapViewer、Ensembl 等)、表达谱等多种数据库,每一种 还可以进行更细致层次的划分。根据数据库存储的具体内容还可以分 为一级数据库和二级数据库(primaryandsecondarydatabase),以及用 户针对性更强的专用数据库(specializeddatabase)。 (一) 一级数据库与二级数据库 一级数据库属于档案数据库(archive),库中的主要内容是来源 于实验室操作所得到的原始数据结果(如测序得到的序列或经过 X 射 线晶体衍射所得到的三维结构数据等),当然也会包含一些基本的说