生物信息学 明(如序列所属的物种、类型、序列发表的文献出处等)。核酸序列 数据库GenBank、EMBL、DDBJ及蛋白质结构数据库PDB (ProteinDataBank)就是典型的一级数据库。二级数据库则是在一级 数据库的信息基础上进行了计算加工处理并增加了许多人为的注释 而构成的。例如,NCBI的RefSeq数据库,其mRNA序列是综合了 GenBank中来源于同一物种相同基因的所有mRNA序列信息的一致 性序列(consensussequence):而公共数据库中大多数的蛋白质序列是 将核酸序列中的编码序列区域(codingsequenceregion,CDS)进行蛋 白质翻译后,通过后续的一些计算分析(如利用BLA$T进行序列相 似性分析),主观人为地为序列加上蛋白质产物名称及功能注释。也 就是说,它们不是通过实验来确定的。以UniProt下属的 KnowledgeBase数据库为例,它是由众多蛋白质专家人工校正注释的 高质量Swiss--Prot和由计算预测得到各种蛋白质功能信息的TrEMBL 两部分组成,是目前最大的二级蛋白质序列数据库。一级数据库的注 释信息非常有限,因此二级数据库中的功能与结构注释在分析中的作 用便显得格外突出。但必须注意的是,二级数据库中的信息有些时候 也会产生误导,特别是一些由程序自动计算得到的结果。 除了一级与二级数据库外,更多的专业数据库被开发出来以满足 不同生物学研究团体对特定类型信息的需求。例如,专门研究小RNA 的数据库或专门存储基因表达谱数据的数据库,以及专门为果蝇、线 虫、拟南芥等基因组研究提供各类信息的专业数据库等。这些数据库 虽然在序列数据方面与一级数据库有些重叠,但由于各研究领域的专 26
生物信息学 26 明(如序列所属的物种、类型、序列发表的文献出处等)。核酸序列 数据库 GenBank 、 EMBL 、 DDBJ 及 蛋 白 质 结 构 数 据 库 PDB (ProteinDataBank)就是典型的一级数据库。二级数据库则是在一级 数据库的信息基础上进行了计算加工处理并增加了许多人为的注释 而构成的。例如,NCBI 的 RefSeq 数据库,其 mRNA 序列是综合了 GenBank 中来源于同一物种相同基因的所有 mRNA 序列信息的一致 性序列(consensussequence);而公共数据库中大多数的蛋白质序列是 将核酸序列中的编码序列区域(codingsequenceregion,CDS)进行蛋 白质翻译后,通过后续的一些计算分析(如利用 BLAST 进行序列相 似性分析),主观人为地为序列加上蛋白质产物名称及功能注释。也 就 是 说 , 它 们 不 是 通 过 实 验 来 确 定 的 。 以 UniProt 下 属 的 KnowledgeBase 数据库为例,它是由众多蛋白质专家人工校正注释的 高质量 Swiss-Prot 和由计算预测得到各种蛋白质功能信息的 TrEMBL 两部分组成,是目前最大的二级蛋白质序列数据库。一级数据库的注 释信息非常有限,因此二级数据库中的功能与结构注释在分析中的作 用便显得格外突出。但必须注意的是,二级数据库中的信息有些时候 也会产生误导,特别是一些由程序自动计算得到的结果。 除了一级与二级数据库外,更多的专业数据库被开发出来以满足 不同生物学研究团体对特定类型信息的需求。例如,专门研究小 RNA 的数据库或专门存储基因表达谱数据的数据库,以及专门为果蝇、线 虫、拟南芥等基因组研究提供各类信息的专业数据库等。这些数据库 虽然在序列数据方面与一级数据库有些重叠,但由于各研究领域的专
生物信息学 家更注重于为这些专业数据库提供相应的注释,因此它们为公共序列 数据库提供了非常有价值的补充。 (二) 如何查找与研究相关的生物学资源 面对众多的生物学资源,刚刚接触生物信息学的新手常常不知如 何开始相关的学习和研究,更不知道如何才能找到与自己研究相关的 生物学资源。针对上述问题,常用的方法如下。 1)利用公共搜索引擎。一般来说,数据库在建立时都会在自己 的网页代码中设立相关的关键词。因此,我们可以利用与研究相关的 关键词在搜索引擎中进行资源的搜索。然而,由于关键词使用的不唯 一性及不同公共搜索引擎对多个搜索关键词之间的默认组合关系不 同(如对于alcoholicdisease这样一个双检索词,不同的搜索引擎可能 会采取短语、双检索词的交集或并集等不同形式作为其默认的组合形 式),使得我们的检索结果与目的要求大相径庭。因此,利用公共引 擎进行资源的搜索是最简单也是最容易引起歧义的方法。当然,如果 事先了解准确的生物资源名称或简称别名时,公共搜索引擎则是一个 能够快速得到确定生物信息资源网址URL的工具。 2)了解重要的生物信息学门户站点。生物信息门户站点包含了 大量的公共资源。美国的国家生物技术信息中心(NCBI)、位于英国 的欧洲生物信息研究所(European Bioinformatics Institute,EBI),以 及由瑞士生物信息研究所(Swiss Instituteof Bioinformatics,.SIB)维 护的专家级蛋白质分析系统ExPASy(Expert Protein Analysis System) 等都是非常重要的生物信息学门户站点。每个站点都提供了种类繁多 27
生物信息学 27 家更注重于为这些专业数据库提供相应的注释,因此它们为公共序列 数据库提供了非常有价值的补充。 (二) 如何查找与研究相关的生物学资源 面对众多的生物学资源,刚刚接触生物信息学的新手常常不知如 何开始相关的学习和研究,更不知道如何才能找到与自己研究相关的 生物学资源。针对上述问题,常用的方法如下。 1)利用公共搜索引擎。一般来说,数据库在建立时都会在自己 的网页代码中设立相关的关键词。因此,我们可以利用与研究相关的 关键词在搜索引擎中进行资源的搜索。然而,由于关键词使用的不唯 一性及不同公共搜索引擎对多个搜索关键词之间的默认组合关系不 同(如对于 alcoholicdisease 这样一个双检索词,不同的搜索引擎可能 会采取短语、双检索词的交集或并集等不同形式作为其默认的组合形 式),使得我们的检索结果与目的要求大相径庭。因此,利用公共引 擎进行资源的搜索是最简单也是最容易引起歧义的方法。当然,如果 事先了解准确的生物资源名称或简称别名时,公共搜索引擎则是一个 能够快速得到确定生物信息资源网址 URL 的工具。 2)了解重要的生物信息学门户站点。生物信息门户站点包含了 大量的公共资源。美国的国家生物技术信息中心(NCBI)、位于英国 的欧洲生物信息研究所(European Bioinformatics Institute,EBI),以 及由瑞士生物信息研究所(Swiss Instituteof Bioinformatics,SIB)维 护的专家级蛋白质分析系统 ExPASy(Expert Protein Analysis System) 等都是非常重要的生物信息学门户站点。每个站点都提供了种类繁多
生物信息学 的数据库、分析工具、生物信息教程等内容,并且链接了大量非自身 维护的有用站点与资源。它们是进行分子生物学研究最基础的批量数 据来源。 3)利用NucleicAcidResearch杂志每年的数据库专辑/网络服务器 专辑。NucleicAcidResearch(《核酸研究》,简称NAR)是分子生物学 研究的权威杂志。从1994年起,NAR在其每年的第一辑杂志中都会 介绍一些重要数据库的更新情况,提供可访问的各类数据库的网址, 并附带着这些数据库的建库目的与主要内容等描述信息。这些信息为 实验生物学家查找与使用特定类型的数据资源提供了极大的便利。在 这一特刊发行10年即2004年时,它被正式改名为数据库专辑 (DatabaseIssue)。数据库专辑将收集的各类公共数据库分为l5个大 类多个小类(表2-1),包含的数据库数量也在逐年增加。到2017年, 数据库专辑收录的主要分子生物学数据库已经达到了1695个。同时, 从2003年起,NAR开始在每年的7月份发行数据库专辑的补充内容 一网络服务器专辑(WebServerIssue),为用户提供基于网络的分子 生物学数据分析及可视化软件资源。到2017年底,网络服务器专辑 收录的链接已经超过1950个。它们也像数据库专辑中那样被分为11 个大类多个小类,但内容组成与数据库有一定区别。 四、重要的生物信息站点 (一)NCBI—美国国家生物技术信息中心 NCBI建立于1988年11月4日,隶属于美国国立卫生研究院 (NIH)的美国国家医学图书馆(NLM),主要任务是创建公共可接 28
生物信息学 28 的数据库、分析工具、生物信息教程等内容,并且链接了大量非自身 维护的有用站点与资源。它们是进行分子生物学研究最基础的批量数 据来源。 3)利用 NucleicAcidResearch 杂志每年的数据库专辑/网络服务器 专辑。NucleicAcidResearch(《核酸研究》,简称 NAR)是分子生物学 研究的权威杂志。从 1994 年起,NAR 在其每年的第一辑杂志中都会 介绍一些重要数据库的更新情况,提供可访问的各类数据库的网址, 并附带着这些数据库的建库目的与主要内容等描述信息。这些信息为 实验生物学家查找与使用特定类型的数据资源提供了极大的便利。在 这一特刊发行 10 年即 2004 年时,它被正式改名为数据库专辑 (DatabaseIssue)。数据库专辑将收集的各类公共数据库分为 15 个大 类多个小类(表 2-1),包含的数据库数量也在逐年增加。到 2017 年, 数据库专辑收录的主要分子生物学数据库已经达到了 1695 个。同时, 从 2003 年起,NAR 开始在每年的 7 月份发行数据库专辑的补充内容 ——网络服务器专辑(WebServerIssue),为用户提供基于网络的分子 生物学数据分析及可视化软件资源。到 2017 年底,网络服务器专辑 收录的链接已经超过 1950 个。它们也像数据库专辑中那样被分为 11 个大类多个小类,但内容组成与数据库有一定区别。 四、重要的生物信息站点 (一)NCBI——美国国家生物技术信息中心 NCBI 建立于 1988 年 11 月 4 日,隶属于美国国立卫生研究院 (NIH)的美国国家医学图书馆(NLM),主要任务是创建公共可接
生物信息学 入数据库,引导在计算生物学及基因组数据分析方面的软件开发,同 时发布各类生物医学信息。到目前为止,NCBI已经成为世界级的生 物信息资源中心,为生物医学及生命科学研究提供了大量的数据和众 多的分析工具与平台。例如,PubMed、.GenBank、BLAST、MapViewer 等都是NCBI中最常用的数据库与分析工具。 NCBI的数据资源主要包括数据库、数据下载、数据提交及分析 工具4个部分,另外还有一个HowTo页面则包含了NCBI主要数据 库或工具的使用方法说明。NCBI的全部资源及其简介可以从NCBI 主页中的AllResources界面(htp:/www.ncbi.nlm.nih.gov/guide/all)中 进行查找和了解。 (二)EBI一欧洲生物信息研究所 EBI是隶属于欧洲分子生物学研究室(EMBL)的一个非营利性 的学术机构,专门从事生物信息学方面的研究与服务。EBI的主要任 务包括为科研团体免费提供数据及生物信息学服务;从生物信息学的 角度为推动特定科研项目的发展作出努力,为各阶层的科研人员提供 高级生物信息学培训,以及帮助向工业界发布最新技术等。EBI的网 站在数据规模和承担的任务方面都与NCBI相当,而全部资源及工具 则显示在其ServicesAtoZ页面(htp:/www.ebi.ac.uk/services/all)中。 (三)EMBnet-—欧洲分子生物学信息网络 EMBnet建立于1988年,由多个位于欧洲及欧洲以外的成员国 节点和专业节点组成。除了上面提到的欧洲生物信息学研究所 (EMBL-EBI)外,瑞士生物信息研究所(SIB)、澳大利亚国家基因 29
生物信息学 29 入数据库,引导在计算生物学及基因组数据分析方面的软件开发,同 时发布各类生物医学信息。到目前为止,NCBI 已经成为世界级的生 物信息资源中心,为生物医学及生命科学研究提供了大量的数据和众 多的分析工具与平台。例如,PubMed、GenBank、BLAST、MapViewer 等都是 NCBI 中最常用的数据库与分析工具。 NCBI 的数据资源主要包括数据库、数据下载、数据提交及分析 工具 4 个部分,另外还有一个 HowTo 页面则包含了 NCBI 主要数据 库或工具的使用方法说明。NCBI 的全部资源及其简介可以从 NCBI 主页中的 AllResources 界面(http://www.ncbi.nlm.nih.gov/guide/all)中 进行查找和了解。 (二)EBI——欧洲生物信息研究所 EBI 是隶属于欧洲分子生物学研究室(EMBL)的一个非营利性 的学术机构,专门从事生物信息学方面的研究与服务。EBI 的主要任 务包括为科研团体免费提供数据及生物信息学服务;从生物信息学的 角度为推动特定科研项目的发展作出努力,为各阶层的科研人员提供 高级生物信息学培训,以及帮助向工业界发布最新技术等。EBI 的网 站在数据规模和承担的任务方面都与 NCBI 相当,而全部资源及工具 则显示在其 ServicesAtoZ 页面(http://www.ebi.ac.uk/services/all)中。 (三)EMBnet——欧洲分子生物学信息网络 EMBnet 建立于 1988 年,由多个位于欧洲及欧洲以外的成员国 节点和专业节点组成。除了上面提到的欧洲生物信息学研究所 (EMBL-EBI)外,瑞士生物信息研究所(SIB)、澳大利亚国家基因
生物信息学 组学信息服务(AGRIS)及中国北京大学的生物信息中心(PKU-CBI) 都是EMBnet的成员。它们不仅为本国用户提供生物信息资源及生物 计算服务,同时提供用户支持、培训及进行相关的生物信息研究与开 发。例如,专业蛋白质分析系统ExPASy就是由SIB开发及维护的, 而通用蛋白质资源数据库UniProt(UniProt.2014)则由EMBL-EBI及 SIB、PIR共同进行维护。由于EMBnet的成员国节点与专业节点各 自包含了大量的公共数据信息及自行开发的数据库和分析工具,因此 它可作为生物学数据资源的补充来源,如EMBnet瑞士节点 (http:www.ch.embnet..org/)、挪威节点(http:/www.no.embnet.org) 和北京大学生物信息中心节点(hp:www.cbi.pku.edu.cn)。 第二节生物学数据库的数据存储格式 众多处理和收集生物信息数据的项目建立了若干种格式,其中最 常见的包括平面文件格式、XML格式、JSON格式和关系型数据库。 一、生物信息学的平面文件格式-Flat File 平面文件格式(Flat File)就是我们平常所说的纯文本文件的另 一种说法。Flat File数据库由包含纯文本的文件构成,这些文本通常 使用ASCI码集合中的字符,但一些包含ASCI码扩展集或Unicode 集合中的字符的文本也被认为是平面文件。Flat File格式中的数据通 常被结构化为一组数据Entry,或称记录或条目。Entry可认为是一组 具体数据实体的描述符。举例来说,在通用蛋白质资源数据库UniProt 中,Entry包含的数据为单个蛋白质的序列,相对于其他的数据而言, 它包括一组描述符,是对于该蛋白质的描述及该蛋白质特征的列表。 30
生物信息学 30 组学信息服务(AGRIS)及中国北京大学的生物信息中心(PKU-CBI) 都是 EMBnet 的成员。它们不仅为本国用户提供生物信息资源及生物 计算服务,同时提供用户支持、培训及进行相关的生物信息研究与开 发。例如,专业蛋白质分析系统 ExPASy 就是由 SIB 开发及维护的, 而通用蛋白质资源数据库 UniProt(UniProt2014)则由 EMBL-EBI 及 SIB、PIR 共同进行维护。由于 EMBnet 的成员国节点与专业节点各 自包含了大量的公共数据信息及自行开发的数据库和分析工具,因此 它可作为生物学数据资源的补充来源,如 EMBnet 瑞士节点 (http://www.ch.embnet.org/)、挪威节点(http://www.no.embnet.org/) 和北京大学生物信息中心节点(http://www.cbi.pku.edu.cn/)。 第二节 生物学数据库的数据存储格式 众多处理和收集生物信息数据的项目建立了若干种格式,其中最 常见的包括平面文件格式、XML 格式、JSON 格式和关系型数据库。 一、生物信息学的平面文件格式——Flat File 平面文件格式(Flat File)就是我们平常所说的纯文本文件的另 一种说法。Flat File 数据库由包含纯文本的文件构成,这些文本通常 使用 ASCII 码集合中的字符,但一些包含 ASCII 码扩展集或 Unicode 集合中的字符的文本也被认为是平面文件。Flat File 格式中的数据通 常被结构化为一组数据 Entry,或称记录或条目。Entry 可认为是一组 具体数据实体的描述符。举例来说,在通用蛋白质资源数据库 UniProt 中,Entry 包含的数据为单个蛋白质的序列,相对于其他的数据而言, 它包括一组描述符,是对于该蛋白质的描述及该蛋白质特征的列表