生物信息学 规范化的目的是移除数据库中的所有冗余数据,举例说就是当数据需 要复制时,复制是在一张表中进行还是几张表中进行。规范化过程已 经存在许多已经定义过的等级,这些等级逐级变得完善,从实践角度 规范化的目的就是在冗余和性能中权衡出最佳的情况。最理想的结果 一般由数据库系统类型、使用频率或最常用登录数据库方法这几个因 素决定。 数据库建模的结果是形成一个数据库结构纲目,它是表和表在数 据库中关系的标记。一个具体的数据库结构纲目定义是数据库中每一 张表中的每一列的所有细节。它同样定义了数据库中的表和列之间建 立的关系与限制。 实现数据关联的系统常被界定为关系型数据库管理系统 (RDBMS)。当前有多个成熟的软件产品,包括商业的和开源版本, 提供不同层次的功能。当今数据库服务器单机软件套装的标准是通过 常见的网络协议对客户端进行数据服务,使用户通过简单易懂的$QL 语句进行添加、删除或查询存储的数据。由于开发人员对关系数据库 系统开发的成功,已经为用户带来效能上的利益。一系列关系型数据 库管理系统(如Oracle、MySQL、MicrosoftSQLSever等)在近三十 年来一直是各行业计算部门使用的主流数据库系统。其中的MySQL 是开源的,非常适合中小型生物数据库的搭建。 生物信息学关系型数据库的具体实例有Ensembl数据库和 GeneOntology数据库。Ensembl数据库是由 EBI和 WellcomeTrustSangerInstitute联合开发的基因注释数据库,其中真核 36
生物信息学 36 规范化的目的是移除数据库中的所有冗余数据,举例说就是当数据需 要复制时,复制是在一张表中进行还是几张表中进行。规范化过程已 经存在许多已经定义过的等级,这些等级逐级变得完善,从实践角度 规范化的目的就是在冗余和性能中权衡出最佳的情况。最理想的结果 一般由数据库系统类型、使用频率或最常用登录数据库方法这几个因 素决定。 数据库建模的结果是形成一个数据库结构纲目,它是表和表在数 据库中关系的标记。一个具体的数据库结构纲目定义是数据库中每一 张表中的每一列的所有细节。它同样定义了数据库中的表和列之间建 立的关系与限制。 实现数据关联的系统常被界定为关系型数据库管理系统 (RDBMS)。当前有多个成熟的软件产品,包括商业的和开源版本, 提供不同层次的功能。当今数据库服务器单机软件套装的标准是通过 常见的网络协议对客户端进行数据服务,使用户通过简单易懂的 SQL 语句进行添加、删除或查询存储的数据。由于开发人员对关系数据库 系统开发的成功,已经为用户带来效能上的利益。一系列关系型数据 库管理系统(如 Oracle、MySQL、MicrosoftSQLSever 等)在近三十 年来一直是各行业计算部门使用的主流数据库系统。其中的 MySQL 是开源的,非常适合中小型生物数据库的搭建。 生物信息学关系型数据库的具体实例有 Ensembl 数据库和 GeneOntology 数 据 库 。 Ensembl 数据库是由 EBI 和 WellcomeTrustSangerInstitute 联合开发的基因注释数据库,其中真核
生物信息学 生物基因组数据主要集中在脊椎动物。这些数据是可通过直接访问 MySQL服务器获取的,但由于复杂性和所涉及的大量的Ensembl结 构纲目,使用者常被建议通过专用Perl的API访问。GeneOntology数 据库也是一个基于MySQL分布的关系型数据库,该数据库将其所包 含基因组术语数据库整理成了本体结构一一种条日之间基于特定 标准形成的关系网络。GeneOntology数据库结构建立在细胞成分、生 物过程和分子功能标准,以及“等价”或“属于”所代表的关系界定等因 素之上.GeneOntology数据库包含关联基因产物的功能的直接信息及 存在于其他公共数据库中的信息,如具体序列。 第三节生物学数据库的检索 一、 NCBI的Entrez系统 Entrez系统是由NCBI开发并提供维护的,它是目前应用最为广 泛的生物学数据库检索系统之一。它充分利用了众多公共数据库各个 记录之间本身就存在的逻辑关系,从而从多种类型数据的文本信息中 找到所需的信息。 Entrez检索 Entrez 提供全局检索(Global Search (htp:www.ncbi.nlm.nih.gov/gquery/),如图所示。此页面列举了全部 可供查询的Entrez数据库。其中第一类(Literature)包括书籍、PubMed 收录的文献、PubMedCentral收录的文献全文、MeSH和NLM书目。 用户在页面上方输入框中输入关键词后点击“Search”,该页面将返回 查询结果在每个数据库中的数量。在搜索结果页面中,点击特定数据 37
生物信息学 37 生物基因组数据主要集中在脊椎动物。这些数据是可通过直接访问 MySQL 服务器获取的,但由于复杂性和所涉及的大量的 Ensembl 结 构纲目,使用者常被建议通过专用 Perl 的 API 访问。GeneOntology 数 据库也是一个基于 MySQL 分布的关系型数据库,该数据库将其所包 含基因组术语数据库整理成了本体结构——一种条目之间基于特定 标准形成的关系网络。GeneOntology 数据库结构建立在细胞成分、生 物过程和分子功能标准,以及“等价”或“属于”所代表的关系界定等因 素之上。GeneOntology 数据库包含关联基因产物的功能的直接信息及 存在于其他公共数据库中的信息,如具体序列。 第三节 生物学数据库的检索 一、 NCBI 的 Entrez 系统 Entrez 系统是由 NCBI 开发并提供维护的,它是目前应用最为广 泛的生物学数据库检索系统之一。它充分利用了众多公共数据库各个 记录之间本身就存在的逻辑关系,从而从多种类型数据的文本信息中 找到所需的信息。 Entrez 检索 Entrez 提 供 全 局 检 索 ( Global Search ) (http://www.ncbi.nlm.nih.gov/gquery/),如图所示。此页面列举了全部 可供查询的 Entrez 数据库。其中第一类(Literature)包括书籍、PubMed 收录的文献、PubMedCentral 收录的文献全文、MeSH 和 NLM 书目。 用户在页面上方输入框中输入关键词后点击“Search”,该页面将返回 查询结果在每个数据库中的数量。在搜索结果页面中,点击特定数据
生物信息学 库所在位置即可检索该数据库中的搜索结果。该检索方法可对检索词 进行多个数据库的宽泛检索,但检索结果不精确。精确检索须针对特 定数据库,采用特殊方法进行查询。 台NCB Resources How To回 Sionun to NCBI NCBI A川Databa5es, Search Gthe1mge NCBI Home Welcome to NCB Popular Resources Resource List (A-Z) PubMed Bookshoif Chemicals Bioassays About me NCBII Misskon I Organzation I NCELNews Blog PubMed Central Data Softare BLAST DNA&RNA Submit Download Learn Nucleotide Domains&Structures Deposit data or mnuscnpts TrarserNCBI data to your Find help documents.attand a Gename Genes Exprussion SNP Genescs Meaicne Gene Gencmes Maps 山 Proton PubCnem Homology Lteralute Proteins Sequance Analysrs Develop Analyze Research Texnnamy Trainng Tulonals 的0d回 lsee 在NCBI主页的搜索框旁边同样存在一个下拉菜单,这个下拉菜 单可以令用户选择某一个数据库。许多数据库都能够直接链接至 NCBI主页,这个链接或者能在右上方的“常用资源”中找到,或者能 在下方的列表中看到。所有Entrez中的数据库主页都有到NCBI主页 的链接。一个链接到子数据库主页的简单方法就是在NCBI主页地址 后面加上该数据库的名字。例如,Gene数据库的主页地址就是 htp/www.ncbi.nlm.nih.gov/gene。在单个数据库主页进行的搜索都可 以相应地使用更为精确的搜索方式,如使用布尔操作符将一个或多个 搜索域连接起来达到精确搜索。 Entrez的查询关键字可以是一个单词,也可以是短语、句子、数 据库标识符、基因标记或者名字等几乎所有内容。通常来说,过于简 38
生物信息学 38 库所在位置即可检索该数据库中的搜索结果。该检索方法可对检索词 进行多个数据库的宽泛检索,但检索结果不精确。精确检索须针对特 定数据库,采用特殊方法进行查询。 在 NCBI 主页的搜索框旁边同样存在一个下拉菜单,这个下拉菜 单可以令用户选择某一个数据库。许多数据库都能够直接链接至 NCBI 主页,这个链接或者能在右上方的“常用资源”中找到,或者能 在下方的列表中看到。所有 Entrez 中的数据库主页都有到 NCBI 主页 的链接。一个链接到子数据库主页的简单方法就是在 NCBI 主页地址 后面加上该数据库的名字。例如,Gene 数据库的主页地址就是 http//www.ncbi.nlm.nih.gov/gene。在单个数据库主页进行的搜索都可 以相应地使用更为精确的搜索方式,如使用布尔操作符将一个或多个 搜索域连接起来达到精确搜索。 Entrez 的查询关键字可以是一个单词,也可以是短语、句子、数 据库标识符、基因标记或者名字等几乎所有内容。通常来说,过于简
生物信息学 单的搜索会产生不可计数的结果甚至于一个结果也没有。Entrez中有 一些内置的特征可以帮助建立更具效率的搜索,包括布尔操作符、查 询语句及数据库包括的所有可用的标签。以上内容在编辑检索式时都 可以通过手动输入方式完成,同样也可以在网络界面中通过限制、过 滤及高级搜索来建立更加精确的搜索。更多的关于这些方面的特征将 在下文中阐述。 Entrez中的布尔操作符提供了一种精确查询的方法,使用该方法 后会产生定义明确的结果集。Entrez中使用的所有布尔操作符及其用 途如下。 AND:找到同时包括操作符两端短语的文档,是两个搜索的交集。 O:找到包括操作符两端任意一个短语的文档,是两个搜索的 并集。 NOT:找到包括操作符左边短语的文档后去掉包括操作符右边短 语的文档,是左边短语对右边短语的差集。 Entrez要求布尔操作符AND以大写形式输入。另外两个操作符 不做此要求,但是最好3种操作符都以大写形式输入。 Entrez将所有布尔操作符视为由左至右的序列。将个别表达式用 括号括起来会改变该表达式的优先级。括号中的部分会被当作一个单 位优先进行处理,其他部分随后进行处理。例如,下面的搜索语句中, response element和promoter的结合会先产生一个结果集,然后这个 结果集与glp3共同取一个交集。 glp3 AND (response element OR promoter) 39
生物信息学 39 单的搜索会产生不可计数的结果甚至于一个结果也没有。Entrez 中有 一些内置的特征可以帮助建立更具效率的搜索,包括布尔操作符、查 询语句及数据库包括的所有可用的标签。以上内容在编辑检索式时都 可以通过手动输入方式完成,同样也可以在网络界面中通过限制、过 滤及高级搜索来建立更加精确的搜索。更多的关于这些方面的特征将 在下文中阐述。 Entrez 中的布尔操作符提供了一种精确查询的方法,使用该方法 后会产生定义明确的结果集。Entrez 中使用的所有布尔操作符及其用 途如下。 AND:找到同时包括操作符两端短语的文档,是两个搜索的交集。 OR:找到包括操作符两端任意一个短语的文档,是两个搜索的 并集。 NOT:找到包括操作符左边短语的文档后去掉包括操作符右边短 语的文档,是左边短语对右边短语的差集。 Entrez 要求布尔操作符 AND 以大写形式输入。另外两个操作符 不做此要求,但是最好 3 种操作符都以大写形式输入。 Entrez 将所有布尔操作符视为由左至右的序列。将个别表达式用 括号括起来会改变该表达式的优先级。括号中的部分会被当作一个单 位优先进行处理,其他部分随后进行处理。例如,下面的搜索语句中, response element 和 promoter 的结合会先产生一个结果集,然后这个 结果集与 g1p3 共同取一个交集。 g1p3 AND(response element OR promoter)
生物信息学 通常来说,用空格连接的单个搜索都被认为是用AND操作符将 所有单词并列起来的。tp53 mouse这个查询结果就是tp53的查询结 果与mouse查询结果的交集。每个Entrez数据库还有一个专门的索 引列表,每当某个短语与列表中的短语相匹配,Entrez就将使用该短 语而非两个或多个独立单词的交集。例如,短语proteinkinasec就被 Entrez视为一个短语而非3个用AND连接的单词。不同的数据库可 能会有不同的列表及不同对待列表的方式。在某些地方使用引号将搜 索词连接起来会强制使用词组搜索而非不同搜索后的交集。绝大多数 Entrez数据库对短语insulin dependent的搜索结果会根据是否加了引 号而发生变化。尽管词组搜索非常实用,但是引号的使用依然需要非 常谨慎,因为使用引号以后只能获得文本与引号内容完全匹配的文档。 将单词用引号包住可避免将一些固定词组拆开引起麻烦,如Medical Subject Headings或者Organism(Taxonomy)。 为了便于检索,每个Entrez数据库都建立了各具特点的索引集, 包括了从不同方面提取出的信息,这些方面就是通常所说的域。这些 域中有些可以随意书写,但是有些域是控制得相当严格的,如数据库 标识符(accession和PMID)、MeSH和Organism。Entrez默认使用全 局模式进行搜索。这通常会产生大量的搜索结果,同时也会产生不在 期望中的结果。例如,在核酸数据库中以horse作为关键字进行搜索 会产生很多条记录,然而有许多结果甚至与“马”这个动物毫不相关。 如果本来的目标是取得与horse这个物种相关的记录,将检索句中加 入一个特定的域可能会获得更好的效果。Entrez的数据库中可以在高 40
生物信息学 40 通常来说,用空格连接的单个搜索都被认为是用 AND 操作符将 所有单词并列起来的。tp53 mouse 这个查询结果就是 tp53 的查询结 果与 mouse 查询结果的交集。每个 Entrez 数据库还有一个专门的索 引列表,每当某个短语与列表中的短语相匹配,Entrez 就将使用该短 语而非两个或多个独立单词的交集。例如,短语 proteinkinasec 就被 Entrez 视为一个短语而非 3 个用 AND 连接的单词。不同的数据库可 能会有不同的列表及不同对待列表的方式。在某些地方使用引号将搜 索词连接起来会强制使用词组搜索而非不同搜索后的交集。绝大多数 Entrez 数据库对短语 insulin dependent 的搜索结果会根据是否加了引 号而发生变化。尽管词组搜索非常实用,但是引号的使用依然需要非 常谨慎,因为使用引号以后只能获得文本与引号内容完全匹配的文档。 将单词用引号包住可避免将一些固定词组拆开引起麻烦,如 Medical Subject Headings 或者 Organism(Taxonomy)。 为了便于检索,每个 Entrez 数据库都建立了各具特点的索引集, 包括了从不同方面提取出的信息,这些方面就是通常所说的域。这些 域中有些可以随意书写,但是有些域是控制得相当严格的,如数据库 标识符(accession 和 PMID)、MeSH 和 Organism。Entrez 默认使用全 局模式进行搜索。这通常会产生大量的搜索结果,同时也会产生不在 期望中的结果。例如,在核酸数据库中以 horse 作为关键字进行搜索 会产生很多条记录,然而有许多结果甚至与“马”这个动物毫不相关。 如果本来的目标是取得与 horse 这个物种相关的记录,将检索句中加 入一个特定的域可能会获得更好的效果。Entrez 的数据库中可以在高