圆 第一节生物数据库简介 000 ·什么是数据库 ● 数据库类型 ·生物学数据库 ·重要的生物信息站点 2
第一节 生物数据库简介 2 • 什么是数据库 • 数据库类型 • 生物学数据库 • 重要的生物信息站点
一、什么是数据库 000八 数据库(database)是一类用于存储和管理数据的计算机文档,是统 一管理的相关数据的集合,其存储形式有利于数据信息的检索与调 用。 数据库开发的主要任务是将数据以结构化记录的形式进行组织,以 便于信息的检索。 。 数据库的每一条记录(record) 也可以称为条目(entry) 包含 了多个描述某一类数据特性或属性的字段(field),如基因名、来源 物种、序列的创建日期等,这也是数据结构化的基础;值(value) 则是指每个记录中某个字段的具体内容。 当我们进行数据库记录的检索时,就是利用查询语言在整个数据库 中查找符合条件(即对特定字段包含特定内容的限定)的所有记录 的过程。例如,我们可以在GenBank核酸序列数据库中查找所有来 源于人类(organism:Homo sapiens)、最近30天公布的(published inthe last30days)、类型为mRNA(molecular type:mRNA) 的核酸 序列。 3
一、什么是数据库 3 • 数据库(database)是一类用于存储和管理数据的计算机文档,是统 一管理的相关数据的集合,其存储形式有利于数据信息的检索与调 用。 • 数据库开发的主要任务是将数据以结构化记录的形式进行组织,以 便于信息的检索。 • 数据库的每一条记录(record),也可以称为条目(entry),包含 了多个描述某一类数据特性或属性的字段(field),如基因名、来源 物种、序列的创建日期等,这也是数据结构化的基础;值(value) 则是指每个记录中某个字段的具体内容。 • 当我们进行数据库记录的检索时,就是利用查询语言在整个数据库 中查找符合条件(即对特定字段包含特定内容的限定)的所有记录 的过程。例如,我们可以在GenBank 核酸序列数据库中查找所有来 源于人类(organism:Homo sapiens)、最近30 天公布的(published inthe last 30 days)、类型为mRNA(molecular type:mRNA)的核酸 序列
圆二、 数据库的类型 000队 ·到目前为止,生物学数据库使用了4种不同的数 据库结构类型: 平面文件 关系型数据库 面向对象数据库 基于Internet平台的XML 4
二、数据库的类型 4 • 到目前为止,生物学数据库使用了 4 种不同的数 据库结构类型: 平面文件 关系型数据库 面向对象数据库 基于 Internet 平台的 XML
三、生物学数据库 000以 。 生物学数据库的类型多种多样,根据存放数据类型的不 同,可以分为 ·序列(如GenBank、Swiss-Prot等) ·(三维)结构(如PDB) 文献(如NCBl的PubMed) 序列特征(如PROSITE、Pfam等) 基因组图谱(如MapViewer、Ensembl等) 表达谱等多种数据库,每一种还可以进行更细致层次的划分。 ·根据数据库存储的具体内容还可以分为 一级数据库 二级数据库(primary and secondary database) 用户针对性更强的专用数据库(specializeddatabase) 5
三、生物学数据库 5 • 生物学数据库的类型多种多样,根据存放数据类型的不 同,可以分为 • 序列(如GenBank、Swiss-Prot等) • ( 三维) 结构( 如PDB) • 文献( 如NCBI 的PubMed) • 序列特征( 如PROSITE、Pfam等) • 基因组图谱(如MapViewer、Ensembl 等) • 表达谱等多种数据库,每一种还可以进行更细致层次的划分。 • 根据数据库存储的具体内容还可以分为 • 一级数据库 • 二级数据库(primary and secondary database) • 用户针对性更强的专用数据库(specializeddatabase)
(一)一级数据库与二级数据库 000八 一级数据库属于档案数据库(archive), 库中的主要内容是来源于 实验室操作所得到的原始数据结果(如测序得到的序列或经过X射线 晶体衍射所得到的三维结构数据等),也会包含一些基本的说明 ( 如序列所属的物种、类型、序列发表的文献出处等)。如核酸序 列数据库GenBank、EMBL、DDB]及蛋白质结构数据库PDB(Protein Data Bank)就是典型的一级数据库。 二级数据库是在一级数据库的信息基础上进行了计算加工处理并增 加了许多人为的注释而构成的。例如,NCBl的RefSeg数据库,其 mRNA序列是综合了GenBank中来源于同一物种相同基因的所有 mRNA序列信息的一致性序列(consensus sequence) 6
(一)一级数据库与二级数据库 6 • 一级数据库属于档案数据库(archive),库中的主要内容是来源于 实验室操作所得到的原始数据结果(如测序得到的序列或经过X 射线 晶体衍射所得到的三维结构数据等),也会包含一些基本的说明 (如序列所属的物种、类型、序列发表的文献出处等)。如核酸序 列数据库GenBank、EMBL、DDBJ 及蛋白质结构数据库PDB(Protein Data Bank)就是典型的一级数据库。 • 二级数据库是在一级数据库的信息基础上进行了计算加工处理并增 加了许多人为的注释而构成的。例如,NCBI 的RefSeq 数据库,其 mRNA 序列是综合了GenBank 中来源于同一物种相同基因的所有 mRNA 序列信息的一致性序列(consensus sequence)