l997年:PubMed界面实现了Entrez软件系统与 MEDLINE数据库的结合;Entrez Structures数据库、 VAST(vector alignment search tool)算法和 Cn3D结构浏览器开始用于蛋白质分析;Gapped BLAST和PSI-BLAST开始用于快速序列相似性检索; C0G(clusters of orthologous group)方法和系 统开始用于基因组分析。 数理与生物工程学 2025/5/27 BIOINFORMATICS
2025/5/27 BIOINFORMATICS 数 理 与 生 物 工 程 学 院 31 1997年:PubMed界面实现了Entrez软件系统与 MEDLINE数据库的结合;Entrez Structures数据库、 VAST(vector alignment search tool )算法和 Cn3D结构浏览器开始用于蛋白质分析;Gapped BLAST和PSI-BLAST开始用于快速序列相似性检索; COG(clusters of orthologous group)方法和系 统开始用于基因组分析
1998年:建立HTGS(高通量基因组序列)组, 以适应人类基因组计划的进程;已经贮存两千亿以 上的碱基对,其中超过一半来自人类基因组计划。 1999年:随着人类基因组计划接近完成, NCBI将重点转移到人类基因组分析。新的应用软件 和数据库系统包括LocusLink,RefSeq和OMIM等。 数理与生物工程学院 2025/5/27 BIOINFORMATICS 32
2025/5/27 BIOINFORMATICS 数 理 与 生 物 工 程 学 院 32 1998年:建立HTGS(高通量基因组序列)组, 以适应人类基因组计划的进程;已经贮存两千亿以 上的碱基对,其中超过一半来自人类基因组计划。 1999年:随着人类基因组计划接近完成, NCBI将重点转移到人类基因组分析。新的应用软件 和数据库系统包括LocusLink, RefSeq和OMIM等
鉴于数据库规模的不断扩大,而数据来源种类 繁多,GenBank按照物种进化亲缘性及数据来源分 成若干个子库,以便于管理和使用。表3-1列出 GenBank包括的17个子数据库的名称和内容。 数理与生物工程学院 2025/5/27 BIOINFORMATICS 33
2025/5/27 BIOINFORMATICS 数 理 与 生 物 工 程 学 院 33 鉴于数据库规模的不断扩大,而数据来源种类 繁多,GenBank按照物种进化亲缘性及数据来源分 成若干个子库,以便于管理和使用。表3-1列出 GenBank包括的17个子数据库的名称和内容
表3-1 GenBank包括的17个子数据库的名称和内容 代码 英文含义 中文含义 PRI Primate 灵长类动物 ROD Rodent 啮齿类动物 MAM Other mammalian 其他哺乳动物 VRT Other vertebrate 其他脊椎动物 INV Invertebrate 无脊椎动物 PLN Plant,fungal,algal 植物、真菌、藻类 BCT Bacterial 细菌 RNA Structural RNA 结构RNA VRL Viral 病毒 PHG Bacteriophage 细菌噬菌体 SYN Synthetic 合成产物 UNA Unannotated 未注释序列 EST Expressed Sequence Tags 表达序列标签 PAT Patent 专利序列 STS Sequence Tagged Sites 序列标签位点 GSS Genome Survey Sequences 基因组普查序列 HTG High Throughput Genomic Sequences 高通量基因组序列
代码 英文含义 中文含义 PRI Primate 灵长类动物 ROD Rodent 啮齿类动物 MAM Other mammalian 其他哺乳动物 VRT Other vertebrate 其他脊椎动物 INV Invertebrate 无脊椎动物 PLN Plant,fungal,algal 植物、真菌、藻类 BCT Bacterial 细菌 RNA Structural RNA 结构RNA VRL Viral 病毒 PHG Bacteriophage 细菌噬菌体 SYN Synthetic 合成产物 UNA Unannotated 未注释序列 EST Expressed Sequence Tags 表达序列标签 PAT Patent 专利序列 STS Sequence Tagged Sites 序列标签位点 GSS Genome Survey Sequences 基因组普查序列 HTG High Throughput Genomic Sequences 高通量基因组序列 表3-1 GenBank包括的17个子数据库的名称和内容
EST(expressed sequence tags)方法已被证 明是识别转录序列最有效的方法。在1990年以前,关 于人类基因序列的数据主要来自于对单个基因的研究 ,EST数据的出现是生物信息学发展历史上的一个里程 碑。ST序列大约覆盖了人类基因的90%。EST序列中 含有大量的基因信息,利用这些信息可以发现新的基 因,阐明基因的功能。 理与生物工程学 2025/5/27 BIOINFORMATICS 35
2025/5/27 BIOINFORMATICS 数 理 与 生 物 工 程 学 院 35 EST(expressed sequence tags)方法已被证 明是识别转录序列最有效的方法。在1990年以前,关 于人类基因序列的数据主要来自于对单个基因的研究 ,EST数据的出现是生物信息学发展历史上的一个里程 碑。EST序列大约覆盖了人类基因的90%。EST序列中 含有大量的基因信息,利用这些信息可以发现新的基 因,阐明基因的功能