第六章NCB数据模型 页码,1/15 第六章NCB数据模型 前言数据模型 什么是数据模型 生物学家大都熟悉用动物模型来研究人体疾病。尽管人体疾病有可能在动物中找不到完全相 同的形式,但某种动物疾病和人体疾病有相当多的类似性质使我们可以从动物疾病中获得的 数据来推断人体的疾病过程。通过将肌肉想象成弹簧和水压活塞的组合,将骨骼想象成杠杆 臂,可以得到描述肌肉骨骼运动的数学模型。这样的模型可以对更多复杂的生物系统进行有 意义的预测和检验。显然,如果模型与描述的实际现象可以更加接近或精致,则它对所模拟 的自然现象的预测和理解就更有意义。 八年前,№CB介绍了一种新的序列相关信息模型。这种新模型使基于Eηtrez系统的完整数据 库 Gen Bank的建立以及相应的软件得到快速的发展。该模型具有如下优点:它能轻而易举的从 已公布的说明的DNA序列映射到编码蛋白,到基因的染色体设计,到三维蛋白质的结构(见第 5章)。该模型的优点对生物学家使用 Entrez有很大的帮助。但是很少有生物学家了解该模型 的基础。当基因信息变得越来越丰富,越来越复杂的情况下,出现了很多符合 GenBank数 据,且模型本身更好理解的实际数据模型。这一章不深入讨论细节,只介绍一些实用的索引 及NCB模型所起的作用 模型的一些例子 Gen Bank数据是以DNA为中心角度的数据报告(见第2章),也就是以CDS特征为代表的一段编 码蛋白质的DNA序列。限定符/ transl ati on="MLLY"描述了将CDS特征翻译成的氨基酸顺序。 其它的DNA特征(例如mat-肽)有时被 Gen Bani数据应用来描述未命名蛋白质(部分 由/ transl ati on描述)的切分产物,但这不是一种令人满意的解决方法。相反,大多数蛋白 质序列数据库以蛋白质为中心角度,这样可能完全失掉其与编码基因之间的联系,或者只是 间接的用序列号表示其联系(这并不提供准确的对基因突变分析有重要作用的密码子--氨基 酸对应关系)。 NCBI数据模型直接构造了包含DNA和蛋白质序列的模型。翻译的过程是由两种序列间的关系决 定而不是由一种对另一种的解释确定。和蛋白质相关的注解(例如肽切分产物)是由蛋白质 序列特征直接注释。这样,用 BLAST或其他序列搜索工具去分析由CDS特征得到蛋白质序列就 变容易了,尽管返回基因时可能会丢失精确的中间联系。一组DNA序列和由它翻译的蛋白质被 称为核酸一蛋白质组,它是NCB|为使用这些数据的中间数据。 Gen Bank数据格式只是人类可读 的一种特殊数据形式。它失去了有联系的序列集合,而倒退回比较熟悉的那种序列(以DNA为 中心的视角)。 Entrez的目标是更直接的反映数据的低层结构。由 BLAST实现的从 Gen Bank到 蛋白质序列的翻译实际上是从蛋白质一核酸组得到蛋白质序列。 Part真: LOCUS RNKOR1 1757bp DNA ROD 25-MA-1995 DEFINI TI ON Rattus norvegi cus kappa opi oi d receptor gene, exon 1 and 2. ACCESSI ON U17993 NDg727256 KEYWORDS SegmEnT 1 of 3 file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18
݁ゴ NCBI᭄ൟ ࠡ㿔᭄ൟ ҔМᰃ᭄ൟ ⫳⠽ᄺᆊ䛑❳ᙝ⫼ࡼ⠽ൟᴹⷨおҎԧ⮒⮙DŽሑㅵҎԧ⮒⮙᳝ৃ㛑ࡼ⠽ЁᡒϡࠄᅠܼⳌ ৠⱘᔶᓣˈԚᶤ⾡ࡼ⠽⮒⮙Ҏԧ⮒⮙᳝Ⳍᔧⱘ㉏Ԑᗻ䋼Փ៥ӀৃҹҢࡼ⠽⮒⮙Ё㦋ᕫⱘ ᭄ᴹᮁҎԧⱘ⮒⮙䖛DŽ䗮䖛ᇚ㙠㙝ᛇ䈵៤ᔍㇻ∈य़⌏าⱘ㒘ড়ˈᇚ偼傐ᛇ䈵៤ᴴᴚ 㞖ˈৃҹᕫࠄᦣ䗄㙠㙝偼傐䖤ࡼⱘ᭄ᄺൟDŽ䖭ḋⱘൟৃҹᇍᴖⱘ⫳⠽㋏㒳䖯㸠᳝ ᛣНⱘ乘⌟Ẕ偠DŽᰒ✊ˈབᵰൟϢᦣ䗄ⱘᅲ䰙⦄䈵ৃҹࡴ䖥㊒㟈ˈ߭ᅗᇍ᠔ᢳ ⱘ㞾✊⦄䈵ⱘ乘⌟⧚㾷ህ᳝ᛣНDŽ ܿᑈࠡˈNCBIҟ㒡њϔ⾡ᮄⱘᑣ߫Ⳍֵ݇ᙃൟDŽ䖭⾡ᮄൟՓѢEntrez㋏㒳ⱘᅠᭈ᭄ ᑧGenBankⱘᓎゟҹঞⳌᑨⱘ䕃ӊᕫࠄᖿ䗳ⱘথሩDŽ䆹ൟ᳝བϟӬ⚍˖ᅗ㛑䕏㗠ᯧВⱘҢ Ꮖ݀Ꮧⱘ䇈ᯢⱘDNAᑣ߫ᇘࠄ㓪ⷕ㲟ⱑˈࠄⱘᶧ㡆ԧ䆒䅵ˈࠄϝ㓈㲟ⱑ䋼ⱘ㒧ᵘ˄㾕 ゴ˅DŽ䆹ൟⱘӬ⚍ᇍ⫳⠽ᄺᆊՓ⫼Entrez᳝ᕜⱘᐂࡽDŽԚᰃᕜᇥ᳝⫳⠽ᄺᆊњ㾷䆹ൟ ⱘ⸔DŽᔧֵᙃবᕫ䍞ᴹ䍞Єᆠˈ䍞ᴹ䍞ᴖⱘᚙމϟˈߎ⦃њᕜヺড় GenBank᭄ ˈϨൟᴀ䑿ད⧚㾷ⱘᅲ䰙᭄ൟDŽ䖭ϔゴϡ⏅ܹ䅼䆎㒚㡖ˈাҟ㒡ϔѯᅲ⫼ⱘ㋶ᓩ ঞNCBIൟ᠔䍋ⱘ⫼DŽ ൟⱘϔѯ՟ᄤ GenBank᭄ᰃҹDNAЎЁᖗ㾦ᑺⱘ᭄ਞ˄㾕ゴ˅ˈгህᰃҹCDS⡍ᕕЎҷ㸼ⱘϔ↉㓪 ⷕ㲟ⱑ䋼ⱘDNAᑣ߫DŽ䰤ᅮヺ/translation="MLLYY"ᦣ䗄њᇚCDS⡍ᕕ㗏䆥៤ⱘ⇼䝌乎ᑣDŽ ݊ᅗⱘDNA⡍ᕕ˄՟བmat-㚑˅᳝ᯊ㹿GenBank᭄ᑨ⫼ᴹᦣ䗄ੑৡ㲟ⱑ䋼˄䚼ߚ ⬅/translationᦣ䗄˅ⱘߚߛѻ⠽ˈԚ䖭ϡᰃϔ⾡ҸҎ⒵ᛣⱘ㾷އᮍ⊩DŽⳌডˈ᭄㲟ⱑ 䋼ᑣ᭄߫ᑧҹ㲟ⱑ䋼ЎЁᖗ㾦ᑺˈ䖭ḋৃ㛑ᅠܼ༅ᥝ݊Ϣ㓪ⷕП䯈ⱘ㘨㋏ˈ㗙াᰃ 䯈ⱘ⫼ᑣ߫ো㸼⼎݊㘨㋏˄䖭ᑊϡᦤկޚ⹂ⱘᇍさবߚᵤ᳝䞡㽕⫼ⱘᆚⷕᄤ--⇼ 䝌ᇍᑨ݇㋏˅DŽ NCBI᭄ൟⳈᵘ䗴њࣙDNA㲟ⱑ䋼ᑣ߫ⱘൟDŽ㗏䆥ⱘ䖛ᰃ⬅ϸ⾡ᑣ߫䯈ⱘ݇㋏އ ᅮ㗠ϡᰃ⬅ϔ⾡ᇍϔ⾡ⱘ㾷䞞⹂ᅮDŽ㲟ⱑ䋼Ⳍ݇ⱘ⊼㾷˄՟བ㚑ߚߛѻ⠽˅ᰃ⬅㲟ⱑ䋼 ᑣ߫⡍ᕕⳈ⊼䞞DŽ䖭ḋˈ⫼BLAST݊Ҫᑣ߫᧰㋶Ꮉএߚᵤ⬅CDS⡍ᕕᕫࠄ㲟ⱑ䋼ᑣ߫ህ বᆍᯧњˈሑㅵ䖨ಲᯊৃ㛑Ӯ϶༅㊒⹂ⱘЁ䯈㘨㋏DŽϔ㒘DNAᑣ߫⬅ᅗ㗏䆥ⱘ㲟ⱑ䋼㹿 ⿄ЎḌ䝌ü㲟ⱑ䋼㒘ˈᅗᰃNCBIЎՓ⫼䖭ѯ᭄ⱘЁ䯈᭄DŽGenBank᭄ḐᓣাᰃҎ㉏ৃ䇏 ⱘϔ⾡⡍⅞᭄ᔶᓣDŽᅗ༅এњ᳝㘨㋏ⱘᑣ߫䲚ড়ˈ㗠צ䗔ಲ↨䕗❳ᙝⱘ䙷⾡ᑣ߫˄ҹDNAЎ Ёᖗⱘ㾚㾦˅DŽEntrezⱘⳂᷛᰃⳈⱘড᭄ⱘԢሖ㒧ᵘDŽ⬅BLASTᅲ⦄ⱘҢGenBankࠄ 㲟ⱑ䋼ᑣ߫ⱘ㗏䆥ᅲ䰙ϞᰃҢ㲟ⱑ䋼üḌ䝌㒘ᕫࠄ㲟ⱑ䋼ᑣ߫DŽ Part A: LOCUS RNKOR1 1757bp DNA ROD 25-MA-1995 DEFINITION Rattus norvegicus kappa opioid receptor gene, exon 1 and 2. ACCESSION U17993 NID g727256 KEYWORDS . SEGMENT 1 of 3 ݁ゴ NCBI᭄ൟ 义ⷕˈ1/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?݁ゴ NCBI᭄ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第六章NCB数据模型 页码,2/15 LOCUS RNKOR2 658bp DNA ROD 25-MA-1995 DEFINI TI ON Rat tus norvegi cus kappa opi oi d receptor gene, exon 3 ACCESSION U17994 NDq727257 KEYWORD SegmEnT 2 of 3 LOCUS RNKOR3 4048bp DNA ROD 25-MA-1995 DEFINI TION Rat tus norvegi cus kappa opi oi d receptor gene, exon 4 and compl ete cds. ACCESSION U17995 NDg727258 KEYMORD SegmenT 3 of 3 Part B LOCUS RNKOR 6463bp DNA ROD 25-MA-1995 DEFINI TI ON Rat tus norvegi cus kappa opi oi d receptor gene ACCESSION Z2123456 NDg2182225 KEYMORD ORGANI SM Rattus norvegi cus ukauyotae: mi tochondrial eukaryotes: Metazoa: Chordata: Vertebrata: Eutheria; Rodenti a: Sci urognathi: Myomorpha; Muri dae Murinae Rattus REFERENCE 1(base 1 to 1757) AUTHORS Yakovl ev, A.G., Krueger, K.E. and Faden, A. I TITLE Structure and expressi on of a rat kappa opi oi d receptor gene JOURNAL J. Bi ol. Chem. 270, 641-6424(1995) MEDLINE 95204422 PUBMED 7896774 REFERENCE 2(bases 1 to 1757) file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18
… LOCUS RNKOR2 658bp DNA ROD 25-MA-1995 DEFINITION Rattus norvegicus kappa opioid receptor gene, exon 3. ACCESSION U17994 NID g727257 KEYWORDS . SEGMENT 2 of 3 … LOCUS RNKOR3 4048bp DNA ROD 25-MA-1995 DEFINITION Rattus norvegicus kappa opioid receptor gene, exon 4 and complete cds. ACCESSION U17995 NID g727258 KEYWORDS . SEGMENT 3 of 3 Part B: LOCUS RNKOR 6463bp DNA ROD 25-MA-1995 DEFINITION Rattus norvegicus kappa opioid receptor gene. ACCESSION ZZ123456 NID g2182225 KEYWORDS . SOURCE Norway rat. ORGANISM Rattus norvegicus Eukauyotae; mitochondrial eukaryotes; Metazoa; Chordata; Vertebrata; Eutheria; Rodentia; Sciurognathi; Myomorpha; Muridae; Murinae; Rattus. REFERENCE 1 (base 1 to 1757) AUTHORS Yakovlev, A.G., Krueger, K.E. and Faden,A.I. TITLE Structure and expression of a rat kappa opioid receptor gene JOURNAL J. Biol. Chem.270, 641-6424(1995) MEDLINE 95204422 PUBMED 7896774 REFERENCE 2 (bases 1 to 1757) ݁ゴ NCBI᭄ൟ 义ⷕˈ2/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?݁ゴ NCBI᭄ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第六章NCB数据模型 页码,3/15 HORS Yakovl ev, A.G. TITLE Di rect Submi ssi on JOURNAL Submi tted(02-DEC1994)Al exander G. Yakovl ev, Georgetown Uni versi ty School of Medi ci ne, Neurol ogy, 3900 Reservoi r Rd Washi ngton, DC 20007, USA FEATURES LocationQuali fiers Source 1..1757 /organi sm= Rattus norvegi cus /strai n= Sprague-Dawley /sex=" maile CoNTIG join(U17993:1.1757.gap(200,U17994:1..658.93p0.U17995:1..4048) 图6.1A:从 Gen Bank中一条记录的部分。 GenBank格式仅仅指出了记录是有顺序的序列的一部 分;它不提供关于其他部分是什么或它们之间如何联系的。完整的该记录见 http://www.ncbi.nlm.nih.gov/htbin-post/entrez/query? uid=2182225&form=6&db=&Dopt= B:新的C0N中片段代表,新的 Gen Bank格式的延续,容许片段记录之间建立联系, CONTIG行可 以包含单个序列,已知长度的间隔,未知长度的间隔。尽管这种格式中没有特征及序列,但 每个组成成分仍以传统格式表达 Gen Bank格式也隐藏了一些DNA序列的多序列性。例如一般意义上,一个基因的三个外显子是 有顺序的,或是被侧面的非编码区或DNA内含子密集包围着,而内含子的整个长度是没有被测 序的。这时候在 Gen Bank的数据中会有三条记录,每一个对应一个外显子。没有一个特征能清 楚地代表该编码区完整的序列顺序(三个外显子是有一定的顺序并被一定长度的未翻译的DNA 序列隔断)。在 Gen Ban格式中,这时会有 SEGMENT行指出第一个记录是 SEGMENT10f3、第 个记录是 SEGMENT20f3、第三个记录是 SEGMENT30f3,但这仅告诉使用者这是一些没 有确定顺序的片段(图6.1A)。从整个 Gen Bank角度来看,使用一种被称为L0CUS的算法将无 序片段正确定位,组合在一起的片段使用相同的起始字母,以不同的数字结尾,例如 RNKOR1, RNKOR2, RNKOR3。显然当L0CUS名字中包含其它与该序列不相关的干扰时,这种复杂 的安排会遇到问题。况且还没有一个序列记录包含了全部的片段,也没有任何方法可以描述 片段之间的距离。因为在EMB|序列数据库中根本没有分割片段的信息,所以任何从这种形式 派生出来的记录都缺乏一些基本的信息。 NCBI数据模型定义了一种直接代表片段的格式,被成为“片段序列”。其包含的元素不是A, G,C,T,而是由怎样从其它序列构造的方法组成。所以以上面的例子为例,片段序列将包 含: RNKOR1-200bp间隔- RNKOR2-未知长度的间隔- RNKOR3。该片段序列和其他记录一样有自己 的名称(RNK0R)、序列号、特征、位点和注解。通常我们将这种形式的存储方式称为包含 RNKOR1、 RNKOR2、RNK0R3、所有中间联系和特征的序列 RNKOR片段集。当 Gen Bank以核酸-蛋白 质组形式发行时,片段集被分成多条记录,片段集就消失了。然而从 Entrez图的视角看片段 集,片段集象一条线将它的组分连接在一起。DDBJ/EMBL/ GenBank最近同意了一种方法用于代 表构造结构,它将被放在新的C0N分割中(图6.1B) 不同于 Gen Bank格式,NCB|片段序列不要求片段间有间隙,事实上片段可以重叠。这使得片段 序列适合用于代表诸如细菌基因的长序列,这恰恰就是 Entrez基因分离细菌基因和其它诸如 酵母等全染色体基因中所做的。NCB|软件工具包(0 stel l,1996:见本章末尾的内部资源) file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18
AUTHORS Yakovlev,A.G. TITLE Direct Submission JOURNAL Submitted(02-DEC_1994) Alexander G. Yakovlev, Georgetown University School of Medicine, Neurology, 3900 Reservoir Rd., Washington, DC 20007, USA FEATURES Location/Qualifiers Source 1..1757 /organism=”Rattus norvegicus” /strain=”Sprague-Dawley” /sex=”maile” CONTIG join(U17993:1..1757,gap(200),U17994:1..658,gap(),U17995:1..4048) 6.1 A˖ҢGenBankЁϔᴵ䆄ᔩⱘ䚼ߚDŽGenBankḐᓣҙҙᣛߎњ䆄ᔩᰃ᳝乎ᑣⱘᑣ߫ⱘϔ䚼 ߚ˗ᅗϡᦤկ݇Ѣ݊Ҫ䚼ߚᰃҔМᅗӀП䯈བԩ㘨㋏ⱘDŽᅠᭈⱘ䆹䆄ᔩ㾕 http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query? uid=2182225&form=6&db=n&Dopt=g %˖ᮄⱘCONЁ⠛↉ҷ㸼ˈᮄⱘGenBankḐᓣⱘᓊ㓁ˈᆍ䆌⠛↉䆄ᔩП䯈ᓎゟ㘨㋏ˈCONTIG㸠ৃ ҹࣙऩϾᑣ߫ˈᏆⶹ䭓ᑺⱘ䯈䱨ˈⶹ䭓ᑺⱘ䯈䱨DŽሑㅵ䖭⾡ḐᓣЁ≵᳝⡍ᕕঞᑣ߫ˈԚ ↣Ͼ㒘៤៤ߚҡҹӴ㒳Ḑᓣ㸼䖒DŽ GenBankḐᓣг䱤㮣њϔѯDNAᑣ߫ⱘᑣ߫ᗻDŽ՟བϔ㠀ᛣНϞˈϔϾⱘϝϾᰒᄤᰃ ᳝乎ᑣⱘˈᰃ㹿ջ䴶ⱘ䴲㓪ⷕऎDNAݙᄤᆚ䲚ࣙೈⴔˈ㗠ݙᄤⱘᭈϾ䭓ᑺᰃ≵᳝㹿⌟ ᑣⱘDŽ䖭ᯊGenBankⱘ᭄ЁӮ᳝ϝᴵ䆄ᔩˈ↣ϔϾᇍᑨϔϾᰒᄤDŽ≵᳝ϔϾ⡍ᕕ㛑⏙ Ἦഄҷ㸼䆹㓪ⷕऎᅠᭈⱘᑣ߫乎ᑣ˄ϝϾᰒᄤᰃ᳝ϔᅮⱘ乎ᑣᑊ㹿ϔᅮ䭓ᑺⱘ㗏䆥ⱘDNA ᑣ߫䱨ᮁ˅DŽGenBankḐᓣЁˈ䖭ᯊӮ᳝SEGMENT㸠ᣛߎϔϾ䆄ᔩᰃSEGMENT 1 of 3ǃ ѠϾ䆄ᔩᰃSEGMENT 2 of 3ǃϝϾ䆄ᔩᰃSEGMENT 3 of 3ˈԚ䖭ҙਞ䆝Փ⫼㗙䖭ᰃϔѯ≵ ᳝⹂ᅮ乎ᑣⱘ⠛↉˄6.1A˅DŽҢᭈϾGenBank㾦ᑺᴹⳟˈՓ⫼ϔ⾡㹿⿄ЎLOCUSⱘㅫ⊩ᇚ᮴ ᑣ⠛↉ℷ⹂ᅮԡˈ㒘ড়ϔ䍋ⱘ⠛↉Փ⫼Ⳍৠⱘ䍋ྟᄫ↡ˈҹϡৠⱘ᭄ᄫ㒧ሒˈ՟བ RNKOR1ˈRNKOR2ˈRNKOR3DŽᰒ✊ᔧLOCUSৡᄫЁࣙ݊ᅗϢ䆹ᑣ߫ϡⳌ݇ⱘᑆᡄᯊˈ䖭⾡ᴖ ⱘᅝᥦӮ䘛ࠄ䯂乬DŽމϨ䖬≵᳝ϔϾᑣ߫䆄ᔩࣙњܼ䚼ⱘ⠛↉ˈг≵᳝ӏԩᮍ⊩ৃҹᦣ䗄 ⠛↉П䯈ⱘ䎱⾏DŽЎEMBIᑣ᭄߫ᑧЁḍᴀ≵᳝ࡆߚ⠛↉ⱘֵᙃˈ᠔ҹӏԩҢ䖭⾡ᔶᓣ ⌒⫳ߎᴹⱘ䆄ᔩ䛑㔎УϔѯᴀⱘֵᙃDŽ NCBI᭄ൟᅮНњϔ⾡Ⳉҷ㸼⠛↉ⱘḐᓣˈ㹿៤ЎĀ⠛↉ᑣ߫āDŽ݊ࣙⱘܗ㋴ϡᰃ$ˈ *ˈ&ˈ7ˈ㗠ᰃ⬅ᗢḋҢ݊ᅗᑣ߫ᵘ䗴ⱘᮍ⊩㒘៤DŽ᠔ҹҹϞ䴶ⱘ՟ᄤЎ՟ˈ⠛↉ᑣ߫ᇚࣙ ˖RNKOR1-200bp䯈䱨-RNKOR2-ⶹ䭓ᑺⱘ䯈䱨-RNKOR3DŽ䆹⠛↉ᑣ߫݊Ҫ䆄ᔩϔḋ᳝㞾Ꮕ ⱘৡ⿄˄RNKOR˅ǃᑣ߫োǃ⡍ᕕǃԡ⚍⊼㾷DŽ䗮ᐌ៥Ӏᇚ䖭⾡ᔶᓣⱘᄬټᮍᓣ⿄Ўࣙ RNKOR1ǃRNKOR2ǃRNKOR3ǃ᠔᳝Ё䯈㘨㋏⡍ᕕⱘᑣ߫RNKOR⠛↉䲚DŽᔧGenBankҹḌ䝌㲟ⱑ 䋼㒘ᔶᓣথ㸠ᯊˈ⠛↉䲚㹿ߚ៤ᴵ䆄ᔩˈ⠛↉䲚ህ⍜༅њDŽ✊㗠ҢEntrezⱘ㾚㾦ⳟ⠛↉ 䲚ˈ⠛↉䲚䈵ϔᴵ㒓ᇚᅗⱘ㒘ߚ䖲ϔ䍋DŽDDBJ/EMBL/GenBank᳔䖥ৠᛣњϔ⾡ᮍ⊩⫼Ѣҷ 㸼ᵘ䗴㒧ᵘˈᅗᇚ㹿ᬒᮄⱘCONࡆߚЁ˄6.1B˅DŽ ϡৠѢGenBankḐᓣˈNCBI⠛↉ᑣ߫ϡ㽕∖⠛↉䯈᳝䯈䱭ˈџᅲϞ⠛↉ৃҹ䞡DŽ䖭Փᕫ⠛↉ ᑣ߫䗖ড়⫼Ѣҷ㸼䇌བ㒚㦠ⱘ䭓ᑣ߫ˈ䖭ᙄᙄህᰃEntrezߚ行㒚㦠݊ᅗ䇌བ 䝉↡ㄝܼᶧ㡆ԧЁ᠔خⱘDŽNCBI䕃ӊᎹࣙ˄Ostellˈ1996˖㾕ᴀゴሒⱘݙ䚼䌘⑤˅ ݁ゴ NCBI᭄ൟ 义ⷕˈ3/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?݁ゴ NCBI᭄ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第六章NCB数据模型 页码,4/15 包含了搜集数据的功能,包括序列和特征,自动将小的个体片段重新映射到全染色体上。这 为图象视角、 GenBank结构视角、 FASTA视角或对离散数据进行全染色体分析提供了可能。这 种根据命令在大范围区域内组装片段的能力已经在细菌基因中有所应用。在越来越大的区域 进行拼接或者许多不同组拼接时组装命令将越来越重要,而且这种基于大规模单片段基础上 处理的思想是完全不现实的。 ASN.1处理方法 NCB数据模型经常被提到或和° NCBI ASN.1″或“ASN.1数据模型”混淆。 Abstract Syntax Notati on1(ASN.1)是国际标准组织(1S0)的标准之一,是为描述结构数据和保障允许各 计算机和各种软件之间交换结构和内容可靠翻译数据。说一个数据模型是用ASN.1写的就象 个计算机程序是用C或F0 RTRAN写的,指明了语言而不是指程序本身。从特殊的以DNA为中心的 视角来看,熟悉的 Gen Bank格式实际是的给人读的,而ASN.1是为计算机读的,并且有复杂的 数据关系的描述。从这个简单的形式看,我们创造了一系列的人可读的格式如 Entrez, Gen Bank和 BLAST数据库。没有这些一般意义上的格式的存在, Entrez(见第5章)中相邻或连 接关系的存在是不可能的。这一章是关于NCB|数据的结构和内容以及它作为生物药学数据库 和工具的作用。关于这个任务和格式的ASN.1选择参见0 stell,1995 定义方式 我们已经对NCB数据模型所定义的序列举了几个例子,可以看出NCB数据类型相比 Gen Bank更 加丰富、描述更加清晰。该模型的重点是它的细节问题,我们在下面将它进行展开。在这里 我们简单地介绍一下该模型大致的理论和基本原理 将数据输入计算机的目的有两个:重现和发现。重现是基本的能够找回它原来的本身。尽管 这很重要,但如果能比找回本身得到更多的信息,也就是说能从信息中得到发现,这当然是 更有价值的。从识别数据库中完全不相关的两条数据中发现它们之间的关系,或者对数据进 行新角度的分析计算,科学家能从中得到发现。强调NCBl数据模型就是为了促进这种发现, 从而定义了能描述信息间的联系和适合计算的数据模型。 对这种模型的第二个考虑是稳定性。NCB是美国国家机构而不是由个人赞助的,因此成员对 支持生物信息的努力有长远的考虑。NCB提供了大规模的能支持科学研究几十年的信息系 统。就所有关于生物药学方面的人士所知,在近几十年内,可能会有许多概念性和技术上的 革命,所以NCB必须适应这些新的观点,适应对软件和数据新的要求。所以我们尽量选用基 本观察或数据点的主要数据元素,不考虑解释的核心和这些元素的命名(这些都很可能会发 生变化)。 综合考虑上述原因,NCB|有四个核心元素:文献出处,DNA序列,蛋白质序列和三维结构。另 外两个项目(分类和基因图)更具解释性,但是不管怎样,它们和组织和联系方面一样重要 所以NCB在这个领域内建立了一个相当大的基础 出版物 出版物是科学研究的核心。科学信息从这里进行检査、评价、传播和永久的记录。出版物可 以说是活的连接实际中不同结构或内容域的数据库的桥梁(例如某序列数据库中的一条记录 和基因库中的某条记录可能出自同一篇文章)。它们被当作联系实际数据库的无价之宝 (“我读了关于这条记录的文章,现在我想看看这个数据”)。 出版物也是功能的基本注释和实际数据库的上下文,也许是最好的注释。原因之一是实际数 据库有能有效使用该数据库的结构,但缺乏足够的代表性能继续进行完整的生物的、实验的 或某记录的历史上下文。另一方面,发表的文章仅仅受语言的限制,比实际数据库中的记录 更包含了更完整和详细的描述信息。根据发表文章的内容,作者被科学同僚评价,而不是根 file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18
ࣙњ᧰䲚᭄ⱘࡳ㛑ˈࣙᣀᑣ߫⡍ᕕˈ㞾ࡼᇚᇣⱘϾԧ⠛↉䞡ᮄᇘࠄܼᶧ㡆ԧϞDŽ䖭 Ў䈵㾚㾦ǃGenBank㒧ᵘ㾚㾦ǃFASTA㾚㾦ᇍ⾏ᬷ᭄䖯㸠ܼᶧ㡆ԧߚᵤᦤկњৃ㛑DŽ䖭 ⾡ḍੑҸ㣗ೈऎඳݙ㒘㺙⠛↉ⱘ㛑Ꮖ㒣㒚㦠Ё᳝᠔ᑨ⫼DŽ䍞ᴹ䍞ⱘऎඳ 䖯㸠ᣐ㗙䆌ϡৠ㒘ᣐᯊ㒘㺙ੑҸᇚ䍞ᴹ䍞䞡㽕ˈ㗠Ϩ䖭⾡Ѣ㾘ऩ⠛↉⸔Ϟ ໘⧚ⱘᗱᛇᰃᅠܼϡ⦄ᅲⱘDŽ ASN.1໘⧚ᮍ⊩ NCBI᭄ൟ㒣ᐌ㹿ᦤࠄ”NCBI ASN.1”“ASN.1᭄ൟā⏋⎚DŽAbstract Syntax Notation 1˄ASN.1˅ᰃ䰙ᷛޚ㒘㒛˄ISO˅ⱘᷛޚПϔˈᰃЎᦣ䗄㒧ᵘ᭄ֱ䱰ܕ䆌 䅵ㅫᴎ⾡䕃ӊП䯈Ѹᤶ㒧ᵘݙᆍৃ䴴㗏䆥᭄DŽ䇈ϔϾ᭄ൟᰃ⫼ASN.1ݭⱘህ䈵ϔ Ͼ䅵ㅫᴎᑣᰃ⫼&FORTRANݭⱘˈᣛᯢњ䇁㿔㗠ϡᰃᣛᑣᴀ䑿DŽҢ⡍⅞ⱘҹDNAЎЁᖗⱘ 㾚㾦ᴹⳟˈ❳ᙝⱘGenBankḐᓣᅲ䰙ᰃⱘ㒭Ҏ䇏ⱘˈ㗠ASN.1ᰃЎ䅵ㅫᴎ䇏ⱘˈᑊϨ᳝ᴖⱘ ᭄݇㋏ⱘᦣ䗄DŽҢ䖭Ͼㅔऩⱘᔶᓣⳟˈ៥Ӏ߯䗴њϔ㋏߫ⱘҎৃ䇏ⱘḐᓣབEntrezˈ GenBankBLAST᭄ᑧDŽ≵᳝䖭ѯϔ㠀ᛣНϞⱘḐᓣⱘᄬˈEntrez˄㾕ゴ˅ЁⳌ䚏䖲 ݇㋏ⱘᄬᰃϡৃ㛑ⱘDŽ䖭ϔゴᰃ݇ѢNCBI᭄ⱘ㒧ᵘݙᆍҹঞᅗЎ⫳⠽㥃ᄺ᭄ᑧ Ꮉⱘ⫼DŽ݇Ѣ䖭ϾӏࡵḐᓣⱘASN.1䗝ᢽখ㾕Ostellˈ1995DŽ ᅮНᮍᓣ ៥ӀᏆ㒣ᇍNCBI᭄ൟ᠔ᅮНⱘᑣ߫ВњϾ՟ᄤˈৃҹⳟߎNCBI᭄㉏ൟⳌ↨GenBank ࡴЄᆠǃᦣ䗄ࡴ⏙᱄DŽ䆹ൟⱘ䞡⚍ᰃᅗⱘ㒚㡖䯂乬ˈ៥Ӏϟ䴶ᇚᅗ䖯㸠ሩᓔDŽ䖭䞠 ៥Ӏㅔऩഄҟ㒡ϔϟ䆹ൟ㟈ⱘ⧚䆎ᴀॳ⧚DŽ ᇚ᭄䕧ܹ䅵ㅫᴎⱘⳂⱘ᳝ϸϾ˖䞡⦄থ⦄DŽ䞡⦄ᰃᴀⱘ㛑ᡒಲᅗॳᴹⱘᴀ䑿DŽሑㅵ 䖭ᕜ䞡㽕ˈԚབᵰ㛑↨ᡒಲᴀ䑿ᕫࠄⱘֵᙃˈгህᰃ䇈㛑ҢֵᙃЁᕫࠄথ⦄ˈ䖭ᔧ✊ᰃ ᳝ӋؐⱘDŽҢ䆚߿᭄ᑧЁᅠܼϡⳌ݇ⱘϸᴵ᭄Ёথ⦄ᅗӀП䯈ⱘ݇㋏ˈ㗙ᇍ᭄䖯 㸠ᮄ㾦ᑺⱘߚᵤ䅵ㅫˈ⾥ᄺᆊ㛑ҢЁᕫࠄথ⦄DŽᔎ䇗NCBI᭄ൟህᰃЎњ֗䖯䖭⾡থ⦄ˈ Ң㗠ᅮНњ㛑ᦣ䗄ֵᙃ䯈ⱘ㘨㋏䗖ড়䅵ㅫⱘ᭄ൟDŽ ᇍ䖭⾡ൟⱘѠϾ㗗㰥ᰃ〇ᅮᗻDŽNCBIᰃ㕢ᆊᴎᵘ㗠ϡᰃ⬅ϾҎ䌲ࡽⱘˈℸ៤ਬᇍ ᬃᣕ⫳⠽ֵᙃⱘࡾ᳝䭓䖰ⱘ㗗㰥DŽNCBIᦤկњ㾘ⱘ㛑ᬃᣕ⾥ᄺⷨおकᑈⱘֵᙃ㋏ 㒳DŽህ᠔᳝݇Ѣ⫳⠽㥃ᄺᮍ䴶ⱘҎ᠔ⶹˈ䖥कᑈݙৃˈ㛑Ӯ᳝䆌ὖᗉᗻᡔᴃϞⱘ 䴽ੑˈ᠔ҹNCBIᖙ乏䗖ᑨ䖭ѯᮄⱘ㾖⚍ˈ䗖ᑨᇍ䕃ӊ᭄ᮄⱘ㽕∖DŽ᠔ҹ៥Ӏሑ䞣䗝⫼ ᴀ㾖ᆳ᭄⚍ⱘЏ㽕᭄ܗ㋴ˈϡ㗗㰥㾷䞞ⱘḌᖗ䖭ѯܗ㋴ⱘੑৡ˄䖭ѯ䛑ᕜৃ㛑Ӯথ ⫳ব࣪˅DŽ 㓐ড়㗗㰥Ϟ䗄ॳˈNCBI᳝ಯϾḌᖗܗ㋴˖᭛⤂ߎ໘ˈDNAᑣ߫ˈ㲟ⱑ䋼ᑣ߫ϝ㓈㒧ᵘDŽ ϸϾ乍Ⳃ˄ߚ㉏˅㾷䞞ᗻˈԚᰃϡㅵᗢḋˈᅗӀ㒘㒛㘨㋏ᮍ䴶ϔḋ䞡㽕 ᠔ҹNCBI䖭Ͼ乚ඳݙᓎゟњϔϾⳌᔧⱘ⸔DŽ ⠜⠽ߎ ߎ⠜⠽ᰃ⾥ᄺⷨおⱘḌᖗDŽ⾥ᄺֵᙃҢ䖭䞠䖯㸠Ẕᶹǃ䆘ӋǃӴ᪁∌Йⱘ䆄ᔩDŽߎ⠜⠽ৃ ҹ䇈ᰃ⌏ⱘ䖲ᅲ䰙Ёϡৠ㒧ᵘݙᆍඳⱘ᭄ᑧⱘḹṕ˄՟བᶤᑣ᭄߫ᑧЁⱘϔᴵ䆄ᔩ ᑧЁⱘᶤᴵ䆄ᔩৃ㛑ߎ㞾ৠϔ㆛᭛ゴ˅DŽᅗӀ㹿ᔧ㘨㋏ᅲ䰙᭄ᑧⱘ᮴ӋПᅱ ˄Ā៥䇏њ݇Ѣ䖭ᴵ䆄ᔩⱘ᭛ゴˈ⦄៥ᛇⳟⳟ䖭Ͼ᭄ā˅DŽ ߎ⠜⠽гᰃࡳ㛑ⱘᴀ⊼䞞ᅲ䰙᭄ᑧⱘϞϟ᭛ˈг䆌ᰃ᳔དⱘ⊼䞞DŽॳПϔᰃᅲ䰙᭄ ᑧ᳝㛑᳝ᬜՓ⫼䆹᭄ᑧⱘ㒧ᵘˈԚ㔎У䎇ⱘҷ㸼ᗻ㛑㒻㓁䖯㸠ᅠᭈⱘ⫳⠽ⱘǃᅲ偠ⱘ ᶤ䆄ᔩⱘग़Ϟϟ᭛DŽϔᮍ䴶ˈথ㸼ⱘ᭛ゴҙҙফ䇁㿔ⱘ䰤ࠊ↨ˈᅲ䰙᭄ᑧЁⱘ䆄ᔩ ࣙњᅠᭈ䆺㒚ⱘᦣ䗄ֵᙃDŽḍথ㸼᭛ゴⱘݙᆍˈ㗙㹿⾥ᄺৠڮ䆘Ӌˈ㗠ϡᰃḍ ݁ゴ NCBI᭄ൟ 义ⷕˈ4/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?݁ゴ NCBI᭄ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第六章NCB数据模型 页码,5/15 据数据库中的记录。即使由于要追求更好的目的,科学家在继续工作,即使关于它们的知识 在增长而数据库保持静态的。很少有繁忙的科学家会有兴趣去学习数据库系统,并能保持个 人记录能及时更新。 NCB有一系列进行中的项目能保证 GenBank记录的高可靠性,提供便利和强大的记录更新工 具,以及与科学家日常工作习惯相应的有用数据。不管怎样,与出版物保持可靠的联系能保 证及时对数据库记录进行最丰富的注解。 般来说,实际的数据库并没有对引用的形式和内容进行详细的分析,因此不同数据库之 间,引用的质量、格式和内容等有很大的出入。我们认识到和出版物相互联系的重要性,认 识到科学知识相对文献的动态性以及NCBI的优势(因为NCBI是国际健康组织的国际医药图书 馆的一部分),我们认为仔细和完整的工作是一项有意义的工作,尽管很多专业人士告诫说 这是一项艰巨的任务。以下是一些数据库的说明,可供对NCB有兴趣的科学家和使用者参 考,完整的说明需要另外一章。 作者 在不同的数据库中作者的姓名是有不同的格式的:只有姓、姓和首字母、姓-逗号-首字母 姓/名,名首字母和全称姓的作者、带有和不带有称谓(如Ph.D)或尾缀(Jr.,1)。一些 文献数据库(如 MEDLINE)可能仅用一个固定的数字代表作者。尽管这只是不便于读者阅读, 但这对数据库系统产生了严重的问题,就象 Entrez那样,只能提供按作者姓搜索的简单功 能。由于这个原因,该说明提供了两种可选择的作者姓名代表格式,一个是简单的字符串形 式,另一个是包含姓、名和其它等的结构域。当数据直接被送到NCB|或作者姓名有固定格式 的其它数据库(如 MEDLINE)时使用结构形式。当该形式不能破译是则仍然被看成为字符串形 式,但这时复现受到限制,但至少还是能用其他的方法复现出一些数据的。 即使是结构形式的作者姓名也必须支持多样性,这是因为一些文献只给首字母,而另一些只 给名和中间名。这时要强调两点:第一点,NCB数据格式是为了适合于我们直接阅读以及能 和现存数据相一致;第二点,在一个特殊的资源被转化时软件开发者必须了解该格式的意 义。一般说来,NCB尽量使数据形式满足统一格式,但可能也会使其它的性能下降。 作者的社会关系(如作者的工作地点等)就更加复杂了。至于作者姓名对于支持结构形式和 字符串形式也还有一些问题。然而,即使对那些有统一格式作者姓名的文献来源,也不能将 社会关系分解成结构形式。而且,也有很多作者是属于相同的机构或一个作者参与了几个机 构。NCBI数据模型支持以上情况。尽管在写本文时, MEDLI NEI或 Gen Bank只支持前一种格式, 而两种格式都出现在出版物上。 文章 最常见的生物科学的文献标题是期刊文献,所以对于生物数据库的引用格式缺省为期刊文 献。然而,文章也可能出现在书、手稿以及电子期刊上,数据模型应该能引用书、期刊或手 稿。文章出处占有一个域,其它域用于存储其它的能唯一确定其在书、期刊或手稿中的有用 信息,如文章的作者(对应与书的作者或编辑者)、文章的标题、页码等等 那些能辨识文章出处的域以及对数据库使用者有用的能识别相同文章的域是完全不同的 NCBI出处比对服务(见本章末)使用出处域来区分定位文献的出处,这个比对过程包含能同 时配合相同的期刊名、年份、文章的首页以及文章作者的姓。其他的信息(例如文章标题 页数、全部页数、作者名单)仅用于观看而对输入来源不起作用。作为出处的数据模型要容 许最小信息集能作用,和 MEDLINE比对后,被从 MEDLINE中得到的完整的域所替代,从而满足 科学研究精确的需要。 专利权 file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18
᭄ᑧЁⱘ䆄ᔩDŽेՓ⬅Ѣ㽕䗑∖དⱘⳂⱘˈ⾥ᄺᆊ㒻㓁ᎹˈेՓ݇ѢᅗӀⱘⶹ䆚 䭓㗠᭄ᑧֱᣕ䴭ᗕⱘDŽᕜᇥ᳝㐕ᖭⱘ⾥ᄺᆊӮ᳝݈䍷এᄺд᭄ᑧ㋏㒳ˈᑊ㛑ֱᣕϾ Ҏ䆄ᔩ㛑ঞᯊᮄDŽ NCBI᳝ϔ㋏߫䖯㸠Ёⱘ乍Ⳃ㛑ֱ䆕GenBank䆄ᔩⱘ催ৃ䴴ᗻˈᦤկ߽֓ᔎⱘ䆄ᔩᮄᎹ ˈҹঞϢ⾥ᄺᆊ᮹ᐌᎹдᛃⳌᑨⱘ᳝⫼᭄DŽϡㅵᗢḋˈϢߎ⠜⠽ֱᣕৃ䴴ⱘ㘨㋏㛑ֱ 䆕ঞᯊᇍ᭄ᑧ䆄ᔩ䖯㸠᳔Єᆠⱘ⊼㾷DŽ ϔ㠀ᴹ䇈ˈᅲ䰙ⱘ᭄ᑧᑊ≵᳝ᇍᓩ⫼ⱘᔶᓣݙᆍ䖯㸠䆺㒚ⱘߚᵤˈℸϡৠ᭄ᑧП 䯈ˈᓩ⫼ⱘ䋼䞣ǃḐᓣݙᆍㄝ᳝ᕜⱘߎܹDŽ៥Ӏ䅸䆚ࠄߎ⠜⠽ⳌѦ㘨㋏ⱘ䞡㽕ᗻˈ䅸 䆚ࠄ里ᄺⶹ䆚Ⳍᇍ᭛⤂ⱘࡼᗕᗻҹঞNCBIⱘӬ˄ЎNCBIᰃ䰙عᒋ㒘㒛ⱘ䰙ए㥃к 佚ⱘϔ䚼ߚˈ˅៥Ӏ䅸ЎҨ㒚ᅠᭈⱘᎹᰃϔ乍᳝ᛣНⱘᎹˈሑㅵᕜϧϮҎਞ䆿䇈 䖭ᰃϔ乍㡄ᎼⱘӏࡵDŽҹϟᰃϔѯ᭄ᑧⱘ䇈ᯢˈৃկᇍNCBI᳝݈䍷ⱘ⾥ᄺᆊՓ⫼㗙খ 㗗ˈᅠᭈⱘ䇈ᯢ䳔㽕ϔゴDŽ 㗙 ϡৠⱘ᭄ᑧЁ㗙ⱘྦྷৡᰃ᳝ϡৠⱘḐᓣⱘ˖া᳝ྦྷǃྦྷ佪ᄫ↡ǃྦྷ䗫ো佪ᄫ↡ǃ ྦྷৡˈৡ佪ᄫ↡ܼ⿄ྦྷⱘ㗙ǃᏺ᳝ϡᏺ᳝⿄䇧˄བPh.D˅ሒ㓔˄Jr.ˈIII˅DŽϔѯ ᭛⤂᭄ᑧ˄བMEDLINE˅ৃ㛑ҙ⫼ϔϾᅮⱘ᭄ᄫҷ㸼㗙DŽሑㅵ䖭াᰃϡ֓Ѣ䇏㗙䯙䇏ˈ Ԛ䖭ᇍ᭄ᑧ㋏㒳ѻ⫳њϹ䞡ⱘ䯂乬ˈህ䈵Entrez䙷ḋˈা㛑ᦤկᣝ㗙ྦྷ᧰㋶ⱘㅔऩࡳ 㛑DŽ⬅Ѣ䖭Ͼॳˈ䆹䇈ᯢᦤկњϸ⾡ৃ䗝ᢽⱘ㗙ྦྷৡҷ㸼ḐᓣˈϔϾᰃㅔऩⱘᄫヺІᔶ ᓣˈϔϾᰃࣙྦྷǃৡ݊ᅗㄝⱘ㒧ᵘඳDŽᔧ᭄Ⳉ㹿䗕ࠄNCBI㗙ྦྷৡ᳝ᅮḐᓣ ⱘ݊ᅗ᭄ᑧ˄བMEDLINE˅ᯊՓ⫼㒧ᵘᔶᓣDŽᔧ䆹ᔶᓣϡ㛑⸈䆥ᰃ߭ҡ✊㹿ⳟ៤ЎᄫヺІᔶ ᓣˈԚ䖭ᯊ⦄ফࠄ䰤ࠊˈԚ㟇ᇥ䖬ᰃ㛑⫼݊Ҫⱘᮍ⊩⦄ߎϔѯ᭄ⱘDŽ ेՓᰃ㒧ᵘᔶᓣⱘ㗙ྦྷৡгᖙ乏ᬃᣕḋᗻˈ䖭ᰃЎϔѯ᭛⤂া㒭佪ᄫ↡ˈ㗠ϔѯা 㒭ৡЁ䯈ৡDŽ䖭ᯊ㽕ᔎ䇗ϸ⚍˖ϔ⚍ˈNCBI᭄ḐᓣᰃЎњ䗖ড়Ѣ៥ӀⳈ䯙䇏ҹঞ㛑 ⦄ᄬ᭄Ⳍϔ㟈˗Ѡ⚍ˈϔϾ⡍⅞ⱘ䌘⑤㹿䕀࣪ᯊ䕃ӊᓔথ㗙ᖙ乏њ㾷䆹Ḑᓣⱘᛣ НDŽϔ㠀䇈ᴹˈNCBIሑ䞣Փ᭄ᔶᓣ⒵䎇㒳ϔḐᓣˈԚৃ㛑гӮՓ݊ᅗⱘᗻ㛑ϟ䰡DŽ 㗙ⱘ⼒Ӯ݇㋏˄བ㗙ⱘᎹഄ⚍ㄝ˅ህࡴᴖњDŽ㟇Ѣ㗙ྦྷৡᇍѢᬃᣕ㒧ᵘᔶᓣ ᄫヺІᔶᓣг䖬᳝ϔѯ䯂乬DŽ✊㗠ˈेՓᇍ䙷ѯ᳝㒳ϔḐᓣ㗙ྦྷৡⱘ᭛⤂ᴹ⑤ˈгϡ㛑ᇚ ⼒Ӯ݇㋏ߚ㾷៤㒧ᵘᔶᓣDŽ㗠Ϩˈг᳝ᕜ㗙ᰃሲѢⳌৠⱘᴎᵘϔϾ㗙খϢњϾᴎ ᵘDŽNCBI᭄ൟᬃᣕҹϞᚙމDŽሑㅵݭᴀ᭛ᯊˈMEDLINEGenBankাᬃᣕࠡϔ⾡Ḑᓣˈ 㗠ϸ⾡Ḑᓣ䛑ߎ⦃ߎ⠜⠽ϞDŽ ᭛ゴ ᳔ᐌ㾕ⱘ⫳⠽⾥ᄺⱘ᭛⤂ᷛ乬ᰃᳳߞ᭛⤂ˈ᠔ҹᇍѢ⫳⠽᭄ᑧⱘᓩ⫼Ḑᓣ㔎ⳕЎᳳߞ᭛ ⤂DŽ✊㗠ˈ᭛ゴгৃ㛑ߎ⦃кǃ〓ҹঞ⬉ᄤᳳߞϞˈ᭄ൟᑨ䆹㛑ᓩ⫼кǃᳳߞ 〓DŽ᭛ゴߎ໘ऴ᳝ϔϾඳˈ݊ᅗඳ⫼Ѣᄬټ݊ᅗⱘ㛑ଃϔ⹂ᅮ݊кǃᳳߞ〓Ёⱘ᳝⫼ ֵᙃˈབ᭛ゴⱘ㗙˄ᇍᑨϢкⱘ㗙㓪䕥㗙˅ǃ᭛ゴⱘᷛ乬ǃ义ⷕㄝㄝDŽ 䙷ѯ㛑䕼䆚᭛ゴߎ໘ⱘඳҹঞᇍ᭄ᑧՓ⫼㗙᳝⫼ⱘ㛑䆚߿Ⳍৠ᭛ゴⱘඳᰃᅠܼϡৠⱘDŽ NCBIߎ໘↨ᇍ᳡ࡵ˄㾕ᴀゴ˅Փ⫼ߎ໘ඳᴹऎߚᅮԡ᭛⤂ⱘߎ໘ˈ䖭Ͼ↨ᇍ䖛ࣙ㛑ৠ ᯊ䜡ড়Ⳍৠⱘᳳߞৡǃᑈӑǃ᭛ゴⱘ佪义ҹঞ᭛ゴ㗙ⱘྦྷDŽ݊Ҫⱘֵᙃ˄՟བ᭛ゴᷛ乬ǃ 义᭄ǃܼ䚼义᭄ǃ㗙ৡऩ˅ҙ⫼Ѣ㾖ⳟ㗠ᇍ䕧ܹᴹ⑤ϡ䍋⫼DŽЎߎ໘ⱘ᭄ൟ㽕ᆍ 䆌᳔ᇣֵᙃ䲚㛑⫼ˈMEDLINE↨ᇍৢˈ㹿ҢMEDLINEЁᕫࠄⱘᅠᭈⱘඳ᠔᳓ҷˈҢ㗠⒵䎇 ⾥ᄺⷨお㊒⹂ⱘ䳔㽕DŽ ϧ߽ᴗ ݁ゴ NCBI᭄ൟ 义ⷕˈ5/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?݁ゴ NCBI᭄ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com