第十四章提交DNA序列到数据库 页码,1/2 第十四章提交DNA序列到数据库 序言: 要在分子生物学领域进行计算分析,从公共数据库( DDBJ/EMBL/GenBank)中获得DNA序列记录 是其必需条件。借助于和一个已了解其生物学功能而被分离出来并测序的基因比较相似性的 方法,我们可以尝试确定某疾病基因的功能,这种方法要求序列记录有精确并且富于信息的 生物学注解。对于将其作为 BLAST或Eηtrez的检索结果来硏究的科学家来说,编码的蛋白质 产物的名称或功能、基因座位的名称以及和该序列最初的公布之间的联系(它因何被测 序?)构成了序列记录的直接的确切涵义 本章的内容是提交DNA序列及其注解到公共数据库,重点介绍了与国际核苷酸序列协作数据 库:DDBJ、EMBL和 Gen Bank密切相关的核苷酸序列数据库。我们描述了提交序列到这些数据库 的两种不同的方法,一种方法基于互联网,(例如,使用 Banki t),另一种方法使用 Sequi n, 这是一个多平台程序,若同时具有网络连接有很大益处,不过这不是必需的。 Sequi n也是 种很好的利用了№CBI数据模型(参见第六章)的ASN.1编辑工具,而且在不久的将来会成为许 多采用NCB|的序列分析工具的平台,因此, Sequi n是可供选择的升级工具。 大多数期刊不再刊登完整的序列数据,并且现在公开发表文章时向公共数据库提交序列数据 已成为一条准则。基因组测序时期(ESTs和基因组序列的数量以很快的速度增加的时期,在 历史上以1992年底EST计划的开始为标志)己经通过很多方式影响了科学界。例如,许多科学 家公布他们发现的序列先于发表对其进行的详细分析,这个习惯已成为大型基因研究中心的 规定,尽管一些个别的实验室仍然直到文章发表后才公开他们的数据,还有一些人认为公开 他们的记录与否取决于自己的愿望。 像第二章概述的那样,到目前为止,数据库内容的增长是指数性的。大多数早期的序列记录 是由对于某个基因感兴趣的单个的科学家提交的,适合这种情况的提交程序必须允许手工进 行生物学信息的任意注解。然而最近这些数据库不得不接受新类型的数据,而且提交速度要 有实质性的提高。在EST测序开始不久,为了接受这些记录必需一种单独的提交协议,这种要 求变得很明显,通过该协议每天接受的记录将达到上千个,峰值时期更将达到每周100,000 个提交量。幸运的是,这些记录相当简单,而且在内容上是一致的,因此适合于自动处理 这种大批量提交协议将在下文讨论。提交过程也是国际活动的一部分,值得注意的是,向三 个国际性协作数据库中的任一个提交的记录(参见第二章图2.1)几天后都将在另两个数据库 中出现,然后这些序列记录将被许多研究组和研究中心传送到世界范围,其中有些研究者再 格式化这些记录以适合他们的数据库和他们的程序使用(例如,GCG,参见第四章),因此仅 仅提交序列数据到这三个数据库之一,研究者们能够避免给这三个地方的数据库维护人员带 来任何可能的重复工作,而且也能避免发布多余的记录。同样的,大多数期刊都希望在一篇 文章中提出的所有核苷酸序列,将被由国际性的协作数据库之一提供的加入号码所验证,而 且这对该文章来说具有核心的意义。(参见第2章和第6章)。 提交到哪儿? 过去硏究者将数据提交到哪一个特定的数据库依赖于他们想要发表文章的期刊,虽然现在 些期刊仍然不合适的指出一个偏爱的数据库,但这不再是正确的了,研究者应该提交到最方 便的数据库。这可能是地理上最近的数据库(例如,如果需要一次电话会谈的话);也可能 是经常提交的数据库;或者可能仅是因为在那里提交可能得到最多的注意。这三个数据库都 有知识丰富的人员来帮助提交者完成整个提交过程。在通常的情况下,一个工作日内将会反 馈回来一个加入号码,而记录的完成将需要5�10天的时间,其实际长短将依赖于那个工作 周的繁忙程度和提交的序列的状态。 file://E:wcb生物信息学(中译本)\第十四章提交DNA序列到数据库.htm2005-1-18
कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ ᑣ㿔: 㽕ߚᄤ⫳⠽ᄺ乚ඳ䖯㸠䅵ㅫߚᵤˈҢ᭄݀݅ᑧ(DDBJ/EMBL/GenBank)Ё㦋ᕫDNAᑣ߫䆄ᔩ ᰃ݊ᖙ䳔ᴵӊDŽࡽ׳ѢϔϾᏆњ㾷݊⫳⠽ᄺࡳ㛑㗠㹿ߚ行ߎᴹᑊ⌟ᑣⱘ↨䕗ⳌԐᗻⱘ ᮍ⊩ˈ៥Ӏৃҹᇱ䆩⹂ᅮᶤ⮒⮙ⱘࡳ㛑ˈ䖭⾡ᮍ⊩㽕∖ᑣ߫䆄ᔩ᳝㊒⹂ᑊϨᆠѢֵᙃⱘ ⫳⠽ᄺ⊼㾷DŽᇍѢᇚ݊ЎBLAST EntrezⱘẔ㋶㒧ᵰᴹⷨおⱘ⾥ᄺᆊᴹ䇈ˈ㓪ⷕⱘ㲟ⱑ䋼 ѻ⠽ⱘৡ⿄ࡳ㛑ǃᑻԡⱘৡ⿄ҹঞ䆹ᑣ᳔߫߱ⱘ݀ᏗП䯈ⱘ㘨㋏˄ᅗԩ㹿⌟ ᑣ˛˅ᵘ៤њᑣ߫䆄ᔩⱘⳈⱘ⹂ߛ⎉НDŽ ᴀゴⱘݙᆍᰃᦤѸDNAᑣ߫ঞ݊⊼㾷ࠄ᭄݅݀ᑧˈ䞡⚍ҟ㒡њϢ䰙Ḍ㣋䝌ᑣ߫ण᭄ ᑧ˖DDBJǃEMBLGenBankᆚߛⳌ݇ⱘḌ㣋䝌ᑣ᭄߫ᑧDŽ៥Ӏᦣ䗄њᦤѸᑣ߫ࠄ䖭ѯ᭄ᑧ ⱘϸ⾡ϡৠⱘᮍ⊩ˈϔ⾡ᮍ⊩ѢѦ㘨㔥ˈ˄՟བˈՓ⫼Bankit˅ϔ⾡ᮍ⊩Փ⫼Sequin, 䖭ᰃϔϾᑇৄᑣˈ㢹ৠᯊ᳝㔥㒰䖲᳝ᕜⲞ໘ˈϡ䖛䖭ϡᰃᖙ䳔ⱘDŽSequinгᰃϔ ⾡ᕜདⱘ߽⫼њNCBI᭄ൟ˄খ㾕݁ゴ˅ⱘASN.1㓪䕥Ꮉˈ㗠ϨϡЙⱘᇚᴹӮ៤Ў䆌 䞛⫼NCBIⱘᑣ߫ߚᵤᎹⱘᑇৄˈℸˈSequinᰃৃկ䗝ᢽⱘछ㑻ᎹDŽ ᭄ᳳߞϡߞݡⱏᅠᭈⱘᑣ᭄߫ˈᑊϨ⦄݀ᓔথ㸼᭛ゴᯊ᭄݀݅ᑧᦤѸᑣ᭄߫ Ꮖ៤Ўϔᴵޚ߭DŽ㒘⌟ᑣᯊᳳ˄ESTs 㒘ᑣ߫ⱘ᭄䞣ҹᕜᖿⱘ䗳ᑺࡴⱘᯊᳳˈ ग़Ϟҹ1992ᑈᑩEST䅵ߦⱘᓔྟЎᷛᖫ˅Ꮖ㒣䗮䖛ᕜᮍᓣᕅડњ⾥ᄺ⬠DŽ՟བˈ䆌⾥ᄺ ᆊ݀ᏗҪӀথ⦄ⱘᑣ߫ܜѢথ㸼ᇍ݊䖯㸠ⱘ䆺㒚ߚᵤˈ䖭ϾдᛃᏆ៤ЎൟⷨおЁᖗⱘ 㾘ᅮˈሑㅵϔѯϾ߿ⱘᅲ偠ᅸҡ✊Ⳉࠄ᭛ゴথ㸼ৢᠡ݀ᓔҪӀⱘ᭄ˈ䖬᳝ϔѯҎ䅸Ў݀ᓔ ҪӀⱘ䆄ᔩϢ৺পއѢ㞾ᏅⱘᜓᳯDŽ ڣѠゴὖ䗄ⱘ䙷ḋˈࠄⳂࠡЎℶˈ᭄ᑧݙᆍⱘ䭓ᰃᣛ᭄ᗻⱘDŽ᭄ᮽᳳⱘᑣ߫䆄ᔩ ᰃ⬅ᇍѢᶤϾᛳ݈䍷ⱘऩϾⱘ⾥ᄺᆊᦤѸⱘˈ䗖ড়䖭⾡ᚙމⱘᦤѸᑣᖙ乏ܕ䆌Ꮉ䖯 㸠⫳⠽ᄺֵᙃⱘӏᛣ⊼㾷DŽ✊㗠᳔䖥䖭ѯ᭄ᑧϡᕫϡফᮄ㉏ൟⱘ᭄ˈ㗠ϨᦤѸ䗳ᑺ㽕 ᳝ᅲ䋼ᗻⱘᦤ催DŽEST⌟ᑣᓔྟϡЙˈЎњফ䖭ѯ䆄ᔩᖙ䳔ϔ⾡ऩ⣀ⱘᦤѸण䆂ˈ䖭⾡㽕 ∖বᕫᕜᯢᰒˈ䗮䖛䆹ण䆂↣ফⱘ䆄ᔩᇚ䖒ࠄϞगϾˈዄؐᯊᳳᇚ䖒ࠄ਼↣100ˈ000 ϾᦤѸ䞣DŽᑌ䖤ⱘᰃˈ䖭ѯ䆄ᔩⳌᔧㅔऩˈ㗠ϨݙᆍϞᰃϔ㟈ⱘˈℸ䗖ড়Ѣ㞾ࡼ໘⧚DŽ 䖭⾡ᡍ䞣ᦤѸण䆂ᇚϟ᭛䅼䆎DŽᦤѸ䖛гᰃ䰙⌏ࡼⱘϔ䚼ߚؐˈᕫ⊼ᛣⱘᰃˈϝ Ͼ䰙ᗻण᭄ᑧЁⱘӏϔϾᦤѸⱘ䆄ᔩ˄খ㾕Ѡゴ2.1˅ৢ䛑ᇚϸϾ᭄ᑧ Ёߎৢ✊ˈ⦃䖭ѯᑣ߫䆄ᔩᇚ㹿䆌ⷨお㒘ⷨおЁᖗӴ䗕ࠄϪ⬠㣗ೈˈ݊Ё᳝ѯⷨお㗙ݡ Ḑᓣ࣪䖭ѯ䆄ᔩҹ䗖ড়ҪӀⱘ᭄ᑧҪӀⱘᑣՓ⫼˄՟བˈGCG,খ㾕ಯゴ˅ˈℸҙ ҙᦤѸᑣ᭄߫ࠄ䖭ϝϾ᭄ᑧПϔˈⷨお㗙Ӏ㛑䙓ܡ㒭䖭ϝϾഄᮍⱘ᭄ᑧ㓈ᡸҎਬᏺ ᴹӏԩৃ㛑ⱘ䞡Ꮉˈ㗠Ϩг㛑䙓ܡথᏗԭⱘ䆄ᔩDŽৠḋⱘˈ᭄ᳳߞ䛑Ꮰᳯϔ㆛ ᭛ゴЁᦤߎⱘ᠔᳝Ḍ㣋䝌ᑣ߫ˈᇚ㹿⬅䰙ᗻⱘण᭄ᑧПϔᦤկⱘࡴܹোⷕ᠔偠䆕ˈ㗠 Ϩ䖭ᇍ䆹᭛ゴᴹ䇈᳝ḌᖗⱘᛣНDŽ˄খ㾕ゴゴ˅DŽ ˛ܓાࠄᦤѸ 䖛এⷨお㗙ᇚ᭄ᦤѸࠄાϔϾ⡍ᅮⱘ᭄ᑧձ䌪ѢҪӀᛇ㽕থ㸼᭛ゴⱘᳳߞˈ㱑✊⦄ϔ ѯᳳߞҡ✊ϡড়䗖ⱘᣛߎϔϾأ⠅ⱘ᭄ᑧˈԚ䖭ϡݡᰃℷ⹂ⱘњˈⷨお㗙ᑨ䆹ᦤѸࠄ᳔ᮍ ֓ⱘ᭄ᑧDŽ䖭ৃ㛑ᰃഄ⧚Ϟ᳔䖥ⱘ᭄ᑧ˄՟བˈབᵰ䳔㽕ϔ⬉䆱Ӯ䇜ⱘ䆱˅˗гৃ㛑 ᰃ㒣ᐌᦤѸⱘ᭄ᑧ˗㗙ৃ㛑ҙᰃЎ䙷䞠ᦤѸৃ㛑ᕫࠄ᳔ⱘ⊼ᛣDŽ䖭ϝϾ᭄ᑧ䛑 ᳝ⶹ䆚ЄᆠⱘҎਬᴹᐂࡽᦤѸ㗙ᅠ៤ᭈϾᦤѸ䖛DŽ䗮ᐌⱘᚙމϟˈϔϾᎹ᮹ݙᇚӮড 作ಲᴹϔϾࡴܹোⷕˈ㗠䆄ᔩⱘᅠ៤ᇚ䳔㽕5�10ⱘᯊ䯈ˈ݊ᅲ䰙䭓ⷁᇚձ䌪Ѣ䙷ϾᎹ ਼ⱘ㐕ᖭᑺᦤѸⱘᑣ߫ⱘ⢊ᗕDŽ कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ 义ⷕˈ1/21 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第十四章提交DNA序列到数据库 页码,2/2 日前,假设所有的序列记录提交都通过电子方式:例如通过互联网,通过电子邮件,或者 (最起码)通过常规方式邮寄一张计算机磁盘。供电子方式提交的URLs和Emai|地址列于本 章末尾,这两种提交方式取代了早期使用的授权软件的方法,该方法现在已经过时了。不过 通过授权软件来提交仍然可被接受(在本文出版时),但是使用授权软件的提交者应该注意 其局限性和可以选择更好的方法 提交什么内容? 这三个数据库都需要同样的最终结果:充分注解的、具生物学意义的、便于计算的良好记 录,该记录允许其他科学家利用提交该记录的生物学家已获得的工作成果,并且提供了与蛋 白质、参考文献和基因组数据库(参见第5章)的联系。这些数据库是所有通过实验获得的序 列的宝库,因此最新测序的mRNA或基因区域的序列可以提交到某个数据库,其工作人员将协 助提交者提供足够的信息以使该序列对其他研究者有使用价值。一套丰富的生物特征和其他 注解是可得到的,但其中重要的部分无疑是那些可用于分析的内容。这些部分包括核苷酸和 蛋白质序列:CDS(编码序列,又称编码区)、基因、mRNA特征(如:表现分子生物学中心法 则的特征);序列得以确定的生物;以及关于参考文献的引用,这些引用将此序列连接到有 关的信息领域并将给出证明该序列存在的实验细节 DNA/RNA 提交的过程相当简单,但必须小心谨慎,才能提供准确(无错误和无载体污染)和生物学上 尽量良好的信息,以保证其得到科学界的最充分利用。无论提交形式如何,在开始提交以 前,都要解决以下几个问题 序列的性质 该序列来源于基因组还是mRNA?数据库的用户想知道被测序的DNA分子的来源。例如:尽管 CDNA是在DNA(不是RNA)上进行测序的,在细胞中的分子表现型却是mRNA。同样对于rRNA基 因的基因组测序而言,测序的分子几乎全都是DNA分子。将rRNA复制成DNA,就象直接对rRNA 测序一样,尽管是可能的,但很少这样做。记住:既然被提交的基因必须有独特的分子类 型,它就不会表现出(例如)一种基因组和mRNA分子的混合类型,否则实际上不会从一个活 细胞中提取出来。 序列是合成的,但不是人造的吗? 合成分子在核苷酸数据库中有一个特殊的分类,在此环境中,序列被按照实验排列,而这在 自然环境中是不会出现的(如:蛋白质表达的载体序列)。DNA数据库不接受计算机产生的尸 列(如:同源序列),在数据库中的所有序列都是从有问题的实际分子序列中通过实验获得 的,但是它们可以被汇聚成测序训练猎枪 序列有多精确? 在数据库文献中很少提到这个问题,但假设被提交的序列尽可能精确,这通常意味着整个提 交序列至少包括两相覆盖域(相反方向)。证实最终提交的序列也同样重要,它必须无载体 的污染(这可以用在载体数据库中 BLASTN查寻证实:参见其后的第7章),可以以已知的限制 图谱检验,消除序列重组的可能性,或确认正确的序列集合。 生物体 给每条记录分配正确的生物是至关重要的,尽管在大多数情况下这是很容易做到的。所有的 DNA序列记录必须有一个生物分配给它们,从数据库中的记录出现在系统发生树上的位置可以 得到许多推论。如果它们被错误的安置了,可能会翻译错误的遗传密码,并产生被错误截取 file://E:wcb生物信息学(中译本)\第十四章提交DNA序列到数据库.htm2005-1-18
Ⳃࠡˈ؛䆒᠔᳝ⱘᑣ߫䆄ᔩᦤѸ䛑䗮䖛⬉ᄤᮍᓣ˖՟བ䗮䖛Ѧ㘨㔥ˈ䗮䖛⬉ᄤ䚂ӊˈ㗙 ˄᳔䍋ⷕ˅䗮䖛ᐌ㾘ᮍᓣ䚂ᆘϔᓴ䅵ㅫᴎ⺕ⲬDŽկ⬉ᄤᮍᓣᦤѸⱘURLsE_mailഄഔ߫Ѣᴀ ゴሒ, 䖭ϸ⾡ᦤѸᮍᓣপҷњᮽᳳՓ⫼ⱘᥜᴗ䕃ӊⱘᮍ⊩ˈ䆹ᮍ⊩⦄Ꮖ㒣䖛ᯊњDŽϡ䖛 䗮䖛ᥜᴗ䕃ӊᴹᦤѸҡ✊ৃ㹿ফ˄ᴀ᭛ߎ⠜ᯊ˅ˈԚᰃՓ⫼ᥜᴗ䕃ӊⱘᦤѸ㗙ᑨ䆹⊼ᛣ ݊ሔ䰤ᗻৃҹ䗝ᢽདⱘᮍ⊩DŽ ᦤѸҔМݙᆍ˛ 䖭ϝϾ᭄ᑧ䛑䳔㽕ৠḋⱘ᳔㒜㒧ᵰ˖ߚܙ⊼㾷ⱘǃ⫳⠽ᄺᛣНⱘǃ֓Ѣ䅵ㅫⱘ㡃ད䆄 ᔩˈ䆹䆄ᔩܕ䆌݊Ҫ⾥ᄺᆊ߽⫼ᦤѸ䆹䆄ᔩⱘ⫳⠽ᄺᆊᏆ㦋ᕫⱘᎹ៤ᵰˈᑊϨᦤկњϢ㲟 ⱑ䋼ǃখ㗗᭛⤂㒘᭄ᑧ˄খ㾕ゴ˅ⱘ㘨㋏DŽ䖭ѯ᭄ᑧᰃ᠔᳝䗮䖛ᅲ偠㦋ᕫⱘᑣ ߫ⱘᅱᑧˈℸ᳔ᮄ⌟ᑣⱘmRNAऎඳⱘᑣ߫ৃҹᦤѸࠄᶤϾ᭄ᑧˈ݊ᎹҎਬᇚण ࡽᦤѸ㗙ᦤկ䎇ⱘֵᙃҹՓ䆹ᑣ߫ᇍ݊Ҫⷨお㗙᳝Փ⫼ӋؐDŽϔ༫Єᆠⱘ⫳⠽⡍ᕕ݊Ҫ ⊼㾷ᰃৃᕫࠄⱘˈԚ݊Ё䞡㽕ⱘ䚼ߚ᮴⭥ᰃ䙷ѯৃ⫼ѢߚᵤⱘݙᆍDŽ䖭ѯ䚼ࣙߚᣀḌ㣋䝌 㲟ⱑ䋼ᑣ߫˖CDS˄㓪ⷕᑣ߫ˈজ⿄㓪ⷕऎ˅ǃǃmRNA⡍ᕕ˄བ˖㸼⦄ߚᄤ⫳⠽ᄺЁᖗ⊩ ߭ⱘ⡍ᕕ˅˗ᑣ߫ᕫҹ⹂ᅮⱘ⫳⠽˗ҹঞ݇Ѣখ㗗᭛⤂ⱘᓩ⫼ˈ䖭ѯᓩ⫼ᇚℸᑣ߫䖲ࠄ᳝ ݇ⱘֵᙃ乚ඳᑊᇚ㒭ߎ䆕ᯢ䆹ᑣ߫ᄬⱘᅲ偠㒚㡖DŽ DNA/RNA ᦤѸⱘ䖛ⳌᔧㅔऩˈԚᖙ乏ᇣᖗ䇼ᜢˈᠡ㛑ᦤկޚ˄⹂᮴䫭䇃᮴䕑ԧ∵ᶧ˅⫳⠽ᄺϞ ሑ䞣㡃དⱘֵᙃˈҹֱ䆕݊ᕫࠄ里ᄺ⬠ⱘ᳔߽ߚܙ⫼DŽ᮴䆎ᦤѸᔶᓣབԩˈᓔྟᦤѸҹ ࠡˈ䛑㽕㾷އҹϟϾ䯂乬DŽ ᑣ߫ⱘᗻ䋼 䆹ᑣ߫ᴹ⑤Ѣ㒘䖬ᰃmRNA˛᭄ᑧⱘ⫼᠋ᛇⶹ䘧㹿⌟ᑣⱘDNAߚᄤⱘᴹ⑤DŽ՟བ˖ሑㅵ cDNAᰃDNA˄ϡᰃRNA˅Ϟ䖯㸠⌟ᑣⱘˈ㒚㚲Ёⱘߚᄤ㸼⦄ൟैᰃmRNADŽৠḋᇍѢrRNA ⱘ㒘⌟ᑣ㗠㿔ˈ⌟ᑣⱘߚᄤТܼ䛑ᰃDNAߚᄤDŽᇚrRNAࠊ៤DNAˈህ䈵ⳈᇍrRNA ⌟ᑣϔḋˈሑㅵᰃৃ㛑ⱘˈԚᕜᇥ䖭ḋخDŽ䆄ԣ˖᮶✊㹿ᦤѸⱘᖙ乏᳝⣀⡍ⱘߚᄤ㉏ ൟˈᅗህϡӮ㸼⦄ߎ˄՟བ˅ϔ⾡㒘mRNAߚᄤⱘ⏋ড়㉏ൟˈ৺߭ᅲ䰙ϞϡӮҢϔϾ⌏ 㒚㚲ЁᦤপߎᴹDŽ ᑣ߫ᰃড়៤ⱘˈԚϡᰃҎ䗴ⱘ৫˛ ড়៤ߚᄤḌ㣋䝌᭄ᑧЁ᳝ϔϾ⡍⅞ⱘߚ㉏ˈℸ⦃๗Ёˈᑣ߫㹿ᣝ✻ᅲ偠ᥦ߫ˈ㗠䖭 㞾✊⦃๗ЁᰃϡӮߎ⦃ⱘ˄བ˖㲟ⱑ䋼㸼䖒ⱘ䕑ԧᑣ߫˅DŽDNA᭄ᑧϡফ䅵ㅫᴎѻ⫳ⱘᑣ ߫˄བ˖ৠ⑤ᑣ߫˅ˈ᭄ᑧЁⱘ᠔᳝ᑣ߫䛑ᰃҢ᳝䯂乬ⱘᅲ䰙ߚᄤᑣ߫Ё䗮䖛ᅲ偠㦋ᕫ ⱘˈԚᰃᅗӀৃҹ㹿∛㘮៤⌟ᑣ䆁㒗⣢ᵾDŽ ᑣ᳝߫㊒⹂˛ ᭄ᑧ᭛⤂Ёᕜᇥᦤࠄ䖭Ͼ䯂乬ˈԚ؛䆒㹿ᦤѸⱘᑣ߫ሑৃ㛑㊒⹂ˈ䖭䗮ᐌᛣੇⴔᭈϾᦤ Ѹᑣ߫㟇ᇥࣙᣀϸⳌ㽚Ⲫඳ˄Ⳍডᮍ˅DŽ䆕ᅲ᳔㒜ᦤѸⱘᑣ߫гৠḋ䞡㽕ˈᅗᖙ乏᮴䕑ԧ ⱘ∵ᶧ˄䖭ৃҹ⫼䕑ԧ᭄ᑧЁBLASTNᶹᇏ䆕ᅲ˖খ㾕݊ৢⱘゴ˅ˈৃҹҹᏆⶹⱘ䰤ࠊ 䈅Ẕ偠ˈ⍜䰸ᑣ߫䞡㒘ⱘৃ㛑ᗻˈ⹂䅸ℷ⹂ⱘᑣ߫䲚ড়DŽ ⫳⠽ԧ 㒭↣ᴵ䆄ᔩߚ䜡ℷ⹂ⱘ⫳⠽ᰃ㟇݇䞡㽕ⱘˈሑㅵ᭄ᚙމϟ䖭ᰃᕜᆍᯧࠄخⱘDŽ᠔᳝ⱘ DNAᑣ߫䆄ᔩᖙ乏᳝ϔϾ⫳⠽ߚ䜡㒭ᅗӀˈҢ᭄ᑧЁⱘ䆄ᔩߎLTD⦃㒳থ⫳ᷥϞⱘԡ㕂ৃҹ ᕫࠄ䆌䆎DŽབᵰᅗӀ㹿䫭䇃ⱘᅝ㕂њˈৃ㛑Ӯ㗏䆥䫭䇃ⱘ䘫Ӵᆚⷕˈᑊѻ⫳㹿䫭䇃প कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ 义ⷕˈ2/21 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第十四章提交DNA序列到数据库 页码,3/2 的蛋白质产物序列。已经知道的基因和物种的种类足可以使数据库成员识别生物和其谱系。 NCBI提供了一个重要的分类服务,分类学家维护能用于所有核苷酸数据库和 Swi ss-Prot蛋白 质数据库的分类法。 引用 注解即使再好,也永远比不上一篇充分阐述生物学的已发表文章,因此,有必要保证正确链 接研究出版物和它将引用的原始数据。基于此理由,提交中准备好引用是很重要的,即使其 中只有作者的临时列表和工作标题。在出版时更新这些引用对于记录的价值也很重要。(这 由数据库成员惯例的执行,而且如果提交者在发表文章以前通知数据库成员,将执行得更 快) 编码序列 核苷酸序列的提交也意味着包括其编码的蛋白质序列,这是因为: 1.蛋白质数据库(如: Swi ss-Prot和PR)几乎完全由在DNA序列数据库中记录的蛋白质序列 所组成 2.在提交过程中包括蛋白质序列如果不是必需的话,也是重要和有效一步。 蛋白质包括执行我们研究的许多生物反应的酶分子,其序列数据是提交中的固有部分,它们 的重要性(在第6章中概述)也在提交过程中体现出来,在各种数据库中其信息作为代表性必 须被捕获。如果已知的话,蛋白质产物和基因的名称也很重要,有各种各样的资源(许多在 总结这些章节的列表中有描述)为给定的生物提供准确的命名系统。(参见“基因命名指 导,基因趋势”,1995, EI sevier。) 编码序列特征,或CDS,是DNA或RNA和蛋白质序列的联系,随同正确的翻译表一起,在有效性 中其正确定位占据了中心位置。核苷酸数据库现在用了13种不同遗传密码(参见章末的列 表),这些遗传密码由NCB|中的分类学和分子生物工作人员维护。由于蛋白质序列是如此重 要,它们是生物学家可以计算的主要分子生物信息资源之一,它们理所当然地得到各种数据 库成员的重视。在mRNA中正确地找到开放的读框架通常是很简单的(参见第10章),并且有 多种工具可供利用[如:NCB的0RF查找器(见章末列表)],而且在 Sequi n中是作为一个函数 (如下);从一个较高级的真核生物获得正确的CDS间隔就不那么容易了:必须连接不同的外 显子序列,这涉及许多方法,在第10章中有介绍(如果给定蛋白质序列和正确的遗传密码的 话, Sequi n中的推荐间隔函数可以计算cDS间隔)。在提交中包括什么内容将由数据库工作人 员来决定,更恰当地说,这受到所使用的提交工具的限制,如通过互联网或 Sequi n。有效性 检查包含CDS间隔中的起始和终止密码子,该间隔具有合法的外显子/内含子一致边界,用合 适的遗传密码可将提供的氨基酸序列从指定的CDS中转换出来。 其他特征 在提交序列记录的特征部分还有许多其它特征,并且其中许多特征将扩充记录内容。在特征 表文件中描述了完整的特征集,该文件可以WW方式取得或通过匿名FTP获得 PostScri pt文 件。尽管有许多特征可供利用,但在数据库中却有许多不一致的用法,主要原因是缺乏一致 的原则和生物学家们对它们究竟意味着什么看法很不相同。正确地获得生物、书目、基因 CDS、mRNA通常就足以并且有助于证实序列,使生物学家通过几行文字就能获得生物学的内 容。只要应用恰当,一个特征表文件是可以利用的,但要注意文件注解的意图 种群、系统发生、变异的研究 现在核苷酸数据库可接受种群、系统发生、变异的硏究作为提交的序列集,尽管在简单文件 file://E:wcb生物信息学(中译本)\第十四章提交DNA序列到数据库.htm2005-1-18
ⱘ㲟ⱑ䋼ѻ⠽ᑣ߫DŽᏆ㒣ⶹ䘧ⱘ⠽⾡ⱘ⾡㉏䎇ৃҹՓ᭄ᑧ៤ਬ䆚߿⫳⠽݊䈅㋏DŽ NCBIᦤկњϔϾ䞡㽕ⱘߚ㉏᳡ࡵˈߚ㉏ᄺᆊ㓈ᡸ㛑⫼Ѣ᠔᳝Ḍ㣋䝌᭄ᑧSwiss-Prot㲟ⱑ 䋼᭄ᑧⱘߚ㉏⊩DŽ ᓩ⫼ ⊼㾷ेՓݡདˈг∌䖰↨ϡϞϔ㆛ߚܙ䯤䗄⫳⠽ᄺⱘᏆথ㸼᭛ゴˈℸˈ᳝ᖙ㽕ֱ䆕ℷ⹂䫒 ⷨおߎ⠜⠽ᅗᇚᓩ⫼ⱘॳྟ᭄DŽѢℸ⧚⬅, ᦤѸЁޚདᓩ⫼ᰃᕜ䞡㽕ⱘˈेՓ݊ Ёা᳝㗙ⱘЈᯊ߫㸼Ꮉᷛ乬DŽߎ⠜ᯊᮄ䖭ѯᓩ⫼ᇍѢ䆄ᔩⱘӋؐгᕜ䞡㽕DŽ˄䖭 ⬅᭄ᑧ៤ਬᛃ՟ⱘᠻ㸠ˈ㗠ϨབᵰᦤѸ㗙থ㸼᭛ゴҹࠡ䗮ⶹ᭄ᑧ៤ਬˈᇚᠻ㸠ᕫ ᖿ˅DŽ 㓪ⷕᑣ߫ Ḍ㣋䝌ᑣ߫ⱘᦤѸгᛣੇⴔࣙᣀ݊㓪ⷕⱘ㲟ⱑ䋼ᑣ߫ˈ䖭ᰃЎ˖ 1. 㲟ⱑ䋼᭄ᑧ˄བ˖Swiss-ProtPIR˅Тᅠܼ⬅DNAᑣ᭄߫ᑧЁ䆄ᔩⱘ㲟ⱑ䋼ᑣ߫ ᠔㒘៤DŽ 2. ᦤѸ䖛Ёࣙᣀ㲟ⱑ䋼ᑣ߫བᵰϡᰃᖙ䳔ⱘ䆱, гᰃ䞡㽕᳝ᬜϔℹDŽ 㲟ⱑ䋼ࣙᣀᠻ㸠៥Ӏⷨおⱘ䆌⫳⠽ডᑨⱘ䝊ߚᄤˈ݊ᑣ᭄߫ᰃᦤѸЁⱘ᳝䚼ߚˈᅗӀ ⱘ䞡㽕ᗻ˄ゴЁὖ䗄˅гᦤѸ䖛Ёԧ⦄ߎᴹˈ⾡᭄ᑧЁֵ݊ᙃЎҷ㸼ᗻᖙ 乏㹿ᤩ㦋DŽབᵰᏆⶹⱘ䆱, 㲟ⱑ䋼ѻ⠽ⱘৡ⿄гᕜ䞡㽕ˈ᳝⾡ḋⱘ䌘⑤˄䆌 ᘏ㒧䖭ѯゴ㡖ⱘ߫㸼Ё᳝ᦣ䗄˅Ў㒭ᅮⱘ⫳⠽ᦤկޚ⹂ⱘੑৡ㋏㒳DŽ˄খ㾕Āੑৡᣛ ᇐˈ䍟āˈ1995ˈElsevierDŽ˅ 㓪ⷕᑣ߫⡍ᕕˈCDSˈᰃDNARNA㲟ⱑ䋼ᑣ߫ⱘ㘨㋏ˈ䱣ৠℷ⹂ⱘ㗏䆥㸼ϔ䍋, ᳝ᬜᗻ Ё݊ℷ⹂ᅮԡऴњЁᖗԡ㕂DŽḌ㣋䝌᭄ᑧ⦄⫼њ13⾡ϡৠ䘫Ӵᆚⷕ˄খ㾕ゴⱘ߫ 㸼˅ˈ䖭ѯ䘫Ӵᆚⷕ⬅NCBIЁⱘߚ㉏ᄺߚᄤ⫳⠽ᎹҎਬ㓈ᡸDŽ⬅Ѣ㲟ⱑ䋼ᑣ߫ᰃབℸ䞡 㽕ˈᅗӀᰃ⫳⠽ᄺᆊৃҹ䅵ㅫⱘЏ㽕ߚᄤ⫳⠽ֵᙃ䌘⑤ПϔˈᅗӀ⧚᠔ᔧ✊ഄᕫࠄ辵᭄ ᑧ៤ਬⱘ䞡㾚DŽmRNAЁℷ⹂ഄᡒࠄᓔᬒⱘ䇏Ḛᶊ䗮ᐌᰃᕜㅔऩⱘ˄খ㾕10ゴ˅, ᑊϨ᳝ ⾡Ꮉৃկ߽ ] ⫼བ˖NCBIⱘORFᶹᡒ఼㾕ゴ߫㸼)]ˈ㗠ϨSequinЁᰃЎϔϾߑ᭄ ˄བϟ˅˗ҢϔϾ䕗催㑻ⱘⳳḌ⫳⠽㦋ᕫℷ⹂ⱘCDS䯈䱨ህϡ䙷Мᆍᯧњ˖ᖙ乏䖲ϡৠⱘ ᰒᄤᑣ߫ˈ䖭⍝ঞ䆌ᮍ⊩ˈ10ゴЁ᳝ҟ㒡བᵰ㒭ᅮ㲟ⱑ䋼ᑣ߫ℷ⹂ⱘ䘫Ӵᆚⷕⱘ 䆱, SequinЁⱘ㤤䯈䱨ߑ᭄ৃҹ䅵ㅫCDS䯈䱨DŽᦤѸЁࣙᣀҔМݙᆍᇚ⬅᭄ᑧᎹҎ ਬᴹއᅮ, ᙄᔧഄ䇈, 䖭ফࠄ᠔Փ⫼ⱘᦤѸᎹⱘ䰤ࠊ ,བ䗮䖛Ѧ㘨㔥SequinDŽ᳝ᬜᗻ ẔᶹࣙCDS䯈䱨Ёⱘ䍋ྟ㒜ℶᆚⷕᄤˈ䆹䯈䱨᳝ড়⊩ⱘᰒᄤݙᄤϔ㟈䖍⬠ˈ⫼ড় 䗖ⱘ䘫Ӵᆚⷕৃᇚᦤկⱘ⇼䝌ᑣ߫ҢᣛᅮⱘCDSЁ䕀ᤶߎᴹDŽ ݊Ҫ⡍ᕕ ᦤѸᑣ߫䆄ᔩⱘ⡍ᕕ䚼ߚ䖬᳝䆌݊ᅗ⡍ᕕˈᑊϨ݊Ё䆌⡍ᕕᇚᠽܙ䆄ᔩݙᆍDŽ⡍ᕕ 㸼᭛ӊЁᦣ䗄њᅠᭈⱘ⡍ᕕ䲚ˈ䆹᭛ӊৃҹWWWᮍᓣপᕫ䗮䖛ओৡFTP㦋ᕫPostScript ᭛ ӊDŽሑㅵ᳝䆌⡍ᕕৃկ߽ˈ⫼Ԛ᭄ᑧЁै᳝䆌ϡϔ㟈ⱘ⫼⊩ˈЏ㽕ॳᰃ㔎Уϔ㟈 ⱘॳ߭⫳⠽ᄺᆊӀᇍᅗӀおコᛣੇⴔҔМⳟ⊩ᕜϡⳌৠDŽℷ⹂ഄ㦋ᕫ⫳⠽ǃкⳂǃǃ CDSǃmRNA䗮ᐌህ䎇ҹᑊϨ᳝ࡽѢ䆕ᅲᑣ߫ˈՓ⫳⠽ᄺᆊ䗮䖛㸠᭛ᄫህ㛑㦋ᕫ⫳⠽ᄺⱘݙ ᆍDŽা㽕ᑨ⫼ᙄᔧˈϔϾ⡍ᕕ㸼᭛ӊᰃৃҹ߽⫼ⱘˈԚ㽕⊼ᛣ᭛ӊ⊼㾷ⱘᛣDŽ ⾡㕸ǃ㋏㒳থ⫳ǃবᓖⱘⷨお ⦄Ḍ㣋䝌᭄ᑧৃফ⾡㕸ǃ㋏㒳থ⫳ǃবᓖⱘⷨおЎᦤѸⱘᑣ߫䲚ˈሑㅵㅔऩ᭛ӊ कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ 义ⷕˈ3/21 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第十四章提交DNA序列到数据库 页码,4/2 记录中并没有充分描述该信息,但它却在各种各样的数据库中出现。新型的提交方式允许: 若仅因为操作的原因,一起提交一组相关序列,那么获得共享信息入口只需要一次请求 Sequi n也允许用户包含有用自己中意的比对工具生成的序列比对结果,并随着DNA序列提交该 信息。尽管所有的数据库都知道该信息对于目前获得的大量记录很重要,但是NCB|是唯一接 受该信息的数据库。显示该信息的新方法(如: Entrez)应尽快能使一般科学团体更易获得 这种数据。 仅提交蛋白质序列 在大多数情况下,蛋白质序列和DNA序列并存,但也有些例外�人们直接处理蛋白质序列 �这些序列必须在没有相应的DNA序列的情况下提交。对于这些提交而言,目前SWSS-PROT 是最好的地方,EB处理这些提交,并将其传送到SWSS-PROT。 如何提交到互联网 Authori n利用率的下降使这三个数据库决定在互联网上采用基于表格的方式,这个新的媒介 能很好的适应提交过程。三个数据库都设计了一种表格,以使DNA序列提交到自身的数据库 中:DDBJ的 Sakura(樱花开)、EBl的webn、和 Gen Bank的 Bankl t。互联网是简单提交序列的理 想提交途径(如图14.1),也是那些不需要复杂注解和过多重复的提交序列的最佳选择 (如:在种群研究中,很典型的有30条类似的序列,用 Sequin提交最好)。互联网对于那些 只做少量提交和要求较少、只需要简单的学习或不需要的研究小组最为理想。对于大多数提 交来说,互联网的表格方式将是合适和足够的:60%�:80%的提交者通过互联网向NCB|提交 其DNA或RNA序列。这三个数据库提交的入口地址(或URLs)在本章末有介绍 尽管本章的这部分强调NCBI的Bank|t提交工具,实际上,提交到基本数据库中的任何一个都 将使序列获得合理的处理,并存储到另外两个数据库中。 进入Bank丨t提交后(图14.2),用户被询问要提交的核苷酸序列长度。这是由于Ww浏览器的 局限性,使得在一个给定的窗口不可能输入29,000个核苷酸(字符)。如果必须提交40, 000条碱基对(人们提交的粘性质粒的通常大小), Bankl:将打开两个窗口,故通过每个窗口 复制和输入20,000个字符,这样就解决了这个矛盾。 图14.1:决定采用哪种协议提交DNA序列到某一DNA序列数据库的流程图。WW是Bank|t Webl n,或 Sakura。其URLs和电子邮件地址,请参见本章末的列表 图14.2 图14.2: Bankl t, Gen Bank互联网的提交网页。新提交序列的进入点(输入序列长度,并按 New按钮)或更新 GenBank数据库中的一条记录。 Bankl t的下一张表格也是明了的(图14.3),它询问联系人(即回答数据库工作人员询问的 人),引用(谁得到了科学荣誉),生物(前100个在列表中,其余的必须输入),位置(细 胞还是细胞器),一些图谱信息和核苷酸序列本身。在列表末,有个 Bankl t按钮,能激活下 file://E:wcb生物信息学(中译本)\第十四章提交DNA序列到数据库.htm2005-1-18
䆄ᔩЁᑊ≵᳝ߚܙᦣ䗄䆹ֵᙃˈԚᅗै⾡ḋⱘ᭄ᑧЁߎ⦃DŽᮄൟⱘᦤѸᮍᓣܕ䆌˖ 㢹ҙЎ᪡ⱘॳˈϔ䍋ᦤѸϔ㒘Ⳍ݇ᑣ߫ˈ䙷М㦋ᕫ݅ѿֵᙃܹষা䳔㽕ϔ䇋∖DŽ Sequinгܕ䆌⫼᠋ࣙ⫼᳝㞾ᏅЁᛣⱘ↨ᇍᎹ⫳៤ⱘᑣ߫↨ᇍ㒧ᵰˈᑊ䱣ⴔDNAᑣ߫ᦤѸ䆹 ֵᙃDŽሑㅵ᠔᳝ⱘ᭄ᑧ䛑ⶹ䘧䆹ֵᙃᇍѢⳂࠡ㦋ᕫⱘ䞣䆄ᔩᕜ䞡㽕ˈԚᰃNCBIᰃଃϔ ফ䆹ֵᙃⱘ᭄ᑧDŽᰒ⼎䆹ֵᙃⱘᮄᮍ⊩˄བ˖Entrez˅ᑨሑᖿ㛑Փϔ㠀⾥ᄺಶԧᯧ㦋ᕫ 䖭⾡᭄DŽ ҙᦤѸ㲟ⱑ䋼ᑣ߫ ᭄ᚙމϟˈ㲟ⱑ䋼ᑣ߫DNAᑣ߫ᑊᄬˈԚг᳝ѯ՟�ҎӀⳈ໘⧚㲟ⱑ䋼ᑣ߫ �䖭ѯᑣ߫ᖙ乏≵᳝ⳌᑨⱘDNAᑣ߫ⱘᚙމϟᦤѸDŽᇍѢ䖭ѯᦤѸ㗠㿔ˈⳂࠡSWISS-PROT ᰃ᳔དⱘഄᮍˈEBI໘⧚䖭ѯᦤѸˈᑊᇚ݊Ӵ䗕ࠄSWISS-PROTDŽ བԩᦤѸࠄѦ㘨㔥 Authorin߽⥛⫼ⱘϟ䰡Փ䖭ϝϾ᭄ᑧއᅮѦ㘨㔥Ϟ䞛⫼Ѣ㸼Ḑⱘᮍᓣˈ䖭Ͼᮄⱘၦҟ 㛑ᕜདⱘ䗖ᑨᦤѸ䖛DŽϝϾ᭄ᑧ䛑䆒䅵њϔ⾡㸼ḐˈҹՓDNAᑣ߫ᦤѸࠄ㞾䑿ⱘ᭄ᑧ Ё˖DDBJⱘSakura( 㢅ᓔǃEBIⱘWebInǃGenBankⱘBankItDŽѦ㘨㔥ᰃㅔऩᦤѸᑣ߫ⱘ⧚ ᛇᦤѸ䗨ᕘ˄བ14.1˅ˈгᰃ䙷ѯϡ䳔㽕ᴖ⊼㾷䖛䞡ⱘᦤѸᑣ߫ⱘ᳔Շ䗝ᢽ ˄བ˖⾡㕸ⷨおЁˈᕜൟⱘ᳝30ᴵ㉏Ԑⱘᑣ߫ˈ⫼SequinᦤѸ᳔ད˅DŽѦ㘨㔥ᇍѢ䙷ѯ াخᇥ䞣ᦤѸ㽕∖䕗ᇥǃা䳔㽕ㅔऩⱘᄺдϡ䳔㽕ⱘⷨおᇣ㒘᳔Ў⧚ᛇDŽᇍѢ᭄ᦤ Ѹᴹ䇈ˈѦ㘨㔥ⱘ㸼Ḑᮍᓣᇚᰃড়䗖䎇ⱘ˖60%�80%ⱘᦤѸ㗙䗮䖛Ѧ㘨㔥NCBIᦤѸ ݊DNARNAᑣ߫DŽ䖭ϝϾ᭄ᑧᦤѸⱘܹষഄഔ˄URLs˅ᴀゴ᳝ҟ㒡DŽ ሑㅵᴀゴⱘ䖭䚼ߚᔎ䇗NCBIⱘBankItᦤѸᎹˈᅲ䰙ϞˈᦤѸࠄᴀ᭄ᑧЁⱘӏԩϔϾ䛑 ᇚՓᑣ߫㦋ᕫড়⧚ⱘ໘⧚ˈᑊᄬࠄټϸϾ᭄ᑧЁDŽ 䖯ܹBankItᦤѸৢ˄14.2˅ˈ⫼᠋㹿䆶䯂㽕ᦤѸⱘḌ㣋䝌ᑣ߫䭓ᑺDŽ䖭ᰃ⬅ѢWWW⌣㾜఼ⱘ ሔ䰤ᗻˈՓᕫϔϾ㒭ᅮⱘにষϡৃ㛑䕧ܹ29ˈ000ϾḌ㣋䝌˄ᄫヺ˅DŽབᵰᖙ乏ᦤѸ40ˈ 000ᴵ⺅ᇍ˄ҎӀᦤѸⱘ㉬ᗻ䋼㉦ⱘ䗮ᐌᇣ˅ˈBankItᇚᠧᓔϸϾにষˈᬙ䗮䖛↣Ͼにষ ࠊ䕧ܹ20ˈ000Ͼᄫヺˈ䖭ḋህ㾷އњ䖭ϾⳒDŽ 14.1˖އᅮ䞛⫼ા⾡ण䆂ᦤѸDNAᑣ߫ࠄᶤϔDNAᑣ᭄߫ᑧⱘ⌕DŽWWWᰃBankItˈ WebInˈSakuraDŽ݊URLs⬉ᄤ䚂ӊഄഔˈ䇋খ㾕ᴀゴⱘ߫㸼DŽ 14.2 14.2˖BankIt, GenBankѦ㘨㔥ⱘᦤѸ㔥义DŽᮄᦤѸᑣ߫ⱘ䖯ܹ⚍˄䕧ܹᑣ߫䭓ᑺˈᑊᣝ Newᣝ䪂˅ᮄGenBank᭄ᑧЁⱘϔᴵ䆄ᔩDŽ BankItⱘϟϔᓴ㸼Ḑгᰃᯢњⱘ˄14.3˅ˈᅗ䆶䯂㘨㋏Ҏ˄ेಲㄨ᭄ᑧᎹҎਬ䆶䯂ⱘ Ҏ˅ˈᓩ⫼˄䇕ᕫࠄњ⾥ᄺ㤷䁝˅ˈ⫳⠽˄ࠡ100Ͼ߫㸼Ёˈ݊ԭⱘᖙ乏䕧ܹ˅ˈԡ㕂˄㒚 㚲䖬ᰃ㒚㚲఼˅ˈϔѯ䈅ֵᙃḌ㣋䝌ᑣ߫ᴀ䑿DŽ߫㸼ˈ᳝ϾBankItᣝ䪂ˈ㛑▔⌏ϟ कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ 义ⷕˈ4/21 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第十四章提交DNA序列到数据库 页码,5/2 张列表。按下这个按钮后,首先验证一些项的有效性,如果一些基本的区域没填,该表将 再次出现。若全部合格,下一张表将査问会加入多少特征并提示用户指出其类型。如果没填 任何特征,(图14.4), Bankl t将发出警告,以证实提交序列中没有加入一个CDS。用户可以 回答没有(0个新CDS)或选择加入一个或更多的CDS。此时,结构化RNA信息或其它合法的 DDBJ/EMBL/ Gen Bank特征也会被加入 图14.3 图14.3: Bankl t, GenBank的互联网提交页面:标明提交联系人 图14.4 图14.4: Bankl t, Gen Bank的互联网提交网页: Bankl t要求获得特征的数目,以产生一个具有 合适数目的特征表。 要保存记录,再次按 Bankl t,出现的新页面(图14.5)必须在提交完成前得到确认,也就是 说,在此之前,可做更多的改变或加入其他特征。再次单击 BankI t结束。接着出现最后的页 面:(图14.6)切换 Update/ Fini shed按钮,最后按 Bankl t按钮,提交将进入NCB进行处理。 刚完成的提交序列复本必须立即通过电子邮件送达,否则,有必要联系数据库以证实提交已 被接受,并做出任何必要的修改 图14.5 图14.5: Bankl t, GenBank的互联网提交网页:倒数第二个屏幕:这是一个增加或改变一些特 征的互锁按钮,显示如所指示的完成入口 图14.6 图14.6: BankI t, Gen Bank的互联网提交网页:最后一个屏幕:显示 BankI t的提交表格已成功 完成。 file://E:wcb生物信息学(中译本)\第十四章提交DNA序列到数据库.htm2005-1-18
ϔᓴ߫㸼DŽᣝϟ䖭Ͼᣝ䪂ৢˈ佪ܜ偠䆕ϔѯ乍ⱘ᳝ᬜᗻˈབᵰϔѯᴀⱘऎඳ≵฿ˈ䆹㸼ᇚ ݡߎ⦃DŽ㢹ܼ䚼ড়Ḑˈϟϔᓴ㸼ᇚᶹ䯂Ӯࡴܹᇥ⡍ᕕᑊᦤ⼎⫼᠋ᣛߎ݊㉏ൟDŽབᵰ≵฿ ӏԩ⡍ᕕˈ˄14.4˅ˈBankItᇚথߎ䄺ਞˈҹ䆕ᅲᦤѸᑣ߫Ё≵᳝ࡴܹϔϾCDSDŽ⫼᠋ৃҹ ಲㄨ≵᳝˄ϾᮄCDS˅䗝ᢽࡴܹϔϾⱘCDSDŽℸᯊˈ㒧ᵘ࣪RNAֵᙃ݊ᅗড়⊩ⱘ DDBJ/EMBL/GenBank⡍ᕕгӮ㹿ࡴܹDŽ 14.3 1 4.3˖BankItˈGenBankⱘѦ㘨㔥ᦤѸ义䴶˖ᷛᯢᦤѸ㘨㋏ҎDŽ 14.4 14.4˖BankItˈGenBankⱘѦ㘨㔥ᦤѸ㔥义˖BankIt㽕∖㦋ᕫ⡍ᕕⱘ᭄Ⳃ, ҹѻ⫳ϔϾ᳝ ড়䗖᭄Ⳃⱘ⡍ᕕ㸼DŽ 㽕ֱᄬ䆄ᔩˈݡᣝBankItˈߎ⦃ⱘᮄ义䴶˄14.5˅ᖙ乏ᦤѸᅠ៤ࠡᕫࠄ⹂䅸ˈгህᰃ 䇈ˈℸПࠡˈৃخⱘᬍবࡴܹ݊Ҫ⡍ᕕDŽݡऩߏBankIt㒧ᴳDŽⴔߎৢ᳔⦃ⱘ义 䴶: (14.6˅ߛᤶUpdate/Finishedᣝ䪂ˈ᳔ৢᣝBankItᣝ䪂ˈᦤѸᇚ䖯ܹNCBI䖯㸠໘⧚DŽ ߮ᅠ៤ⱘᦤѸᑣ߫ᴀᖙ乏ゟे䗮䖛⬉ᄤ䚂ӊ䗕䖒ˈ৺߭ˈ᳝ᖙ㽕㘨㋏᭄ᑧҹ䆕ᅲᦤѸᏆ 㹿ফˈᑊߎخӏԩᖙ㽕ⱘׂᬍDŽ 14.5 14.5˖BankItˈGenBankⱘѦ㘨㔥ᦤѸ㔥义˖צ᭄ѠϾሣᐩ˖䖭ᰃϔϾࡴᬍবϔѯ⡍ ᕕⱘѦ䫕ᣝ䪂ˈᰒ⼎བ᠔ᣛ⼎ⱘᅠ៤ܹষDŽ 14.6 14.6˖BankItˈGenBankⱘѦ㘨㔥ᦤѸ㔥义˖᳔ৢϔϾሣᐩ˖ᰒ⼎BankItⱘᦤѸ㸼ḐᏆ៤ࡳ ᅠ៤DŽ कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ 义ⷕˈ5/21 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com