第五章生物数据库的信息检索 页 第五章生物数据库的信息检索 Andreas d baxevanis 国家人类基因组研究学会,基因组技术部 国家保健学会 马里兰州, Bethesda 如第二章所述,建立 Gen Bank是为了适应人类基应组工程等科学研究产生的大量序列数据的信 息爆炸。总的来说, Gen Bank是带有注释的公用DNA,蛋白质序列的集合。写作本书时 Gen Bank中有160万条链的纪录,含超过10亿个核苷酸碱基。向 Gen Bank存入新的序列有两种方 法:通过 Sequi n和 Bankl t等工具直接提交,或通过国际核苷酸序列数据库的组成部分 Gen Bank,EMBL,和DDBJ等相互之间传递数据的共享协议。关于提交工具及这种数据协作的性 质的进一步的信息参见第14章。 Gen Bank或其他任何有关的生物数据库必须容易查找而且查出的记录的格式便于使用??,否则 就不会有很大的用处。??另外,因为总的来说生物学界还不能有效的利用隐藏在这些上百 万的碱基及氨基酸之中的信息,排序的工作也没有很大的用处。为了使这些数据对于一般的 使用者容易利用而做过很多努力,这些工作的结果一一程序和界面是本章的重点。因为这些 更通用的数据库与生物学家通常使用的那些数据库相差很远,所以本章的论述集中在如何查 询NCBI数据库上,但是本章同时也注意到一些较小的较专门的数据库,它们提供的信息在 Gen Bank中未必能找到。 检索数据库记录:检索服务器 查询NCB数据库最简单的方法可能是使用名为 Retrieve的邮件服务器。检索服务器通过简单 的关键字搜索来查询记录。一次可以检索一个可用的数据库,可以是简单的(只含有一个关 键字)或复合的(含有由逻辑算符组合的多个关键字)。服务器的地址为 retri eveancbi.nlm.nih.gov。同大多数邮件服务器一样,如果向服务器发送一封正文只含一 个单词Help的邮件将会返回一个关于如何使用检索服务器的详尽的解释。 回顾第一章,使用一个邮件服务器时,向服务器发送的消息必须是严格的符合服务器可以理 解的指令格式。如下例所示: 此处,消息的标题与服务器无关。由于返回查询结果时将会带有原来的标题,因此发送多条 消息给服务器的时候加上一个描述性的标题有助于使用者区分不同的查询结果。消息正文以 名为 DATALIB的査询参数开始,该参数表示应检索那一个可用的数据库(这里是查询SWSS PROT)。标志“ BEGIN”表示没有别的检索参数了,紧接着的词都是搜索条件。可以用逻辑符 号AND,OR,及№0T组合检索条件;圆括用于分隔检索条件;引号表示必须组合在一起的短 语。本例中,服务器将会返回所有含有短语 hi stone h1"且含有单词 Saccharomyces及 Schi zosaccharomyces之一的记录。如果不用逻辑运算符及分隔符(即,检索条件为 hi stone H1 Saccharomyces Schi zosaccharomyces),则在条件之间将会自动加上0R,这不符合使用 者的要求。这个复合查询的结果显示于图5.1。 通常,提交的检索范围过大,返回的记录数远多于对查询者有用的数目。例如,前面的检索 如果没写种类名的话将会失败,因为含有" hi stone h1"的记录太多。况且,即使这条短语并 不是某条记录的真正主题,它也有可能出现在该记录之中:例如,这个短语是某篇论文的标 file://E:wcb生物信息学(中译本)\第五章生物数据库的信息检索.htm 2005-1-18
Ѩゴ ⫳⠽᭄ᑧⱘֵᙃẔ㋶ Andreas D Baxevanis ᆊҎ㉏㒘ⷨおᄺӮˈ㒘ᡔᴃ䚼 ᆊֱعᄺӮ 偀䞠݄ᎲˈBethesda བѠゴ᠔䗄ˈᓎゟGenBankᰃЎњ䗖ᑨҎ㉏ᑨ㒘Ꮉㄝ⾥ᄺⷨおѻ⫳ⱘ䞣ᑣ᭄߫ⱘֵ ᙃ⟚⚌DŽᘏⱘᴹ䇈ˈGenBankᰃᏺ᳝⊼䞞ⱘ݀⫼DNA,㲟ⱑ䋼ᑣ߫ⱘ䲚ড়DŽݭᴀкᯊˈ GenBankЁ᳝160ϛᴵ䫒ⱘ㑾ᔩˈ䍙䖛10ғϾḌ㣋䝌⺅DŽGenBankᄬܹᮄⱘᑣ᳝߫ϸ⾡ᮍ ⊩˖䗮䖛SequinBankItㄝᎹⳈᦤѸˈ䗮䖛䰙Ḍ㣋䝌ᑣ᭄߫ᑧⱘ㒘៤䚼ߚ GenBankˈEMBLˈDDBJㄝⳌѦП䯈Ӵ䗦᭄ⱘ݅ѿण䆂DŽ݇ѢᦤѸᎹঞ䖭⾡᭄णⱘᗻ 䋼ⱘ䖯ϔℹⱘֵᙃখ㾕14ゴDŽ GenBank݊Ҫӏԩ᳝݇ⱘ⫳⠽᭄ᑧᖙ乏ᆍᯧᶹᡒ㗠Ϩᶹߎⱘ䆄ᔩⱘḐᓣ֓ѢՓ⫼??ˈ৺߭ ህϡӮ᳝ᕜⱘ⫼໘Dޞ˛ˈЎᘏⱘᴹ䇈⫳⠽ᄺ⬠䖬ϡ㛑᳝ᬜⱘ߽⫼䱤㮣䖭ѯϞⱒ ϛⱘ⺅ঞ⇼䝌ПЁⱘֵᙃˈᥦᑣⱘᎹг≵᳝ᕜⱘ⫼໘DŽЎњՓ䖭ѯ᭄ᇍѢϔ㠀ⱘ Փ⫼㗙ᆍᯧ߽⫼㗠خ䖛ᕜࡾˈ䖭ѯᎹⱘ㒧ᵰˉˉᑣ⬠䴶ᰃᴀゴⱘ䞡⚍DŽЎ䖭ѯ 䗮⫼ⱘ᭄ᑧϢ⫳⠽ᄺᆊ䗮ᐌՓ⫼ⱘ䙷ѯ᭄ᑧⳌᏂᕜ䖰ˈ᠔ҹᴀゴⱘ䆎䗄䲚Ёབԩᶹ 䆶NCBI᭄ᑧϞˈԚᰃᴀゴৠᯊг⊼ᛣࠄϔѯ䕗ᇣⱘ䕗ϧ䮼ⱘ᭄ᑧˈᅗӀᦤկⱘֵᙃ GenBankЁᖙ㛑ᡒࠄDŽ Ẕ㋶᭄ᑧ䆄ᔩ˖Ẕ㋶᳡ࡵ఼ ᶹ䆶NCBI᭄ᑧ᳔ㅔऩⱘᮍ⊩ৃ㛑ᰃՓ⫼ৡЎRetrieveⱘ䚂ӊ᳡ࡵ఼DŽẔ㋶᳡ࡵ఼䗮䖛ㅔऩ ⱘ݇䬂ᄫ᧰㋶ᴹᶹ䆶䆄ᔩDŽϔৃҹẔ㋶ϔϾৃ⫼ⱘ᭄ᑧˈৃҹᰃㅔऩⱘ˄া᳝ϔϾ݇ 䬂ᄫǓড়ⱘ˄᳝⬅䘏䕥ㅫヺ㒘ড়ⱘϾ݇䬂ᄫ˅DŽ᳡ࡵ఼ⱘഄഔЎ retrieve@ncbi.nlm.nih.govDŽৠ᭄䚂ӊ᳡ࡵ఼ϔḋˈབᵰ᳡ࡵ఼থ䗕ϔᇕℷ᭛াϔ Ͼऩ䆡Helpⱘ䚂ӊᇚӮ䖨ಲϔϾ݇ѢབԩՓ⫼Ẕ㋶᳡ࡵ఼ⱘ䆺ሑⱘ㾷䞞DŽ ಲ乒ϔゴˈՓ⫼ϔϾ䚂ӊ᳡ࡵˈᯊ఼᳡ࡵ఼থ䗕ⱘ⍜ᙃᖙ乏ᰃϹḐⱘヺড়᳡ࡵৃ఼ҹ⧚ 㾷ⱘᣛҸḐᓣDŽབϟ՟᠔⼎˖ ℸ໘ˈ⍜ᙃⱘᷛ乬Ϣ᳡ࡵ఼᮴݇DŽ⬅Ѣ䖨ಲᶹ䆶㒧ᵰᯊᇚӮᏺ᳝ॳᴹⱘᷛ乬ˈℸথ䗕ᴵ ⍜ᙃ㒭᳡ࡵ఼ⱘᯊࡴϞϔϾᦣ䗄ᗻⱘᷛ乬᳝ࡽѢՓ⫼㗙ऎߚϡৠⱘᶹ䆶㒧ᵰDŽ⍜ᙃℷ᭛ҹ ৡЎDATALIBⱘᶹ䆶খ᭄ᓔྟˈ䆹খ᭄㸼⼎ᑨẔ㋶䙷ϔϾৃ⫼ⱘ᭄ᑧ˄䖭䞠ᰃᶹ䆶SWISSˉ PROT˅DŽᷛᖫ“BEGIN”㸼⼎≵᳝߿ⱘẔ㋶খ᭄њˈ㋻ⴔⱘ䆡䛑ᰃ᧰㋶ᴵӊDŽৃҹ⫼䘏䕥ヺ োANDˈORˈঞNOT㒘ড়Ẕ㋶ᴵӊ˗ᣀ⫼Ѣߚ䱨Ẕ㋶ᴵӊ˗ᓩো㸼⼎ᖙ乏㒘ড়ϔ䍋ⱘⷁ 䇁DŽᴀ՟Ёˈ᳡ࡵ఼ᇚӮ䖨ಲ᠔᳝᳝ⷁ䇁"histone H1"Ϩ᳝ऩ䆡Saccharomycesঞ SchizosaccharomycesПϔⱘ䆄ᔩDŽབᵰϡ⫼䘏䕥䖤ㅫヺঞߚ䱨ヺ˄ेˈẔ㋶ᴵӊЎhistone H1 Saccharomyces SchizosaccharomycesǓˈ߭ᴵӊП䯈ᇚӮ㞾ࡴࡼϞORˈ䖭ϡヺড়Փ⫼ 㗙ⱘ㽕∖DŽ䖭Ͼড়ᶹ䆶ⱘ㒧ᵰᰒ⼎Ѣ5.1DŽ 䗮ᐌˈᦤѸⱘẔ㋶㣗ೈ䖛ˈ䖨ಲⱘ䆄ᔩ᭄䖰Ѣᇍᶹ䆶㗙᳝⫼ⱘ᭄ⳂDŽ՟བˈࠡ䴶ⱘẔ㋶ བᵰ≵ݭ辵㉏ৡⱘ䆱ᇚӮ༅䋹ˈЎ᳝"histone H1"ⱘ䆄ᔩDŽމϨˈेՓ䖭ᴵⷁ䇁ᑊ ϡᰃᶤᴵ䆄ᔩⱘⳳℷЏ乬ˈᅗг᳝ৃ㛑ߎ⦃䆹䆄ᔩПЁ˖՟བˈ䖭Ͼⷁ䇁ᰃᶤ㆛䆎᭛ⱘᷛ Ѩゴ⫳⠽᭄ᑧⱘֵᙃẔ㋶ 义ⷕˈ1/8 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?Ѩゴ⫳⠽᭄ᑧⱘֵᙃẔ㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第五章生物数据库的信息检索 页码,2/8 的一部分,但论文是讨论别的序列的。当査到的记录太多无法处理的时候,将会产生错 误。输出行数及检索到的记录数都有上限;这主要是由于很多电子邮件系统不能处理太大的 电子邮件信息,而且过多的泛泛的査询只会降低系统的速度。为了提高检索质量,用户可以 设定额外的检索参数;用于改变行数或记录数的限制,或只返回记录的标题而不是全部列 出。用户也可以限制实际检索的域。回到上面的例子,如果检索条件以" hi stone h1"[DEF]开 始,则表示仅在记录的定义行中查找这个短语。可以在检索帮助文档中找到检索参数和域限 制条件的完整的清单,以及可以检索的数据库的列表 图5.1提交检索服务器的一个复合查询的结果。注意检索在SMSS一PR0T和更新过的SWSS PROT上运行共两次(后者含有上一个数据库主版本之后的新的记录)。此处提交的查询只返 回了一条记录。 集成信息检索: ENTREZ系统 检索服务器可以对有目标的检索记录,但它主要的缺陷在于一次只能从一个数据库中检索到 记录;想对一批数据库进行检索的用户必须为每一个目标数据库分别发出一次申请。很明 显,这些大量的公用数据库之间存在着逻辑联系。例如, MEDLINE中的一篇论文可能描述一个 基因的序列,该基因又在 GenBank中出现。其核苷酸序列所编码的蛋白质的序列又存放在蛋白 质数据库中。这种蛋白质的三维结构可能又是己知的,结构的数据可能出现在结构数据库 中。最后,基因可能定位在某条染色体的某个区域,这类信息存放在图谱数据库中。 在这些生物学上的联系的基础上开发了一种方法;可以通过它查询所有与某一特殊的生物学 实体有关的所有信息,而不必按次序查询分立的数据库。这就是一个名为 Entrez的分子检索 系统。它由NCB|开发和维护, Entrez在所有的主要的数据库计算机平台上均可使用,允许对 PubMed(MED№E)的记录,核苷酸和蛋白质的序列数据,三维结构信息,图谱信息进行集成 的访问。全部信息只需经过一次查询。 Entrez能够通过数据库之间的两种类型联系:相近性 和硬连接来提供集成的信息检索。 相近性 相近性联系着一个给定的数据库之内的记录。使用者在查看MEDL|NE中某条记录时可以要求 Entrez"找出所有类似的论文”,类似的,使用者在查看一个序列的同时可以要求 Entrez"找出 所有与这个序列类似的序列"。一个数据库之内的相近性关系是建立在对相似性的统计计算上 的 BLAST序列数据可以用基本局部对比搜索工具( Basi c Local Al i gnment Search Tool,即 简记为HSPs),即能够无缺口的对齐且达到一定的分数的成对的序列。第7章详细的讨论了 BLAST算法系列及它们的应用。 VAST几套坐标数据之间的比较采用一种名为ⅥAST的基于向量的算法。VAST即 Vector Al i gnment Search Tool( Madej等,195; Gi brat等,1996)。VAST的比较有三个步骤: 1.第一,在坐标数据的基础上,标出所有的构成蛋白质的核心部分的α螺旋和β片层。然后根 据这些二级结构单位的位置计算向量。以下的步骤使用这些向量来做对比而不是整个一套坐 标 2.然后,算法试图最佳的匹配这些向量,寻找类型和相对方位相同的成对的结构单位,并且 在这些单位之间还要有同样的连接方式。其目标在于识别高度相似的″核心结构",这些成对 结构的匹配性要比随机的选择蛋白质相互比较得到的高得多。 3.最后,在每个残基位置上使用蒙特一卡洛方法对结构的排列进行优化。 file://E:wcb生物信息学(中译本)\第五章生物数据库的信息检索.htm 2005-1-18
乬ⱘϔ䚼ߚˈԚ䆎᭛ᰃ䅼䆎߿ⱘᑣ߫ⱘDŽᔧᶹࠄⱘ䆄ᔩ᮴⊩໘⧚ⱘᯊˈᇚӮѻ⫳䫭 䇃DŽ䕧ߎ㸠᭄ঞẔ㋶ࠄⱘ䆄ᔩ᭄䛑᳝Ϟ䰤˗䖭Џ㽕ᰃ⬅Ѣᕜ⬉ᄤ䚂ӊ㋏㒳ϡ㛑໘⧚ⱘ ⬉ᄤ䚂ӊֵᙃˈ㗠Ϩ䖛ⱘ⊯⊯ⱘᶹ䆶াӮ䰡Ԣ㋏㒳ⱘ䗳ᑺDŽЎњᦤ催Ẕ㋶䋼䞣ˈ⫼᠋ৃҹ 䆒ᅮ乱ⱘẔ㋶খ᭄˗⫼Ѣᬍব㸠᭄䆄ᔩ᭄ⱘ䰤ࠊˈা䖨ಲ䆄ᔩⱘᷛ乬㗠ϡᰃܼ䚼߫ ߎDŽ⫼᠋гৃҹ䰤ࠊᅲ䰙Ẕ㋶ⱘඳDŽಲࠄϞ䴶ⱘ՟ᄤˈབᵰẔ㋶ᴵӊҹ"histone H1"[DEF]ᓔ ྟˈ߭㸼⼎ҙ䆄ᔩⱘᅮН㸠Ёᶹᡒ䖭Ͼⷁ䇁DŽৃҹẔ㋶ᐂࡽ᭛ḷЁᡒࠄẔ㋶খ᭄ඳ䰤 ࠊᴵӊⱘᅠᭈⱘ⏙ऩˈҹঞৃҹẔ㋶ⱘ᭄ᑧⱘ߫㸼. 5.1 ᦤѸẔ㋶᳡ࡵ఼ⱘϔϾড়ᶹ䆶ⱘ㒧ᵰDŽ⊼ᛣẔ㋶SWISSˉPROTᮄ䖛ⱘSWISSˉ PROTϞ䖤㸠݅ϸ˄ৢ㗙᳝ϞϔϾ᭄ᑧЏ⠜ᴀПৢⱘᮄⱘ䆄ᔩ˅DŽℸ໘ᦤѸⱘᶹ䆶া䖨 ಲњϔᴵ䆄ᔩDŽ 䲚៤ֵᙃẔ㋶˖ENTREZ㋏㒳 Ẕ㋶᳡ࡵৃ఼ҹᇍ᳝ⳂᷛⱘẔ㋶䆄ᔩˈԚᅗЏ㽕ⱘ㔎䱋Ѣϔা㛑ҢϔϾ᭄ᑧЁẔ㋶ࠄ 䆄ᔩ˗ᛇᇍϔᡍ᭄ᑧ䖯㸠Ẕ㋶ⱘ⫼᠋ᖙ乏Ў↣ϔϾⳂ᭄ᷛᑧ߿ߚথߎϔ⬇䇋DŽᕜᯢ ᰒˈ䖭ѯ䞣ⱘ݀⫼᭄ᑧП䯈ᄬⴔ䘏䕥㘨㋏DŽ՟བˈMEDLINEЁⱘϔ㆛䆎᭛ৃ㛑ᦣ䗄ϔϾ ⱘᑣ߫ˈ䆹জGenBankЁߎ⦃DŽ݊Ḍ㣋䝌ᑣ߫᠔㓪ⷕⱘ㲟ⱑ䋼ⱘᑣ߫জᄬᬒ㲟ⱑ 䋼᭄ᑧЁDŽ䖭⾡㲟ⱑ䋼ⱘϝ㓈㒧ᵘৃ㛑জᰃᏆⶹⱘˈ㒧ᵘⱘ᭄ৃ㛑ߎ⦃㒧ᵘ᭄ᑧ ЁDŽ᳔ৢˈৃ㛑ᅮԡᶤᴵᶧ㡆ԧⱘᶤϾऎඳˈ䖭㉏ֵᙃᄬᬒ䈅᭄ᑧЁDŽ 䖭ѯ⫳⠽ᄺϞⱘ㘨㋏ⱘ⸔Ϟᓔথњϔ⾡ᮍ⊩˗ৃҹ䗮䖛ᅗᶹ䆶᠔᳝Ϣᶤϔ⡍⅞ⱘ⫳⠽ᄺ ᅲԧ᳝݇ⱘ᠔ֵ᳝ᙃˈ㗠ϡᖙᣝᑣᶹ䆶ߚゟⱘ᭄ᑧDŽ䖭ህᰃϔϾৡЎEntrezⱘߚᄤẔ㋶ ㋏㒳DŽᅗ⬅NCBIᓔথ㓈ᡸˈEntrez᠔᳝ⱘЏ㽕ⱘ᭄ᑧ䅵ㅫᴎᑇৄϞഛৃՓ⫼ˈܕ䆌ᇍ PubMed˄MEDINE˅ⱘ䆄ᔩˈḌ㣋䝌㲟ⱑ䋼ⱘᑣ᭄߫ˈϝ㓈㒧ᵘֵᙃˈ䈅ֵᙃ䖯㸠䲚៤ ⱘ䆓䯂DŽܼ䚼ֵᙃা䳔㒣䖛ϔᶹ䆶DŽEntrez㛑䗮䖛᭄ᑧП䯈ⱘϸ⾡㉏ൟ㘨㋏˖Ⳍ䖥ᗻ ⹀䖲ᴹᦤկ䲚៤ⱘֵᙃẔ㋶DŽ Ⳍ䖥ᗻ Ⳍ䖥ᗻ㘨㋏ⴔϔϾ㒭ᅮⱘ᭄ᑧПݙⱘ䆄ᔩDŽՓ⫼㗙ᶹⳟMEDLINEЁᶤᴵ䆄ᔩᯊৃҹ㽕∖ Entrez"ᡒߎ᠔᳝㉏Ԑⱘ䆎᭛ˈ㉏ԐⱘˈՓ⫼㗙ᶹⳟϔϾᑣ߫ⱘৠᯊৃҹ㽕∖Entrez"ᡒߎ ᠔᳝Ϣ䖭Ͼᑣ߫㉏Ԑⱘᑣ߫DŽϔϾ᭄ᑧПݙⱘⳌ䖥ᗻ݇㋏ᰃᓎゟᇍⳌԐᗻⱘ㒳䅵䅵ㅫϞ ⱘ˖ BLASTᑣ᭄߫ৃҹ⫼ᴀሔ䚼ᇍ↨᧰㋶Ꮉ˄Basic Local Alignment Search Tool,े BLAST˅ⳌѦ↨䕗DŽ䖭Ͼㅫ⊩䆩ᡒࠄ催ᑺऍ䜡ⱘ⠛↉ᇍ˄high-scoring segment pairs, ㅔ䆄ЎHSPs˅ˈे㛑᮴㔎ষⱘᇍ唤Ϩ䖒ࠄϔᅮⱘߚ᭄ⱘ៤ᇍⱘᑣ߫DŽゴ䆺㒚ⱘ䅼䆎њ BLASTㅫ⊩㋏߫ঞᅗӀⱘᑨ⫼DŽ VAST༫ത᭄ᷛП䯈ⱘ↨䕗䞛⫼ϔ⾡ৡЎVASTⱘѢ䞣ⱘㅫ⊩DŽVASTेVector Alignment Search Tool˄Madejㄝˈ1995˗Gibratㄝˈ1996˅DŽVASTⱘ↨䕗᳝ϝϾℹ偸˖ 1.ϔˈത᭄ᷛⱘ⸔Ϟˈᷛߎ᠔᳝ⱘᵘ៤㲟ⱑ䋼ⱘḌᖗ䚼ߚⱘĮ㶎ᮟȕ⠛ሖDŽ✊ৢḍ 䖭ѯѠ㑻㒧ᵘऩԡⱘԡ㕂䅵ㅫ䞣DŽҹϟⱘℹ偸Փ⫼䖭ѯ䞣ᴹخᇍ↨㗠ϡᰃᭈϾϔ༫ത ᷛDŽ 2.✊ৢˈㅫ⊩䆩᳔Շⱘऍ䜡䖭ѯ䞣ˈᇏᡒ㉏ൟⳌᇍᮍԡⳌৠⱘ៤ᇍⱘ㒧ᵘऩԡˈᑊϨ 䖭ѯऩԡП䯈䖬㽕᳝ৠḋⱘ䖲ᮍᓣDŽ݊ⳂᷛѢ䆚߿催ᑺⳌԐⱘḌᖗ㒧ᵘˈ䖭ѯ៤ᇍ 㒧ᵘⱘऍ䜡ᗻ㽕↨䱣ᴎⱘ䗝ᢽ㲟ⱑ䋼ⳌѦ↨䕗ᕫࠄⱘ催ᕫDŽ 3.᳔ৢˈ↣Ͼ⅟ԡ㕂ϞՓ⫼㩭⡍ˉव⋯ᮍ⊩ᇍ㒧ᵘⱘᥦ߫䖯㸠Ӭ࣪DŽ Ѩゴ⫳⠽᭄ᑧⱘֵᙃẔ㋶ 义ⷕˈ2/8 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?Ѩゴ⫳⠽᭄ᑧⱘֵᙃẔ㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第五章生物数据库的信息检索 页码,3/8 使用这个方法有可能找到一些序列相似性不明显的蛋白质之间的结构上的关系(可能在功能 上也有关系)。最后的对齐结果不一定是全局的,可能在不同的蛋白质的单独的结构域之间 配对。 需要重点注意的是ⅥAST不是确定结构相似性的最好办法,因为还可以利用三维坐标文件中的 其它信息来做更进一步的修正,如考虑侧链的位置及侧链之间的相互作用的热力学特点。而 把结构压缩成一列矢量必然会导致信息的丢失。然而,考虑到这个问题的数量级一即需要做 的成对比较的次数一及采用更高级的方法所需要的计算能力和时间,VAST至少为结构相似性 问题提供了一个简单和快速的答案。关于别的基于X射线或№R坐标数据的结构预测方法可以 加权的关键词序列数据对比问题与 MEDLI NE记录的对比相比较还是容易一点, MEDLI NE的记录 是自由书写的文本,语法上不固定。 Entrez使用了名为"相关配对模式检索"的方法来做这种 对比,该方法依靠的基础是加权关键词(Wi|bur和 Caffee,1994; Wi l bur和Yang1996),这个 概念用具体的例子来描述比较合适。考虑具有下面两个标题的两篇文稿 这两个标题含有公共词BRCA, Breast,和 Cancer,这些公共词的存在显示这些文稿的主题可能 是相似的。同时也考虑单词之间的距离,对两条记录中的公共词距离较近的给予较高的分 数,分开较远的给予较低的分数。在这个例子中,对词 Breast和 Cancer将给予较高的分数, 因为这两个词是相邻的,比它们之中的任何一个与BRCA之间的距离短。标题中找到的公共的 词比摘要中的公共词得分高,因为一般认为标题的词比摘要中的词″更重要"。一个词的总的 权重取决于它在MEDL№E中的所有记录中出现的频率,在数据库中总的来说出现较少的词得到 较高的权重。 如果不算相近关系所基于的那些方法,实际确定和利用这些关系的能力是基于所有这些分支 数据库的数据的底层格式。这种格式称为抽象语法形式( Abstract Syntax Notati on,即 ASNI),所有类似的域(如引用书目)可以以完全一样的方式在这种格式中结构化,而不管 这条记录是在蛋白质数据库,核酸数据库或其它数据库之中。№CBI的这种数据模式将在第6 中深入的讨论。 硬连接 硬连接的概念比相近性的概念更容易接受。硬连接用于联系不同的数据库中的记录,只要这 些记录之间存在逻辑联系,就存在硬连接。举例来说,如果一条 MEDLI NE记录是关于??装配型 质粒的,那么在这条记录和对应的核酸记录之间就建立一条硬连接。如果这个装配型质粒?? 上的一个开放阅读框架编码某种已知的蛋白质,那么在核酸记录和蛋白质记录之间就建立一 条硬连接。如果这种蛋白质恰好已经有实验测出了它的结构,那么在这条蛋白质记录和结构 记录之间也会建立一条硬连接。 相近性和硬连接的关系可以用图5.2来解释。每个分支数据库( MEDLI NE,蛋白质,核酸,结 构及基因)用一个五角形表示。从每个五角形引出又回到自身的曲线表示相近性关系,根据 相近性关系可以在同一数据库内寻找相关的记录。图的中心从五角形到五角形的直线连接代 表硬连接关系。根据硬连接关系可以在几个数据库之间寻找相关记录。使用者通过合理的使 用这两种类型的关系可以只进行一次查询就可以获取多得不可思议的信息,比对单个的数据 库分别进行查询所花的时间少得多 ##图5.2 Entrez集成信息查询相同中的关系的示意图。每个五角形表示一个数据库;每个 五角形上指向自身的曲线代表相近性关系,图的中心的直线表示硬连接 搜索的入口点 file://E:wcb生物信息学(中译本)\第五章生物数据库的信息检索.htm 2005-1-18
Փ⫼䖭Ͼᮍ⊩᳝ৃ㛑ᡒࠄϔѯᑣ߫ⳌԐᗻϡᯢᰒⱘ㲟ⱑ䋼П䯈ⱘ㒧ᵘϞⱘ݇㋏˄ৃ㛑ࡳ㛑 Ϟг᳝݇㋏˅DŽ᳔ৢⱘᇍ唤㒧ᵰϡϔᅮᰃܼሔⱘˈৃ㛑ϡৠⱘ㲟ⱑ䋼ⱘऩ⣀ⱘ㒧ᵘඳП䯈 䜡ᇍDŽ 䳔㽕䞡⚍⊼ᛣⱘᰃVASTϡᰃ⹂ᅮ㒧ᵘⳌԐᗻⱘ᳔དࡲˈ⫣Ў䖬ৃҹ߽⫼ϝ㓈തᷛ᭛ӊЁⱘ ݊ᅗֵᙃᴹخ䖯ϔℹⱘׂℷˈབ㗗㰥ջ䫒ⱘԡ㕂ঞջ䫒П䯈ⱘⳌѦ⫼ⱘ⛁ᄺ⡍⚍DŽ㗠 ᡞ㒧ᵘय़㓽៤ϔ߫ⶶ䞣ᖙ✊Ӯᇐ㟈ֵᙃⱘ϶༅DŽ✊㗠ˈ㗗㰥ࠄ䖭Ͼ䯂乬ⱘ᭄䞣㑻ˉे䳔㽕خ ⱘ៤ᇍ↨䕗ⱘ᭄ˉঞ䞛⫼催㑻ⱘᮍ⊩᠔䳔㽕ⱘ䅵ㅫ㛑ᯊ䯈ˈVAST㟇ᇥЎ㒧ᵘⳌԐᗻ 䯂乬ᦤկњϔϾㅔऩᖿ䗳ⱘㄨḜDŽ݇Ѣ߿ⱘѢ;ᇘ㒓NMRത᭄ᷛⱘ㒧ᵘ乘⌟ᮍ⊩ৃҹ খ㾕11ゴDŽ ࡴᴗⱘ݇䬂䆡ᑣ᭄߫ᇍ↨䯂乬ϢMEDLINE䆄ᔩⱘᇍ↨Ⳍ↨䕗䖬ᰃᆍᯧϔ⚍ˈMEDLINEⱘ䆄ᔩ ᰃ㞾⬅кݭⱘ᭛ᴀˈ䇁⊩ϞϡᅮDŽEntrezՓ⫼њৡЎⳌ݇䜡ᇍᓣẔ㋶ⱘᮍ⊩ᴹخ䖭⾡ ᇍ↨ˈ䆹ᮍ⊩ձ䴴ⱘ⸔ᰃࡴᴗ݇䬂䆡˄WilburCaffee,1994;WilburYang 1996˅ˈ䖭Ͼ ὖᗉ⫼ԧⱘ՟ᄤᴹᦣ䗄↨䕗ড়䗖DŽ㗗㰥᳝ϟ䴶ϸϾᷛ乬ⱘϸ㆛᭛〓˖ 䖭ϸϾᷛ乬᳝݀݅䆡BRCAI,Breast,Cancerˈ䖭ѯ݀݅䆡ⱘᄬᰒ⼎䖭ѯ᭛〓ⱘЏ乬ৃ㛑 ᰃⳌԐⱘDŽৠᯊг㗗㰥ऩ䆡П䯈ⱘ䎱⾏ˈᇍϸᴵ䆄ᔩЁⱘ݀݅䆡䎱⾏䕗䖥ⱘ㒭ќ䕗催ⱘߚ ᭄ˈߚᓔ䕗䖰ⱘ㒭ќ䕗Ԣⱘߚ᭄DŽ䖭Ͼ՟ᄤЁˈᇍ䆡BreastCancerᇚ㒭ќ䕗催ⱘߚ᭄ˈ Ў䖭ϸϾ䆡ᰃⳌ䚏ⱘˈ↨ᅗӀПЁⱘӏԩϔϾϢBRCAIП䯈ⱘ䎱⾏ⷁDŽᷛ乬Ёᡒࠄⱘ݀݅ⱘ 䆡↨ᨬ㽕Ёⱘ݀݅䆡ᕫߚ催ˈЎϔ㠀䅸Ўᷛ乬ⱘ䆡↨ᨬ㽕Ёⱘ䆡䞡㽕DŽϔϾ䆡ⱘᘏⱘ ᴗ䞡পއѢᅗMEDLINEЁⱘ᠔᳝䆄ᔩЁߎ⦃ⱘ乥⥛ˈ᭄ᑧЁᘏⱘᴹ䇈ߎ⦃䕗ᇥⱘ䆡ᕫࠄ 䕗催ⱘᴗ䞡DŽ བᵰϡㅫⳌ䖥݇㋏᠔Ѣⱘ䙷ѯᮍ⊩ˈᅲ䰙⹂ᅮ߽⫼䖭ѯ݇㋏ⱘ㛑ᰃѢ᠔᳝䖭ѯߚᬃ ᭄ᑧⱘ᭄ⱘᑩሖḐᓣDŽ䖭⾡Ḑᓣ⿄Ўᢑ䈵䇁⊩ᔶᓣ˄Abstract Syntax Notation,े ASNI˅ˈ᠔᳝㉏Ԑⱘඳ˄བᓩ⫼кⳂ˅ৃҹҹᅠܼϔḋⱘᮍᓣ䖭⾡ḐᓣЁ㒧ᵘ࣪ˈ㗠ϡㅵ 䖭ᴵ䆄ᔩᰃ㲟ⱑ䋼᭄ᑧˈḌ䝌᭄ᑧ݊ᅗ᭄ᑧПЁDŽNCBIⱘ䖭⾡᭄ᓣᇚゴ Ё⏅ܹⱘ䅼䆎DŽ ⹀䖲 ⹀䖲ⱘὖᗉ↨Ⳍ䖥ᗻⱘὖᗉᆍᯧফDŽ⹀䖲⫼Ѣ㘨㋏ϡৠⱘ᭄ᑧЁⱘ䆄ᔩˈা㽕䖭 ѯ䆄ᔩП䯈ᄬ䘏䕥㘨㋏ˈህᄬ⹀䖲DŽВ՟ᴹ䇈ˈབᵰϔᴵMEDLINE䆄ᔩᰃ݇Ѣ??㺙䜡ൟ 䋼㉦ⱘˈ䙷М䖭ᴵ䆄ᔩᇍᑨⱘḌ䝌䆄ᔩП䯈ህᓎゟϔᴵ⹀䖲DŽབᵰ䖭Ͼ㺙䜡ൟ䋼㉦?? ϞⱘϔϾᓔᬒ䯙䇏Ḛᶊ㓪ⷕᶤ⾡Ꮖⶹⱘ㲟ⱑ䋼ˈ䙷МḌ䝌䆄ᔩ㲟ⱑ䋼䆄ᔩП䯈ህᓎゟϔ ᴵ⹀䖲DŽབᵰ䖭⾡㲟ⱑ䋼ᙄདᏆ㒣᳝ᅲ偠⌟ߎњᅗⱘ㒧ᵘˈ䙷М䖭ᴵ㲟ⱑ䋼䆄ᔩ㒧ᵘ 䆄ᔩП䯈гӮᓎゟϔᴵ⹀䖲DŽ Ⳍ䖥ᗻ⹀䖲ⱘ݇㋏ৃҹ⫼5.2ᴹ㾷䞞DŽ↣Ͼߚᬃ᭄ᑧ˄MEDLINEˈ㲟ⱑ䋼ˈḌ䝌ˈ㒧 ᵘঞ˅⫼ϔϾѨ㾦ᔶ㸼⼎DŽҢ↣ϾѨ㾦ᔶᓩߎজಲࠄ㞾䑿ⱘ᳆㒓㸼⼎Ⳍ䖥ᗻ݇㋏ˈḍ Ⳍ䖥ᗻ݇㋏ৃҹৠϔ᭄ᑧݙᇏᡒⳌ݇ⱘ䆄ᔩDŽⱘЁᖗҢѨ㾦ᔶࠄѨ㾦ᔶⱘⳈ㒓䖲ҷ 㸼⹀䖲݇㋏DŽḍ⹀䖲݇㋏ৃҹϾ᭄ᑧП䯈ᇏᡒⳌ݇䆄ᔩDŽՓ⫼㗙䗮䖛ড়⧚ⱘՓ ⫼䖭ϸ⾡㉏ൟⱘ݇㋏ৃҹা䖯㸠ϔᶹ䆶ህৃҹ㦋পᕫϡৃᗱ䆂ⱘֵᙃˈ↨ᇍऩϾⱘ᭄ ᑧ߿ߚ䖯㸠ᶹ䆶᠔㢅ⱘᯊ䯈ᇥᕫDŽ ʿʿ5.2 Entrez䲚៤ֵᙃᶹ䆶ⳌৠЁⱘ݇㋏ⱘ⼎ᛣDŽ↣ϾѨ㾦ᔶ㸼⼎ϔϾ᭄ᑧ˗↣Ͼ Ѩ㾦ᔶϞᣛ㞾䑿ⱘ᳆㒓ҷ㸼Ⳍ䖥ᗻ݇㋏ˈⱘЁᖗⱘⳈ㒓㸼⼎⹀䖲DŽ ᧰㋶ⱘܹষ⚍ Ѩゴ⫳⠽᭄ᑧⱘֵᙃẔ㋶ 义ⷕˈ3/8 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?Ѩゴ⫳⠽᭄ᑧⱘֵᙃẔ㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第五章生物数据库的信息检索 页码,4/8 如图5.2所指出的,基本上可以从任何地方开始使用 Entre系统搜索一使用者不必考虑从何处 进入信息的空间。然而,选取不同的数据库作为搜索的起点就会有不同的域可以用于搜索。 这显然是由于不同类型的数据库中的记录必须有不同的组织方式,以反映了它们所编目的实 体的生物学特点。表5.1列出了每个 Entrez系统中的数据库可以用于搜索的域。 实现 不考虑平台的差异, Entrez的搜索可以用两种界面进行。第一种称为 Networκ K Entrez,是用 客户一服务器方式实现的。这是 Entrez程序中最快的,它直接连接到一个NCB的"发送者 其图形用户界面的特点是一套窗口。由于客户软件存于用户的计算机上,需要用户去获取, 安装和维护软件,软件加入了新的特征时可以下载更新的部分。安装的过程相当简单。 第二种实现方法是在环球网上,称为 WW Entrez或者 b entrez。可以利用各种可用的网页 浏览器,例如 nternet explorer或 Netscape,它们把搜索结果传回桌面上。使用网络浏览器 的用户不必再确认是否安装了最新的 Entrez版本一只要浏览器是较新的版本,查询的结果总 是通过最新的 Entrez版本得到的。Web版还有另外一项用处,上述所有的相近性关系和硬连接 关系都可以用超文本表示,用户可以通过点击记录上的特定的词来浏览 用网页实现比网络版进步的地方在于网页可以有连接到外部数据源的能力。如由某个杂志或 出版社维护的论文的全文版本,或某些本来不是 Entrez组成部分的专门的数据库。网络版的 速度上的优势同时导致了这方面的限制,直接连接到NCB发送者意味着用户一旦连接到NCB 就不能再转移到别的任何地方。这两种方法的另一个主要区别在于表达方式上,网络版用 套窗口而网页版用一系列的网页,服从标准的网页规范。选择哪一种是用户的爱好问题,两 种方法在 Entrez的搜索空间中得到的一样的结果。 Entrez的查询方法:举例 ## 图5.3从 MEDLINE开始作 entrez查询,使用网页版的 Entrez版本 (http://ww.ncbi.nlm.nih.gov/entrez)详细说明参见正文 为了解释前面的Eηtrez系统的集成特性并且把相近性联系的特性讲透彻,最好的方法是考虑 个生物学的实例。此处使用Web版的 Entrez界面。从NCB|网址上的 Entrez主页开始,用户可 以选择组成Enηtrez系统的五个数据库之一作为查询的起点。此处查询从 MEDLINE开始。 PubMed 的査询主页显示于图5.3,此页上的表格要求进行两项选择然后提交査询。首先用户必须选择 査询域,把搜索范围限制在数据库入口的一个特定的域上(例如,生物学分类或标题)。其 次,用户必须选择一种查询模式,指定客户和服务器的交互方法。如果是 Automatic模式,服 务器会自动的査看搜索框中输入的词条,在数据库中査找符合得最好的词条。显然 Automati c 模式和 ist terms模式常常返回同样的结果,但由于在开始查询的时候记录的可能的索引方 式用户可能还不太清楚,建议使用 List terms模式。 假设用户要检索关于hiv1的摘要。使用 Entrez査询窗口,在查询框中输入hiv1,选定Text Words为检索域(即在标题和摘要中査找HⅤ1的出现),选择 Li st terms为査询模式。(当 然也可以用 Organi sm作为检索域;使用两种不同的方法进行检索并观察输出的不同对用户来 说是一个很好的练习。)检索命中后会打开一个新的网页(图5.4)。这一页包含一个词条选 择窗口,用户可以浏览与原来的词条(HV1)最接近的词条。注意选择窗口在HV1后面还 显示了很多略有区别的其它条目。如果用户选择的是 Automati c模式,就会忽略这些额外的条 目,这样可能忽略了重要的信息。采用 Li st terms模式,就可以使用户看到原来的检索词的 各种变种 ##图5.4在 MEDLINE数据库上进行 Entrez检索查的所有条目。详细说明参见正文 file://E:wcb生物信息学(中译本)\第五章生物数据库的信息检索.htm 2005-1-18
བ5.2᠔ᣛߎⱘˈᴀϞৃҹҢӏԩഄᮍᓔྟՓ⫼Entrz㋏㒳᧰㋶ˉՓ⫼㗙ϡᖙ㗗㰥Ңԩ໘ 䖯ֵܹᙃⱘぎ䯈DŽ✊㗠ˈ䗝পϡৠⱘ᭄ᑧЎ᧰㋶ⱘ䍋⚍ህӮ᳝ϡৠⱘඳৃҹ⫼Ѣ᧰㋶DŽ 䖭ᰒ✊ᰃ⬅Ѣϡৠ㉏ൟⱘ᭄ᑧЁⱘ䆄ᔩᖙ乏᳝ϡৠⱘ㒘㒛ᮍᓣˈҹডњᅗӀ᠔㓪Ⳃⱘᅲ ԧⱘ⫳⠽ᄺ⡍⚍DŽ㸼5.1߫ߎњ↣ϾEntrez㋏㒳Ёⱘ᭄ᑧৃҹ⫼Ѣ᧰㋶ⱘඳDŽ ᅲ⦄ ϡ㗗㰥ᑇৄⱘᏂᓖˈEntrezⱘ᧰㋶ৃҹ⫼ϸ⾡⬠䴶䖯㸠DŽϔ⾡⿄ЎNetwork Entrezˈᰃ⫼ ᅶ᠋ˉ᳡ࡵ఼ᮍᓣᅲ⦄ⱘDŽ䖭ᰃEntrezᑣЁ᳔ᖿⱘˈᅗⳈ䖲ࠄϔϾNCBIⱘথ䗕㗙DŽ ݊ᔶ⫼᠋⬠䴶ⱘ⡍⚍ᰃϔ༫にষDŽ⬅Ѣᅶ᠋䕃ӊᄬѢ⫼᠋ⱘ䅵ㅫᴎϞˈ䳔㽕⫼᠋এ㦋পˈ ᅝ㺙㓈ᡸ䕃ӊˈ䕃ӊࡴܹњᮄⱘ⡍ᕕᯊৃҹϟ䕑ᮄⱘ䚼ߚDŽᅝ㺙ⱘ䖛ⳌᔧㅔऩDŽ Ѡ⾡ᅲ⦄ᮍ⊩ᰃ⦃⧗㔥Ϟˈ⿄ЎWWW Entrez㗙Web EntrezDŽৃҹ߽⫼ৃ辵⫼ⱘ㔥义 ⌣㾜఼ˈ՟བInternet explorerNetscape,ᅗӀᡞ᧰㋶㒧ᵰӴಲḠ䴶ϞDŽՓ⫼㔥㒰⌣㾜఼ ⱘ⫼᠋ϡᖙݡ⹂䅸ᰃ৺ᅝ㺙њ᳔ᮄⱘEntrez⠜ᴀˉা㽕⌣㾜఼ᰃ䕗ᮄⱘ⠜ᴀˈᶹ䆶ⱘ㒧ᵰᘏ ᰃ䗮䖛᳔ᮄⱘEntrez⠜ᴀᕫࠄⱘDŽWeb⠜䖬᳝ϔ乍⫼໘ˈϞ䗄᠔᳝ⱘⳌ䖥ᗻ݇㋏⹀䖲 ݇㋏䛑ৃҹ⫼䍙᭛ᴀ㸼⼎ˈ⫼᠋ৃҹ䗮䖛⚍ߏ䆄ᔩϞⱘ⡍ᅮⱘ䆡ᴹ⌣㾜DŽ ⫼㔥义ᅲ⦄↨㔥㒰⠜䖯ℹⱘഄᮍѢ㔥义ৃҹ᳝䖲ࠄ䚼᭄⑤ⱘ㛑DŽབ⬅ᶤϾᴖᖫ ߎ⠜⼒㓈ᡸⱘ䆎᭛ⱘܼ᭛⠜ᴀˈᶤѯᴀᴹϡᰃEntrez㒘៤䚼ߚⱘϧ䮼ⱘ᭄ᑧDŽ㔥㒰⠜ⱘ 䗳ᑺϞⱘӬৠᯊᇐ㟈њ䖭ᮍ䴶ⱘ䰤ࠊˈⳈ䖲ࠄNCBIথ䗕㗙ᛣੇⴔ⫼᠋ϔᮺ䖲ࠄNCBI ህϡ㛑ݡ䕀⿏߿ࠄⱘӏԩഄᮍDŽ䖭ϸ⾡ᮍ⊩ⱘϔϾЏ㽕ऎ߿Ѣ㸼䖒ᮍᓣϞˈ㔥㒰⠜⫼ϔ ༫にষ㗠㔥义⠜⫼ϔ㋏߫ⱘ㔥义ˈ᳡Ңᷛޚⱘ㔥义㾘㣗DŽ䗝ᢽાϔ⾡ᰃ⫼᠋ⱘ⠅ད䯂乬ˈϸ ⾡ᮍ⊩Entrezⱘ᧰㋶ぎ䯈Ёᕫࠄⱘϔḋⱘ㒧ᵰDŽ Entrezⱘᶹ䆶ᮍ⊩˖В՟ ʿʿ 5.3 ҢMEDLINEᓔྟentrezᶹ䆶ˈՓ⫼㔥义⠜ⱘEntrez⠜ᴀ ˄http://www.ncbi.nlm.nih.gov/entrez˅DŽ䆺㒚䇈ᯢখ㾕ℷ᭛DŽ Ўњ㾷䞞ࠡ䴶ⱘEntrez㋏㒳ⱘ䲚៤⡍ᗻᑊϨᡞⳌ䖥ᗻ㘨㋏ⱘ⡍ᗻ䆆䗣ᕏˈ᳔དⱘᮍ⊩ᰃ㗗㰥 ϔϾ⫳⠽ᄺⱘᅲ՟DŽℸ໘Փ⫼Web⠜ⱘEntrez⬠䴶DŽҢNCBI㔥ഔϞⱘEntrezЏ义ᓔྟˈ⫼᠋ৃ ҹ䗝ᢽ㒘៤Entrez㋏㒳ⱘѨϾ᭄ᑧПϔЎᶹ䆶ⱘ䍋⚍DŽℸ໘ᶹ䆶ҢMEDLINEᓔྟDŽPubMed ⱘᶹ䆶Џ义ᰒ⼎Ѣ5.3ˈℸ义Ϟⱘ㸼Ḑ㽕∖䖯㸠ϸ乍䗝ᢽ✊ৢᦤѸᶹ䆶DŽ佪ܜ᠋⫼ᖙ乏䗝ᢽ ᶹ䆶ඳˈᡞ᧰㋶㣗ೈ䰤ࠊ᭄ᑧܹষⱘϔϾ⡍ᅮⱘඳϞ˄՟བˈ⫳⠽ᄺߚ㉏ᷛ乬˅DŽ݊ ˈ⫼᠋ᖙ乏䗝ᢽϔ⾡ᶹ䆶ᓣˈᣛᅮᅶ᠋᳡ࡵ఼ⱘѸѦᮍ⊩DŽབᵰᰃAutomaticᓣˈ᳡ ࡵ఼Ӯ㞾ࡼⱘᶹⳟ᧰㋶ḚЁ䕧ܹⱘ䆡ᴵˈ᭄ᑧЁᶹᡒヺড়ᕫ᳔དⱘ䆡ᴵDŽᰒ✊Automatic ᓣList Termsᓣᐌᐌ䖨ಲৠḋⱘ㒧ᵰˈԚ⬅Ѣᓔྟᶹ䆶ⱘᯊ䆄ᔩⱘৃ㛑ⱘ㋶ᓩᮍ ᓣ⫼᠋ৃ㛑䖬ϡ⏙Ἦˈᓎ䆂Փ⫼List TermsᓣDŽ ؛䆒⫼᠋㽕Ẕ㋶݇Ѣhiv 1ⱘᨬ㽕DŽՓ⫼Entrezᶹ䆶にষˈᶹ䆶ḚЁ䕧ܹhiv 1ˈ䗝ᅮText WordsЎẔ㋶ඳ˄ेᷛ乬ᨬ㽕ЁᶹᡒHIV 1ⱘߎˈ˅⦃䗝ᢽList TermsЎᶹ䆶ᓣDŽ˄ᔧ ✊гৃҹ⫼OrganismЎẔ㋶ඳ˗Փ⫼ϸ⾡ϡৠⱘᮍ⊩䖯㸠Ẕ㋶ᑊ㾖ᆳ䕧ߎⱘϡৠᇍ⫼᠋ᴹ 䇈ᰃϔϾᕜདⱘ㒗дDŽ˅Ẕ㋶ੑЁৢӮᠧᓔϔϾᮄⱘ㔥义˄5.4˅DŽ䖭ϔ义ࣙϔϾ䆡ᴵ䗝 ᢽにষˈ⫼᠋ৃҹ⌣㾜Ϣॳᴹⱘ䆡ᴵ˄HIV 1˅᳔䖥ⱘ䆡ᴵDŽ⊼ᛣ䗝ᢽにষHIV 1ৢ䴶䖬 ᰒ⼎њᕜ⬹᳝ऎ߿ⱘ݊ᅗᴵⳂDŽབᵰ⫼᠋䗝ᢽⱘᰃAutomaticᓣˈህӮᗑ⬹䖭ѯ乱ⱘᴵ Ⳃˈ䖭ḋৃ㛑ᗑ⬹њ䞡㽕ⱘֵᙃDŽ䞛⫼List TermsᓣˈህৃҹՓ⫼᠋ⳟࠄॳᴹⱘẔ㋶䆡ⱘ ⾡ব⾡DŽ ʿʿ5.4 MEDLINE᭄ᑧϞ䖯㸠EntrezẔ㋶ᶹⱘ᠔᳝ᴵⳂDŽ䆺㒚䇈ᯢখ㾕ℷ᭛DŽ Ѩゴ⫳⠽᭄ᑧⱘֵᙃẔ㋶ 义ⷕˈ4/8 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?Ѩゴ⫳⠽᭄ᑧⱘֵᙃẔ㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第五章生物数据库的信息检索 页码,5/8 到这一步还没有实际检索到记录。要检索记录用户要先在词条选择框中点击需要的词条(此 处为hiv1)然后点击 Select按钮。随后打开的网页的上部显示了现在检索的状态和查到的记 录数(图5.5)。执行上面所述的查询返回了17,943条记录,数量太大了,任何人都无法完 全过滤一遍。因此有必要进行修正以减少返回的摘要的数量。如果用户对HV1的杂二聚体?? 的折叠感兴趣,可以用 heterodi mers和 fol di ng作为附加的检索词,重复上面的步骤。虽然每 个单独的词都能检索到成千上万条记录,它们的组合只查到6条记录(图5.6)。在 Entrez系 统中,缺省的逻辑算符是AND,在检索词下方的修正窗口中可以看到。 为了看到实际的检索结果,用户应点击标记为 Retri eve6 Documents的那个按钮;随后会打 开新的窗口(图5.7)。窗口中每一条记录有下面几个部分:检查框,第一作者的名字,出版 年份,标题,引用信息。选中窗口底部的 Jacopo- Mol i na1993年的记录;点击作者名字打开 另一个窗口,这个窗口包括引用信息,论文名称,所有作者列表,来源及摘要,以标准的引 用格式书写。 图5.7所示的页面上,在 Di spl ay按钮后面的下拉菜单中可以选择一些别的格式。切换到 Abstract格式将得到起来非常相似的记录。差别在于在摘要后面显示了一些分类信息如MeSH 条目以及与这条记录有关的编有索引的材料。使用MEDL|NE格式将打开MEDL|NE/ MEDLL ARS页 面,记录的左边有每个域都对应的两个字母的代码(如作者域的代码为AU)。这种格式的记 录可以存储而且能容易的输入到第三方的目录管理程序,例如 EndNote和 Reference Manager。 在图5.8的上端是一排连接按钮。这是用户可以进一步查看刚才讲过的相近性和硬连接关系的 入口点。如果用户点击 Rel ated articles按钮, Entrez会显示出有133条与 Jacobo- Mol i na这 条记录相关的记录一即有133条具有相似的主题的记录。一这些论文的前20篇显示在图5.9的 个新的列表中。第一篇是原来的那篇关于H∨1反转录酶的晶体结构的论文。这一篇称为原 记录,它显示在列表的上端,相近的记录列在后。这些相近记录的排列是按照相似程度降序 排列的。因此最靠近原记录的被认为是与原记录最接近的。浏览一下标题用户就可以很容易 的找到与HV1的蛋白质有关的结构和功能研究的有关信息,可以很快的得到相关索引的目 录。当用户在写论文的时候这种功能尤为有用而且节省时间。因为用户在到图书馆的书架中 去寻找之前就可以浏览摘要并选定真正感兴趣的论文 从这个新的论文列表中,用户可以通过使用列表中每一项旁边的检査框来找到硬连接的记 录。仍然用这个例子,将 Di spl ay按钮后面的下拉菜单选为 Proteins inks然后点击 Di spl ay 按钮,将会从蛋白质数据库中找到与本页这条 MEDLI NE记录有关的19条记录并列表;图5.10显 示了其中的6条。这一页的格式与已经在 MEDLINE中见过的那些格式相同,区别在于每条记录 后面有一些超链接对应可用的其它格式或对应相近和有硬连接的记录。有用的格式之一是 FASTA,它提供了一种格式可以输入到大多数序列分析程序中去。点击相近蛋白质的超链接所 得到的输出大体上是对这个蛋白质序列用 BLAST搜索的结果。用户可以以相似的步骤访问核酸 数据库。 这次查询得到的蛋白质记录的列表中有HV-A和HVB的记录,是一种HV-1反转录酶在一个 点发生突变的突变体(Cys280→Ser)。点击 Graphic View连接将打开一个图形方式的视图 看到这条记录的特征表中的所有信息。这个蛋白质有大量的二级结构单元,用这种类型的视 图可以很容易的准确的整理出沿着蛋白质链有那些二级结构单元。如果点击标有1 Structure Link的超链接,将打开一个结构一览页面(5.12)。这一页显示的细节是从源PDB文档的标题 开始,还有三字母格式的原始结构,到其它信息的链接,如ⅥAST相近记录的列表。如果点 击"view/Save:IHV"下面的Ⅵiew按钮,则将调用Cn3D软件,打开新的窗口显示结构透视图。 有些用户对于蛋白质的外形的直观形象感兴趣,Cn3D为此提供了强大的界面。它所给出的信 息比任何人从观察字符串(蛋白质的序列)中所能得到的信息更多。可以通过窗口底部和右 边的滚动条沿着轴旋转蛋白质分子,或者当光标在窗口中时用点击然后拖拉的方式随意的旋 转它。用户也可以放大观察结构的某部分,必要时用数字给残基编号;如本例中的一处变异 的位点可以标出。用户也可以改变图的着色方案以确定该蛋白质的特殊的结构特征。在图 file://E:wcb生物信息学(中译本)\第五章生物数据库的信息检索.htm 2005-1-18
ࠄ䖭ϔℹ䖬≵᳝ᅲ䰙Ẕ㋶ࠄ䆄ᔩDŽ㽕Ẕ㋶䆄ᔩ⫼᠋㽕ܜ䆡ᴵ䗝ᢽḚЁ⚍ߏ䳔㽕ⱘ䆡ᴵ˄ℸ ໘Ўhiv 1˅✊ৢ⚍ߏSelectᣝ䪂DŽ䱣ৢᠧᓔⱘ㔥义ⱘϞ䚼ᰒ⼎њ⦄Ẕ㋶ⱘ⢊ᗕᶹࠄⱘ䆄 ᔩ᭄˄5.5˅DŽᠻ㸠Ϟ䴶᠔䗄ⱘᶹ䆶䖨ಲњ17ˈ943ᴵ䆄ᔩˈ᭄䞣њˈӏԩҎ䛑᮴⊩ᅠ ܼ䖛Ⓒϔ䘡DŽℸ᳝ᖙ㽕䖯㸠ׂℷҹޣᇥ䖨ಲⱘᨬ㽕ⱘ᭄䞣DŽབᵰ⫼᠋ᇍHIV 1ⱘᴖѠ㘮ԧ?? ⱘᡬᛳ݈䍷ˈৃҹ⫼heterodimersfoldingЎ䰘ࡴⱘẔ㋶䆡ˈ䞡Ϟ䴶ⱘℹ偸DŽ㱑✊↣ Ͼऩ⣀ⱘ䆡䛑㛑Ẕ㋶ࠄ៤गϞϛᴵ䆄ᔩˈᅗӀⱘ㒘ড়াᶹࠄᴵ䆄ᔩ˄5.6˅DŽEntrez㋏ 㒳Ёˈ㔎ⳕⱘ䘏䕥ㅫヺᰃANDˈẔ㋶䆡ϟᮍⱘׂℷにষЁৃҹⳟࠄDŽ Ўњⳟࠄᅲ䰙ⱘẔ㋶㒧ᵰˈ⫼᠋ᑨ⚍ߏᷛ䆄ЎRetrieve 6 Documentsⱘ䙷Ͼᣝ䪂˗䱣ৢӮᠧ ᓔᮄⱘにষ˄5.7˅DŽにষЁ↣ϔᴵ䆄ᔩ᳝ϟ䴶Ͼ䚼ߚ˖ẔᶹḚˈϔ㗙ⱘৡᄫˈߎ⠜ ᑈӑˈᷛ乬ˈᓩ⫼ֵᙃDŽ䗝Ёにষᑩ䚼ⱘJacoco-Molina 1993ᑈⱘ䆄ᔩ˗⚍ߏ㗙ৡᄫᠧᓔ ϔϾにষˈ䖭Ͼにষࣙᣀᓩ⫼ֵᙃˈ䆎᭛ৡ⿄ˈ᠔᳝㗙߫㸼ˈᴹ⑤ঞᨬ㽕ˈҹᷛޚⱘᓩ ⫼ḐᓣкݭDŽ 5.7᠔⼎ⱘ义䴶ϞˈDisplayᣝ䪂ৢ䴶ⱘϟᢝ㦰ऩЁৃҹ䗝ᢽϔѯ߿ⱘḐᓣDŽߛᤶࠄ AbsttractḐᓣᇚᕫࠄ䍋ᴹ䴲ᐌⳌԐⱘ䆄ᔩDŽᏂ߿Ѣᨬ㽕ৢ䴶ᰒ⼎њϔѯߚ㉏ֵᙃབMeSH ᴵⳂҹঞϢ䖭ᴵ䆄ᔩ᳝݇ⱘ㓪᳝㋶ᓩⱘᴤ᭭DŽՓ⫼MEDLINEḐᓣᇚᠧᓔMEDLINE/MEDLIARS义 䴶ˈ䆄ᔩⱘᎺ䖍᳝↣Ͼඳ䛑ᇍᑨⱘϸϾᄫ↡ⱘҷⷕ˄བ㗙ඳⱘҷⷕЎAU˅DŽ䖭⾡Ḑᓣⱘ䆄 ᔩৃҹᄬټ㗠Ϩ㛑ᆍᯧⱘ䕧ܹࠄϝᮍⱘⳂᔩㅵ⧚ᑣˈ՟བEndNoteReference ManagerDŽ 5.8ⱘϞッᰃϔᥦ䖲ᣝ䪂DŽ䖭ᰃ⫼᠋ৃҹ䖯ϔℹᶹⳟ߮ᠡ䆆䖛ⱘⳌ䖥ᗻ⹀䖲݇㋏ⱘ ܹষ⚍DŽབᵰ⫼᠋⚍ߏRelated Articlesᣝ䪂ˈEntrezӮᰒ⼎ߎ᳝133ᴵϢJacobo-Molina䖭 ᴵ䆄ᔩⳌ݇ⱘ䆄ᔩˉे᳝133ᴵ᳝ⳌԐⱘЏ乬ⱘ䆄ᔩDŽˉ䖭ѯ䆎᭛ⱘࠡ20㆛ᰒ⼎5.9ⱘ ϔϾᮄⱘ߫㸼ЁDŽϔ㆛ᰃॳᴹⱘ䙷㆛݇ѢHIV 1ড䕀ᔩ䝊ⱘԧ㒧ᵘⱘ䆎᭛DŽ䖭ϔ㆛⿄Ўॳ 䆄ᔩˈᅗᰒ⼎߫㸼ⱘϞッˈⳌ䖥ⱘ䆄ᔩ߫ৢDŽ䖭ѯⳌ䖥䆄ᔩⱘᥦ߫ᰃᣝ✻ⳌԐᑺ䰡ᑣ ᥦ߫ⱘDŽℸ᳔䴴䖥ॳ䆄ᔩⱘ㹿䅸ЎᰃϢॳ䆄ᔩ᳔䖥ⱘDŽ⌣㾜ϔϟᷛ乬⫼᠋ህৃҹᕜᆍᯧ ⱘᡒࠄϢHIV 1ⱘ㲟ⱑ䋼᳝݇ⱘ㒧ᵘࡳ㛑ⷨおⱘֵ᳝݇ᙃˈৃҹᕜᖿⱘᕫࠄⳌ݇㋶ᓩⱘⳂ ᔩDŽᔧ⫼᠋ݭ䆎᭛ⱘᯊ䖭⾡ࡳ㛑ᇸЎ᳝⫼㗠Ϩ㡖ⳕᯊ䯈DŽЎ⫼᠋ࠄк佚ⱘкᶊЁ এᇏᡒПࠡህৃҹ⌣㾜ᨬ㽕ᑊ䗝ᅮⳳℷᛳ݈䍷ⱘ䆎᭛DŽ Ң䖭Ͼᮄⱘ䆎᭛߫㸼Ёˈ⫼᠋ৃҹ䗮䖛Փ⫼߫㸼Ё↣ϔ乍ᮕ䖍ⱘẔᶹḚᴹᡒࠄ⹀䖲ⱘ䆄 ᔩDŽҡ✊⫼䖭Ͼ՟ᄤˈᇚDisplayᣝ䪂ৢ䴶ⱘϟᢝ㦰ऩ䗝ЎProteins links✊ৢ⚍ߏDisplay ᣝ䪂ˈᇚӮҢ㲟ⱑ䋼᭄ᑧЁᡒࠄϢᴀ义䖭ᴵMEDLINE䆄ᔩ᳝݇ⱘ19ᴵ䆄ᔩᑊ߫㸼˗5.10ᰒ ⼎њ݊ЁⱘᴵDŽ䖭ϔ义ⱘḐᓣϢᏆ㒣MEDLINEЁ㾕䖛ⱘ䙷ѯḐᓣⳌৠˈऎ߿Ѣ↣ᴵ䆄ᔩ ৢ䴶᳝ϔѯ䍙䫒ᇍᑨৃ⫼ⱘ݊ᅗḐᓣᇍᑨⳌ䖥᳝⹀䖲ⱘ䆄ᔩDŽ᳝⫼ⱘḐᓣПϔᰃ FASTAˈᅗᦤկњϔ⾡Ḑᓣৃҹ䕧ܹࠄ᭄ᑣ߫ߚᵤᑣЁএDŽ⚍ߏⳌ䖥㲟ⱑ䋼ⱘ䍙䫒᠔ ᕫࠄⱘ䕧ߎԧϞᰃᇍ䖭Ͼ㲟ⱑ䋼ᑣ߫⫼BLAST᧰㋶ⱘ㒧ᵰDŽ⫼᠋ৃҹҹⳌԐⱘℹ偸䆓䯂Ḍ䝌 ᭄ᑧDŽ 䖭ᶹ䆶ᕫࠄⱘ㲟ⱑ䋼䆄ᔩⱘ߫㸼Ё᳝IHIV-AIHIV_Bⱘ䆄ᔩˈᰃϔ⾡HIV-1ড䕀ᔩ䝊ϔϾ ⚍থ⫳さবⱘさবԧ˄Cys280ėSer˅DŽ⚍ߏGraphic View䖲ᇚᠧᓔϔϾᔶᮍᓣⱘ㾚ˈ ⳟࠄ䖭ᴵ䆄ᔩⱘ⡍ᕕ㸼Ёⱘ᠔ֵ᳝ᙃDŽ䖭Ͼ㲟ⱑ䋼᳝䞣ⱘѠ㑻㒧ᵘऩܗ⫼ˈ䖭⾡㉏ൟⱘ㾚 ৃҹᕜᆍᯧⱘޚ⹂ⱘᭈ⧚ߎ⊓ⴔ㲟ⱑ䋼䫒᳝䙷ѯѠ㑻㒧ᵘऩܗDŽབᵰ⚍ߏ᳝ᷛ1 Structure Linkⱘ䍙䫒ˈᇚᠧᓔϔϾ㒧ᵘϔ㾜义䴶˄5.12˅DŽ䖭ϔ义ᰒ⼎ⱘ㒚㡖ᰃҢ⑤PDB᭛ḷⱘᷛ乬 ᓔྟˈ䖬᳝ϝᄫ↡Ḑᓣⱘॳྟ㒧ᵘˈࠄ݊ᅗֵᙃⱘ䫒ˈབVASTⳌ䖥䆄ᔩⱘ߫㸼DŽབᵰ⚍ ߏ"View/Save:IHIV"ϟ䴶ⱘViewᣝ䪂ˈ߭ᇚ䇗⫼Cn3D䕃ӊˈᠧᓔᮄⱘにষᰒ⼎㒧ᵘ䗣㾚DŽ ᳝ѯ⫼᠋ᇍѢ㲟ⱑ䋼ⱘᔶⱘⳈ㾖ᔶ䈵ᛳ݈䍷ˈCn3DЎℸᦤկњᔎⱘ⬠䴶DŽᅗ᠔㒭ߎⱘֵ ᙃ↨ӏԩҎҢ㾖ᆳᄫヺІ˄㲟ⱑ䋼ⱘᑣ߫˅Ё᠔㛑ᕫࠄⱘֵᙃDŽৃҹ䗮䖛にষᑩ䚼ে 䖍ⱘ⒮ࡼᴵ⊓ⴔ䕈ᮟ䕀㲟ⱑ䋼ߚᄤˈ㗙ᔧܝᷛにষЁᯊ⫼⚍ߏৢ✊ᢪᢝⱘᮍᓣ䱣ᛣⱘᮟ 䕀ᅗDŽ⫼᠋гৃҹᬒ㾖ᆳ㒧ᵘⱘᶤ䚼ߚˈᖙ㽕ᯊ⫼᭄ᄫ㒭⅟㓪ো˗བᴀ՟Ёⱘϔ໘বᓖ ⱘԡ⚍ৃҹᷛߎDŽ⫼᠋гৃҹᬍবⱘⴔ㡆ᮍḜҹ⹂ᅮ䆹㲟ⱑ䋼ⱘ⡍⅞ⱘ㒧ᵘ⡍ᕕDŽ Ѩゴ⫳⠽᭄ᑧⱘֵᙃẔ㋶ 义ⷕˈ5/8 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?Ѩゴ⫳⠽᭄ᑧⱘֵᙃẔ㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com