当前位置：和泉文库 > 生物 > 浏览文档

《生物信息学》课程教学资源（中译本）第五章生物数据库的信息检索

如第二章所述,建立 GenBank是为了适应人类基应组工程等科学研究产生的大量序列数据的信息爆炸。总的来说, GenBank是带有注释的公用DNA蛋白质序列的集合。写作本书时, GenBank中有160万条链的纪录,含超过10亿个核苷酸碱基。向GenBank存入新的序列有两种方法:通过 Sequi nBankl和等工具直接提交,或通过国际核苷酸序列数据库的组成部分 GenBank,eml,和DDB等相互之间传递数据的共享协议。

文件格式：PDF，文件大小：169.91KB，售价：2.4元

文档详细内容（约8页）

第五章生物数据库的信息检索页第五章生物数据库的信息检索 Andreas d baxevanis 国家人类基因组研究学会,基因组技术部国家保健学会马里兰州, Bethesda 如第二章所述,建立 Gen Bank是为了适应人类基应组工程等科学研究产生的大量序列数据的信息爆炸。总的来说, Gen Bank是带有注释的公用DNA,蛋白质序列的集合。写作本书时 Gen Bank中有160万条链的纪录,含超过10亿个核苷酸碱基。向 Gen Bank存入新的序列有两种方法:通过 Sequi n和 Bankl t等工具直接提交,或通过国际核苷酸序列数据库的组成部分 Gen Bank,EMBL,和DDBJ等相互之间传递数据的共享协议。关于提交工具及这种数据协作的性质的进一步的信息参见第14章。 Gen Bank或其他任何有关的生物数据库必须容易查找而且查出的记录的格式便于使用??,否则就不会有很大的用处。??另外,因为总的来说生物学界还不能有效的利用隐藏在这些上百万的碱基及氨基酸之中的信息,排序的工作也没有很大的用处。为了使这些数据对于一般的使用者容易利用而做过很多努力,这些工作的结果一一程序和界面是本章的重点。因为这些更通用的数据库与生物学家通常使用的那些数据库相差很远,所以本章的论述集中在如何查询NCBI数据库上,但是本章同时也注意到一些较小的较专门的数据库,它们提供的信息在 Gen Bank中未必能找到。检索数据库记录:检索服务器查询NCB数据库最简单的方法可能是使用名为 Retrieve的邮件服务器。检索服务器通过简单的关键字搜索来查询记录。一次可以检索一个可用的数据库,可以是简单的(只含有一个关键字)或复合的(含有由逻辑算符组合的多个关键字)。服务器的地址为 retri eveancbi.nlm.nih.gov。同大多数邮件服务器一样,如果向服务器发送一封正文只含一个单词Help的邮件将会返回一个关于如何使用检索服务器的详尽的解释。回顾第一章,使用一个邮件服务器时,向服务器发送的消息必须是严格的符合服务器可以理解的指令格式。如下例所示: 此处,消息的标题与服务器无关。由于返回查询结果时将会带有原来的标题,因此发送多条消息给服务器的时候加上一个描述性的标题有助于使用者区分不同的查询结果。消息正文以名为 DATALIB的査询参数开始,该参数表示应检索那一个可用的数据库(这里是查询SWSS PROT)。标志“ BEGIN”表示没有别的检索参数了,紧接着的词都是搜索条件。可以用逻辑符号AND,OR,及№0T组合检索条件;圆括用于分隔检索条件;引号表示必须组合在一起的短语。本例中,服务器将会返回所有含有短语 hi stone h1"且含有单词 Saccharomyces及 Schi zosaccharomyces之一的记录。如果不用逻辑运算符及分隔符(即,检索条件为 hi stone H1 Saccharomyces Schi zosaccharomyces),则在条件之间将会自动加上0R,这不符合使用者的要求。这个复合查询的结果显示于图5.1。通常,提交的检索范围过大,返回的记录数远多于对查询者有用的数目。例如,前面的检索如果没写种类名的话将会失败,因为含有" hi stone h1"的记录太多。况且,即使这条短语并不是某条记录的真正主题,它也有可能出现在该记录之中:例如,这个短语是某篇论文的标 file://E:wcb生物信息学(中译本)\第五章生物数据库的信息检索.htm 2005-1-18

㄀Ѩゴ ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶ Andreas D Baxevanis ೑ᆊҎ㉏෎಴㒘ⷨおᄺӮˈ෎಴㒘ᡔᴃ䚼 ೑ᆊֱعᄺӮ 偀䞠݄ᎲˈBethesda བ㄀Ѡゴ᠔䗄ˈᓎゟGenBankᰃЎњ䗖ᑨҎ㉏෎ᑨ㒘Ꮉ⿟ㄝ⾥ᄺⷨおѻ⫳ⱘ໻䞣ᑣ᭄߫᥂ⱘֵ ᙃ⟚⚌Ǆᘏⱘᴹ䇈ˈGenBankᰃᏺ᳝⊼䞞ⱘ݀⫼DNA,㲟ⱑ䋼ᑣ߫ⱘ䲚ড়Ǆݭ԰ᴀкᯊˈ GenBankЁ᳝160ϛᴵ䫒ⱘ㑾ᔩˈ৿䍙䖛10ғϾḌ㣋䝌⺅෎Ǆ৥GenBankᄬܹᮄⱘᑣ᳝߫ϸ⾡ᮍ ⊩˖䗮䖛Sequin੠BankItㄝᎹ݋Ⳉ᥹ᦤѸˈ៪䗮䖛೑䰙Ḍ㣋䝌ᑣ᭄߫᥂ᑧⱘ㒘៤䚼ߚ GenBankˈEMBLˈ੠DDBJㄝⳌѦП䯈Ӵ䗦᭄᥂ⱘ݅ѿण䆂Ǆ݇ѢᦤѸᎹ݋ঞ䖭⾡᭄᥂ण԰ⱘᗻ 䋼ⱘ䖯ϔℹⱘֵᙃখ㾕㄀14ゴǄ GenBank៪݊Ҫӏԩ᳝݇ⱘ⫳⠽᭄᥂ᑧᖙ乏ᆍᯧᶹᡒ㗠Ϩᶹߎⱘ䆄ᔩⱘḐᓣ֓ѢՓ⫼??ˈ৺߭ ህϡӮ᳝ᕜ໻ⱘ⫼໘Ǆ˛˛঺໪ˈ಴Ўᘏⱘᴹ䇈⫳⠽ᄺ⬠䖬ϡ㛑᳝ᬜⱘ߽⫼䱤㮣೼䖭ѯϞⱒ ϛⱘ⺅෎ঞ⇼෎䝌ПЁⱘֵᙃˈᥦᑣⱘᎹ԰г≵᳝ᕜ໻ⱘ⫼໘ǄЎњՓ䖭ѯ᭄᥂ᇍѢϔ㠀ⱘ Փ⫼㗙ᆍᯧ߽⫼㗠خ䖛ᕜ໮࡯ࡾˈ䖭ѯᎹ԰ⱘ㒧ᵰˉˉ⿟ᑣ੠⬠䴶ᰃᴀゴⱘ䞡⚍Ǆ಴Ў䖭ѯ ᳈䗮⫼ⱘ᭄᥂ᑧϢ⫳⠽ᄺᆊ䗮ᐌՓ⫼ⱘ䙷ѯ᭄᥂ᑧⳌᏂᕜ䖰ˈ᠔ҹᴀゴⱘ䆎䗄䲚Ё೼བԩᶹ 䆶NCBI᭄᥂ᑧϞˈԚᰃᴀゴৠᯊг⊼ᛣࠄϔѯ䕗ᇣⱘ䕗ϧ䮼ⱘ᭄᥂ᑧˈᅗӀᦤկⱘֵᙃ೼ GenBankЁ᳾ᖙ㛑ᡒࠄǄ Ẕ㋶᭄᥂ᑧ䆄ᔩ˖Ẕ㋶᳡ࡵ఼ ᶹ䆶NCBI᭄᥂ᑧ᳔ㅔऩⱘᮍ⊩ৃ㛑ᰃՓ⫼ৡЎRetrieveⱘ䚂ӊ᳡ࡵ఼ǄẔ㋶᳡ࡵ఼䗮䖛ㅔऩ ⱘ݇䬂ᄫ᧰㋶ᴹᶹ䆶䆄ᔩǄϔ⃵ৃҹẔ㋶ϔϾৃ⫼ⱘ᭄᥂ᑧˈৃҹᰃㅔऩⱘ˄া৿᳝ϔϾ݇ 䬂ᄫǓ៪໡ড়ⱘ˄৿᳝⬅䘏䕥ㅫヺ㒘ড়ⱘ໮Ͼ݇䬂ᄫ˅Ǆ᳡ࡵ఼ⱘഄഔЎ retrieve@ncbi.nlm.nih.govǄৠ໻໮᭄䚂ӊ᳡ࡵ఼ϔḋˈབᵰ৥᳡ࡵ఼থ䗕ϔᇕℷ᭛া৿ϔ Ͼऩ䆡Helpⱘ䚂ӊᇚӮ䖨ಲϔϾ݇ѢབԩՓ⫼Ẕ㋶᳡ࡵ఼ⱘ䆺ሑⱘ㾷䞞Ǆ ಲ乒㄀ϔゴˈՓ⫼ϔϾ䚂ӊ᳡ࡵ৥ˈᯊ఼᳡ࡵ఼থ䗕ⱘ⍜ᙃᖙ乏ᰃϹḐⱘヺড়᳡ࡵৃ఼ҹ⧚ 㾷ⱘᣛҸḐᓣǄབϟ՟᠔⼎˖ ℸ໘ˈ⍜ᙃⱘᷛ乬Ϣ᳡ࡵ఼᮴݇Ǆ⬅Ѣ䖨ಲᶹ䆶㒧ᵰᯊᇚӮᏺ᳝ॳᴹⱘᷛ乬ˈ಴ℸথ䗕໮ᴵ ⍜ᙃ㒭᳡ࡵ఼ⱘᯊࡴ׭ϞϔϾᦣ䗄ᗻⱘᷛ乬᳝ࡽѢՓ⫼㗙ऎߚϡৠⱘᶹ䆶㒧ᵰǄ⍜ᙃℷ᭛ҹ ৡЎDATALIBⱘᶹ䆶খ᭄ᓔྟˈ䆹খ᭄㸼⼎ᑨẔ㋶䙷ϔϾৃ⫼ⱘ᭄᥂ᑧ˄䖭䞠ᰃᶹ䆶SWISSˉ PROT˅Ǆᷛᖫ“BEGIN”㸼⼎≵᳝߿ⱘẔ㋶খ᭄њˈ㋻᥹ⴔⱘ䆡䛑ᰃ᧰㋶ᴵӊǄৃҹ⫼䘏䕥ヺ োANDˈORˈঞNOT㒘ড়Ẕ㋶ᴵӊ˗೚ᣀ⫼Ѣߚ䱨Ẕ㋶ᴵӊ˗ᓩো㸼⼎ᖙ乏㒘ড়೼ϔ䍋ⱘⷁ 䇁Ǆᴀ՟Ёˈ᳡ࡵ఼ᇚӮ䖨ಲ᠔᳝৿᳝ⷁ䇁"histone H1"Ϩ৿᳝ऩ䆡Saccharomycesঞ SchizosaccharomycesПϔⱘ䆄ᔩǄབᵰϡ⫼䘏䕥䖤ㅫヺঞߚ䱨ヺ˄ेˈẔ㋶ᴵӊЎhistone H1 Saccharomyces SchizosaccharomycesǓˈ߭೼ᴵӊП䯈ᇚӮ㞾ࡴࡼϞORˈ䖭ϡヺড়Փ⫼ 㗙ⱘ㽕∖Ǆ䖭Ͼ໡ড়ᶹ䆶ⱘ㒧ᵰᰒ⼎Ѣ೒5.1Ǆ 䗮ᐌˈᦤѸⱘẔ㋶㣗ೈ䖛໻ˈ䖨ಲⱘ䆄ᔩ᭄䖰໮Ѣᇍᶹ䆶㗙᳝⫼ⱘ᭄ⳂǄ՟བˈࠡ䴶ⱘẔ㋶ བᵰ≵ݭ辵㉏ৡⱘ䆱ᇚӮ༅䋹ˈ಴Ў৿᳝"histone H1"ⱘ䆄ᔩ໾໮ǄމϨˈेՓ䖭ᴵⷁ䇁ᑊ ϡᰃᶤᴵ䆄ᔩⱘⳳℷЏ乬ˈᅗг᳝ৃ㛑ߎ೼⦃䆹䆄ᔩПЁ˖՟བˈ䖭Ͼⷁ䇁ᰃᶤ㆛䆎᭛ⱘᷛ ㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶义ⷕˈ1/8 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第五章生物数据库的信息检索页码,2/8 的一部分,但论文是讨论别的序列的。当査到的记录太多无法处理的时候,将会产生错误。输出行数及检索到的记录数都有上限;这主要是由于很多电子邮件系统不能处理太大的电子邮件信息,而且过多的泛泛的査询只会降低系统的速度。为了提高检索质量,用户可以设定额外的检索参数;用于改变行数或记录数的限制,或只返回记录的标题而不是全部列出。用户也可以限制实际检索的域。回到上面的例子,如果检索条件以" hi stone h1"[DEF]开始,则表示仅在记录的定义行中查找这个短语。可以在检索帮助文档中找到检索参数和域限制条件的完整的清单,以及可以检索的数据库的列表图5.1提交检索服务器的一个复合查询的结果。注意检索在SMSS一PR0T和更新过的SWSS PROT上运行共两次(后者含有上一个数据库主版本之后的新的记录)。此处提交的查询只返回了一条记录。集成信息检索: ENTREZ系统检索服务器可以对有目标的检索记录,但它主要的缺陷在于一次只能从一个数据库中检索到记录;想对一批数据库进行检索的用户必须为每一个目标数据库分别发出一次申请。很明显,这些大量的公用数据库之间存在着逻辑联系。例如, MEDLINE中的一篇论文可能描述一个基因的序列,该基因又在 GenBank中出现。其核苷酸序列所编码的蛋白质的序列又存放在蛋白质数据库中。这种蛋白质的三维结构可能又是己知的,结构的数据可能出现在结构数据库中。最后,基因可能定位在某条染色体的某个区域,这类信息存放在图谱数据库中。在这些生物学上的联系的基础上开发了一种方法;可以通过它查询所有与某一特殊的生物学实体有关的所有信息,而不必按次序查询分立的数据库。这就是一个名为 Entrez的分子检索系统。它由NCB|开发和维护, Entrez在所有的主要的数据库计算机平台上均可使用,允许对 PubMed(MED№E)的记录,核苷酸和蛋白质的序列数据,三维结构信息,图谱信息进行集成的访问。全部信息只需经过一次查询。 Entrez能够通过数据库之间的两种类型联系:相近性和硬连接来提供集成的信息检索。相近性相近性联系着一个给定的数据库之内的记录。使用者在查看MEDL|NE中某条记录时可以要求 Entrez"找出所有类似的论文”,类似的,使用者在查看一个序列的同时可以要求 Entrez"找出所有与这个序列类似的序列"。一个数据库之内的相近性关系是建立在对相似性的统计计算上的 BLAST序列数据可以用基本局部对比搜索工具( Basi c Local Al i gnment Search Tool,即简记为HSPs),即能够无缺口的对齐且达到一定的分数的成对的序列。第7章详细的讨论了 BLAST算法系列及它们的应用。 VAST几套坐标数据之间的比较采用一种名为ⅥAST的基于向量的算法。VAST即 Vector Al i gnment Search Tool( Madej等,195; Gi brat等,1996)。VAST的比较有三个步骤: 1.第一,在坐标数据的基础上,标出所有的构成蛋白质的核心部分的α螺旋和β片层。然后根据这些二级结构单位的位置计算向量。以下的步骤使用这些向量来做对比而不是整个一套坐标 2.然后,算法试图最佳的匹配这些向量,寻找类型和相对方位相同的成对的结构单位,并且在这些单位之间还要有同样的连接方式。其目标在于识别高度相似的″核心结构",这些成对结构的匹配性要比随机的选择蛋白质相互比较得到的高得多。 3.最后,在每个残基位置上使用蒙特一卡洛方法对结构的排列进行优化。 file://E:wcb生物信息学(中译本)\第五章生物数据库的信息检索.htm 2005-1-18

乬ⱘϔ䚼ߚˈԚ䆎᭛ᰃ䅼䆎߿ⱘᑣ߫ⱘǄᔧᶹࠄⱘ䆄ᔩ໾໮᮴⊩໘⧚ⱘᯊ׭ˈᇚӮѻ⫳䫭䇃Ǆ䕧ߎ㸠᭄ঞẔ㋶ࠄⱘ䆄ᔩ᭄䛑᳝Ϟ䰤˗䖭Џ㽕ᰃ⬅Ѣᕜ໮⬉ᄤ䚂ӊ㋏㒳ϡ㛑໘⧚໾໻ⱘ ⬉ᄤ䚂ӊֵᙃˈ㗠Ϩ䖛໮ⱘ⊯⊯ⱘᶹ䆶াӮ䰡Ԣ㋏㒳ⱘ䗳ᑺǄЎњᦤ催Ẕ㋶䋼䞣ˈ⫼᠋ৃҹ 䆒ᅮ乱໪ⱘẔ㋶খ᭄˗⫼Ѣᬍব㸠᭄៪䆄ᔩ᭄ⱘ䰤ࠊ៪ˈা䖨ಲ䆄ᔩⱘᷛ乬㗠ϡᰃܼ䚼߫ ߎǄ⫼᠋гৃҹ䰤ࠊᅲ䰙Ẕ㋶ⱘඳǄಲࠄϞ䴶ⱘ՟ᄤˈབᵰẔ㋶ᴵӊҹ"histone H1"[DEF]ᓔ ྟˈ߭㸼⼎ҙ೼䆄ᔩⱘᅮН㸠Ёᶹᡒ䖭Ͼⷁ䇁Ǆৃҹ೼Ẕ㋶ᐂࡽ᭛ḷЁᡒࠄẔ㋶খ᭄੠ඳ䰤 ࠊᴵӊⱘᅠᭈⱘ⏙ऩˈҹঞৃҹẔ㋶ⱘ᭄᥂ᑧⱘ߫㸼. ೒5.1 ᦤѸẔ㋶᳡ࡵ఼ⱘϔϾ໡ড়ᶹ䆶ⱘ㒧ᵰǄ⊼ᛣẔ㋶೼SWISSˉPROT੠᳈ᮄ䖛ⱘSWISSˉ PROTϞ䖤㸠݅ϸ⃵˄ৢ㗙৿᳝ϞϔϾ᭄᥂ᑧЏ⠜ᴀПৢⱘᮄⱘ䆄ᔩ˅Ǆℸ໘ᦤѸⱘᶹ䆶া䖨 ಲњϔᴵ䆄ᔩǄ 䲚៤ֵᙃẔ㋶˖ENTREZ㋏㒳 Ẕ㋶᳡ࡵৃ఼ҹᇍ᳝ⳂᷛⱘẔ㋶䆄ᔩˈԚᅗЏ㽕ⱘ㔎䱋೼Ѣϔ⃵া㛑ҢϔϾ᭄᥂ᑧЁẔ㋶ࠄ 䆄ᔩ˗ᛇᇍϔᡍ᭄᥂ᑧ䖯㸠Ẕ㋶ⱘ⫼᠋ᖙ乏Ў↣ϔϾⳂ᭄ᷛ᥂ᑧ߿ߚথߎϔ⃵⬇䇋Ǆᕜᯢ ᰒˈ䖭ѯ໻䞣ⱘ݀⫼᭄᥂ᑧП䯈ᄬ೼ⴔ䘏䕥㘨㋏Ǆ՟བˈMEDLINEЁⱘϔ㆛䆎᭛ৃ㛑ᦣ䗄ϔϾ ෎಴ⱘᑣ߫ˈ䆹෎಴জ೼GenBankЁߎ⦃Ǆ݊Ḍ㣋䝌ᑣ߫᠔㓪ⷕⱘ㲟ⱑ䋼ⱘᑣ߫জᄬᬒ೼㲟ⱑ 䋼᭄᥂ᑧЁǄ䖭⾡㲟ⱑ䋼ⱘϝ㓈㒧ᵘৃ㛑জᰃᏆⶹⱘˈ㒧ᵘⱘ᭄᥂ৃ㛑ߎ೼⦃㒧ᵘ᭄᥂ᑧ ЁǄ᳔ৢˈ෎಴ৃ㛑ᅮԡ೼ᶤᴵᶧ㡆ԧⱘᶤϾऎඳˈ䖭㉏ֵᙃᄬᬒ೼೒䈅᭄᥂ᑧЁǄ ೼䖭ѯ⫳⠽ᄺϞⱘ㘨㋏ⱘ෎⸔Ϟᓔথњϔ⾡ᮍ⊩˗ৃҹ䗮䖛ᅗᶹ䆶᠔᳝Ϣᶤϔ⡍⅞ⱘ⫳⠽ᄺ ᅲԧ᳝݇ⱘ᠔ֵ᳝ᙃˈ㗠ϡᖙᣝ⃵ᑣᶹ䆶ߚゟⱘ᭄᥂ᑧǄ䖭ህᰃϔϾৡЎEntrezⱘߚᄤẔ㋶㋏㒳Ǆᅗ⬅NCBIᓔথ੠㓈ᡸˈEntrez೼᠔᳝ⱘЏ㽕ⱘ᭄᥂ᑧ䅵ㅫᴎᑇৄϞഛৃՓ⫼ˈܕ䆌ᇍ PubMed˄MEDINE˅ⱘ䆄ᔩˈḌ㣋䝌੠㲟ⱑ䋼ⱘᑣ᭄߫᥂ˈϝ㓈㒧ᵘֵᙃˈ೒䈅ֵᙃ䖯㸠䲚៤ ⱘ䆓䯂Ǆܼ䚼ֵᙃা䳔㒣䖛ϔ⃵ᶹ䆶ǄEntrez㛑໳䗮䖛᭄᥂ᑧП䯈ⱘϸ⾡㉏ൟ㘨㋏˖Ⳍ䖥ᗻ ੠⹀䖲᥹ᴹᦤկ䲚៤ⱘֵᙃẔ㋶Ǆ Ⳍ䖥ᗻ Ⳍ䖥ᗻ㘨㋏ⴔϔϾ㒭ᅮⱘ᭄᥂ᑧПݙⱘ䆄ᔩǄՓ⫼㗙೼ᶹⳟMEDLINEЁᶤᴵ䆄ᔩᯊৃҹ㽕∖ Entrez"ᡒߎ᠔᳝㉏Ԑⱘ䆎᭛ˈ㉏ԐⱘˈՓ⫼㗙೼ᶹⳟϔϾᑣ߫ⱘৠᯊৃҹ㽕∖Entrez"ᡒߎ ᠔᳝Ϣ䖭Ͼᑣ߫㉏Ԑⱘᑣ߫ǄϔϾ᭄᥂ᑧПݙⱘⳌ䖥ᗻ݇㋏ᰃᓎゟ೼ᇍⳌԐᗻⱘ㒳䅵䅵ㅫϞ ⱘ˖ BLASTᑣ᭄߫᥂ৃҹ⫼෎ᴀሔ䚼ᇍ↨᧰㋶Ꮉ݋˄Basic Local Alignment Search Tool,े BLAST˅ⳌѦ↨䕗Ǆ䖭Ͼㅫ⊩䆩೒ᡒࠄ催ᑺऍ䜡ⱘ⠛↉ᇍ˄high-scoring segment pairs, ㅔ䆄ЎHSPs˅ˈे㛑໳᮴㔎ষⱘᇍ唤Ϩ䖒ࠄϔᅮⱘߚ᭄ⱘ៤ᇍⱘᑣ߫Ǆ㄀ゴ䆺㒚ⱘ䅼䆎њ BLASTㅫ⊩㋏߫ঞᅗӀⱘᑨ⫼Ǆ VAST޴༫ത᭄ᷛ᥂П䯈ⱘ↨䕗䞛⫼ϔ⾡ৡЎVASTⱘ෎Ѣ৥䞣ⱘㅫ⊩ǄVASTेVector Alignment Search Tool˄Madejㄝˈ1995˗Gibratㄝˈ1996˅ǄVASTⱘ↨䕗᳝ϝϾℹ偸˖ 1.㄀ϔˈ೼ത᭄ᷛ᥂ⱘ෎⸔Ϟˈᷛߎ᠔᳝ⱘᵘ៤㲟ⱑ䋼ⱘḌᖗ䚼ߚⱘĮ㶎ᮟ੠ȕ⠛ሖǄ✊ৢḍ ᥂䖭ѯѠ㑻㒧ᵘऩԡⱘԡ㕂䅵ㅫ৥䞣Ǆҹϟⱘℹ偸Փ⫼䖭ѯ৥䞣ᴹخᇍ↨㗠ϡᰃᭈϾϔ༫ത ᷛǄ 2.✊ৢˈㅫ⊩䆩೒᳔Շⱘऍ䜡䖭ѯ৥䞣ˈᇏᡒ㉏ൟ੠ⳌᇍᮍԡⳌৠⱘ៤ᇍⱘ㒧ᵘऩԡˈᑊϨ ೼䖭ѯऩԡП䯈䖬㽕᳝ৠḋⱘ䖲᥹ᮍᓣǄ݊Ⳃᷛ೼Ѣ䆚߿催ᑺⳌԐⱘḌᖗ㒧ᵘˈ䖭ѯ៤ᇍ 㒧ᵘⱘऍ䜡ᗻ㽕↨䱣ᴎⱘ䗝ᢽ㲟ⱑ䋼ⳌѦ↨䕗ᕫࠄⱘ催ᕫ໮Ǆ 3.᳔ৢˈ೼↣Ͼ⅟෎ԡ㕂ϞՓ⫼㩭⡍ˉव⋯ᮍ⊩ᇍ㒧ᵘⱘᥦ߫䖯㸠Ӭ࣪Ǆ ㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶义ⷕˈ2/8 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第五章生物数据库的信息检索页码,3/8 使用这个方法有可能找到一些序列相似性不明显的蛋白质之间的结构上的关系(可能在功能上也有关系)。最后的对齐结果不一定是全局的,可能在不同的蛋白质的单独的结构域之间配对。需要重点注意的是ⅥAST不是确定结构相似性的最好办法,因为还可以利用三维坐标文件中的其它信息来做更进一步的修正,如考虑侧链的位置及侧链之间的相互作用的热力学特点。而把结构压缩成一列矢量必然会导致信息的丢失。然而,考虑到这个问题的数量级一即需要做的成对比较的次数一及采用更高级的方法所需要的计算能力和时间,VAST至少为结构相似性问题提供了一个简单和快速的答案。关于别的基于X射线或№R坐标数据的结构预测方法可以加权的关键词序列数据对比问题与 MEDLI NE记录的对比相比较还是容易一点, MEDLI NE的记录是自由书写的文本,语法上不固定。 Entrez使用了名为"相关配对模式检索"的方法来做这种对比,该方法依靠的基础是加权关键词(Wi|bur和 Caffee,1994; Wi l bur和Yang1996),这个概念用具体的例子来描述比较合适。考虑具有下面两个标题的两篇文稿这两个标题含有公共词BRCA, Breast,和 Cancer,这些公共词的存在显示这些文稿的主题可能是相似的。同时也考虑单词之间的距离,对两条记录中的公共词距离较近的给予较高的分数,分开较远的给予较低的分数。在这个例子中,对词 Breast和 Cancer将给予较高的分数, 因为这两个词是相邻的,比它们之中的任何一个与BRCA之间的距离短。标题中找到的公共的词比摘要中的公共词得分高,因为一般认为标题的词比摘要中的词″更重要"。一个词的总的权重取决于它在MEDL№E中的所有记录中出现的频率,在数据库中总的来说出现较少的词得到较高的权重。如果不算相近关系所基于的那些方法,实际确定和利用这些关系的能力是基于所有这些分支数据库的数据的底层格式。这种格式称为抽象语法形式( Abstract Syntax Notati on,即 ASNI),所有类似的域(如引用书目)可以以完全一样的方式在这种格式中结构化,而不管这条记录是在蛋白质数据库,核酸数据库或其它数据库之中。№CBI的这种数据模式将在第6 中深入的讨论。硬连接硬连接的概念比相近性的概念更容易接受。硬连接用于联系不同的数据库中的记录,只要这些记录之间存在逻辑联系,就存在硬连接。举例来说,如果一条 MEDLI NE记录是关于??装配型质粒的,那么在这条记录和对应的核酸记录之间就建立一条硬连接。如果这个装配型质粒?? 上的一个开放阅读框架编码某种已知的蛋白质,那么在核酸记录和蛋白质记录之间就建立一条硬连接。如果这种蛋白质恰好已经有实验测出了它的结构,那么在这条蛋白质记录和结构记录之间也会建立一条硬连接。相近性和硬连接的关系可以用图5.2来解释。每个分支数据库( MEDLI NE,蛋白质,核酸,结构及基因)用一个五角形表示。从每个五角形引出又回到自身的曲线表示相近性关系,根据相近性关系可以在同一数据库内寻找相关的记录。图的中心从五角形到五角形的直线连接代表硬连接关系。根据硬连接关系可以在几个数据库之间寻找相关记录。使用者通过合理的使用这两种类型的关系可以只进行一次查询就可以获取多得不可思议的信息,比对单个的数据库分别进行查询所花的时间少得多 ##图5.2 Entrez集成信息查询相同中的关系的示意图。每个五角形表示一个数据库;每个五角形上指向自身的曲线代表相近性关系,图的中心的直线表示硬连接搜索的入口点 file://E:wcb生物信息学(中译本)\第五章生物数据库的信息检索.htm 2005-1-18

Փ⫼䖭Ͼᮍ⊩᳝ৃ㛑ᡒࠄϔѯᑣ߫ⳌԐᗻϡᯢᰒⱘ㲟ⱑ䋼П䯈ⱘ㒧ᵘϞⱘ݇㋏˄ৃ㛑೼ࡳ㛑 Ϟг᳝݇㋏˅Ǆ᳔ৢⱘᇍ唤㒧ᵰϡϔᅮᰃܼሔⱘˈৃ㛑೼ϡৠⱘ㲟ⱑ䋼ⱘऩ⣀ⱘ㒧ᵘඳП䯈䜡ᇍǄ 䳔㽕䞡⚍⊼ᛣⱘᰃVASTϡᰃ⹂ᅮ㒧ᵘⳌԐᗻⱘ᳔དࡲ಴ˈ⫣Ў䖬ৃҹ߽⫼ϝ㓈തᷛ᭛ӊЁⱘ ݊ᅗֵᙃᴹخ᳈䖯ϔℹⱘׂℷˈབ㗗㰥ջ䫒ⱘԡ㕂ঞջ䫒П䯈ⱘⳌѦ԰⫼ⱘ⛁࡯ᄺ⡍⚍Ǆ㗠 ᡞ㒧ᵘय़㓽៤ϔ߫ⶶ䞣ᖙ✊Ӯᇐ㟈ֵᙃⱘ϶༅Ǆ✊㗠ˈ㗗㰥ࠄ䖭Ͼ䯂乬ⱘ᭄䞣㑻ˉे䳔㽕خ ⱘ៤ᇍ↨䕗ⱘ⃵᭄ˉঞ䞛⫼᳈催㑻ⱘᮍ⊩᠔䳔㽕ⱘ䅵ㅫ㛑࡯ᯊ੠䯈ˈVAST㟇ᇥЎ㒧ᵘⳌԐᗻ 䯂乬ᦤկњϔϾㅔऩ੠ᖿ䗳ⱘㄨḜǄ݇Ѣ߿ⱘ෎Ѣ;ᇘ㒓៪NMRത᭄ᷛ᥂ⱘ㒧ᵘ乘⌟ᮍ⊩ৃҹ খ㾕㄀11ゴǄ ࡴᴗⱘ݇䬂䆡ᑣ᭄߫᥂ᇍ↨䯂乬ϢMEDLINE䆄ᔩⱘᇍ↨Ⳍ↨䕗䖬ᰃᆍᯧϔ⚍ˈMEDLINEⱘ䆄ᔩ ᰃ㞾⬅кݭⱘ᭛ᴀˈ䇁⊩Ϟϡ೎ᅮǄEntrezՓ⫼њৡЎⳌ݇䜡ᇍ῵ᓣẔ㋶ⱘᮍ⊩ᴹخ䖭⾡ ᇍ↨ˈ䆹ᮍ⊩ձ䴴ⱘ෎⸔ᰃࡴᴗ݇䬂䆡˄Wilbur੠Caffee,1994;Wilbur੠Yang 1996˅ˈ䖭Ͼ ὖᗉ⫼݋ԧⱘ՟ᄤᴹᦣ䗄↨䕗ড়䗖Ǆ㗗㰥݋᳝ϟ䴶ϸϾᷛ乬ⱘϸ㆛᭛〓˖ 䖭ϸϾᷛ乬৿᳝݀݅䆡BRCAI,Breast,੠Cancerˈ䖭ѯ݀݅䆡ⱘᄬ೼ᰒ⼎䖭ѯ᭛〓ⱘЏ乬ৃ㛑 ᰃⳌԐⱘǄৠᯊг㗗㰥ऩ䆡П䯈ⱘ䎱⾏ˈᇍϸᴵ䆄ᔩЁⱘ݀݅䆡䎱⾏䕗䖥ⱘ㒭ќ䕗催ⱘߚ ᭄ˈߚᓔ䕗䖰ⱘ㒭ќ䕗Ԣⱘߚ᭄Ǆ೼䖭Ͼ՟ᄤЁˈᇍ䆡Breast੠Cancerᇚ㒭ќ䕗催ⱘߚ᭄ˈ ಴Ў䖭ϸϾ䆡ᰃⳌ䚏ⱘˈ↨ᅗӀПЁⱘӏԩϔϾϢBRCAIП䯈ⱘ䎱⾏ⷁǄᷛ乬Ёᡒࠄⱘ݀݅ⱘ 䆡↨ᨬ㽕Ёⱘ݀݅䆡ᕫߚ催ˈ಴Ўϔ㠀䅸Ўᷛ乬ⱘ䆡↨ᨬ㽕Ёⱘ䆡᳈䞡㽕ǄϔϾ䆡ⱘᘏⱘ ᴗ䞡পއѢᅗ೼MEDLINEЁⱘ᠔᳝䆄ᔩЁߎ⦃ⱘ乥⥛ˈ೼᭄᥂ᑧЁᘏⱘᴹ䇈ߎ⦃䕗ᇥⱘ䆡ᕫࠄ 䕗催ⱘᴗ䞡Ǆ བᵰϡㅫⳌ䖥݇㋏᠔෎Ѣⱘ䙷ѯᮍ⊩ˈᅲ䰙⹂ᅮ੠߽⫼䖭ѯ݇㋏ⱘ㛑࡯ᰃ෎Ѣ᠔᳝䖭ѯߚᬃ ᭄᥂ᑧⱘ᭄᥂ⱘᑩሖḐᓣǄ䖭⾡Ḑᓣ⿄Ўᢑ䈵䇁⊩ᔶᓣ˄Abstract Syntax Notation,े ASNI˅ˈ᠔᳝㉏Ԑⱘඳ˄བᓩ⫼кⳂ˅ৃҹҹᅠܼϔḋⱘᮍᓣ೼䖭⾡ḐᓣЁ㒧ᵘ࣪ˈ㗠ϡㅵ 䖭ᴵ䆄ᔩᰃ೼㲟ⱑ䋼᭄᥂ᑧˈḌ䝌᭄᥂ᑧ៪݊ᅗ᭄᥂ᑧПЁǄNCBIⱘ䖭⾡᭄᥂῵ᓣᇚ೼㄀ゴ Ё⏅ܹⱘ䅼䆎Ǆ ⹀䖲᥹ ⹀䖲᥹ⱘὖᗉ↨Ⳍ䖥ᗻⱘὖᗉ᳈ᆍᯧ᥹ফǄ⹀䖲᥹⫼Ѣ㘨㋏ϡৠⱘ᭄᥂ᑧЁⱘ䆄ᔩˈা㽕䖭 ѯ䆄ᔩП䯈ᄬ೼䘏䕥㘨㋏ˈህᄬ೼⹀䖲᥹ǄВ՟ᴹ䇈ˈབᵰϔᴵMEDLINE䆄ᔩᰃ݇Ѣ??㺙䜡ൟ 䋼㉦ⱘˈ䙷М೼䖭ᴵ䆄ᔩ੠ᇍᑨⱘḌ䝌䆄ᔩП䯈ህᓎゟϔᴵ⹀䖲᥹Ǆབᵰ䖭Ͼ㺙䜡ൟ䋼㉦?? ϞⱘϔϾᓔᬒ䯙䇏Ḛᶊ㓪ⷕᶤ⾡Ꮖⶹⱘ㲟ⱑ䋼ˈ䙷М೼Ḍ䝌䆄ᔩ੠㲟ⱑ䋼䆄ᔩП䯈ህᓎゟϔ ᴵ⹀䖲᥹Ǆབᵰ䖭⾡㲟ⱑ䋼ᙄདᏆ㒣᳝ᅲ偠⌟ߎњᅗⱘ㒧ᵘˈ䙷М೼䖭ᴵ㲟ⱑ䋼䆄ᔩ੠㒧ᵘ 䆄ᔩП䯈гӮᓎゟϔᴵ⹀䖲᥹Ǆ Ⳍ䖥ᗻ੠⹀䖲᥹ⱘ݇㋏ৃҹ⫼೒5.2ᴹ㾷䞞Ǆ↣Ͼߚᬃ᭄᥂ᑧ˄MEDLINEˈ㲟ⱑ䋼ˈḌ䝌ˈ㒧 ᵘঞ෎಴˅⫼ϔϾѨ㾦ᔶ㸼⼎ǄҢ↣ϾѨ㾦ᔶᓩߎজಲࠄ㞾䑿ⱘ᳆㒓㸼⼎Ⳍ䖥ᗻ݇㋏ˈḍ᥂ Ⳍ䖥ᗻ݇㋏ৃҹ೼ৠϔ᭄᥂ᑧݙᇏᡒⳌ݇ⱘ䆄ᔩǄ೒ⱘЁᖗҢѨ㾦ᔶࠄѨ㾦ᔶⱘⳈ㒓䖲᥹ҷ 㸼⹀䖲᥹݇㋏Ǆḍ᥂⹀䖲᥹݇㋏ৃҹ೼޴Ͼ᭄᥂ᑧП䯈ᇏᡒⳌ݇䆄ᔩǄՓ⫼㗙䗮䖛ড়⧚ⱘՓ ⫼䖭ϸ⾡㉏ൟⱘ݇㋏ৃҹা䖯㸠ϔ⃵ᶹ䆶ህৃҹ㦋প໮ᕫϡৃᗱ䆂ⱘֵᙃˈ↨ᇍऩϾⱘ᭄᥂ ᑧ߿ߚ䖯㸠ᶹ䆶᠔㢅ⱘᯊ䯈ᇥᕫ໮Ǆ ʿʿ೒5.2 Entrez䲚៤ֵᙃᶹ䆶ⳌৠЁⱘ݇㋏ⱘ⼎ᛣ೒Ǆ↣ϾѨ㾦ᔶ㸼⼎ϔϾ᭄᥂ᑧ˗↣Ͼ Ѩ㾦ᔶϞᣛ৥㞾䑿ⱘ᳆㒓ҷ㸼Ⳍ䖥ᗻ݇㋏ˈ೒ⱘЁᖗⱘⳈ㒓㸼⼎⹀䖲᥹Ǆ ᧰㋶ⱘܹষ⚍ ㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶义ⷕˈ3/8 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第五章生物数据库的信息检索页码,4/8 如图5.2所指出的,基本上可以从任何地方开始使用 Entre系统搜索一使用者不必考虑从何处进入信息的空间。然而,选取不同的数据库作为搜索的起点就会有不同的域可以用于搜索。这显然是由于不同类型的数据库中的记录必须有不同的组织方式,以反映了它们所编目的实体的生物学特点。表5.1列出了每个 Entrez系统中的数据库可以用于搜索的域。实现不考虑平台的差异, Entrez的搜索可以用两种界面进行。第一种称为 Networκ K Entrez,是用客户一服务器方式实现的。这是 Entrez程序中最快的,它直接连接到一个NCB的"发送者其图形用户界面的特点是一套窗口。由于客户软件存于用户的计算机上,需要用户去获取, 安装和维护软件,软件加入了新的特征时可以下载更新的部分。安装的过程相当简单。第二种实现方法是在环球网上,称为 WW Entrez或者 b entrez。可以利用各种可用的网页浏览器,例如 nternet explorer或 Netscape,它们把搜索结果传回桌面上。使用网络浏览器的用户不必再确认是否安装了最新的 Entrez版本一只要浏览器是较新的版本,查询的结果总是通过最新的 Entrez版本得到的。Web版还有另外一项用处,上述所有的相近性关系和硬连接关系都可以用超文本表示,用户可以通过点击记录上的特定的词来浏览用网页实现比网络版进步的地方在于网页可以有连接到外部数据源的能力。如由某个杂志或出版社维护的论文的全文版本,或某些本来不是 Entrez组成部分的专门的数据库。网络版的速度上的优势同时导致了这方面的限制,直接连接到NCB发送者意味着用户一旦连接到NCB 就不能再转移到别的任何地方。这两种方法的另一个主要区别在于表达方式上,网络版用套窗口而网页版用一系列的网页,服从标准的网页规范。选择哪一种是用户的爱好问题,两种方法在 Entrez的搜索空间中得到的一样的结果。 Entrez的查询方法:举例 ## 图5.3从 MEDLINE开始作 entrez查询,使用网页版的 Entrez版本 (http://ww.ncbi.nlm.nih.gov/entrez)详细说明参见正文为了解释前面的Eηtrez系统的集成特性并且把相近性联系的特性讲透彻,最好的方法是考虑个生物学的实例。此处使用Web版的 Entrez界面。从NCB|网址上的 Entrez主页开始,用户可以选择组成Enηtrez系统的五个数据库之一作为查询的起点。此处查询从 MEDLINE开始。 PubMed 的査询主页显示于图5.3,此页上的表格要求进行两项选择然后提交査询。首先用户必须选择査询域,把搜索范围限制在数据库入口的一个特定的域上(例如,生物学分类或标题)。其次,用户必须选择一种查询模式,指定客户和服务器的交互方法。如果是 Automatic模式,服务器会自动的査看搜索框中输入的词条,在数据库中査找符合得最好的词条。显然 Automati c 模式和 ist terms模式常常返回同样的结果,但由于在开始查询的时候记录的可能的索引方式用户可能还不太清楚,建议使用 List terms模式。假设用户要检索关于hiv1的摘要。使用 Entrez査询窗口,在查询框中输入hiv1,选定Text Words为检索域(即在标题和摘要中査找HⅤ1的出现),选择 Li st terms为査询模式。(当然也可以用 Organi sm作为检索域;使用两种不同的方法进行检索并观察输出的不同对用户来说是一个很好的练习。)检索命中后会打开一个新的网页(图5.4)。这一页包含一个词条选择窗口,用户可以浏览与原来的词条(HV1)最接近的词条。注意选择窗口在HV1后面还显示了很多略有区别的其它条目。如果用户选择的是 Automati c模式,就会忽略这些额外的条目,这样可能忽略了重要的信息。采用 Li st terms模式,就可以使用户看到原来的检索词的各种变种 ##图5.4在 MEDLINE数据库上进行 Entrez检索查的所有条目。详细说明参见正文 file://E:wcb生物信息学(中译本)\第五章生物数据库的信息检索.htm 2005-1-18

བ೒5.2᠔ᣛߎⱘˈ෎ᴀϞৃҹҢӏԩഄᮍᓔྟՓ⫼Entrz㋏㒳᧰㋶ˉՓ⫼㗙ϡᖙ㗗㰥Ңԩ໘ 䖯ֵܹᙃⱘぎ䯈Ǆ✊㗠ˈ䗝পϡৠⱘ᭄᥂ᑧ԰Ў᧰㋶ⱘ䍋⚍ህӮ᳝ϡৠⱘඳৃҹ⫼Ѣ᧰㋶Ǆ 䖭ᰒ✊ᰃ⬅Ѣϡৠ㉏ൟⱘ᭄᥂ᑧЁⱘ䆄ᔩᖙ乏᳝ϡৠⱘ㒘㒛ᮍᓣˈҹড᯴њᅗӀ᠔㓪Ⳃⱘᅲ ԧⱘ⫳⠽ᄺ⡍⚍Ǆ㸼5.1߫ߎњ↣ϾEntrez㋏㒳Ёⱘ᭄᥂ᑧৃҹ⫼Ѣ᧰㋶ⱘඳǄ ᅲ⦄ ϡ㗗㰥ᑇৄⱘᏂᓖˈEntrezⱘ᧰㋶ৃҹ⫼ϸ⾡⬠䴶䖯㸠Ǆ㄀ϔ⾡⿄ЎNetwork Entrezˈᰃ⫼ ᅶ᠋ˉ᳡ࡵ఼ᮍᓣᅲ⦄ⱘǄ䖭ᰃEntrez⿟ᑣЁ᳔ᖿⱘˈᅗⳈ᥹䖲᥹ࠄϔϾNCBIⱘথ䗕㗙Ǆ ݊೒ᔶ⫼᠋⬠䴶ⱘ⡍⚍ᰃϔ༫にষǄ⬅Ѣᅶ᠋䕃ӊᄬѢ⫼᠋ⱘ䅵ㅫᴎϞˈ䳔㽕⫼᠋এ㦋পˈ ᅝ㺙੠㓈ᡸ䕃ӊˈ䕃ӊࡴܹњᮄⱘ⡍ᕕᯊৃҹϟ䕑᳈ᮄⱘ䚼ߚǄᅝ㺙ⱘ䖛⿟ⳌᔧㅔऩǄ ㄀Ѡ⾡ᅲ⦄ᮍ⊩ᰃ೼⦃⧗㔥Ϟˈ⿄ЎWWW Entrez៪㗙Web EntrezǄৃҹ߽⫼ৃ辵৘⫼ⱘ㔥义 ⌣㾜఼ˈ՟བInternet explorer៪Netscape,ᅗӀᡞ᧰㋶㒧ᵰӴಲḠ䴶ϞǄՓ⫼㔥㒰⌣㾜఼ ⱘ⫼᠋ϡᖙݡ⹂䅸ᰃ৺ᅝ㺙њ᳔ᮄⱘEntrez⠜ᴀˉা㽕⌣㾜఼ᰃ䕗ᮄⱘ⠜ᴀˈᶹ䆶ⱘ㒧ᵰᘏ ᰃ䗮䖛᳔ᮄⱘEntrez⠜ᴀᕫࠄⱘǄWeb⠜䖬᳝঺໪ϔ乍⫼໘ˈϞ䗄᠔᳝ⱘⳌ䖥ᗻ݇㋏੠⹀䖲᥹ ݇㋏䛑ৃҹ⫼䍙᭛ᴀ㸼⼎ˈ⫼᠋ৃҹ䗮䖛⚍ߏ䆄ᔩϞⱘ⡍ᅮⱘ䆡ᴹ⌣㾜Ǆ ⫼㔥义ᅲ⦄↨㔥㒰⠜䖯ℹⱘഄᮍ೼Ѣ㔥义ৃҹ᳝䖲᥹ࠄ໪䚼᭄᥂⑤ⱘ㛑࡯Ǆབ⬅ᶤϾᴖᖫ៪ ߎ⠜⼒㓈ᡸⱘ䆎᭛ⱘܼ᭛⠜ᴀˈ៪ᶤѯᴀᴹϡᰃEntrez㒘៤䚼ߚⱘϧ䮼ⱘ᭄᥂ᑧǄ㔥㒰⠜ⱘ 䗳ᑺϞⱘӬ࢓ৠᯊᇐ㟈њ䖭ᮍ䴶ⱘ䰤ࠊˈⳈ᥹䖲᥹ࠄNCBIথ䗕㗙ᛣੇⴔ⫼᠋ϔᮺ䖲᥹ࠄNCBI ህϡ㛑ݡ䕀⿏߿ࠄⱘӏԩഄᮍǄ䖭ϸ⾡ᮍ⊩ⱘ঺ϔϾЏ㽕ऎ߿೼Ѣ㸼䖒ᮍᓣϞˈ㔥㒰⠜⫼ϔ ༫にষ㗠㔥义⠜⫼ϔ㋏߫ⱘ㔥义ˈ᳡Ңᷛޚⱘ㔥义㾘㣗Ǆ䗝ᢽાϔ⾡ᰃ⫼᠋ⱘ⠅ད䯂乬ˈϸ ⾡ᮍ⊩೼Entrezⱘ᧰㋶ぎ䯈Ёᕫࠄⱘϔḋⱘ㒧ᵰǄ Entrezⱘᶹ䆶ᮍ⊩˖В՟ ʿʿ ೒5.3 ҢMEDLINEᓔྟ԰entrezᶹ䆶ˈՓ⫼㔥义⠜ⱘEntrez⠜ᴀ ˄http://www.ncbi.nlm.nih.gov/entrez˅Ǆ䆺㒚䇈ᯢখ㾕ℷ᭛Ǆ Ўњ㾷䞞ࠡ䴶ⱘEntrez㋏㒳ⱘ䲚៤⡍ᗻᑊϨᡞⳌ䖥ᗻ㘨㋏ⱘ⡍ᗻ䆆䗣ᕏˈ᳔དⱘᮍ⊩ᰃ㗗㰥 ϔϾ⫳⠽ᄺⱘᅲ՟Ǆℸ໘Փ⫼Web⠜ⱘEntrez⬠䴶ǄҢNCBI㔥ഔϞⱘEntrezЏ义ᓔྟˈ⫼᠋ৃ ҹ䗝ᢽ㒘៤Entrez㋏㒳ⱘѨϾ᭄᥂ᑧПϔ԰Ўᶹ䆶ⱘ䍋⚍Ǆℸ໘ᶹ䆶ҢMEDLINEᓔྟǄPubMed ⱘᶹ䆶Џ义ᰒ⼎Ѣ೒5.3ˈℸ义Ϟⱘ㸼Ḑ㽕∖䖯㸠ϸ乍䗝ᢽ✊ৢᦤѸᶹ䆶Ǆ佪ܜ᠋⫼ᖙ乏䗝ᢽ ᶹ䆶ඳˈᡞ᧰㋶㣗ೈ䰤ࠊ೼᭄᥂ᑧܹষⱘϔϾ⡍ᅮⱘඳϞ˄՟བˈ⫳⠽ᄺߚ㉏៪ᷛ乬˅Ǆ݊ ⃵ˈ⫼᠋ᖙ乏䗝ᢽϔ⾡ᶹ䆶῵ᓣˈᣛᅮᅶ᠋੠᳡ࡵ఼ⱘѸѦᮍ⊩ǄབᵰᰃAutomatic῵ᓣˈ᳡ ࡵ఼Ӯ㞾ࡼⱘᶹⳟ᧰㋶ḚЁ䕧ܹⱘ䆡ᴵˈ೼᭄᥂ᑧЁᶹᡒヺড়ᕫ᳔དⱘ䆡ᴵǄᰒ✊Automatic ῵ᓣ੠List Terms῵ᓣᐌᐌ䖨ಲৠḋⱘ㒧ᵰˈԚ⬅Ѣ೼ᓔྟᶹ䆶ⱘᯊ׭䆄ᔩⱘৃ㛑ⱘ㋶ᓩᮍ ᓣ⫼᠋ৃ㛑䖬ϡ໾⏙Ἦˈᓎ䆂Փ⫼List Terms῵ᓣǄ ؛䆒⫼᠋㽕Ẕ㋶݇Ѣhiv 1ⱘᨬ㽕ǄՓ⫼Entrezᶹ䆶にষˈ೼ᶹ䆶ḚЁ䕧ܹhiv 1ˈ䗝ᅮText WordsЎẔ㋶ඳ˄े೼ᷛ乬੠ᨬ㽕ЁᶹᡒHIV 1ⱘߎˈ˅⦃䗝ᢽList TermsЎᶹ䆶῵ᓣǄ˄ᔧ ✊гৃҹ⫼Organism԰ЎẔ㋶ඳ˗Փ⫼ϸ⾡ϡৠⱘᮍ⊩䖯㸠Ẕ㋶ᑊ㾖ᆳ䕧ߎⱘϡৠᇍ⫼᠋ᴹ 䇈ᰃϔϾᕜདⱘ㒗дǄ˅Ẕ㋶ੑЁৢӮᠧᓔϔϾᮄⱘ㔥义˄೒5.4˅Ǆ䖭ϔ义ࣙ৿ϔϾ䆡ᴵ䗝 ᢽにষˈ⫼᠋ৃҹ⌣㾜Ϣॳᴹⱘ䆡ᴵ˄HIV 1˅᳔᥹䖥ⱘ䆡ᴵǄ⊼ᛣ䗝ᢽにষ೼HIV 1ৢ䴶䖬 ᰒ⼎њᕜ໮⬹᳝ऎ߿ⱘ݊ᅗᴵⳂǄབᵰ⫼᠋䗝ᢽⱘᰃAutomatic῵ᓣˈህӮᗑ⬹䖭ѯ乱໪ⱘᴵ Ⳃˈ䖭ḋৃ㛑ᗑ⬹њ䞡㽕ⱘֵᙃǄ䞛⫼List Terms῵ᓣˈህৃҹՓ⫼᠋ⳟࠄॳᴹⱘẔ㋶䆡ⱘ ৘⾡ব⾡Ǆ ʿʿ೒5.4 ೼MEDLINE᭄᥂ᑧϞ䖯㸠EntrezẔ㋶ᶹⱘ᠔᳝ᴵⳂǄ䆺㒚䇈ᯢখ㾕ℷ᭛Ǆ ㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶义ⷕˈ4/8 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第五章生物数据库的信息检索页码,5/8 到这一步还没有实际检索到记录。要检索记录用户要先在词条选择框中点击需要的词条(此处为hiv1)然后点击 Select按钮。随后打开的网页的上部显示了现在检索的状态和查到的记录数(图5.5)。执行上面所述的查询返回了17,943条记录,数量太大了,任何人都无法完全过滤一遍。因此有必要进行修正以减少返回的摘要的数量。如果用户对HV1的杂二聚体?? 的折叠感兴趣,可以用 heterodi mers和 fol di ng作为附加的检索词,重复上面的步骤。虽然每个单独的词都能检索到成千上万条记录,它们的组合只查到6条记录(图5.6)。在 Entrez系统中,缺省的逻辑算符是AND,在检索词下方的修正窗口中可以看到。为了看到实际的检索结果,用户应点击标记为 Retri eve6 Documents的那个按钮;随后会打开新的窗口(图5.7)。窗口中每一条记录有下面几个部分:检查框,第一作者的名字,出版年份,标题,引用信息。选中窗口底部的 Jacopo- Mol i na1993年的记录;点击作者名字打开另一个窗口,这个窗口包括引用信息,论文名称,所有作者列表,来源及摘要,以标准的引用格式书写。图5.7所示的页面上,在 Di spl ay按钮后面的下拉菜单中可以选择一些别的格式。切换到 Abstract格式将得到起来非常相似的记录。差别在于在摘要后面显示了一些分类信息如MeSH 条目以及与这条记录有关的编有索引的材料。使用MEDL|NE格式将打开MEDL|NE/ MEDLL ARS页面,记录的左边有每个域都对应的两个字母的代码(如作者域的代码为AU)。这种格式的记录可以存储而且能容易的输入到第三方的目录管理程序,例如 EndNote和 Reference Manager。在图5.8的上端是一排连接按钮。这是用户可以进一步查看刚才讲过的相近性和硬连接关系的入口点。如果用户点击 Rel ated articles按钮, Entrez会显示出有133条与 Jacobo- Mol i na这条记录相关的记录一即有133条具有相似的主题的记录。一这些论文的前20篇显示在图5.9的个新的列表中。第一篇是原来的那篇关于H∨1反转录酶的晶体结构的论文。这一篇称为原记录,它显示在列表的上端,相近的记录列在后。这些相近记录的排列是按照相似程度降序排列的。因此最靠近原记录的被认为是与原记录最接近的。浏览一下标题用户就可以很容易的找到与HV1的蛋白质有关的结构和功能研究的有关信息,可以很快的得到相关索引的目录。当用户在写论文的时候这种功能尤为有用而且节省时间。因为用户在到图书馆的书架中去寻找之前就可以浏览摘要并选定真正感兴趣的论文从这个新的论文列表中,用户可以通过使用列表中每一项旁边的检査框来找到硬连接的记录。仍然用这个例子,将 Di spl ay按钮后面的下拉菜单选为 Proteins inks然后点击 Di spl ay 按钮,将会从蛋白质数据库中找到与本页这条 MEDLI NE记录有关的19条记录并列表;图5.10显示了其中的6条。这一页的格式与已经在 MEDLINE中见过的那些格式相同,区别在于每条记录后面有一些超链接对应可用的其它格式或对应相近和有硬连接的记录。有用的格式之一是 FASTA,它提供了一种格式可以输入到大多数序列分析程序中去。点击相近蛋白质的超链接所得到的输出大体上是对这个蛋白质序列用 BLAST搜索的结果。用户可以以相似的步骤访问核酸数据库。这次查询得到的蛋白质记录的列表中有HV-A和HVB的记录,是一种HV-1反转录酶在一个点发生突变的突变体(Cys280→Ser)。点击 Graphic View连接将打开一个图形方式的视图看到这条记录的特征表中的所有信息。这个蛋白质有大量的二级结构单元,用这种类型的视图可以很容易的准确的整理出沿着蛋白质链有那些二级结构单元。如果点击标有1 Structure Link的超链接,将打开一个结构一览页面(5.12)。这一页显示的细节是从源PDB文档的标题开始,还有三字母格式的原始结构,到其它信息的链接,如ⅥAST相近记录的列表。如果点击"view/Save:IHV"下面的Ⅵiew按钮,则将调用Cn3D软件,打开新的窗口显示结构透视图。有些用户对于蛋白质的外形的直观形象感兴趣,Cn3D为此提供了强大的界面。它所给出的信息比任何人从观察字符串(蛋白质的序列)中所能得到的信息更多。可以通过窗口底部和右边的滚动条沿着轴旋转蛋白质分子,或者当光标在窗口中时用点击然后拖拉的方式随意的旋转它。用户也可以放大观察结构的某部分,必要时用数字给残基编号;如本例中的一处变异的位点可以标出。用户也可以改变图的着色方案以确定该蛋白质的特殊的结构特征。在图 file://E:wcb生物信息学(中译本)\第五章生物数据库的信息检索.htm 2005-1-18

ࠄ䖭ϔℹ䖬≵᳝ᅲ䰙Ẕ㋶ࠄ䆄ᔩǄ㽕Ẕ㋶䆄ᔩ⫼᠋㽕ܜ೼䆡ᴵ䗝ᢽḚЁ⚍ߏ䳔㽕ⱘ䆡ᴵ˄ℸ ໘Ўhiv 1˅✊ৢ⚍ߏSelectᣝ䪂Ǆ䱣ৢᠧᓔⱘ㔥义ⱘϞ䚼ᰒ⼎њ⦄೼Ẕ㋶ⱘ⢊ᗕ੠ᶹࠄⱘ䆄 ᔩ᭄˄೒5.5˅Ǆᠻ㸠Ϟ䴶᠔䗄ⱘᶹ䆶䖨ಲњ17ˈ943ᴵ䆄ᔩˈ᭄䞣໾໻њˈӏԩҎ䛑᮴⊩ᅠ ܼ䖛Ⓒϔ䘡Ǆ಴ℸ᳝ᖙ㽕䖯㸠ׂℷҹޣᇥ䖨ಲⱘᨬ㽕ⱘ᭄䞣Ǆབᵰ⫼᠋ᇍHIV 1ⱘᴖѠ㘮ԧ?? ⱘᡬ঴ᛳ݈䍷ˈৃҹ⫼heterodimers੠folding԰Ў䰘ࡴⱘẔ㋶䆡ˈ䞡໡Ϟ䴶ⱘℹ偸Ǆ㱑✊↣ Ͼऩ⣀ⱘ䆡䛑㛑Ẕ㋶ࠄ៤गϞϛᴵ䆄ᔩˈᅗӀⱘ㒘ড়াᶹࠄᴵ䆄ᔩ˄೒5.6˅Ǆ೼Entrez㋏㒳Ёˈ㔎ⳕⱘ䘏䕥ㅫヺᰃANDˈ೼Ẕ㋶䆡ϟᮍⱘׂℷにষЁৃҹⳟࠄǄ Ўњⳟࠄᅲ䰙ⱘẔ㋶㒧ᵰˈ⫼᠋ᑨ⚍ߏᷛ䆄ЎRetrieve 6 Documentsⱘ䙷Ͼᣝ䪂˗䱣ৢӮᠧ ᓔᮄⱘにষ˄೒5.7˅ǄにষЁ↣ϔᴵ䆄ᔩ᳝ϟ䴶޴Ͼ䚼ߚ˖ẔᶹḚˈ㄀ϔ԰㗙ⱘৡᄫˈߎ⠜ ᑈӑˈᷛ乬ˈᓩ⫼ֵᙃǄ䗝Ёにষᑩ䚼ⱘJacoco-Molina 1993ᑈⱘ䆄ᔩ˗⚍ߏ԰㗙ৡᄫᠧᓔ ঺ϔϾにষˈ䖭Ͼにষࣙᣀᓩ⫼ֵᙃˈ䆎᭛ৡ⿄ˈ᠔᳝԰㗙߫㸼ˈᴹ⑤ঞᨬ㽕ˈҹᷛޚⱘᓩ ⫼ḐᓣкݭǄ ೒5.7᠔⼎ⱘ义䴶Ϟˈ೼Displayᣝ䪂ৢ䴶ⱘϟᢝ㦰ऩЁৃҹ䗝ᢽϔѯ߿ⱘḐᓣǄߛᤶࠄ AbsttractḐᓣᇚᕫࠄ䍋ᴹ䴲ᐌⳌԐⱘ䆄ᔩǄᏂ߿೼Ѣ೼ᨬ㽕ৢ䴶ᰒ⼎њϔѯߚ㉏ֵᙃབMeSH ᴵⳂҹঞϢ䖭ᴵ䆄ᔩ᳝݇ⱘ㓪᳝㋶ᓩⱘᴤ᭭ǄՓ⫼MEDLINEḐᓣᇚᠧᓔMEDLINE/MEDLIARS义䴶ˈ䆄ᔩⱘᎺ䖍᳝↣Ͼඳ䛑ᇍᑨⱘϸϾᄫ↡ⱘҷⷕ˄བ԰㗙ඳⱘҷⷕЎAU˅Ǆ䖭⾡Ḑᓣⱘ䆄 ᔩৃҹᄬټ㗠Ϩ㛑ᆍᯧⱘ䕧ܹࠄ㄀ϝᮍⱘⳂᔩㅵ⧚⿟ᑣˈ՟བEndNote੠Reference ManagerǄ ೼೒5.8ⱘϞッᰃϔᥦ䖲᥹ᣝ䪂Ǆ䖭ᰃ⫼᠋ৃҹ䖯ϔℹᶹⳟ߮ᠡ䆆䖛ⱘⳌ䖥ᗻ੠⹀䖲᥹݇㋏ⱘ ܹষ⚍Ǆབᵰ⫼᠋⚍ߏRelated Articlesᣝ䪂ˈEntrezӮᰒ⼎ߎ᳝133ᴵϢJacobo-Molina䖭 ᴵ䆄ᔩⳌ݇ⱘ䆄ᔩˉे᳝133ᴵ݋᳝ⳌԐⱘЏ乬ⱘ䆄ᔩǄˉ䖭ѯ䆎᭛ⱘࠡ20㆛ᰒ⼎೼೒5.9ⱘ ϔϾᮄⱘ߫㸼ЁǄ㄀ϔ㆛ᰃॳᴹⱘ䙷㆛݇ѢHIV 1ড䕀ᔩ䝊ⱘ᱊ԧ㒧ᵘⱘ䆎᭛Ǆ䖭ϔ㆛⿄Ўॳ 䆄ᔩˈᅗᰒ⼎೼߫㸼ⱘϞッˈⳌ䖥ⱘ䆄ᔩ߫೼ৢǄ䖭ѯⳌ䖥䆄ᔩⱘᥦ߫ᰃᣝ✻ⳌԐ⿟ᑺ䰡ᑣ ᥦ߫ⱘǄ಴ℸ᳔䴴䖥ॳ䆄ᔩⱘ㹿䅸ЎᰃϢॳ䆄ᔩ᳔᥹䖥ⱘǄ⌣㾜ϔϟᷛ乬⫼᠋ህৃҹᕜᆍᯧ ⱘᡒࠄϢHIV 1ⱘ㲟ⱑ䋼᳝݇ⱘ㒧ᵘ੠ࡳ㛑ⷨおⱘֵ᳝݇ᙃˈৃҹᕜᖿⱘᕫࠄⳌ݇㋶ᓩⱘⳂ ᔩǄᔧ⫼᠋೼ݭ䆎᭛ⱘᯊ׭䖭⾡ࡳ㛑ᇸЎ᳝⫼㗠Ϩ㡖ⳕᯊ䯈Ǆ಴Ў⫼᠋೼ࠄ೒к佚ⱘкᶊЁ এᇏᡒПࠡህৃҹ⌣㾜ᨬ㽕ᑊ䗝ᅮⳳℷᛳ݈䍷ⱘ䆎᭛Ǆ Ң䖭Ͼᮄⱘ䆎᭛߫㸼Ёˈ⫼᠋ৃҹ䗮䖛Փ⫼߫㸼Ё↣ϔ乍ᮕ䖍ⱘẔᶹḚᴹᡒࠄ⹀䖲᥹ⱘ䆄 ᔩǄҡ✊⫼䖭Ͼ՟ᄤˈᇚDisplayᣝ䪂ৢ䴶ⱘϟᢝ㦰ऩ䗝ЎProteins links✊ৢ⚍ߏDisplay ᣝ䪂ˈᇚӮҢ㲟ⱑ䋼᭄᥂ᑧЁᡒࠄϢᴀ义䖭ᴵMEDLINE䆄ᔩ᳝݇ⱘ19ᴵ䆄ᔩᑊ߫㸼˗೒5.10ᰒ ⼎њ݊ЁⱘᴵǄ䖭ϔ义ⱘḐᓣϢᏆ㒣೼MEDLINEЁ㾕䖛ⱘ䙷ѯḐᓣⳌৠˈऎ߿೼Ѣ↣ᴵ䆄ᔩ ৢ䴶᳝ϔѯ䍙䫒᥹ᇍᑨৃ⫼ⱘ݊ᅗḐᓣ៪ᇍᑨⳌ䖥੠᳝⹀䖲᥹ⱘ䆄ᔩǄ᳝⫼ⱘḐᓣПϔᰃ FASTAˈᅗᦤկњϔ⾡Ḑᓣৃҹ䕧ܹࠄ໮໻᭄ᑣ߫ߚᵤ⿟ᑣЁএǄ⚍ߏⳌ䖥㲟ⱑ䋼ⱘ䍙䫒᥹᠔ ᕫࠄⱘ䕧ߎԧ໻Ϟᰃᇍ䖭Ͼ㲟ⱑ䋼ᑣ߫⫼BLAST᧰㋶ⱘ㒧ᵰǄ⫼᠋ৃҹҹⳌԐⱘℹ偸䆓䯂Ḍ䝌 ᭄᥂ᑧǄ 䖭⃵ᶹ䆶ᕫࠄⱘ㲟ⱑ䋼䆄ᔩⱘ߫㸼Ё᳝IHIV-A੠IHIV_Bⱘ䆄ᔩˈᰃϔ⾡HIV-1ড䕀ᔩ䝊೼ϔϾ ⚍থ⫳さবⱘさবԧ˄Cys280ėSer˅Ǆ⚍ߏGraphic View䖲᥹ᇚᠧᓔϔϾ೒ᔶᮍᓣⱘ㾚೒ˈ ⳟࠄ䖭ᴵ䆄ᔩⱘ⡍ᕕ㸼Ёⱘ᠔ֵ᳝ᙃǄ䖭Ͼ㲟ⱑ䋼᳝໻䞣ⱘѠ㑻㒧ᵘऩܗ⫼ˈ䖭⾡㉏ൟⱘ㾚 ೒ৃҹᕜᆍᯧⱘޚ⹂ⱘᭈ⧚ߎ⊓ⴔ㲟ⱑ䋼䫒᳝䙷ѯѠ㑻㒧ᵘऩܗǄབᵰ⚍ߏ᳝ᷛ1 Structure Linkⱘ䍙䫒᥹ˈᇚᠧᓔϔϾ㒧ᵘϔ㾜义䴶˄5.12˅Ǆ䖭ϔ义ᰒ⼎ⱘ㒚㡖ᰃҢ⑤PDB᭛ḷⱘᷛ乬 ᓔྟˈ䖬᳝ϝᄫ↡Ḑᓣⱘॳྟ㒧ᵘˈࠄ݊ᅗֵᙃⱘ䫒᥹ˈབVASTⳌ䖥䆄ᔩⱘ߫㸼Ǆབᵰ⚍ ߏ"View/Save:IHIV"ϟ䴶ⱘViewᣝ䪂ˈ߭ᇚ䇗⫼Cn3D䕃ӊˈᠧᓔᮄⱘにষᰒ⼎㒧ᵘ䗣㾚೒Ǆ ᳝ѯ⫼᠋ᇍѢ㲟ⱑ䋼ⱘ໪ᔶⱘⳈ㾖ᔶ䈵ᛳ݈䍷ˈCn3DЎℸᦤկњᔎ໻ⱘ⬠䴶Ǆᅗ᠔㒭ߎⱘֵ ᙃ↨ӏԩҎҢ㾖ᆳᄫヺІ˄㲟ⱑ䋼ⱘᑣ߫˅Ё᠔㛑ᕫࠄⱘֵᙃ᳈໮Ǆৃҹ䗮䖛にষᑩ䚼੠ে 䖍ⱘ⒮ࡼᴵ⊓ⴔ䕈ᮟ䕀㲟ⱑ䋼ߚᄤˈ៪㗙ᔧܝ೼ᷛにষЁᯊ⫼⚍ߏৢ✊ᢪᢝⱘᮍᓣ䱣ᛣⱘᮟ 䕀ᅗǄ⫼᠋гৃҹᬒ໻㾖ᆳ㒧ᵘⱘᶤ䚼ߚˈᖙ㽕ᯊ⫼᭄ᄫ㒭⅟෎㓪ো˗བᴀ՟Ёⱘϔ໘বᓖ ⱘԡ⚍ৃҹᷛߎǄ⫼᠋гৃҹᬍব೒ⱘⴔ㡆ᮍḜҹ⹂ᅮ䆹㲟ⱑ䋼ⱘ⡍⅞ⱘ㒧ᵘ⡍ᕕǄ೼೒ ㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶义ⷕˈ5/8 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

点击进入文档下载页（PDF格式）

共8页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录