第八章多序列比对的实际应用 页码,1/ 第八章多序列比对的实际应用 Andreas d Baxevanis Genome Technology Branch National human genome research /nsti tude Nationa nsti tutes of heal th Bethesda Maryl and 在寻找基因和致力于发现新蛋白的努力中,人们习惯于把新的序列同已知功能的蛋白序列作 比对。由于这些比对通常都希望能够推测新蛋白的功能,不管它们是双重比对还是多序列比 对,都可以回答大量的其它的生物学问题。举例来说,面对一堆搜集的比对序列,人们会研 究隐含于蛋白之中的系统发生的关系,以便于更好地理解蛋白的进化。人们并不只是着眼于 某一个蛋白,而是研究一个家族中的相关蛋白,看看进化压力和生物秩序如何结合起来创造 出新的具有虽然不同但是功能相关的蛋白。研究完多序列比对中的高度保守区域,我们可以 对蛋白质的整个结构进行预测,并且猜测这些保守区域对于维持三维结构的重要性 显然,分析一群相关蛋白质时,很有必要了解比对的正确构成。发展用于多序列比对的程序 是一个很有活力的研究领域,绝大多数方法都是基于渐进比对( progress/vea/! gnment)的 概念。渐进比对的思想依赖于使用者用作比对的蛋白质序列之间确实存在的生物学上的或者 更准确地说是系统发生学上的相互关联。不同算法从不同方面解决这一问题,但是当比对的 序列大大地超过两个时(双重比对),对于计算的挑战就会很令人生畏。在实际操作中,算 法会在计算速度和获得最佳比对之间寻求平衡,常常会接受足够相近的比对。不管最终使用 的是什么方法,使用者都必须审视结果的比对,因为再次基础上作一些手工修改是十分必要 的,尤其是对保守的区域 由于本书偏重于方法而不是原理,这里只讨论一小部分现成的程序。我们从两个多序列比对 的方法开始,接下去是一系列的利用蛋白质家族中已知的模体或是式样的方法,最后讨论两 个具有赠送的方法,因为绝大多数公开的算法不能达到出版物的数量。在本章结尾部分将会 列出更详细的多序列比对的算法。 渐进比对方法 CLUSTAL W CLUSTAL算算法是一个最广泛使用的多序列比对程序,在任何主要的计算机平台上都可以免费 使用。这个程序基于渐进比对的思想,得到一系列序列的输入,对于每两个序列进行双重比 对并且计算结果。基于这些比较,计算得到一个距离矩阵,反映了每对序列 Bioinformatics: A Practical Gui de to the Anal ysis of genes and Proteins Edi ted by A D. Baxevani s and B.E. E. Ouel lette I SBN 0-471-191965. pages 172-188. Copyri ght c 1998 Wiley Li ss. Inc file://E:wcb生物信息学(中译本)\第八章多序列比对的实际应用.htm 2005-1-18
ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼ Andreas D.Baxevanis Genome Technology Branch National Human Genome Research Institude National Institutes of Health Bethesda.Maryland ᇏᡒ㟈Ѣথ⦄ᮄ㲟ⱑⱘࡾЁˈҎӀдᛃѢᡞᮄⱘᑣ߫ৠᏆⶹࡳ㛑ⱘ㲟ⱑᑣ߫ ↨ᇍDŽ⬅Ѣ䖭ѯ↨ᇍ䗮ᐌ䛑Ꮰᳯ㛑⌟ᮄ㲟ⱑⱘࡳ㛑ˈϡㅵᅗӀᰃঠ䞡↨ᇍ䖬ᰃᑣ߫↨ ᇍˈ䛑ৃҹಲㄨ䞣ⱘ݊ᅗⱘ⫳⠽ᄺ䯂乬DŽВ՟ᴹ䇈ˈ䴶ᇍϔේ᧰䲚ⱘ↨ᇍᑣ߫ˈҎӀӮⷨ お䱤Ѣ㲟ⱑПЁⱘ㋏㒳থ⫳ⱘ݇㋏ˈҹ֓Ѣདഄ⧚㾷㲟ⱑⱘ䖯࣪DŽҎӀᑊϡাᰃⴔⴐѢ ᶤϔϾ㲟ⱑˈ㗠ᰃⷨおϔϾᆊᮣЁⱘⳌ݇㲟ⱑˈⳟⳟ䖯࣪य़⫳⠽⾽ᑣབԩ㒧ড়䍋ᴹ߯䗴 ߎᮄⱘ᳝㱑✊ϡৠԚᰃࡳ㛑Ⳍ݇ⱘ㲟ⱑDŽⷨおᅠᑣ߫↨ᇍЁⱘ催ᑺֱᅜऎඳˈ៥Ӏৃҹ ᇍ㲟ⱑ䋼ⱘᭈϾ㒧ᵘ䖯㸠乘⌟ˈᑊϨ⣰⌟䖭ѯֱᅜऎඳᇍѢ㓈ᣕϝ㓈㒧ᵘⱘ䞡㽕ᗻDŽ ᰒ✊ˈߚᵤϔ㕸Ⳍ݇㲟ⱑ䋼ᯊˈᕜ᳝ᖙ㽕њ㾷↨ᇍⱘℷ⹂ᵘ៤DŽথሩ⫼Ѣᑣ߫↨ᇍⱘᑣ ᰃϔϾᕜ᳝⌏ⱘⷨお乚ඳˈ㒱᭄ᮍ⊩䛑ᰃѢ⏤䖯↨ᇍ˄progressive alignment˅ⱘ ὖᗉDŽ⏤䖯↨ᇍⱘᗱᛇձ䌪ѢՓ⫼㗙⫼↨ᇍⱘ㲟ⱑ䋼ᑣ߫П䯈⹂ᅲᄬⱘ⫳⠽ᄺϞⱘ㗙 ޚഄ⹂䇈ᰃ㋏㒳থ⫳ᄺϞⱘⳌѦ݇㘨DŽϡৠㅫ⊩Ңϡৠᮍ䴶㾷އ䖭ϔ䯂乬ˈԚᰃᔧ↨ᇍⱘ ᑣ߫ഄ䍙䖛ϸϾᯊ˄ঠ䞡↨ᇍ˅ˈᇍѢ䅵ㅫⱘᣥህӮᕜҸҎ⫳⬣DŽᅲ䰙᪡Ёˈㅫ ⊩Ӯ䅵ㅫ䗳ᑺ㦋ᕫ᳔Շ↨ᇍП䯈ᇏ∖ᑇ㸵ˈᐌᐌӮফ䎇Ⳍ䖥ⱘ↨ᇍDŽϡㅵ᳔㒜Փ⫼ ⱘᰃҔМᮍ⊩ˈՓ⫼㗙䛑ᖙ乏ᅵ㾚㒧ᵰⱘ↨ᇍˈЎݡ⸔ϞϔѯᎹׂᬍᰃकߚᖙ㽕 ⱘˈᇸ݊ᰃᇍֱᅜⱘऎඳDŽ ⬅Ѣᴀкأ䞡Ѣᮍ⊩㗠ϡᰃॳ⧚ˈ䖭䞠া䅼䆎ϔᇣ䚼ߚ⦃៤ⱘᑣDŽ៥ӀҢϸϾᑣ߫↨ᇍ ⱘᮍ⊩ᓔྟˈϟএᰃϔ㋏߫ⱘ߽⫼㲟ⱑ䋼ᆊᮣЁᏆⶹⱘԧᰃᓣḋⱘᮍ⊩ˈ᳔ৢ䅼䆎ϸ Ͼ᳝䌴䗕ⱘᮍ⊩ˈЎ㒱᭄݀ᓔⱘㅫ⊩ϡ㛑䖒ߎࠄ⠜⠽ⱘ᭄䞣DŽᴀゴ㒧ሒ䚼ߚᇚӮ ߫ߎ䆺㒚ⱘᑣ߫↨ᇍⱘㅫ⊩DŽ ⏤䖯↨ᇍᮍ⊩ CLUSTAL W CLUSTAL Wㅫ⊩ᰃϔϾ᳔ᑓ⊯Փ⫼ⱘᑣ߫↨ᇍᑣˈӏԩЏ㽕ⱘ䅵ㅫᴎᑇৄϞ䛑ৃҹܡ䌍 Փ⫼DŽ䖭ϾᑣѢ⏤䖯↨ᇍⱘᗱᛇˈᕫࠄϔ㋏߫ᑣ߫ⱘ䕧ܹˈᇍѢ↣ϸϾᑣ߫䖯㸠ঠ䞡↨ ᇍᑊϨ䅵ㅫ㒧ᵰDŽѢ䖭ѯ↨䕗ˈ䅵ㅫᕫࠄϔϾ䎱⾏ⶽ䰉ˈডњ↣ᇍᑣ߫ Bioinformatics: A Practical Guide to the Analysis of genes and Proteins Edited by A.D. Baxevanis and B.E.E. Ouellette ISBN 0-471-191965. pages 172-188. Copyright © 1998 Wiley – Liss. Inc. ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼ 义ⷕˈ1/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第八章多序列比对的实际应用 页码,2/11 的关系,于是,基于邻近加入方法,这个矩阵被用来计算出一个系统发生辅助树。这个辅助 树,加权后可以证实极相近的序列,然后以双重比对极相近的序列开始,为组建比对提供基 础,然后重新比对下一个加入的比对,依次类推。如果加入的序列较多,那么毫无疑问,必 须加入空位以适应序列的差异,但是加入空位必须接受空位开放罚分和空位扩展罚分。在绝 大多数情况下,使用者不会在比对时加入结构信息,但是空位开放补偿利用了可以出现在a 螺旋或β-折叠末端的特殊残基以及空位罚分所偏好的残基,众所周知,这些残基更喜欢显示 这个特异性。已经存在的空位的扩展原则很简单,只是要在那些极有可能在结构中形成弯曲 的位点扩展空位,这些空位扩展罚分计算是有位置决定的 为了介绍基于UNX平台的 CLUSTAL W的使用,考虑一下从四种不同物种来源的UA蛋白(人 类,鼠,Ⅹ enopus I nevis和果蝇)。这四种输入序列放在一个单独的文件中,作成六种可以 接受的格式中的一种,然后在UNX提示符下执行 clustal w,用户必须执行命令才会看见主菜 单 大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大 太杰 CLUSTAL W(1.60) Mul ti pl e Sequence A| i gnments*水大 大大大大大大大大大大大大大大大大大大大大大大大大大大大★大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大 1. Sequence Input From Di sc 2. Mul ti pl e Al i gnments 3. Profile/ structure al i gnments 4. Phyl ogenetic trees S. Execute a system command H. HELP X. EXIT (I eave program) Your choi ce: 1 选择菜单中的选项1( Sequence Input From Di sc)以输入要比对的序列,选择1后会出现序列 输入菜单 Sequences should al l be in 1 ti tle 6 formats accepted NBRF PIR, EMBl, Swi ssProt, Peat son(Fasta), GDE, Cl ustal, GCG MSF Enter the name of the sequence file: UIA segs 系统会提示用户有六种可以接受的格式,然后会提问输入序列的文件名,在这里序列输入文 file://E:wcb生物信息学(中译本)\第八章多序列比对的实际应用.htm 2005-1-18
ⱘ݇㋏ˈѢᰃˈѢ䚏䖥ࡴܹᮍ⊩ˈ䖭Ͼⶽ䰉㹿⫼ᴹ䅵ㅫߎϔϾ㋏㒳থ⫳䕙ࡽᷥDŽ䖭Ͼ䕙ࡽ ᷥˈࡴᴗৢৃҹ䆕ᅲᵕⳌ䖥ⱘᑣ߫ˈ✊ৢҹঠ䞡↨ᇍᵕⳌ䖥ⱘᑣ߫ᓔྟˈЎ㒘ᓎ↨ᇍᦤկ ⸔ˈ✊ৢ䞡ᮄ↨ᇍϟϔϾࡴܹⱘ↨ᇍˈձ㉏DŽབᵰࡴܹⱘᑣ߫䕗ˈ䙷М↿᮴⭥䯂ˈᖙ 乏ࡴܹぎԡҹ䗖ᑨᑣ߫ⱘᏂᓖˈԚᰃࡴܹぎԡᖙ乏ফぎԡᓔᬒ㔮ߚぎԡᠽሩ㔮ߚDŽ㒱 ᭄ᚙމϟˈՓ⫼㗙ϡӮ↨ᇍᯊࡴܹ㒧ᵘֵᙃˈԚᰃぎԡᓔᬒ㸹߽ٓ⫼њৃҹߎ⦃Į- 㶎ᮟȕᡬッⱘ⡍⅞⅟ҹঞぎԡ㔮ߚ᠔أདⱘ⅟ˈӫ᠔਼ⶹˈ䖭ѯ⅟୰ᰒ⼎ 䖭Ͼ⡍ᓖᗻDŽᏆ㒣ᄬⱘぎԡⱘᠽሩॳ߭ᕜㅔऩˈাᰃ㽕䙷ѯᵕ᳝ৃ㛑㒧ᵘЁᔶ៤ᔃ᳆ ⱘԡ⚍ᠽሩぎԡˈ䖭ѯぎԡᠽሩ㔮ߚ䅵ㅫᰃ᳝ԡ㕂އᅮⱘDŽ Ўњҟ㒡ѢUNIXᑇৄⱘCLUSTAL WⱘՓ⫼ˈ㗗㰥ϔϟҢಯ⾡ϡৠ⠽⾡ᴹ⑤ⱘUIA㲟ⱑ˄Ҏ ㉏ˈ哴ˈXenopus laevisᵰ㴛˅DŽ䖭ಯ⾡䕧ܹᑣ߫ᬒϔϾऩ⣀ⱘ᭛ӊЁˈ៤݁⾡ৃҹ ফⱘḐᓣЁⱘϔ⾡ˈ✊ৢUNIXᦤ⼎ヺϟᠻ㸠clustalwˈ⫼᠋ᖙ乏ᠻ㸠ੑҸᠡӮⳟ㾕Џ㦰 ऩ: ********************************************************************* **********CLUSTAL W(1.60) Multiple Sequence Alignments****************** ********************************************************************* 1. Sequence Input From Disc 2. Multiple Alignments 3. Profile / Structure Alignments 4. Phylogenetic trees S. Execute a system command H. HELP X. EXIT (leave program) Your choice: 1 䗝ᢽ㦰ऩЁⱘ䗝乍1(Sequence Input From Disc)ҹ䕧ܹ㽕↨ᇍⱘᑣ߫ˈ䗝ᢽৢӮߎ⦃ᑣ߫ 䕧ܹ㦰ऩ: Sequences should all be in 1 title. 6 formats accepted: NBRF PIR, EMBI, SwissProt, Peat son (Fasta), GDE, Clustal, GCG MSF. Enter the name of the sequence file: UIA.seqs ㋏㒳Ӯᦤ⼎⫼᠋᳝݁⾡ৃҹফⱘḐᓣˈ✊ৢӮᦤ䯂䕧ܹᑣ߫ⱘ᭛ӊৡˈ䖭䞠ᑣ߫䕧ܹ᭛ ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼ 义ⷕˈ2/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第八章多序列比对的实际应用 页码,3/11 件名为UA.seqs,一旦输入这个文件名,屏幕上会显示读取文件的过程,然后返回主菜单, 这时,用户可以选择选项2进行多序列比对 大大大大大大大大大大大大★大大 MULTI PLE ALI GNMENT MENU*大大大大大大大大*大大大大来 1. D0 COMPLETE MULTI PLE ALI GNMENT NOW(SI OW/Accurate 2. Produce gui de tree file onl y 3. do al i gnment usi ng ol d gui de tree file 4. Toggle Sl ow Fast pai rwi se al i gnments= SLOW 5. Pai rwi se al i gnment parameters 6. Mul tipl e al i gnment parameters 7. Reset gaps between al i gnments?= ON 8. Toggl e screen di spl ay= ON 9. Output format opti ons S. Execute a system command H. HELP or press [RETURN] to go back to mai n menu Your choi ce: 1 从这一点看,用户在执行多序列比对时有很多选择的自由,举例来说,在 Mul ti pl e A| i gnment Parameters下,用户可以实际空位开放和扩展的罚分,指出在组建辅助树时分歧 到什么程度证明可以跳过一个序列,选择一个分值矩阵( BLOSUM或PAM),并且可以选择当 个亲水残基出现(或缺失)在一个特异位点时,是否要执行特异性罚分,如果需要,要罚多 少分。在 Pai rwi se Al i gnment Parameters下,用户可以调整用于慢比对和快比对的罚分和窗 口大小。因为在这个例子中,我们没有可以用来指示我们改变比对参数的任何信息,因此只 有选择选项1(" Do compl ete mul ti pl e al i gnment now")。选择选项1后,程序会在屏幕 上显示构件辅助树的过程,然后开始真正的所序列比对 CLUSTA W结束时,会显示最终的比对结果,上述的例子的结果显示在图8.1中。在比对下方 些位点被标记为星号或圆点,这些标记分别显示这些残基在序列中是绝对或是高度保守 的。如果返回的比对出现太多的空位或是不考虑这些蛋白的任何已知信息,用户就可以再修 正参数,然后返回程序,看它是否影响最终的比对。 CLUSTAL W(1. 60)mul ti pl s sequence al i gnment hum-UlA ------MAVPETRPNHTI YI NNLNEKI KKDELKKSLYAI FSQFGQI LDI LVSRSLKMRGQ mse-UlA MATLATMPVPETRANHTI YI NNLNEKI KKDELKKSLYAL SOFGOI LDI LVSRIMKMRGQ xI a-UIA ------MSI OEVRPNNTL YI NNLNEKI KKDELKKSLYAL ESOFGOI LDELVSRNLKMRGO file://E:wcb生物信息学(中译本)\第八章多序列比对的实际应用.htm 2005-1-18
ӊৡЎUIA.seqsˈϔᮺ䕧ܹ䖭Ͼ᭛ӊৡˈሣᐩϞӮᰒ⼎䇏প᭛ӊⱘ䖛ˈ✊ৢ䖨ಲЏ㦰ऩˈ 䖭ᯊˈ⫼᠋ৃҹ䗝ᢽ䗝乍䖯㸠ᑣ߫↨ᇍ: **************** MULTIPLE ALIGNMENT MENU ***************** 1. DO COMPLETE MULTIPLE ALIGNMENT NOW (Slow / Accurate) 2. Produce guide tree file only 3. do alignment using old guide tree file 4. Toggle Slow Fast pairwise alignments = SLOW 5. Pairwise alignment parameters 6. Multiple alignment parameters 7. Reset gaps between alignments? = ON 8. Toggle screen display = ON 9. Output format ooptions S. Execute a system command H. HELP or press [RETURN] to go back to main menu Your choice: 1 Ң䖭ϔ⚍ⳟˈ⫼᠋ᠻ㸠ᑣ߫↨ᇍᯊ᳝ᕜ䗝ᢽⱘ㞾⬅ˈВ՟ᴹ䇈ˈMultiple Alignment Parametersϟˈ⫼᠋ৃҹᅲ䰙ぎԡᓔᬒᠽሩⱘ㔮ߚˈᣛߎ㒘ᓎ䕙ࡽᯊᷥߚFAX ࠄҔМᑺ䆕ᯢৃҹ䏇䖛ϔϾᑣ߫ˈ䗝ᢽϔϾߚؐⶽ䰉˄BLOSUMPAM˅ˈᑊϨৃҹ䗝ᢽᔧϔ Ͼ҆∈⅟ߎ˄⦃㔎༅˅ϔϾ⡍ᓖԡ⚍ᯊˈᰃ৺㽕ᠻ㸠⡍ᓖᗻ㔮ߚˈབᵰ䳔㽕ˈ㽕㔮 ᇥߚDŽPairwise Alignment Parametersϟˈ⫼᠋ৃҹ䇗ᭈ⫼Ѣ᜶↨ᇍᖿ↨ᇍⱘ㔮ߚに ষᇣDŽЎ䖭Ͼ՟ᄤЁˈ៥Ӏ≵᳝ৃҹ⫼ᴹᣛ⼎៥Ӏᬍব↨ᇍখ᭄ⱘӏԩֵᙃˈℸা ᳝䗝ᢽ䗝乍˄”Do complete multiple alignment now”˅DŽ䗝ᢽ䗝乍ৢˈᑣӮሣᐩ Ϟᰒ⼎ᵘӊ䕙ࡽᷥⱘ䖛ˈ✊ৢᓔྟⳳℷⱘ᠔ᑣ߫↨ᇍDŽ CLUSTA W㒧ᴳᯊˈӮᰒ⼎᳔㒜ⱘ↨ᇍ㒧ᵰˈϞ䗄ⱘ՟ᄤⱘ㒧ᵰᰒ⼎8.1ЁDŽ↨ᇍϟᮍˈ ϔѯԡ⚍㹿ᷛ䆄Ў᯳ো⚍ˈ䖭ѯᷛ䆄߿ߚᰒ⼎䖭ѯ⅟ᑣ߫Ёᰃ㒱ᇍᰃ催ᑺֱᅜ ⱘDŽབᵰ䖨ಲⱘ↨ᇍߎ⦃ⱘぎԡᰃϡ㗗㰥䖭ѯ㲟ⱑⱘӏԩᏆⶹֵᙃˈ⫼᠋ህৃҹݡׂ ℷখ᭄ˈ✊ৢ䖨ಲᑣˈⳟᅗᰃ৺ᕅડ᳔㒜ⱘ↨ᇍDŽ CLUSTAL W (1.60) multipls sequence alignment hum-U1A ------MAVPETRPNHTIYINNLNEKIKKDELKKSLYAIFSQFGQILDILVSRSLKMRGQ mse-U1A MATIATMPVPETRANHTIYINNLNEKIKKDELKKSLYAIFSQFGQILDILVSRIMKMRGQ xla-U1A ------MSIQEVRPNNTIYINNLNEKIKKDELKKSLYAIFSQFGQILDELVSRNLKMRGQ ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼ 义ⷕˈ3/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第八章多序列比对的实际应用 页码,4/ ame-UIA MEMLPNQTI YI NNLNEKI KKEELKKSLYAI FSOFGQI LDI VALKTLKMRGO ★大大★大大大大大大大大大大大 大大大大大 hum-UlA AFVI FKEVSSATNALRSMOGFPFYDKPMRI QYAKTDSDI I AKMKGTEVERDRKR-EKRKP mse-UlA AFVI FKEVTSATNALRSMOGFPFYDKPMRI QYAKTDSDI I AKMKGTYVERDRKR-EKRKP xI a-UIA AFVI FKETSSATNALRSMOGFPFYDKPMRI QYSKTDSDI I AKMKGTFVERDRKRQEKRKV dme-U1A AFVI EKEI GSASNALRTMQGFPFYDKPMQL AYSKSDSDI VAKI KGTEKERPKKVKPPKPA 大大大大大大大大大大大大大大大大大大大大大大大大 大大大大大大大大大大★大大 hum-UlA KSOETPATKKAVQGGGATPVVGAVOGPVPGMPPMTOAPRI MHHMPGQPPYMPPPGMI PPP mse-UlA KSOETPAAKKAVOGGAAAPVVGAVO-PVPGMPPMPOAPRI MHHMPGOPPYMPPPGMI PPP xI a-UIA KVPEVOGVKNAMPGAALLPGVPGOMAAMQDMPGMTOAPRMMH-MAGOAPYMHHJPGMPPP dme-U1A PGTDEKKDKKKK hum-UlA GLAPGQI PPGAMPPOQLMPGOMPPAOPLSENPPNHI LFLTNLPEETNELMLSMLFNOFPG mse-UlA GLAPGQI PPGAMPPOQLMPGQMPPAOPLSENPPNHI LELTNLPEETNELMLSMLFNOFPG xI a-UlA GMAPGOMPPGGMPHGOLMPGOMAPMOPI SENPPNHI LFLTNLPEETNELMLSMLFNOFPG dme-UlA SSAENSNP------ NAQTEOPPNQI LFLTNLPEETNEMMLSMLFNOFPG hum-UlA FKEVRLVPGRHDI AFVEFDNEVOAGAARDALOGFKI TONNAMKI SFAKK mse-U1A FKEVRLVPGRHDI AFVEFDNEVOAGAARDALOGFKI TONNAMKI SFAKK xI a-UlA FKEVRLVPGRHDI AFVEFDNEVOAGAARESLOGFKI TOSNSMKI SFAKK dme-U1A FKEVRLVPNRHDI AFVEFTTELOSNAAKEALOGFKI TPTHAMKITFAKK 大大大大大大大 图8.1、以四种U1A序列为一系列的输入序列,使用 CLUSTAL W多序列比对程序后得到的比 对结果。保守性极高的残基位置由星号标记在序列下方的相应位置,保守性稍低的残基由打 点标记出来。 Mul talin file://E:wcb生物信息学(中译本)\第八章多序列比对的实际应用.htm 2005-1-18
dme-U1A ---------MEMLPNQTIYINNLNEKIKKEELKKSLYAIFSQFGQILDIVALKTLKMRGQ * * *************.****************** . . .***** hum-U1A AFVIFKEVSSATNALRSMQGFPFYDKPMRIQYAKTDSDIIAKMKGTFVERDRKR-EKRKP mse-U1A AFVIFKEVTSATNALRSMQGFPFYDKPMRIQYAKTDSDIIAKMKGTYVERDRKR-EKRKP xla-U1A AFVIFKETSSATNALRSMQGFPFYDKPMRIQYSKTDSDIIAKMKGTFVERDRKRQEKRKV dme-U1A AFVIFKEIGSASNALRTMQGFPFYDKPMQIAYSKSDSDIVAKIKGTFKERPKKVKPPKPA ******* **.****.***********.* *.*.****.**.***. ** .* . hum-U1A KSQETPATKKAVQGGGATPVVGAVQGPVPGMPPMTQAPRIMHHMPGQPPYMPPPGMIPPP mse-U1A KSQETPAAKKAVQGGAAAPVVGAVQ-PVPGMPPMPQAPRIMHHMPGQPPYMPPPGMIPPP xla-U1A KVPEVQGVKNAMPGAALLPGVPGQMAAMQDMPGMTQAPRMMH-MAGQAPYMHHJPGMPPP dme-U1A PGTDEKKDKKKK-----------------------------------------------P . * * hum-U1A GLAPGQIPPGAMPPQQLMPGQMPPAQPLSENPPNHILFLTNLPEETNELMLSMLFNQFPG mse-U1A GLAPGQIPPGAMPPQQLMPGQMPPAQPLSENPPNHILELTNLPEETNELMLSMLFNQFPG xla-U1A GMAPGQMPPGGMPHGQLMPGQMAPMQPISENPPNHILFLTNLPEETNELMLSMLFNQFPG dme-U1A SSAENSNP-----------------NAQTEQPPNQILFLTNLPEETNEMMLSMLFNQFPG * . * . .*.***.*************.*********** hum-U1A FKEVRLVPGRHDIAFVEFDNEVQAGAARDALQGFKITQNNAMKISFAKK mse-U1A FKEVRLVPGRHDIAFVEFDNEVQAGAARDALQGFKITQNNAMKISFAKK xla-U1A FKEVRLVPGRHDIAFVEFDNEVQAGAARESLQGFKITQSNSMKISFAKK dme-U1A FKEVRLVPNRHDIAFVEFTTELQSNAAKEALQGFKITPTHAMKITFAKK ********.********* .*.*..**...******* ..***.**** 8.1ǃҹಯ⾡ U1A ᑣ߫Ўϔ㋏߫ⱘ䕧ܹᑣ߫ˈՓ⫼CLUSTAL Wᑣ߫↨ᇍᑣৢᕫࠄⱘ↨ ᇍ㒧ᵰDŽֱᅜᗻᵕ催ⱘ⅟ԡ㕂⬅᯳োᷛ䆄ᑣ߫ϟᮍⱘⳌᑨԡ㕂ˈֱᅜᗻԢⱘ⅟⬅ᠧ ⚍ᷛ䆄ߎᴹDŽ MultiAlin ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼ 义ⷕˈ4/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第八章多序列比对的实际应用 页码,5/11 Mul talin方法也是基于用一系列双重比对开始的思想,然后基于双重比对的打分值进行一个 层次的聚类。当序列都分成类后,开始进行多序列比对,计算出多序列比对中的两个序列比 对的新值,基于这些新值,重新构建一棵树。这个过程不断进行,直到分值不在上升,此时 所序列比对也就结束了。 Mul talin可以在 I NRA Toul ouse的一个环球网点上很容易地执行,要比对的序列按照 FASTA的 格式被粘贴到一个序列输入框内,然后从一系列下拉菜单中,用户定义适当的参数,比如输 出格式,可选的输入格式,引用的分值矩阵以及空位开放和扩展罚分的分值。大多数用户只 会根据输入序列的远近关系,选择不同的分值矩阵。然后,序列被提交到服务器上,当多序 列比对返回时,会计算一个一致序列并显示在比对的下方。举例来说,如图8.1所示的用 CLUSTAL W比对的同样的序列被提交给 Mul talin服务器,接受缺省的比对参数,其结果如图 8.2所示,在一致序列中,所有序列都匹配的残基相应的位置用此残基的大写字母表示,大多 数都匹配的用小写字母表示,同样地,符号!、$、%和#分别表示保守取代,具体含义如图 8.2上方的图例。 很明显,用两种方法分别得到的比对结果并不完全一样。主要区别在于 CLUSTAL W在果蝇序列 中开放了两个长度超过10的空位,而 Mul talin只开放了一个长空位,而且, Mul talin可以得 到比 CLUSTAL W多20个完全相同残基的排队,当然,这并不以为这一种方法比另外一种方法优 越,这有要重提本书的一个不便的话题,即从输入序列的性质出发,应用不同的方法会得到 不同程度的成功。警慎的用户会选择若干个工具同时使用,并且对最终的比对结果作手工修 正以期达到最佳效果。 模体和样式 前面叙述的方法对于多序列比对极为有用,但是用户必须实现搜集好独立的输入序列,要么 通过一系列的 BLAST或其它的数据库搜索,要么在实验室里直接作出决定。但是,有太多的方 法可以获取一个单独的序列,并且基于此序列中的任何模体或样式,返回所有的蛋白质家 族,完成某个特异方法所定义的最佳比对。很多时候,这些方法所揭示的距离关系并非从例 行的标准的数据库搜索中轻易获取。在这一部分,我们讨论两种方法,都是搜索特殊数据库 以获取序列的模体和样式的,当然也是两种从最少的序列信息中进行蛋白质家族分类的强有 力的方法 Profi l escan 基于经典的头文件分析的 Gri skov方法, Profi l escan使用一种称为 pfscan的方法寻找一个蛋 白质或核酸的査询序列同一个头文件库的相似性,因此,在搜索中需要有两个头文件库:第 个是 PROSITE,一个 EXPASy数据库,通过使用模体和序列样式(诸如指纹)将生物学意义重大 的位点收集分类;第二个是Pfam,收集了蛋白质结构域家族,与其它收集方法有很大不同的 是,最初的蛋白质结构域的比对完全是有手工完成的,而不是依靠自动化的处理方法,正因 为这样,Pfam只拥有500多条款目,但这些款目的质量极好。 基于PRoS|TE和Pfam的搜索可以通过访问 Profi l escan的主页完成,她只需要一条简单的输入 序列(用文本格式),或者一个标号,比如一个SWSS-PROT 用户可以选择搜索的敏感 度,选择返回显著的匹配或者所有匹配,甚至包括边界的情况。为了说明输出的格式,我们 现在向PRoS|TE系统提交人类的热休克诱导蛋白的序列作一次搜索 normal i zed taw from to Profi l e descri pti on 355, 9801 41556pos 6-612 PF00012 HSP70 Heat shock hsp70 protein file://E:wcb生物信息学(中译本)\第八章多序列比对的实际应用.htm 2005-1-18
MultAlinᮍ⊩гᰃѢ⫼ϔ㋏߫ঠ䞡↨ᇍᓔྟⱘᗱᛇ✊ৢѢঠ䞡↨ᇍⱘᠧߚؐ䖯㸠ϔϾߚ ሖⱘ㘮㉏DŽᔧᑣ߫䛑ߚ៤㉏ৢˈᓔྟ䖯㸠ᑣ߫↨ᇍˈ䅵ㅫߎᑣ߫↨ᇍЁⱘϸϾᑣ߫↨ ᇍⱘᮄؐˈѢ䖭ѯᮄؐˈ䞡ᮄᵘᓎϔỉᷥDŽ䖭Ͼ䖛ϡᮁ䖯㸠ˈⳈߚࠄؐϡϞछˈℸᯊ ᠔ᑣ߫↨ᇍгህ㒧ᴳњDŽ MultAlinৃҹINRA ToulouseⱘϔϾ⦃⧗㔥⚍Ϟᕜᆍᯧഄᠻ㸠ˈ㽕↨ᇍⱘᑣ߫ᣝ✻FASTAⱘ Ḑᓣ㹿㉬䌈ࠄϔϾᑣ߫䕧ܹḚݙৢ✊ˈҢϔ㋏߫ϟᢝ㦰ऩЁˈ⫼᠋ᅮН䗖ᔧⱘখ᭄ˈ↨བ䕧 ߎḐᓣˈৃ䗝ⱘ䕧ܹḐᓣˈᓩ⫼ⱘߚؐⶽ䰉ҹঞぎԡᓔᬒᠽሩ㔮ߚⱘߚؐDŽ᭄⫼᠋া Ӯḍ䕧ܹᑣ߫ⱘ䖰䖥݇㋏ˈ䗝ᢽϡৠⱘߚؐⶽ䰉DŽ✊ৢˈᑣ߫㹿ᦤѸࠄ᳡ࡵ఼Ϟˈᔧᑣ ߫↨ᇍ䖨ಲᯊˈӮ䅵ㅫϔϾϔ㟈ᑣ߫ᑊᰒ⼎↨ᇍⱘϟᮍDŽВ՟ᴹ䇈ˈབ8.1᠔⼎ⱘ⫼ CLUSTAL W↨ᇍⱘৠḋⱘᑣ߫㹿ᦤѸ㒭MultAlin᳡ࡵˈ఼ফ㔎ⳕⱘ↨ᇍখ᭄ˈ݊㒧ᵰབ 8.2᠔⼎ˈϔ㟈ᑣ߫Ёˈ᠔᳝ᑣ߫䛑ऍ䜡ⱘ⅟Ⳍᑨⱘԡ㕂⫼ℸ⅟ⱘݭᄫ↡㸼⼎ˈ ᭄䛑ऍ䜡ⱘ⫼ᇣݭᄫ↡㸼⼎ˈৠḋഄˈヺোʽǃǃ߿ߚ㸼⼎ֱᅜপҷˈԧНབ 8.2Ϟᮍⱘ՟DŽ ᕜᯢᰒˈ⫼ϸ⾡ᮍ⊩߿ߚᕫࠄⱘ↨ᇍ㒧ᵰᑊϡᅠܼϔḋDŽЏ㽕ऎ߿ѢCLUSTAL Wᵰ㴛ᑣ߫ ЁᓔᬒњϸϾ䭓ᑺ䍙䖛10ⱘぎԡˈ㗠MultAlinাᓔᬒњϔϾ䭓ぎԡˈ㗠ϨˈMultAlinৃҹᕫ ࠄ↨CLUSTAL W20ϾᅠܼⳌৠ⅟ⱘᥦ䯳ˈᔧ✊ˈ䖭ᑊϡҹЎ䖭ϔ⾡ᮍ⊩↨ϔ⾡ᮍ⊩Ӭ 䍞ˈ䖭᳝㽕䞡ᦤᴀкⱘϔϾϡ֓ⱘ䆱乬ˈेҢ䕧ܹᑣ߫ⱘᗻ䋼ߎথˈᑨ⫼ϡৠⱘᮍ⊩Ӯᕫࠄ ϡৠᑺⱘ៤ࡳDŽ䄺ᜢⱘ⫼᠋Ӯ䗝ᢽ㢹ᑆϾᎹৠᯊՓ⫼ˈᑊϨᇍ᳔㒜ⱘ↨ᇍ㒧ᵰᎹׂ ℷҹᳳ䖒ࠄ᳔ՇᬜᵰDŽ ԧḋᓣ ࠡ䴶ভ䗄ⱘᮍ⊩ᇍѢᑣ߫↨ᇍᵕЎ᳝⫼ˈԚᰃ⫼᠋ᖙ乏ᅲ⦄᧰䲚ད⣀ゟⱘ䕧ܹᑣ߫ˈ㽕М 䗮䖛ϔ㋏߫ⱘBLAST݊ᅗⱘ᭄ᑧ᧰㋶ˈ㽕Мᅲ偠ᅸ䞠ⳈއߎᅮDŽԚᰃˈ᳝ⱘᮍ ⊩ৃҹ㦋পϔϾऩ⣀ⱘᑣ߫ˈᑊϨѢℸᑣ߫Ёⱘӏԩԧḋᓣˈ䖨ಲ᠔᳝ⱘ㲟ⱑ䋼ᆊ ᮣˈᅠ៤ᶤϾ⡍ᓖᮍ⊩᠔ᅮНⱘ᳔Շ↨ᇍDŽᕜᯊˈ䖭ѯᮍ⊩᠔ᧁ⼎ⱘ䎱⾏݇㋏ᑊ䴲Ң՟ 㸠ⱘᷛޚⱘ᭄ᑧ᧰㋶Ё䕏ᯧ㦋পDŽ䖭ϔ䚼ߚˈ៥Ӏ䅼䆎ϸ⾡ᮍ⊩ˈ䛑ᰃ᧰㋶⡍⅞᭄ᑧ ҹ㦋পᑣ߫ⱘԧḋᓣⱘˈᔧ✊гᰃϸ⾡Ң᳔ᇥⱘᑣֵ߫ᙃЁ䖯㸠㲟ⱑ䋼ᆊᮣߚ㉏ⱘᔎ᳝ ⱘᮍ⊩DŽ ProfileScan Ѣ㒣ⱘ༈᭛ӊߚᵤⱘGribskovᮍ⊩,ProfileScanՓ⫼ϔ⾡⿄Ўpfscanⱘᮍ⊩ᇏᡒϔϾ㲟 ⱑ䋼Ḍ䝌ⱘᶹ䆶ᑣ߫ৠϔϾ༈᭛ӊᑧⱘⳌԐᗻℸ᧰㋶Ё䳔㽕᳝ϸϾ༈᭛ӊᑧ˖ϔ ϾᰃPROSITEˈϔϾExPASy᭄ᑧˈ䗮䖛Փ⫼ԧᑣ߫ḋᓣ˄䇌བᣛ㒍˅ᇚ⫳⠽ᄺᛣН䞡 ⱘԡ⚍ᬊ䲚ߚ㉏˗ѠϾᰃPfam ,ᬊ䲚њ㲟ⱑ䋼㒧ᵘඳᆊᮣˈϢ݊ᅗᬊ䲚ᮍ⊩᳝ᕜϡৠⱘ ᰃˈ᳔߱ⱘ㲟ⱑ䋼㒧ᵘඳⱘ↨ᇍᅠܼᰃ᳝Ꮉᅠ៤ⱘˈ㗠ϡᰃձ䴴㞾࣪ࡼⱘ໘⧚ᮍ⊩ˈℷ Ў䖭ḋˈPfamাᢹ᳝500ᴵℒⳂˈԚ䖭ѯℒⳂⱘ䋼䞣ᵕདDŽ ѢPROSITEPfamⱘ᧰㋶ৃҹ䗮䖛䆓䯂ProfileScanⱘЏ义ᅠ៤ˈཌྷা䳔㽕ϔᴵㅔऩⱘ䕧ܹ ᑣ߫˄⫼᭛ᴀḐᓣ˅ˈ㗙ϔϾᷛোˈ↨བϔϾSWISS-PROT IDDŽ⫼᠋ৃҹ䗝ᢽ᧰㋶ⱘᬣᛳ ᑺˈ䗝ᢽ䖨ಲᰒ㨫ⱘऍ䜡㗙᠔᳝ऍ䜡ˈ⫮㟇ࣙᣀ䖍⬠ⱘᚙމDŽЎњ䇈ᯢ䕧ߎⱘḐᓣˈ៥Ӏ ⦄PROSITE㋏㒳ᦤѸҎ㉏ⱘ⛁ӥܟ䇅ᇐ㲟ⱑⱘᑣ߫ϔ᧰㋶: normalized taw from to Profile | description 355,9801 41556pos 6 - 612 PF00012 | HSP70 Heat shock hsp70 protein ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼ 义ⷕˈ5/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com