第七章序列比对和数据库搜索 页码,1/2 第七章:序列比对和数据库搜索 gory D. Schuler Nati onal Center for Biotechnol ogy I nformati on Nati onal Li brary of Medi ci ne. Nati onal Insti tutes of Heal th Bethesda. Maryl and 引言 在生物学的研究中,有一个常用的方法,就是通过比较分析获取有用的信息和知识。达尔文正 是研究比较了 gal pagos finches同其它一些物种的形态学特征,从而提出了自然选择学说 今天,我们对基因和蛋白质序列进行比较,从本质上来讲是同达尔文一样,进行同样的分 析,只不过更加精细,更加详尽。在这个意义上,我们从核酸以及氨基酸的层次去分析序列 的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。最常用的比较方法 是序列比对,它为两个或更多个序列的残基之间的相互关系提供了一个非常明确的图谱。在 这一章,我们只讨论一下双重比对,即只比较两个序列,至于较多的序列即多序列比对,将 在第八章介绍。 七十年代以来,DMA测序方法的飞速发展,极大地引发了序列信息量的扩增,从而使可供比较 的序列数量呈现爆炸式增长。分子生物学家应该意识到,将未知序列同整个数据库中的已知 序列进行比较分析已经成为他们手中一个强有力的研究手段。在过去的三十年里,即使不提 及计算机的应用,序列比较的各种算法也已经发展得越来越迅速,也越来越成熟,已经能够 跟上序列数据库增长的步伐。今天,我们已经拥有一些小的模式物种的基因组的全序列,还 拥有人类基因序列的一些较大的样品,我们己经进入比较基因组时代,也就是说,对两个物 种进行全基因组序列比较已经不再是一个梦想。 序列比对的进化基础 进行序列比对的目的之一是让人们能够判断两个序列之间是否具有足够的相似性,从而判定 二者之间是否具有同源性。值得注意的是,相似性和同源性虽然在某种程度上具有一致性, 但它们是完全不同的两个概念。相似性是指一种很直接的数量关系,比如部分相同或相似的 百分比或其它一些合适的度量,而同源性是指从一些数据中推断出的两个基因在进化上曾具 有共同祖先的结论,它是质的判断。基因之间要么同源,要么不同源,绝不象相似性那样具 有多或少的数量关系。如图7.1所示,比较家鼠和小龙虾的同源的胰蛋白酶序列,发现它们具 有41%的相似性 由于受到研究进化关系这一目的的影响,大多数比对方法很自然地都希望能够在某种程度上 建立起分子进化的模型。我们通常都假定同源序列是从某一共同祖先不断变化而来,但事实 上,我们无法得知这个祖先序列到底是什么样子,除非能够从化石中获得它的DNA,我们所能 够做到的只是从现存物种中,探求真相。从祖先序列以来所发生的变化包括取代、插入以及 缺失。在理想情况下,同源基因或蛋白质序列在相互比较时,残基之间相互对应,从而使取 代的情况很明显地表现出来。在某些位置,一个序列中拥有某些残基而另一个序 BioinformaticS: A Practi cal Gui de to the Anal ysis of Genes and proteins Edi ted by A D. Baxevani s and B F.F. Ouel lette I SBN0-471-19196-5 pages 145-171. Copyri ghto 1998 Wiley-Liss. Inc file://E:wcb生物信息学(中译本)\第七章序列比对和数据库搜索.htm 2005-1-18
ϗゴ˖ᑣ߫↨ᇍ᭄ᑧ᧰㋶ Gregory D.Schuler National Center for Biotechnology Information National Library of Medicine. National Institutes of Health Bethesda. Maryland ᓩ㿔 ⫳⠽ᄺⱘⷨおЁ᳝ϔϾᐌ⫼ⱘᮍ⊩ህᰃ䗮䖛↨䕗ߚᵤ㦋প᳝⫼ⱘֵᙃⶹ䆚DŽ䖒ᇨ᭛ℷ ᰃⷨお↨䕗њgalapagos finchesৠ݊ᅗϔѯ⠽⾡ⱘᔶᗕᄺ⡍ᕕˈҢ㗠ᦤߎњ㞾✊䗝ᢽᄺ䇈DŽ Ҟˈ៥Ӏᇍ㲟ⱑ䋼ᑣ߫䖯㸠↨䕗ˈҢᴀ䋼Ϟᴹ䆆ᰃৠ䖒ᇨ᭛ϔḋˈ䖯㸠ৠḋⱘߚ ᵤˈাϡ䖛ࡴ㊒㒚ˈࡴ䆺ሑDŽ䖭ϾᛣНϞˈ៥ӀҢḌ䝌ҹঞ⇼䝌ⱘሖএߚᵤᑣ߫ ⱘⳌৠ⚍ϡৠ⚍ˈҹᳳ㛑⌟ᅗӀⱘ㒧ᵘǃࡳ㛑ҹঞ䖯࣪Ϟⱘ㘨㋏DŽ᳔ᐌ⫼ⱘ↨䕗ᮍ⊩ ᰃᑣ߫↨ᇍˈᅗЎϸϾϾᑣ߫ⱘ⅟П䯈ⱘⳌѦ݇㋏ᦤկњϔϾ䴲ᐌᯢ⹂ⱘ䈅DŽ 䖭ϔゴˈ៥Ӏা䅼䆎ϔϟঠ䞡↨ᇍˈेা↨䕗ϸϾᑣ߫ˈ㟇Ѣ䕗ⱘᑣ߫ेᑣ߫↨ᇍˈᇚ ܿゴҟ㒡DŽ ϗकᑈҷҹᴹˈDNA⌟ᑣᮍ⊩ⱘ亲䗳থሩˈᵕഄᓩথњᑣֵ߫ᙃ䞣ⱘᠽˈҢ㗠Փৃկ↨䕗 ⱘᑣ᭄߫䞣ਜ⦄⟚⚌ᓣ䭓DŽߚᄤ⫳⠽ᄺᆊᑨ䆹ᛣ䆚ࠄˈᇚⶹᑣ߫ৠᭈϾ᭄ᑧЁⱘᏆⶹ ᑣ߫䖯㸠↨䕗ߚᵤᏆ㒣៤ЎҪӀЁϔϾᔎ᳝ⱘⷨお↉DŽ䖛এⱘϝकᑈ䞠ˈेՓϡᦤ ঞ䅵ㅫᴎⱘᑨ⫼ˈᑣ߫↨䕗ⱘ⾡ㅫ⊩гᏆ㒣থሩᕫ䍞ᴹ䍞䖙䗳ˈг䍞ᴹ䍞៤❳ˈᏆ㒣㛑 䎳Ϟᑣ᭄߫ᑧ䭓ⱘℹӤDŽҞˈ៥ӀᏆ㒣ᢹ᳝ϔѯᇣⱘᓣ⠽⾡ⱘ㒘ⱘܼᑣ߫ˈ䖬 ᢹ᳝Ҏ㉏ᑣ߫ⱘϔѯ䕗ⱘḋકˈ៥ӀᏆ㒣䖯ܹ↨䕗㒘ᯊҷˈгህᰃ䇈ˈᇍϸϾ⠽ ⾡䖯㸠ܼ㒘ᑣ߫↨䕗Ꮖ㒣ϡݡᰃϔϾṺᛇDŽ ᑣ߫↨ᇍⱘ䖯࣪⸔ 䖯㸠ᑣ߫↨ᇍⱘⳂⱘПϔᰃ䅽ҎӀ㛑߸ᮁϸϾᑣ߫П䯈ᰃ৺᳝䎇ⱘⳌԐᗻˈҢ㗠߸ᅮ Ѡ㗙П䯈ᰃ৺᳝ৠ⑤ᗻDŽؐᕫ⊼ᛣⱘᰃˈⳌԐᗻৠ⑤ᗻ㱑✊ᶤ⾡ᑺϞ᳝ϔ㟈ᗻˈ ԚᅗӀᰃᅠܼϡৠⱘϸϾὖᗉDŽⳌԐᗻᰃᣛϔ⾡ᕜⳈⱘ᭄䞣݇㋏ˈ↨བ䚼ߚⳌৠⳌԐⱘ ⱒߚ݊↨ᅗϔѯড়䗖ⱘᑺ䞣ˈ㗠ৠ⑤ᗻᰃᣛҢϔѯ᭄ЁᮁߎⱘϸϾ䖯࣪Ϟ᳒ ᳝݅ৠ⼪ܜⱘ㒧䆎ˈᅗᰃ䋼ⱘ߸ᮁDŽП䯈㽕Мৠ⑤ˈ㽕Мϡৠ⑤ˈ㒱ϡ䈵ⳌԐᗻ䙷ḋ ᳝ᇥⱘ᭄䞣݇㋏DŽབ7.1᠔⼎ˈ↨䕗ᆊ哴ᇣ啭㱒ⱘৠ⑤ⱘ㛄㲟ⱑ䝊ᑣ߫ˈথ⦄ᅗӀ ᳝41%ⱘⳌԐᗻDŽ ⬅Ѣফࠄⷨお䖯࣪LTD݇䖭ϔⳂⱘⱘᕅડˈ᭄↨ᇍᮍ⊩ᕜ㞾✊ഄ䛑Ꮰᳯ㛑ᶤ⾡ᑺϞ ᓎゟ䍋ߚᄤ䖯࣪ⱘൟDŽ៥Ӏ䗮ᐌ䛑؛ᅮৠ⑤ᑣ߫ᰃҢᶤϔ݅ৠ⼪ܜϡᮁব࣪㗠ᴹˈԚџᅲ Ϟˈ៥Ӏ᮴⊩ᕫⶹ䖭Ͼ⼪ܜᑣ߫ࠄᑩᰃҔМḋᄤˈ䰸䴲㛑Ң࣪Ё㦋ᕫᅗⱘDNAˈ៥Ӏ᠔㛑 ࠄخⱘাᰃҢ⦄ᄬ⠽⾡Ёˈ∖ⳳⳌDŽҢ⼪ܜᑣ߫ҹᴹ᠔থ⫳ⱘবࣙ࣪ᣀপҷǃᦦܹҹঞ 㔎༅DŽ⧚ᛇᚙމϟˈৠ⑤㲟ⱑ䋼ᑣ߫ⳌѦ↨䕗ᯊˈ⅟П䯈ⳌѦᇍᑨˈҢ㗠Փপ ҷⱘᚙމᕜᯢᰒഄ㸼⦄ߎᴹDŽᶤѯԡ㕂ˈϔϾᑣ߫Ёᢹ᳝ᶤѯ⅟㗠ϔϾᑣ Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins Edited by A.D.Baxevanis and B.F.F.Ouellette ISBN 0-471-19196-5.pages 145-171. Copyright© 1998 Wiley-Liss. Inc. ϗゴᑣ߫↨ᇍ᭄ᑧ᧰㋶ 义ⷕˈ1/28 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ϗゴᑣ߫↨ᇍ᭄ᑧ᧰㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第七章序列比对和数据库搜索 页码,2/28 列中缺少这种残基,表明这些残基是插入到前者或是从后者中丢失的。这些空位在序列比对 时用连续的短线填补。如图7.1,在序列比对中,发现了5个空位 Mouse i VgGYnceeNSvPYoVSLNs-----GYHFCGGSLI NEOWVVSAGHCYK SRIOV Crayfish IVGGTDAVLGEFPYOLSFQETFLGFSFHFCGASI YNENYAI TAGHCVYGDDYENPSGLQI Mouse RlgeHNi evlegneofi NAaKl i rHPoydrKtLNnDi mLl KlSSRAVi NARvSTI septa Crayfi sh VAGELDMSVNEGSEQTLTVSKI ILHENFDYDLLDNDI SLLKLSGSLTFNNNVAPIALPAQ -S-S- Mouse ppatgtKCLi sgWgntasSgadyPdeloCldAPVlsoAKceASYPg-KI TSNMFCVGFLE Crayfish GHTATGNVIVTGWG-TTSEGGNTPDVLOKVTVPLVSDAECRDDYGADEIFDSMI CAGVPE ◇+------S Mouse ggKdsCogDSGGPWCNG----QLOGVVSWGDGCAOKNKPGVYTKVYNYVKWI KNTI AAN Crayfish GGKDSCOGDSGGPLAASDTGSTYLAGI VSWGYGCARPGYPGVYTEVSYHVDWI KANAV 图7.1、保守位点通常在功能上极为重要。对老鼠的胰蛋白酶( Swiss- Prot p07146)和小龙 虾的胰蛋白酶( Swiss- Prot p00765)作比对,相同的残基用下标线标出,在比对上方标出的 是三个二硫键(-S-S),这些二硫键中的半胱氨酸残基极为保守,打星号的残基的侧链参与 电荷传递系统,打菱形符号的活性位点的残基负责底物的特异性 在残基-残基比对中,很明显,某些位置的氨基酸残基相对于其它位置的残基具有较高的保守 性,这个信息揭示了某些残基对于一个蛋白质的结构和功能是极为重要的。如图7.1所示,处 于活性位点的残基都是极为保守的,比如形成二硫键的半胱氨酸,参与电子传递的氨基酸残 基以及决定底物特异性的氨基酸残基。这些保守的残基对于保持蛋白的结构与功能非常重 要,另一方面,由于历史原因,某些保守位置对蛋白功能并无太大的重要性。当我们处理非 常相近的物种时必须十分小心,因为相似性在某些情况下更多地是历史的反映而不是功能的 反映,比如,muse和rat的某些序列具有高度的相似性,可能仅仅是因为没有足够的时间进 行分化而已。尽管如此,系列比对仍然是从已知获得未知的一个十分有用的方法,比如通过 比较一个新的蛋白同其它已经经过深入研究的蛋白,可以推断这个未知蛋白的结构与功能的 某些性质。必须指出的是,不能够仅仅是通过比较分析这一判据来断定结论是否正确,结论 还必须经过实验验证。 当我们发现两个基因或蛋白质具有惊人的相似性时,我们会认为他们之间具有一段共同的进 化历程,从而我们判断他们会具有相似的生物学功能,但是,这个推断在成为结论之前必须 经过实验的验证。例如,ξ-晶状物是脊椎动物眼睛里晶状体基质的组成部分,根据序列相似 性的基础,它在E.coli中的同源物是代谢酶苯醌氧化还原酶(如图7.2),不管二者的共同祖 file://E:wcb生物信息学(中译本)\第七章序列比对和数据库搜索.htm 2005-1-18
߫Ё㔎ᇥ䖭⾡⅟ˈ㸼ᯢ䖭ѯ⅟ᰃᦦܹࠄࠡ㗙ᰃҢৢ㗙Ё϶༅ⱘDŽ䖭ѯぎԡᑣ߫↨ᇍ ᯊ⫼䖲㓁ⱘⷁ㒓฿㸹DŽབ7.1ˈᑣ߫↨ᇍЁˈথ⦄њϾぎԡDŽ |------ S-S-------*| Mouse IVGGYNCEENSVPYQVSLNS-----GYHFCGGSLINEQWVVSAGHCYK-------SRIQV Crayfish IVGGTDAVLGEFPYQLSFQETFLGFSFHFCGASIYNENYAITAGHCVYGDDYENPSGLQI * Mouse RLGEHNIEVLEGNEQFINAAKIIRHPQYDRKTLNNDIMLIKLSSRAVINARVSTISLPTA Crayfish VAGELDMSVNEGSEQTITVSKIILHENFDYDLLDNDISLLKLSGSLTFNNNVAPIALPAQ |---- S-S--------| Mouse PPATGTKCLISGWGNTASSGADYPDELQCLDAPVLSQAKCEASYPG-KITSNMFCVGFLE Crayfish GHTATGNVIVTGWG-TTSEGGNTPDVLQKVTVPLVSDAECRDDYGADEIFDSMICAGVPE ƺ *|-------------S-S------------------| Mouse GGKDSCQGDSGGPVVCNG----QLQGVVSWGDGCAQKNKPGVYTKVYNYVKWIKNTIAAN Crayfish GGKDSCQGDSGGPLAASDTGSTYLAGIVSWGYGCARPGYPGVYTEVSYHVDWIKANAV-- 7.1ǃֱᅜԡ⚍䗮ᐌࡳ㛑ϞᵕЎ䞡㽕DŽᇍ㗕哴ⱘ㛄㲟ⱑ䝊˄Swiss-Prot P07146˅ᇣ啭 㱒ⱘ㛄㲟ⱑ䝊˄Swiss-Prot P00765˅↨ᇍˈⳌৠⱘ⅟⫼ϟᷛ㒓ᷛߎ↨ˈᇍϞᮍᷛߎⱘ ᰃϝϾѠ⸿䬂˄-S-S˅ˈ䖭ѯѠ⸿䬂Ёⱘञ㛅⇼䝌⅟ᵕЎֱᅜˈᠧ᯳োⱘ⅟ⱘջ䫒খϢ ⬉㥋Ӵ䗦㋏㒳ˈᠧ㧅ᔶヺোⱘ⌏ᗻԡ⚍ⱘ⅟䋳䋷ᑩ⠽ⱘ⡍ᓖᗻDŽ ⅟⅟↨ᇍЁˈᕜᯢᰒˈᶤѯԡ㕂ⱘ⇼䝌⅟ⳌᇍѢ݊ᅗԡ㕂ⱘ⅟᳝䕗催ⱘֱᅜ ᗻˈ䖭Ͼֵᙃᧁ⼎њᶤѯ⅟ᇍѢϔϾ㲟ⱑ䋼ⱘ㒧ᵘࡳ㛑ᰃᵕЎ䞡㽕ⱘDŽབ7.1᠔⼎ˈ໘ Ѣ⌏ᗻԡ⚍ⱘ⅟䛑ᰃᵕЎֱᅜⱘˈ↨བᔶ៤Ѡ⸿䬂ⱘञ㛅⇼䝌ˈখϢ⬉ᄤӴ䗦ⱘ⇼䝌⅟ ҹঞއᅮᑩ⠽⡍ᓖᗻⱘ⇼䝌⅟DŽ䖭ѯֱᅜⱘ⅟ᇍѢֱᣕ㲟ⱑⱘ㒧ᵘϢࡳ㛑䴲ᐌ䞡 㽕ˈϔᮍ䴶ˈ⬅Ѣग़ॳˈᶤѯֱᅜԡ㕂ᇍ㲟ⱑࡳ㛑ᑊ᮴ⱘ䞡㽕ᗻDŽᔧ៥Ӏ໘⧚䴲 ᐌⳌ䖥ⱘ⠽⾡ᯊᖙ乏कߚᇣᖗˈЎⳌԐᗻᶤѯᚙމϟഄᰃग़ⱘড㗠ϡᰃࡳ㛑ⱘ ডˈ↨བˈmouseratⱘᶤѯᑣ᳝߫催ᑺⱘⳌԐᗻˈৃ㛑ҙҙᰃЎ≵᳝䎇ⱘᯊ䯈䖯 㸠࣪ߚ㗠ᏆDŽሑㅵབℸˈ㋏߫↨ᇍҡ✊ᰃҢᏆⶹ㦋ᕫⶹⱘϔϾकߚ⫼᳝ⱘᮍ⊩ˈ↨བ䗮䖛 ↨䕗ϔϾᮄⱘ㲟ⱑৠ݊ᅗᏆ㒣㒣䖛⏅ܹⷨおⱘ㲟ⱑˈৃҹᮁ䖭Ͼⶹ㲟ⱑⱘ㒧ᵘϢࡳ㛑ⱘ ᶤѯᗻ䋼DŽᖙ乏ᣛߎⱘᰃˈϡ㛑ҙҙᰃ䗮䖛↨䕗ߚᵤ䖭ϔ߸ᴹᮁᅮ㒧䆎ᰃ৺ℷ⹂ˈ㒧䆎 䖬ᖙ乏㒣䖛ᅲ偠偠䆕DŽ ᔧ៥Ӏথ⦄ϸϾ㲟ⱑ䋼᳝ҎⱘⳌԐᗻᯊˈ៥ӀӮ䅸ЎҪӀП䯈᳝ϔ↉݅ৠⱘ䖯 ࣪ग़ˈҢ㗠៥Ӏ߸ᮁҪӀӮ᳝ⳌԐⱘ⫳⠽ᄺࡳ㛑ˈԚᰃˈ䖭Ͼᮁ៤Ў㒧䆎Пࠡᖙ乏 㒣䖛ᅲ偠ⱘ偠䆕DŽ՟བˈȗ⢊⠽ᰃ㛞Ợࡼ⠽ⴐ䞠⢊ԧ䋼ⱘ㒘៤䚼ߚˈḍᑣ߫ⳌԐ ᗻⱘ⸔ˈᅗE.coliЁⱘৠ⑤⠽ᰃҷ䇶䝊㣃䝠⇻࣪䖬ॳ䝊˄བ7.2˅ˈϡㅵѠ㗙ⱘ݅ৠ⼪ ϗゴᑣ߫↨ᇍ᭄ᑧ᧰㋶ 义ⷕˈ2/28 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ϗゴᑣ߫↨ᇍ᭄ᑧ᧰㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第七章序列比对和数据库搜索 页码,3/2 先如何,它们的功能在进化中已经改变了( Gonzalez et al.,1994)。这就好象火车变成了 铁路餐车,虽然对二者的外部结构的观察揭示了它们结构的历史,但是仅仅根据这一信息往 往会得出有关其功能的错误结论。当一个基因适应了一个新的功能时,保守位置通常也会发 生一些形式上的变化,比如,当蛋白具有催化功能时,活性为点的残基相当保守,而当蛋白 功能改变时,这些残基将会发生漂移。 Human-ZCr MATGOKLMRAVRVFEFGGPEVLKLRSDI AVPI PKDHOVLI KVHACGVNPVETYI RSGTYS Ecol i-OOR MATRI EFHKHGGPEVLOA-VEFTPADPAENEI OVENKAI GI NFI DTYI RSGLYP Human -ZCr RKPLLPYTPGSDVAGVI EAVGDNASAFKKGDRVETSSTI SGGYAEYALAADHTVYKLPEK Ecol i-OOR -PPSLPSGLGTEAAGI VSKVGSGVKHI KAGDRWVYAQSALGAYSSVHNI I ADKAAI LPAA 大大大★ 大大大大大 luman -ZCr LDFKOGAAI GI PYFTAYRALI HSACVKAGESVLVHGASGGVGLAACQL ARAYGLKI LGTA Ecol i-OOR I SFEOAAASFLKGLTVYYLLRKTYEI KPDEOFLFHAAAGGVGLI ACOWAKALGAKLI GTV Human-ZCr GTEEGOKI VLONGAHEVFNHREVNYI DK I KKYVGEKGI DI II EMLANVNLSKDLSLLSHG Ecol i-QOR GTAOKAQSALKAGAWQVI NYREEDLVERLKEI TGGKKVRVVYDSVGRDTWERSLDCLORR Human -ZCr GRVIVVG-SRGTI EI NPROTMAKES----SI I GVTLFSSTKEEFOQYAAALOAGMEI GWL ECol i-OOR GLMVSFGNSSGAVTGVNLGI LNOKGSLYVTRPSLOGYI TTREELTEASNELFSLIASGVI 大大大 大大★ Human -ZCr KPVI GSQ--YPLEKVAEAHENI I HGSGATGKMI LLL Ecol i-OOR KVDVAEOQKYPLKDAORAHE-I LESRATOGSSLLI P 图72、最佳全局比对:对人类晶状物( Swi ss-Prot008257)和E.col苯醌氧化还原酶 ( Swi ss-- Prot p28304)的氨基酸序列进行比对。这是一个由 CLUSTAL W程序( Hi ggi ns et a.,1996)得到的最佳全局比对结果。在比对下方,星号表示残基相同,打点表示这个残基 是保守的。 早期的序列比对方法只应用于那些在全长范围内具有简单相似性的一些序列。全序列比就 是对序列进行全程扫描,进行比较。以上讨论的胰蛋白酶和ξ晶状物之间的比较就属于全序 列比对。具有简单的球形结构域的蛋白一般可以使用全序列比对的策略,以为所有的同源序 列尚未经过实质上的变化 file://E:wcb生物信息学(中译本)\第七章序列比对和数据库搜索.htm 2005-1-18
ܜབԩˈᅗӀⱘࡳ㛑䖯࣪ЁᏆ㒣ᬍবњ˄Gonzalez et al.,1994˅DŽ䖭ህད䈵☿䔺ব៤њ 䪕䏃令䔺ˈ㱑✊ᇍѠ㗙ⱘ䚼㒧ᵘⱘ㾖ᆳᧁ⼎њᅗӀ㒧ᵘⱘग़ˈԚᰃҙҙḍ䖭ϔֵᙃᕔ ᕔӮᕫߎ᳝݊݇ࡳ㛑ⱘ䫭䇃㒧䆎DŽᔧϔϾ䗖ᑨњϔϾᮄⱘࡳ㛑ᯊˈֱᅜԡ㕂䗮ᐌгӮথ ⫳ϔѯᔶᓣϞⱘব࣪↨ˈབˈᔧ㲟ⱑ᳝ࡳ࣪ڀ㛑ᯊˈ⌏ᗻЎ⚍ⱘ⅟Ⳍᔧֱᅜˈ㗠ᔧ㲟ⱑ ࡳ㛑ᬍবᯊˈ䖭ѯ⅟ᇚӮথ⫳ⓖ⿏DŽ Human-ZCr MATGQKLMRAVRVFEFGGPEVLKLRSDIAVPIPKDHQVLIKVHACGVNPVETYIRSGTYS Ecoli-QOR ------MATRIEFHKHGGPEVLQA-VEFTPADPAENEIQVENKAIGINFIDTYIRSGLYP . . ******. . . * …. . . * *.* ..****** * Human-ZCr RKPLLPYTPGSDVAGVIEAVGDNASAFKKGDRVFTSSTISGGYAEYALAADHTVYKLPEK Ecoli-QOR -PPSLPSGLGTEAAGIVSKVGSGVKHIKAGDRVVYAQSALGAYSSVHNIIADKAAILPAA * ** *.. **.. ** . * **** . . * *. ** Human-ZCr LDFKQGAAIGIPYFTAYRALIHSACVKAGESVLVHGASGGVGLAACQIARAYGLKILGTA Ecoli-QOR ISFEQAAASFLKGLTVYYLLRKTYEIKPDEQFLFHAAAGGVGLIACQWAKALGAKLIGTV . * * ** . * * * .. .* * * * *.***** *** *.* * *..** Human-ZCr GTEEGQKIVLQNGAHEVFNHREVNYIDKIKKYVGEKGIDIIIEMLANVNLSKDLSLLSHG Ecoli-QOR GTAQKAQSALKAGAWQVINYREEDLVERLKEITGGKKVRVVYDSVGRDTWERSLDCLQRR ** . . *. ** .* * ** …. * * * . .. . . . . * * . Human-ZCr GRVIVVG-SRGTIEINPROTMAKES----SIIGVTLFSSTKEEFQQYAAALQAGMEIGWL Ecoli-QOR GLMVSFGNSSGAVTGVNLGILNQKGSLYVTRPSLQGYITTREELTEASNELFSLIASGVI * .. * * *.. . . . . . .*.** . . * . . * . Human-ZCr KPVIGSQ--YPLEKVAEAHENIIHGSGATGKMILLL Ecoli-QOR KVDVAEQQKYPLKDAQRAHE-ILESRATQGSSLLIP * . * *** *** *. . * .*. 7.2ǃ᳔Շܼሔ↨ᇍ˖ᇍҎ㉏ȗ⢊⠽˄Swiss-Prot Q08257˅E.coli㣃䝠⇻࣪䖬ॳ䝊 ˄Swiss-Prot P28304˅ⱘ⇼䝌ᑣ߫䖯㸠↨ᇍDŽ䖭ᰃϔϾ⬅CLUSTAL Wᑣ˄Higgins et al., 1996˅ᕫࠄⱘ᳔Շܼሔ↨ᇍ㒧ᵰDŽ↨ᇍϟᮍˈ᯳ো㸼⼎⅟Ⳍৠˈᠧ⚍㸼⼎䖭Ͼ⅟ ᰃֱᅜⱘDŽ ᮽᳳⱘᑣ߫↨ᇍᮍ⊩াᑨ⫼Ѣ䙷ѯܼ䭓㣗ೈݙ᳝ㅔऩⳌԐᗻⱘϔѯᑣ߫DŽܼᑣ߫↨ᇍህ ᰃᇍᑣ߫䖯㸠ܼᠿᦣˈ䖯㸠↨䕗DŽҹϞ䅼䆎ⱘ㛄㲟ⱑ䝊ȗ⢊⠽П䯈ⱘ↨䕗ህሲѢܼᑣ ߫↨ᇍDŽ᳝ㅔऩⱘ⧗ᔶ㒧ᵘඳⱘ㲟ⱑϔ㠀ৃҹՓ⫼ܼᑣ߫↨ᇍⱘㄪ⬹ˈҹЎ᠔᳝ⱘৠ⑤ᑣ ߫ᇮ㒣䖛ᅲ䋼Ϟⱘব࣪ ϗゴᑣ߫↨ᇍ᭄ᑧ᧰㋶ 义ⷕˈ3/28 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ϗゴᑣ߫↨ᇍ᭄ᑧ᧰㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第七章序列比对和数据库搜索 页码,4/2 Q 蛋白质的模块性质 许多蛋白质在全程范围内并不具有相似性,但却似乎是由众多的模块结构域搭建而成。图7.3 描述了这样的一个例子,如图所示的是在血凝过程中的两种蛋白的组成结构,它们是凝血因 子Ⅺl(F12)和组织型血纤蛋白溶酶原活化因子(PLAT),除了具有丝氨酸蛋白酶活性的催 化结构域,这两种蛋白还具有不同数量的其它结构域单元,包括两种纤连蛋白重复,一个类 似于上皮生长因子的结构域以及一个成为“ kringle”域的单元。这些组分可以以不同顺序反 复出现,组分形式的不同通常是由于整个外显子交换引起的。由于全程比对建立时,基因的 外显子/内含子结构还没有被发现,因此全程比对并没有顾及到上述现象的重要性,这是可以 理解的。在大多数情况下,使用局部比对是较为合理的,这种比对方法可能会揭示一些匹配 的序列段,而本来这些序列段是被一些完全不相关联的残基所淹没的,因此,操作者应该明 白,如果不恰当地使用了全程比对,很可能会掩埋一些局部的相似性。设计局部比对的另外 个很明显的原因就是在比较一个拼接后的mRNA和它的基因序列时,每个外显子都应该进行 局部比对。 图7.3、血凝过程中的两中蛋白的模块结构:人类组织血纤蛋白溶酶原活化因子以及凝血因 X的模块结构的示意图。标记为 Catalytic的模块在若干种凝血蛋白中是常见的,F1和F2是 较为常见的重复模块,首先在纤连蛋白中被发现。E模块同表皮生长因子极为类似。通常称 为" Kringle domain”的模块被标记为。 点阵描述方法之所以广泛流行,其部分原因就在于它能够揭示出拥有多个局部相似性的复杂 关系,图7.4就是应用这种处理后的一个例子。图中F12和PAT蛋白质序列使用D0TER程序进 行比较(软件可见本章结尾列表),其基本思路就是把两个序列分别作为一个二维坐标系中 的两个坐标轴,在这个坐标系区域内,如果某一点所对应的横轴坐标和纵轴坐标所对应的两 条序列的残基相同,则在这个位置上打上标记点,每个点通常都表示在一些小窗口中,序列 相似性高于其它一些隔绝的区域(或者由D0TTER程序定义的隔绝区域,由不同的灰色阴影标 记)。如果两个序列在一段区域内很相似,标记点将会连成一条斜线段,将这些线段的位置 同图7.3中两个蛋白的已知的组成结构相比较是很有价值的,特别是要注意连续反复出现的结 构域的出现方式。从PLAT的 kri ngl e结构域开始水平扫描,可以发现两条线段对应于F12序列 中的两个 kringle结构域,虽然现在我们已经拥有许多更复杂更精确的方法来寻求局部相似性 (下面将会讨论),点阵描述方法仍然是一个很流行很有效的描述方法 图7.4、点阵序列比较:对人类凝血因子(F12:Swss- Prot p00748)和组织血纤蛋白溶 酶原活化因子(PLAT:SWss- Prot p00750)的氨基酸序列进行打点比较。这个图由 DOTTER程 序( Sonnhammer and durbar,19%)产生。 在点阵描述方法中,某些形式的点可能会勾勒出一定的路径,但这需要操作者通过这些信息 进行推理,另外一个图形描述方法即路径郾提供了更直接明了的比较结果,图7.5描述了PL AT和PLAU中与EGF相似的结构域之间进行比较时的比对、点阵和路径图三种方法的 关系。 file://E:wcb生物信息学(中译本)\第七章序列比对和数据库搜索.htm 2005-1-18
㲟ⱑ䋼ⱘഫᗻ䋼 䆌㲟ⱑ䋼ܼ㣗ೈݙᑊϡ᳝ⳌԐᗻˈԚैԐТᰃ⬅ӫⱘഫ㒧ᵘඳᨁᓎ㗠៤DŽ7.3 ᦣ䗄њ䖭ḋⱘϔϾ՟ᄤˈབ᠔⼎ⱘᰃ㸔ޱ䖛Ёⱘϸ⾡㲟ⱑⱘ㒘៤㒧ᵘˈᅗӀᰃޱ㸔 ᄤXII˄F12˅㒘㒛ൟ㸔㑸㲟ⱑ⒊䝊ॳ⌏࣪ᄤ˄PLAT˅ˈ䰸њ᳝ϱ⇼䝌㲟ⱑ䝊⌏ᗻⱘڀ ࣪㒧ᵘඳˈ䖭ϸ⾡㲟ⱑ䖬᳝ϡৠ᭄䞣ⱘ݊ᅗ㒧ᵘඳऩܗˈࣙᣀϸ⾡㑸䖲㲟ⱑ䞡ˈϔϾ㉏ ԐѢϞⲂ⫳䭓ᄤⱘ㒧ᵘඳҹঞϔϾ៤Ў“kringle”ඳⱘऩܗDŽ䖭ѯ㒘ߚৃҹҹϡৠ乎ᑣড ߎˈ⦃㒘ߚᔶᓣⱘϡৠ䗮ᐌᰃ⬅ѢᭈϾᰒᄤѸᤶᓩ䍋ⱘDŽ⬅Ѣܼ↨ᇍᓎゟᯊˈⱘ ᰒᄤݙᄤ㒧ᵘ䖬≵᳝㹿থ⦄ˈℸܼ↨ᇍᑊ≵᳝乒ঞࠄϞ䗄⦄䈵ⱘ䞡㽕ᗻˈ䖭ᰃৃҹ ⧚㾷ⱘDŽ᭄ᚙމϟˈՓ⫼ሔ䚼↨ᇍᰃ䕗Ўড়⧚ⱘˈ䖭⾡↨ᇍᮍ⊩ৃ㛑Ӯᧁ⼎ϔѯऍ䜡 ⱘᑣ߫↉ˈ㗠ᴀᴹ䖭ѯᑣ߫↉ᰃ㹿ϔѯᅠܼϡⳌ݇㘨ⱘ⅟᠔⏍≵ⱘˈℸˈ᪡㗙ᑨ䆹ᯢ ⱑˈབᵰϡᙄᔧഄՓ⫼њܼ↨ᇍˈᕜৃ㛑Ӯඟϔѯሔ䚼ⱘⳌԐᗻDŽ䆒䅵ሔ䚼↨ᇍⱘ ϔϾᕜᯢᰒⱘॳህᰃ↨䕗ϔϾᣐৢⱘmRNAᅗⱘᑣ߫ᯊˈ↣Ͼᰒᄤ䛑ᑨ䆹䖯㸠 ሔ䚼↨ᇍDŽ 7.3ǃ㸔ޱ䖛ЁⱘϸЁ㲟ⱑⱘഫ㒧ᵘ˖Ҏ㉏㒘㒛㸔㑸㲟ⱑ⒊䝊ॳ⌏࣪ᄤҹঞޱ㸔ᄤ XIIⱘഫ㒧ᵘⱘ⼎ᛣDŽᷛ䆄ЎCatalyticⱘഫ㢹ᑆ⾡ޱ㸔㲟ⱑЁᰃᐌ㾕ⱘˈF1F2ᰃ 䕗Ўᐌ㾕ⱘ䞡ഫˈ佪ܜ㑸䖲㲟ⱑЁ㹿থ⦄DŽ(ഫৠ㸼Ⲃ⫳䭓ᄤᵕЎ㉏ԐDŽ䗮ᐌ⿄ Ў”Kringle domain”ⱘഫ㹿ᷛ䆄Ў.DŽ ⚍䰉ᦣ䗄ᮍ⊩П᠔ҹᑓ⊯⌕㸠ˈ݊䚼ߚॳህѢᅗ㛑ᧁ⼎ߎᢹ᳝Ͼሔ䚼ⳌԐᗻⱘᴖ ݇㋏ˈ7.4ህᰃᑨ⫼䖭⾡໘⧚ৢⱘϔϾ՟ᄤDŽЁF12PLAT㲟ⱑ䋼ᑣ߫Փ⫼DOTTERᑣ䖯 㸠↨䕗˄䕃ӊৃ㾕ᴀゴ㒧ሒ߫㸼˅ˈ݊ᴀᗱ䏃ህᰃᡞϸϾᑣ߫߿ߚЎϔϾѠ㓈തᷛ㋏Ё ⱘϸϾതᷛ䕈ˈ䖭Ͼതᷛ㋏ऎඳݙˈབᵰᶤϔ⚍᠔ᇍᑨⱘ῾䕈തᷛ㒉䕈തᷛ᠔ᇍᑨⱘϸ ᴵᑣ߫ⱘ⅟Ⳍৠˈ߭䖭Ͼԡ㕂ϞᠧϞᷛ䆄⚍ˈ↣Ͼ⚍䗮ᐌ䛑㸼⼎ϔѯᇣにষЁˈᑣ߫ ⳌԐᗻ催Ѣ݊ᅗϔѯ䱨㒱ⱘऎඳ˄㗙⬅DOTTERᑣᅮНⱘ䱨㒱ऎඳˈ⬅ϡৠⱘ♄㡆䰈ᕅᷛ 䆄˅DŽབᵰϸϾᑣ߫ϔ↉ऎඳݙᕜⳌԐˈᷛ䆄⚍ᇚӮ䖲៤ϔᴵ᭰㒓↉ˈᇚ䖭ѯ㒓↉ⱘԡ㕂 ৠ7.3ЁϸϾ㲟ⱑⱘᏆⶹⱘ㒘៤㒧ᵘⳌ↨䕗ᰃᕜ᳝Ӌؐⱘˈ⡍߿ᰃ㽕⊼ᛣ䖲㓁ডߎ⦃ⱘ㒧 ᵘඳⱘߎ⦃ᮍᓣDŽҢPLATⱘkringle㒧ᵘඳᓔྟ∈ᑇᠿᦣˈৃҹথ⦄ϸᴵ㒓↉ᇍᑨѢF12ᑣ߫ ЁⱘϸϾkringle㒧ᵘඳˈ㱑✊⦄៥ӀᏆ㒣ᢹ᳝䆌ᴖ㊒⹂ⱘᮍ⊩ᴹᇏ∖ሔ䚼ⳌԐᗻ ˄ϟ䴶ᇚӮ䅼䆎˅ˈ⚍䰉ᦣ䗄ᮍ⊩ҡ✊ᰃϔϾᕜ⌕㸠ᕜ᳝ᬜⱘᦣ䗄ᮍ⊩DŽ 7.4ǃ⚍䰉ᑣ߫↨䕗˖ᇍҎ㉏ޱ㸔ᄤXII˄F12˖Swiss-Prot P00748˅㒘㒛㸔㑸㲟ⱑ⒊ 䝊ॳ⌏࣪ᄤ˄PLAT˖Swiss-Prot P00750˅ⱘ⇼䝌ᑣ߫䖯㸠ᠧ⚍↨䕗DŽ䖭Ͼ⬅DOTTER ᑣ˄Sonnhammer and durban,1996˅ѻ⫳DŽ ⚍䰉ᦣ䗄ᮍ⊩Ёˈᶤѯᔶᓣⱘ⚍ৃ㛑Ӯߎࢦ࣒ϔᅮⱘ䏃ᕘˈԚ䖭䳔㽕᪡㗙䗮䖛䖭ѯֵᙃ 䖯㸠⧚ˈϔϾᔶᦣ䗄ᮍ⊩े䏃ᕘᦤկњⳈᯢњⱘ↨䕗㒧ᵰˈ7.5ᦣ䗄њˬ˨ ˝˰ˬ˨˝˱ЁϢˡˣˢⳌԐⱘ㒧ᵘඳП䯈䖯㸠↨䕗ᯊⱘ↨ᇍǃ⚍䰉䏃ᕘϝ⾡ᮍ⊩ⱘ ݇㋏DŽ ϗゴᑣ߫↨ᇍ᭄ᑧ᧰㋶ 义ⷕˈ4/28 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ϗゴᑣ߫↨ᇍ᭄ᑧ᧰㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第七章序列比对和数据库搜索 页码,5/2 PLaU 90 EPKKVKDHCSKHSPCQKGGTCVNMP-SGPH-CLCPOHLTGNHCOKEK---CFE 137 PLAT 23 ELHQVPSNCD----CLNGGTCVSNKYFSNI HWCNCPKKFGGOHCEI DKSKTCYE 72 图7.5、点阵、路径图和比对:所有这三种视图都表示人类尿激酶血纤蛋白溶酶原活化因子 ( PLAU. Swiss- Prot pc749)和组织血纤蛋白溶酶原活化因子(PLAT: Swiss- Prot p00750) 中同EGF相似的模块的比对结果。a).整个蛋白都由D0TER程序进行比较:这里只显示了同 EOGF模块相似的较小区域的放大图;b)由 BLASTP得到的比对的路径图;.C).用普通的字符形式 显示的 BLASTP空位比对 要理解路径图,先想象一个二维格子,顶点表示序列残基之间的点(与点阵中表示残基本身 相反),沿线段上连接两个顶点的边缘对应两个序列上匹配的残基,水平和竖直线段的边缘 对应一个序列拥有而另一个序列上没有的残基,换句话说,这些边缘平台组成了比对中的空 位,全图对应了所有可能的比对中必须审视的搜索空间,这个空间中每条可能的路径都对应 于一种比对。 最佳比对方法 除了某些很不重要的问题,对于众多问题而言,比对方法多种多样,很有必要从中挑选出最 好的一个或几个方法,这就是把一种比对描述成一个路径的概念所指。许多计算机科学的问 题都可以简化为通过图表寻求最优路径(比如寻找从纽约打电话到旧金山的最有效的途 径)。为了这一目的已经确立了许多行之有效的算法,对每一种路径都有必要对其进行某种 意义上的打分,通常是对沿这一途径的每一步的增量进行加和。更精密的打分程序将在下文 叙述,在这里我们只假定相同残基加正分,有插入或缺失的残基就加负分(扣分),根据这 定义,最合适的比对方法会得到最高分,也就是我们寻找的最佳路径 今天我们所熟悉的Meed∥eman-msc算法就是针对寻求最佳序列比对这一问题所设计的动态 规划寻优策略( Need eman and Wunsch,1970)。动态规划的思想是这样的,如果一条路径终 止于最佳路径上的一点,那么这条路径本身就是起点到这个中间点的最佳路径,也就是说, 任何一个终止于最佳路径上的一点的次级路径必然就是终止于这一点的最佳路径本身。这 样,最佳路径就可以通过把各个最佳的次级路径连接而成。在基本的№ leed eman- Wunsch公式 表达中,最佳比对必然对每个序列都由始至终,就是说从搜索空间的左上角直至右下角。换 句话说,它搜索全程比对。 然而,对这种基本策略稍作修改就可以实现最佳的局部比对。这种比对的路径不需要到达搜 索图的尽头,只需要在内部开始和终结。如果某种比对的打分值不会因为增加或减少比对队 的数量而增加时,这种比对就是最佳的。这个过程依赖于打分系统的性质,就是说某种路径 的打分会在不匹配的序列段位置减少(以下叙述的打分系统合乎这个标准)。当分值降为零 时,路径的延展将会终止,一个新的路径就会应运而生。这样,我们会得到许多独立的路 径,它们以不匹配的序列段为界限而不是像在全程比对中以序列的结尾作为界限。在这些路 径中,拥有最高分的一个就是最佳的局部比对 应该意识到,寻优方法总是把最佳的比对方法表达出来,而不在意它是否具有生物学意义, 另一方面,寻求局部比对时可能会发现若干个重要的比对,因此,不能仅仅注意最佳的 个。改良的Sm/th- terman( Al tschul and eri ckson,1986; Waterman and eggert,1987)算法 把寻找K种最好的但不相互交叉的比对方式最为目标,这些思想后来都在S|M算法( Huang et 1990)的发展中得以体现。一个名叫LAG(在 FASTA程序包中)的程序提供了有用的S|M file://E:wcb生物信息学(中译本)\第七章序列比对和数据库搜索.htm 2005-1-18
c PLAU 90 EPKKVKDHCSKHSPCQKGGTCVNMP—SGPH-CLCPQHLTGNHCQKEK---CFE 137 PLAT 23 ELHQVPSNCD----CLNGGTCVSNKYFSNIHWCNCPKKFGGQHCEIDKSKTCYE 72 7.5ǃ⚍䰉ǃ䏃ᕘ↨ᇍ˖᠔᳝䖭ϝ⾡㾚䛑㸼⼎Ҏ㉏ሓ▔䝊㸔㑸㲟ⱑ⒊䝊ॳ⌏࣪ᄤ ˄PLAU:Swiss-Prot P00749˅㒘㒛㸔㑸㲟ⱑ⒊䝊ॳ⌏࣪ᄤ˄PLAT:Swiss-Prot P00750˅ ЁৠEGFⳌԐⱘഫⱘ↨ᇍ㒧ᵰDŽa) .ᭈϾ㲟ⱑ䛑⬅DOTTERᑣ䖯㸠↨䕗˖䖭䞠াᰒ⼎њৠ EGFഫⳌԐⱘ䕗ᇣऎඳⱘᬒ˗b)⬅BLASTPᕫࠄⱘ↨ᇍⱘ䏃ᕘ˗.c).⫼᱂䗮ⱘᄫヺᔶᓣ ᰒ⼎ⱘBLASTPぎԡ↨ᇍDŽ 㽕⧚㾷䏃ᕘˈܜᛇ䈵ϔϾѠ㓈Ḑᄤˈ乊⚍㸼⼎ᑣ߫⅟П䯈ⱘ⚍˄Ϣ⚍䰉Ё㸼⼎⅟ᴀ䑿 Ⳍড˅ˈ⊓㒓↉Ϟ䖲ϸϾ乊⚍ⱘ䖍㓬ᇍᑨϸϾᑣ߫Ϟऍ䜡ⱘ⅟ˈ∈ᑇオⳈ㒓↉ⱘ䖍㓬 ᇍᑨϔϾᑣ߫ᢹ᳝㗠ϔϾᑣ߫Ϟ≵᳝ⱘ⅟ˈᤶহ䆱䇈ˈ䖭ѯ䖍㓬ᑇৄ㒘៤њ↨ᇍЁⱘぎ ԡˈܼᇍᑨњ᠔᳝ৃ㛑ⱘ↨ᇍЁᖙ乏ᅵ㾚ⱘ᧰㋶ぎ䯈ˈ䖭Ͼぎ䯈Ё↣ᴵৃ㛑ⱘ䏃ᕘ䛑ᇍᑨ Ѣϔ⾡↨ᇍDŽ ᳔Շ↨ᇍᮍ⊩ 䰸њᶤѯᕜϡ䞡㽕ⱘ䯂乬ˈᇍѢӫ䯂乬㗠㿔ˈ↨ᇍᮍ⊩⾡ḋˈᕜ᳝ᖙ㽕ҢЁᣥ䗝ߎ᳔ དⱘϔϾϾᮍ⊩ˈ䖭ህᰃᡞϔ⾡↨ᇍᦣ䗄៤ϔϾ䏃ᕘⱘὖᗉ᠔ᣛDŽ䆌䅵ㅫᴎ⾥ᄺⱘ䯂 乬䛑ৃҹㅔ࣪Ў䗮䖛㸼ᇏ∖᳔Ӭ䏃ᕘ˄↨བᇏᡒҢ㒑㑺ᠧ⬉䆱ࠄᮻ䞥ቅⱘ᳔᳝ᬜⱘ䗨 ᕘ˅DŽЎњ䖭ϔⳂⱘᏆ㒣⹂ゟњ䆌㸠П᳝ᬜⱘㅫ⊩ˈᇍ↣ϔ⾡䏃ᕘ䛑᳝ᖙ㽕ᇍ݊䖯㸠ᶤ⾡ ᛣНϞⱘᠧߚˈ䗮ᐌᰃᇍ⊓䖭ϔ䗨ᕘⱘ↣ϔℹⱘ䞣䖯㸠ࡴDŽ㊒ᆚⱘᠧߚᑣᇚϟ᭛ ভ䗄ˈ䖭䞠៥Ӏা؛ᅮⳌৠ⅟ࡴℷߚ᳝ˈᦦܹ㔎༅ⱘ⅟ህࡴ䋳ߚ˄ᠷߚˈ˅ḍ䖭 ϔᅮНˈ᳔ড়䗖ⱘ↨ᇍᮍ⊩Ӯᕫࠄ᳔催ߚˈгህᰃ៥Ӏᇏᡒⱘ᳔Շ䏃ᕘDŽ Ҟ៥Ӏ᠔❳ᙝⱘNeedleman-Wunschㅫ⊩ህᰃ䩜ᇍᇏ∖᳔Շᑣ߫↨ᇍ䖭ϔ䯂乬᠔䆒䅵ⱘࡼᗕ 㾘ߦᇏӬㄪ⬹˄Needleman and Wunsch,1970˅DŽࡼᗕ㾘ߦⱘᗱᛇᰃ䖭ḋⱘˈབᵰϔᴵ䏃ᕘ㒜 ℶѢ᳔Շ䏃ᕘϞⱘϔ⚍ˈ䙷М䖭ᴵ䏃ᕘᴀ䑿ህᰃ䍋⚍ࠄ䖭ϾЁ䯈⚍ⱘ᳔Շ䏃ᕘˈгህᰃ䇈ˈ ӏԩϔϾ㒜ℶѢ᳔Շ䏃ᕘϞⱘϔ⚍ⱘ㑻䏃ᕘᖙ✊ህᰃ㒜ℶѢ䖭ϔ⚍ⱘ᳔Շ䏃ᕘᴀ䑿DŽ䖭 ḋˈ᳔Շ䏃ᕘህৃҹ䗮䖛ᡞϾ᳔Շⱘ㑻䏃ᕘ䖲㗠៤DŽᴀⱘNeedleman-Wunsch݀ᓣ 㸼䖒Ёˈ᳔Շ↨ᇍᖙ✊ᇍ↣Ͼᑣ߫䛑⬅ྟ㟇㒜ˈህᰃ䇈Ң᧰㋶ぎ䯈ⱘᎺϞ㾦Ⳉ㟇েϟ㾦DŽᤶ হ䆱䇈ᅗ᧰㋶ܼ↨ᇍDŽ ✊㗠ˈᇍ䖭⾡ᴀㄪ⬹ׂᬍህৃҹᅲ⦄᳔Շⱘሔ䚼↨ᇍDŽ䖭⾡↨ᇍⱘ䏃ᕘϡ䳔㽕ࠄ䖒᧰ ㋶ⱘሑ༈ˈা䳔㽕ݙ䚼ᓔྟ㒜㒧DŽབᵰᶤ⾡↨ᇍⱘᠧߚؐϡӮЎࡴޣᇥ↨ᇍ䯳 ⱘ᭄䞣㗠ࡴˈᯊ䖭⾡↨ᇍህᰃ᳔ՇⱘDŽ䖭Ͼ䖛ձ䌪ѢᠧߚLTD㒳ⱘᗻ䋼ˈህᰃ䇈ᶤ⾡䏃ᕘ ⱘᠧߚӮϡऍ䜡ⱘᑣ߫↉ԡ㕂ޣᇥ˄ҹϟভ䗄ⱘᠧߚLTD㒳ড়Т䖭Ͼᷛޚ˅DŽᔧߚؐ䰡Ў䳊 ᯊˈ䏃ᕘⱘᓊሩᇚӮ㒜ℶˈϔϾᮄⱘ䏃ᕘህӮᑨ䖤㗠⫳DŽ䖭ḋˈ៥ӀӮᕫࠄ䆌⣀ゟⱘ䏃 ᕘˈᅗӀҹϡऍ䜡ⱘᑣ߫↉Ў⬠䰤㗠ϡᰃڣ↨ܼᇍЁҹᑣ߫ⱘ㒧ሒЎ⬠䰤DŽ䖭ѯ䏃 ᕘЁˈᢹ᳔᳝催ߚⱘϔϾህᰃ᳔Շⱘሔ䚼↨ᇍDŽ ᑨ䆹ᛣ䆚ࠄˈᇏӬᮍ⊩ᘏᰃᡞ᳔Շⱘ↨ᇍᮍ⊩㸼䖒ߎᴹˈ㗠ϡᛣᅗᰃ৺⫳᳝⠽ᄺᛣНˈ ϔᮍ䴶ˈᇏ∖ሔ䚼↨ᇍᯊৃ㛑Ӯথ⦄㢹ᑆϾ䞡㽕ⱘ↨ᇍˈℸˈϡ㛑ҙҙ⊼ᛣ᳔Շⱘϔ ϾDŽᬍ㡃ⱘSmith-Waterman(Altschul and Erickson,1986;Waterman and Eggert,1987)ㅫ⊩ ᡞᇏᡒ.⾡᳔དⱘԚϡⳌѦѸঝⱘ↨ᇍᮍᓣ᳔ЎⳂᷛˈ䖭ѯᗱᛇৢᴹ䛑SIMㅫ⊩(Huang et al.,1990)ⱘথሩЁᕫҹԧ⦄DŽϔϾৡিLALIGN˄FASTAᑣࣙЁ˅ⱘᑣᦤկњ᳝⫼ⱘSIM ϗゴᑣ߫↨ᇍ᭄ᑧ᧰㋶ 义ⷕˈ5/28 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ϗゴᑣ߫↨ᇍ᭄ᑧ᧰㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com