第七章序列比对和数据库搜索 页码,6/28 具( Pearson,1996)。对于比对多模块的蛋白质而言,寻找次优比对尤为重要。正如图7.6所 示, LALI GN程序被用来获得三个最好的局部比对(比对人类凝血因子X和因子Ⅺ1)。一个标 准的 Smi th- waterman算法只会报告出最好的一个比对,改良的算法会报告出第二和第三的比 对方式,从而显示出功能结构域 Compari son of A. fg-human. aa >f9 gi 119772 sp P00740 FA9-_HUMAN COAGULATI ON FA-461 aa B. f12-hum. aa>f12 gi 119763 sp P00748 FA12_HUMAN COAGULATI ON-615 aa usi ng protei n matri x O 35. 4% i denti ty in 254 aa overI ap; score: 358 220230240250260270 F9 OSENDETRVVGGEDAKPGOFPWOVVLNGKVDAFCGGSI VNEKWI VTAAHCVE---TGVKI F12 KSLSSMTRVVGGLVALRGAHPYI AALY-WGHSFCAGSLI APCWVLTAAHCLODRPAPEDL 370380390400410420 280290300310320330 F9 TVVAGEHNI EETEHTEOKRNVI RI I PHHNYNAAI NKYNHDI ALLELDEPL-----VLNSY F12 TWLGOERRNHSCEPCQTLAVRSYRLHEAFSPV--SYOHDLALLRLOEDADGSCALLSPY 430440450460470480 340350360370380 F9 VTPI CLADKEYTNI FLKFGSGYVSGWGRVFHKGRS-ALVLOYLRVPLVDRATCLRSTKF F12 VOPVCLPSGAARPSETTLCO-VAGWGHOFEGAEEYASFLQEAQVPFLSLERCSAPDVHG 490500510520530 390400410420430440 F9-TIYNNMFCAGFHEGGRDSCQGDSGGPHVTEVEGTS---FLTGI I SWGEECAMKGKYGIY F12 SSI LPGMLCAGFLEGGTDACOGDSGGPLVCEDOAAERRLTLQGI I SWGSGCGDRNKPGVY file://E:wcb生物信息学(中译本)\第七章序列比对和数据库搜索.htm 2005-1-18
Ꮉ)Pearson,1996)DŽᇍѢ↨ᇍഫⱘ㲟ⱑ䋼㗠㿔ˈᇏᡒӬ↨ᇍᇸЎ䞡㽕DŽℷབ7.6᠔ ⼎ˈLALIGNᑣ㹿⫼ᴹ㦋ᕫϝϾ᳔དⱘሔ䚼↨ᇍ˄↨ᇍҎ㉏ޱ㸔ᄤIXᄤXII˅DŽϔϾᷛ ޚⱘSmith-watermanㅫ⊩াӮਞߎ᳔དⱘϔϾ↨ᇍˈᬍ㡃ⱘㅫ⊩ӮਞߎѠϝⱘ↨ ᇍᮍᓣˈҢ㗠ᰒ⼎ࡳߎ㛑㒧ᵘඳDŽ Comparison of: A. f9-human.aa >f9 gi|119772|sp|P00740|FA9_HUMAN COAGULATION FA -461 aa B. f12-hum.aa>f12 gi|119763|sp|P00748|FA12_HUMAN COAGULATION -615 aa using protein matrix ķ 35.4% identity in 254 aa overlap; score: 358 220 230 240 250 260 270 F9 QSFNDFTRVVGGEDAKPGQFPWQVVLNGKVDAFCGGSIVNEKWIVTAAHCVE---TGVKI .:....:::::: : .:. :. ..: ..::.::... :..:::::.. . .. F12 KSLSSMTRVVGGLVALRGAHPYIAALY-WGHSFCAGSLIAPCWVLTAAHCLQDRPAPEDL 370 380 390 400 410 420 280 290 300 310 320 330 F9 TVVAGEHNIEETEHTEQKRNVIRIIPHHNYNAAINKYNHDIALLELDEPL-----VLNSY ::: :... ... .. :. .: . :...... .:.::.::: :.: .:..: F12 TVVLGQERRNHSCEPCQTLAVRSYRLHEAFSPV--SYQHDLALLRLQEDADGSCALLSPY 430 440 450 460 470 480 340 350 360 370 380 F9 VTPICIADKEYTNIFLKFGSGYVSGWGRVFHKGRS-ALVLQYLRVPLVDRATCLRSTKF- : :.:... . .. :.:::. :. . . : :: .::... . : .. F12 VQPVCLPSGAARPSETTLCQ—VAGWGHQFEGAEEYASFLQEAQVPFLSLERCSAPDVHG 490 500 510 520 530 390 400 410 420 430 440 F9 -TIYNNMFCAGFHEGGRDSCQGDSGGPHVTEVEGTS---FLTGIISWGEECAMKGKYGIY .: .:.:::: ::: :.:::::::: : : .... : ::::::..:. ..: :.: F12 SSILPGMLCAGFLEGGTDACQGDSGGPLVCEDQAAERRLTLQGIISWGSGCGDRNKPGVY ϗゴᑣ߫↨ᇍ᭄ᑧ᧰㋶ 义ⷕˈ6/28 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ϗゴᑣ߫↨ᇍ᭄ᑧ᧰㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第七章序列比对和数据库搜索 页码,7/2 540550560570580590 450 F9 TVVSRYVNWI KEKT F12 TDVAYYLAWI REHT 600610 2 34. 7% i denti ty in 49 aa overl ap; score: 120 100110120130140 F9 VDGDOCESNPCLNGGSCKDDI NSYECWCPFGFEGKNCELDVTCNI KNGR F12 LASOACRTNPCLHGGRCLEVEGHRLCHCPVGYTGPFCDVDTKASCYDGR 180190200210220 33. 3% i denti ty in 36 aa over l ap; score: 87 100110120 F9 DOCESN-PCLNGGSCKDDI NSYECWCPFGFECKNCE F12 DHCSKHSPCQKGGTCVNMPSGPHCLCPOHLTGNHCO 100110120130 图7.6、最佳和次佳的局部比对:在使用 LALIGN对人类凝血因子1X(F9; Swi ss-Prot900740) 和凝血因子Ⅺ(F12: Swi ss- Prot f00748)进行比对时发现了三个最佳的比对结果 取代分和空位处罚 刚才描述的打分系统仅仅使用于简单的匹配/不匹配的情况,但是在比较蛋白质时,我们可以 用取代矩阵来增强弱势比对的敏感性。很显然,在相关蛋白质之间,某些氨基酸可以很容易 地相互取代而不用改变它们的生理生化性质,这些保守取代的例子包括异亮氨酸 ( i sol euci ne)和颉氨酸( valin)(体积小,疏水),丝氨酸( seri ne)和苏氨酸 file://E:wcb生物信息学(中译本)\第七章序列比对和数据库搜索.htm 2005-1-18
540 550 560 570 580 590 450 F9 TVVSRYVNWIKEKT :.:. :..::.:.: F12 TDVAYYLAWIREHT 600 610 ------------------------------------ ĸ 34.7% identity in 49 aa overlap; score: 120 100 110 120 130 140 F9 VDGDQCESNPCLNGGSCKDDINSYECWCPFGFEGKNCELDVTCNIKNGR .....: .::::.::.: . . : :: :..: :..:.. . .:: F12 LASQACRTNPCLHGGRCLEVEGHRLCHCPVGYTGPFCDVDTKASCYDGR 180 190 200 210 220 ------------------------------------- Ĺ 33.3% identity in 36 aa overlap; score: 87 100 110 120 F9 DQCESN-PCLNGGSCKDDINSYECWCPFGFECKNCE :.:... :: .::.: . .. .: :: ..:..:. F12 DHCSKHSPCQKGGTCVNMPSGPHCLCPQHLTGNHCQ 100 110 120 130 -------------------------------------- 7.6ǃ᳔ՇՇⱘሔ䚼↨ᇍ˖Փ⫼LALIGNᇍҎ㉏ޱ㸔ᄤIX˄F9;Swiss-Prot 900740˅ ޱ㸔ᄤXII(F12;Swiss-Prot P00748)䖯㸠↨ᇍᯊথ⦄њϝϾ᳔Շⱘ↨ᇍ㒧ᵰDŽ পҷߚぎԡ໘㔮 ߮ᠡᦣ䗄ⱘᠧߚLTD㒳ҙҙՓ⫼Ѣㅔऩⱘऍ䜡ϡऍ䜡ⱘᚙމˈԚᰃ↨䕗㲟ⱑ䋼ᯊˈ៥Ӏৃҹ ⫼পҷⶽ䰉ᴹᔎᔅ↨ᇍⱘᬣᛳᗻDŽᕜᰒ✊ˈⳌ݇㲟ⱑ䋼П䯈ˈᶤѯ⇼䝌ৃҹᕜᆍᯧ ഄⳌѦপҷ㗠ϡ⫼ᬍবᅗӀⱘ⫳⧚⫳࣪ᗻ䋼ˈ䖭ѯֱᅜপҷⱘ՟ᄤࣙᣀᓖ҂⇼䝌 ˄isoleucine˅九⇼䝌˄valin˅˄ԧ⿃ᇣˈ⭣∈˅ˈϱ⇼䝌˄serine˅㢣⇼䝌 ϗゴᑣ߫↨ᇍ᭄ᑧ᧰㋶ 义ⷕˈ7/28 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ϗゴᑣ߫↨ᇍ᭄ᑧ᧰㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第七章序列比对和数据库搜索 页码,8/2 ( threoni n)(极性)。在计算比对分之时,相同的氨基酸打分会高于取代的氨基酸,而保 守的取代打分高于非保守变化,换句话说,设计了一系列的分值,而且,在比对非常相近的 序列(muse和rat的同源基因)以及差异极大的序列( mouse和 yeast的基因)时会设计出不 同系统的分值,考虑到这些因素,使用取代矩阵会极为有利,在这个矩阵中,任何氨基酸配 对的分值会一目了然。 第一个广泛使用的最优矩阵建立在进化的点突变模型上(PA( Dayhoff et al.,1978)。 一个PAM就是一个进化的变异单位即1%的氨基酸改变,这并不意味着经过100次PAM后,每个氨 基酸都发生变化,因为其中一些位置可能会经过多次改变,甚至可能变回到原先的氨基酸, 因此另外一些氨基酸可能不发生改变。如果这些变化是随机的,那么每一种可能的取代频率 仅仅取决于不同氨基酸的出现的频率(称为背景频率)。然而,在相关蛋白中,已经发现的 取代频率(称为目标频率)大大地倾向于那些不影响蛋白质功能的取代,换句话说,这些点 突变已经被进化所接受。 Dayhoff同合作者们第一次使用了l0g-0dd处理,在这种处理中,矩 阵中的取代分值同目标频率于背景频率的比值的自然对数成比例。为了评估目标频率,人们 用非常相近的序列(比对时不需要取代矩阵)来收集对应于一个PAM的突变频率,然后将数据 外推至250个PAM,PAM250矩阵结果如图7.7。虽然 Dayhof等人只发表了PAM250,但潜在的突 变数据可以外推至其它PAM值,产生一组矩阵,在比较差异极大的序列时,通常在较高的PAM 值处得到最佳结果,比如在PAM200到250之间,较低值的PAM矩阵一般使用于高度相似的序列 ( Al tsch,1991)。 图7.7、PAM250分值矩阵。 用同样方式建立了BOSM取代矩阵,但在评估目标频率时,应用了不同的策略,基本数据来 源于B0CKS数据库,其中包括了局部多重比对(包含较远的相关序列,同在PAM中使用较近的 相关序列相反)。虽然在这种情况下,没有进化模型,但它的优点在于可以通过直接观察获 得数据而不是通过外推获得。同PAM模型一样,也有许多编号的B0SUM矩阵,这里的编号指的 是序列可能相同的最高水平,并且同模型保持独立性。举例来说,如图7.8所示的BL0SUM的矩 阵,至少有62%的相同比例的序列被组合成一个序列,因此取代频率更加受到那些比空位变化 还大的序列的极大影响,取代矩阵在处理高度相似序列时使用高的阈值(直至 BLOSUM90), 处理差异大的序列时使用低的阈值(直至BL0SUM30) 图7.8、B0SM62分值矩阵。 为了补偿那些插入或缺失,可以在比对中引入一些空位,但不能太多,否则会使分子变得面 目全非。每引入一个断裂,比对的分值都会有所扣除,对于这些断裂有许多罚分的规则。最 常用的一个就是用一个附加的罚分比例去乘空位的长度,其中有两个参数:G(有时称为断裂 开放惩罚)和L(断裂延伸惩罚),对于一个长度为n的空位,扣分总数为GHLm,但在选择空 位参数时,在很大程度上是唯经验的,所选的分值很少会有理论上的支持。通常来说,对于G 会选择一个高分(在BL0SUM62中约为10-15),对于L会选择一个相对的低分(大约1-2),选 择这个范围是因为插入和变异是很罕见的,但当它们一旦发生,就会影响到一系列附近的残 file://E:wcb生物信息学(中译本)\第七章序列比对和数据库搜索.htm 2005-1-18
˄threonin˅˄ᵕᗻ˅DŽ䅵ㅫ↨ᇍߚПᯊˈⳌৠⱘ⇼䝌ᠧߚӮ催Ѣপҷⱘ⇼䝌ˈ㗠ֱ ᅜⱘপҷᠧߚ催Ѣ䴲ֱᅜব࣪ˈᤶহ䆱䇈ˈ䆒䅵њϔ㋏߫ⱘߚˈؐ㗠Ϩˈ↨ᇍ䴲ᐌⳌ䖥ⱘ ᑣ߫˄mouseratⱘৠ⑤˅ҹঞᏂᓖᵕⱘᑣ߫˄mouse yeastⱘ˅ᯊӮ䆒䅵ߎϡ ৠ㋏㒳ⱘߚˈؐ㗗㰥ࠄ䖭ѯ㋴ˈՓ⫼পҷⶽ䰉ӮᵕЎ᳝߽ˈ䖭Ͼⶽ䰉Ёˈӏԩ⇼䝌䜡 ᇍⱘߚؐӮϔⳂњ✊DŽ ϔϾᑓ⊯Փ⫼ⱘ᳔Ӭⶽ䰉ᓎゟ䖯࣪ⱘ⚍さবൟϞ˄PAM˅˄Dayhoff et al.,1978˅DŽ ϔϾPAMህᰃϔϾ䖯࣪ⱘবᓖऩԡे1%ⱘ⇼䝌ᬍবˈ䖭ᑊϡᛣੇⴔ㒣䖛100PAMৢˈ↣Ͼ⇼ 䝌䛑থ⫳ব࣪ˈЎ݊Ёϔѯԡ㕂ৃ㛑Ӯ㒣䖛ᬍবˈ⫮㟇ৃ㛑বಲࠄॳܜⱘ⇼䝌ˈ ℸϔѯ⇼䝌ৃ㛑ϡথ⫳ᬍবDŽབᵰ䖭ѯব࣪ᰃ䱣ᴎⱘˈ䙷М↣ϔ⾡ৃ㛑ⱘপҷ乥⥛ ҙҙপއѢϡৠ⇼䝌ⱘߎ⦃ⱘ乥⥛˄⿄Ў㚠᱃乥⥛˅DŽ✊㗠ˈⳌ݇㲟ⱑЁˈᏆ㒣থ⦄ⱘ পҷ乥⥛˄⿄ЎⳂᷛ乥⥛˅ഄؒѢ䙷ѯϡᕅડ㲟ⱑ䋼ࡳ㛑ⱘপҷˈᤶহ䆱䇈ˈ䖭ѯ⚍ さবᏆ㒣㹿䖯࣪᠔ফDŽDayhoffৠড়㗙ӀϔՓ⫼њlog-odd໘⧚ˈ䖭⾡໘⧚Ёˈⶽ 䰉ЁⱘপҷߚؐৠⳂᷛ乥⥛Ѣ㚠᱃乥⥛ⱘ↨ؐⱘ㞾✊ᇍ᭄៤↨՟DŽЎњ䆘ԄⳂᷛ乥⥛ˈҎӀ ⫼䴲ᐌⳌ䖥ⱘᑣ߫˄↨ᇍᯊϡ䳔㽕পҷⶽ䰉˅ᴹᬊ䲚ᇍᑨѢϔϾPAMⱘさব乥⥛ˈ✊ৢᇚ᭄ 㟇250ϾPAMˈPAM250ⶽ䰉㒧ᵰབ7.7DŽ㱑✊DayhoffㄝҎাথ㸼њPAM250ˈԚ┰ⱘさ ব᭄ৃҹ㟇݊ᅗPAMؐˈѻ⫳ϔ㒘ⶽ䰉ˈ↨䕗Ꮒᓖᵕⱘᑣ߫ᯊˈ䗮ᐌ䕗催ⱘPAM ؐ໘ᕫࠄ᳔Շ㒧ᵰˈ↨བPAM200ࠄ250П䯈ˈ䕗ԢؐⱘPAMⶽ䰉ϔ㠀Փ⫼Ѣ催ᑺⳌԐⱘᑣ߫ ˄Altschul,1991˅DŽ 7.7ǃPAM250ߚؐⶽ䰉DŽ ⫼ৠḋᮍᓣᓎゟњBLOSUMপҷⶽ䰉ˈԚ䆘ԄⳂᷛ乥⥛ᯊˈᑨ⫼њϡৠⱘㄪ⬹ˈᴀ᭄ᴹ ⑤ѢBLOCKS᭄ᑧˈ݊Ёࣙᣀњሔ䚼䞡↨ᇍ˄ࣙ䕗䖰ⱘⳌ݇ᑣ߫ˈৠPAMЁՓ⫼䕗䖥ⱘ Ⳍ݇ᑣ߫Ⳍড˅DŽ㱑✊䖭⾡ᚙމϟˈ≵᳝䖯࣪ˈൟԚᅗⱘӬ⚍Ѣৃҹ䗮䖛Ⳉ㾖ᆳ㦋 ᕫ᭄㗠ϡᰃ䗮䖛㦋ᕫDŽৠPAMൟϔḋˈг᳝䆌㓪োⱘBLOSUMⶽ䰉ˈ䖭䞠ⱘ㓪োᣛⱘ ᰃᑣ߫ৃ㛑Ⳍৠⱘ᳔催∈ᑇˈᑊϨৠൟֱᣕ⣀ゟᗻDŽВ՟ᴹ䇈ˈབ7.8᠔⼎ⱘBLOSUMⱘⶽ 䰉ˈ㟇ᇥ᳝62%ⱘⳌৠ↨՟ⱘᑣ߫㹿㒘ড়៤ϔϾᑣ߫ˈℸপҷ乥⥛ࡴফࠄ䙷ѯ↨ぎԡব࣪ 䖬ⱘᑣ߫ⱘᵕᕅડˈপҷⶽ䰉໘⧚催ᑺⳌԐᑣ߫ᯊՓ⫼催ⱘ䯜ؐ˄Ⳉ㟇BLOSUM90˅ˈ ໘⧚Ꮒᓖⱘᑣ߫ᯊՓ⫼Ԣⱘ䯜ؐ˄Ⳉ㟇BLOSUM30˅DŽ 7.8ǃBLOSUM62ߚؐⶽ䰉DŽ Ўњ㸹ٓ䙷ѯᦦܹ㔎༅ˈৃҹ↨ᇍЁᓩܹϔѯぎԡˈԚϡ㛑ˈ৺߭ӮՓߚᄤবᕫ䴶 Ⳃܼ䴲DŽ↣ᓩܹϔϾᮁ㺖ˈ↨ᇍⱘߚؐ䛑Ӯ᳝᠔ᠷ䰸ˈᇍѢ䖭ѯᮁ㺖᳝䆌㔮ߚⱘ㾘߭DŽ᳔ ᐌ⫼ⱘϔϾህᰃ⫼ϔϾ䰘ࡴⱘ㔮ߚ↨՟এЬぎԡⱘ䭓ᑺˈ݊Ё᳝ϸϾখ᭄˖*˄᳝ᯊ⿄Ўᮁ㺖 ᓔᬒᚽ㔮˅/˄ᮁ㺖ᓊԌᚽ㔮˅ˈᇍѢϔϾ䭓ᑺЎQⱘぎԡˈᠷߚᘏ᭄ЎG+LnˈԚ䗝ᢽぎ ԡখ᭄ᯊˈᕜᑺϞᰃଃ㒣偠ⱘˈ᠔䗝ⱘߚؐᕜᇥӮ᳝⧚䆎ϞⱘᬃᣕDŽ䗮ᐌᴹ䇈ˈᇍѢG Ӯ䗝ᢽϔϾ催ߚ˄BLOSUM62Ё㑺Ў10-15˅ˈᇍѢ/Ӯ䗝ᢽϔϾⳌᇍⱘԢߚ˄㑺1-2˅ˈ䗝 ᢽ䖭Ͼ㣗ೈᰃЎᦦܹবᓖᰃᕜ㔩㾕ⱘˈԚᔧᅗӀϔᮺথ⫳ˈህӮᕅડࠄϔ㋏߫䰘䖥ⱘ⅟ DŽ ϗゴᑣ߫↨ᇍ᭄ᑧ᧰㋶ 义ⷕˈ8/28 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ϗゴᑣ߫↨ᇍ᭄ᑧ᧰㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第七章序列比对和数据库搜索 页码,9/28 比对的统计学显著性 对任何一个比队,我们都可以计算一个分值,但重要的是需要判定这个分值是否足够高,是 否能够提供进化同源性的证据。在解决这一问题时,对于偶然出现的最高分,有些思想很有 帮助,但是,没有一个数学理论能够描述全程比对的分值分布,其中一个能评估其重要性的 方法就是将所得的比对分值和那些同样长度和组成的随机序列进行比较 但是,对于局部比对而言,情况要好得多。正如问题总是从简单开始,人们首先注意到那些 没有多少空位得局部比对,这种比对被称为高分片段配对(HSP)。HSP通常用改进得 Smi th waterman算法或简单地使用大的空位罚分方法获得。Kar//n- A/ tsch/统计学为描述随机的 HSP分值的分布提供了数学理论,概率密度函数形式被称为极值分布,这很值得注意,因为 更普遍更一般的分布的应用可能会夸大它的重要性,把一个已知得比对分值S同预期的分布相 关联可能会计算出P值,从而给出这个分值的比对显著性的可能性。通常,P值越趋近于零, 分值越有意义 相关的变量E表示分值不低于S得可能的比对数量,而极值分布由两个参数表示,即K和,可 以得到解析解,并且对于任何打分系统以及背景频率都是固定的。比对的显著性依赖于搜索 空间的大小(就像在草堆中找针依赖于草堆的大小)。搜索空间的大小由序列长度计算出 来,但由于统计的正确性,这个长度必须由局部比对的预期长度进行校正,以免出现边缘效 应( Al tschul and gi sh,19%6),需要进行这种校正还因为在搜索空间边缘开始的比对在达 到一个有效分值之前就会超出序列的范围。 把比对局限于没有空位的基础之上,使问题大大简化,但是却脱离分子生物学的实际情况 实际上,要建立一个插入和缺失的精确模型需要空位,但如果空位相对较少,在这些空位之 间仍然可以获得高分值区域,有代表性的是可能会获得紧密相邻的HSP,在这种情况下,从总 体上去评估它的显著性是较为合理的,也许,每个片段并不显得很重要,但是几个片段同时 出现就不太像是偶然事件了。 Karlin- Al tschul加和统计学可以计算N个HSP的统计值,这个方 法的实质是把N个最佳片段的分值进行加总,从而计算事件偶然发生的可能性,其它一些论据 也被用来确认这些分值只是在片段与比对一致的情况下进行加总。虽然加总的分值分布与HSP 分值最大值有差异,仍然可以得到解析解 最后,仍然有必要对局部排队的显著性进行合理评估,其中包括了模型中的空位。正如同传 统的 Smi th- waterman比对,虽然没有先验的证据,人们仍然认为这些比对的分值也应该遵循 极值分布,但是,分布参数K和λ的值不能通过计算获得,当然,通过模型获得这些值的方法 已经被大大地发展了。 数据库中的相似性搜索 上述讨论主要集中于那些较为特别的匹配的序列,但是对于一个新发现的序列,我们无法得 知用什么序列同它进行比对,数据库相似性搜索使我们能够从数据库中存在的数十万个序列 中挑选出可能同感兴趣的序列有关联的序列,这个方法有时会导致意想不到的收获。用这种 策略获得成功的第一个例子是人们因此发现病毒肿瘤基因v-sis是细胞中编码血小板派生生长 因子的基因的一个变体形式( Dool i ttle et al.,1983; Waterfield et al.,1983)。那个时 候,序列数据库还不大,因此这个发现足以另人感到万分惊奇。然而今天如果进行数据库搜 索并且一无所获的话,那就更另人感到费解了。如同其它几个小的物种基因组一样,酵母 saccharomyces cervi si ae的基因组全序列已经被测定出来。在脊椎动物中,大量的部分基 因诸如人类和老鼠的基因都已经被测定并存入基因库( genebank)中,这也导致了表达序列 标签(EST)工程。EST片段的主要用途是在数据库搜索中,用EST片段进行cDMA克隆可以分离 出感兴趣的基因,包括其它模型生物中的同源基因。最近报导的多重内分泌腺肿瘤(MEN) 基因就和人与老鼠的多个EST片段相匹配,其中之一在MEN发表前一年就已经入库保存了 (Chandrasekharappa et al., 1997) file://E:wcb生物信息学(中译本)\第七章序列比对和数据库搜索.htm 2005-1-18
↨ᇍⱘ㒳䅵ᄺᰒ㨫ᗻ ᇍӏԩϔϾ↨䯳ˈ៥Ӏ䛑ৃҹ䅵ㅫϔϾߚˈؐԚ䞡㽕ⱘᰃ䳔㽕߸ᅮ䖭Ͼߚؐᰃ৺䎇催ˈᰃ ৺㛑ᦤկ䖯࣪ৠ⑤ᗻⱘ䆕DŽ㾷އ䖭ϔ䯂乬ᯊˈᇍѢي✊ߎ⦃ⱘ᳔催ߚ᳝ˈѯᗱᛇᕜ᳝ ᐂࡽˈԚᰃˈ≵᳝ϔϾ᭄ᄺ⧚䆎㛑ᦣ䗄ܼ↨ᇍⱘߚؐߚᏗˈ݊ЁϔϾ㛑䆘Ԅ݊䞡㽕ᗻⱘ ᮍ⊩ህᰃᇚ᠔ᕫⱘ↨ᇍߚؐ䙷ѯৠḋ䭓ᑺ㒘៤ⱘ䱣ᴎᑣ߫䖯㸠↨䕗DŽ ԚᰃˈᇍѢሔ䚼↨ᇍ㗠㿔ˈᚙމ㽕དᕫDŽℷབ䯂乬ᘏᰃҢㅔऩᓔྟˈҎӀ佪ܜ⊼ᛣࠄ䙷ѯ ≵᳝ᇥぎԡᕫሔ䚼↨ᇍˈ䖭⾡↨ᇍ㹿⿄Ў催ߚ⠛↉䜡ᇍ˄HSP˅DŽHSP䗮ᐌ⫼ᬍ䖯ᕫSmithwatermanㅫ⊩ㅔऩഄՓ⫼ⱘぎԡ㔮ߚᮍ⊩㦋ᕫDŽKarlin-Altschul㒳䅵ᄺЎᦣ䗄䱣ᴎⱘ HSPߚؐⱘߚᏗᦤկњ᭄ᄺ⧚䆎ˈὖ⥛ᆚᑺߑ᭄ᔶᓣ㹿⿄ЎᵕؐߚᏗˈ䖭ᕜؐᕫ⊼ᛣˈЎˈ ᱂䘡ϔ㠀ⱘߚᏗⱘᑨ⫼ৃ㛑Ӯ༌ᅗⱘ䞡㽕ᗻˈᡞϔϾᏆⶹᕫ↨ᇍߚؐSৠ乘ᳳⱘߚᏗⳌ ݇㘨ৃ㛑Ӯ䅵ㅫߎPؐˈҢ㗠㒭ߎ䖭Ͼߚؐⱘ↨ᇍᰒ㨫ᗻⱘৃ㛑ᗻDŽ䗮ᐌˈ3ؐ䍞䍟䖥Ѣ䳊ˈ ߚؐ䍞᳝ᛣНDŽ Ⳍ݇ⱘব䞣E㸼⼎ߚؐϡԢѢ6ᕫৃ㛑ⱘ↨ᇍ᭄䞣ˈ㗠ᵕؐߚᏗ⬅ϸϾখ᭄㸼⼎ˈेKȜˈৃ ҹᕫࠄ㾷ᵤ㾷ˈᑊϨᇍѢӏԩᠧߚLTD㒳ҹঞ㚠᱃乥⥛䛑ᰃᅮⱘDŽ↨ᇍⱘᰒ㨫ᗻձ䌪Ѣ᧰㋶ ぎ䯈ⱘᇣ˄ህڣ㤝ේЁᡒ䩜ձ䌪Ѣ㤝ේⱘᇣ˅DŽ᧰㋶ぎ䯈ⱘᇣ⬅ᑣ߫䭓ᑺ䅵ㅫߎ ᴹˈԚ⬅Ѣ㒳䅵ⱘℷ⹂ᗻˈ䖭Ͼ䭓ᑺᖙ乏⬅ሔ䚼↨ᇍⱘ乘ᳳ䭓ᑺ䖯㸠᷵ℷˈҹߎܡ⦃䖍㓬ᬜ ᑨ˄Altschul and Gish,1996˅ˈ䳔㽕䖯㸠䖭⾡᷵ℷ䖬Ў᧰㋶ぎ䯈䖍㓬ᓔྟⱘ↨ᇍ䖒 ࠄϔϾ᳝ᬜߚؐПࠡህӮ䍙ߎᑣ߫ⱘ㣗ೈDŽ ᡞ↨ᇍሔ䰤Ѣ≵᳝ぎԡⱘ⸔ПϞˈՓ䯂乬ㅔ࣪ˈԚᰃै㜅⾏ߚᄤ⫳⠽ᄺⱘᅲ䰙ᚙމDŽ ᅲ䰙Ϟˈ㽕ᓎゟϔϾᦦܹ㔎༅ⱘ㊒⹂ൟ䳔㽕ぎԡˈԚབᵰぎԡⳌᇍ䕗ᇥˈ䖭ѯぎԡП 䯈ҡ✊ৃҹ㦋ᕫ催ߚؐऎඳˈ᳝ҷ㸼ᗻⱘᰃৃ㛑Ӯ㦋ᕫ㋻ᆚⳌ䚏ⱘHSPˈ䖭⾡ᚙމϟˈҢᘏ ԧϞএ䆘Ԅᅗⱘᰒ㨫ᗻᰃ䕗Ўড়⧚ⱘˈг䆌ˈ↣Ͼ⠛↉ᑊϡᰒᕫᕜ䞡㽕ˈԚᰃϾ⠛↉ৠᯊ ߎ⦃ህϡڣᰃي✊џӊњDŽKarlin-Altschulࡴ㒳䅵ᄺৃҹ䅵ㅫ1ϾHSPⱘ㒳䅵ؐˈ䖭Ͼᮍ ⊩ⱘᅲ䋼ᰃᡞ1Ͼ᳔Շ⠛↉ⱘߚؐ䖯㸠ࡴᘏˈҢ㗠䅵ㅫџӊي✊থ⫳ⱘৃ㛑ᗻˈ݊ᅗϔѯ䆎 г㹿⫼ᴹ⹂䅸䖭ѯߚؐাᰃ⠛↉Ϣ↨ᇍϔ㟈ⱘᚙމϟ䖯㸠ࡴᘏDŽ㱑✊ࡴᘏⱘߚؐߚᏗϢHSP ߚ᳔᳝ؐؐᏂᓖˈҡ✊ৃҹᕫࠄ㾷ᵤ㾷DŽ ᳔ৢˈҡ✊᳝ᖙ㽕ᇍሔ䚼ᥦ䯳ⱘᰒ㨫ᗻ䖯㸠ড়⧚䆘Ԅˈ݊ЁࣙᣀњൟЁⱘぎԡDŽℷབৠӴ 㒳ⱘSmith-waterman↨ᇍˈ㱑✊≵᳝ܜ偠ⱘ䆕ˈҎӀҡ✊䅸Ў䖭ѯ↨ᇍⱘߚؐгᑨ䆹䙉ᕾ ᵕؐߚᏗˈԚᰃˈߚᏗখ᭄.Ȝⱘؐϡ㛑䗮䖛䅵ㅫ㦋ᕫˈᔧ✊ˈ䗮䖛ൟ㦋ᕫ䖭ѯؐⱘᮍ⊩ Ꮖ㒣㹿ഄথሩњDŽ ᭄ᑧЁⱘⳌԐᗻ᧰㋶ Ϟ䗄䅼䆎Џ㽕䲚ЁѢ䙷ѯ䕗Ў⡍߿ⱘऍ䜡ⱘᑣ߫ˈԚᰃᇍѢϔϾᮄথ⦄ⱘᑣ߫ˈ៥Ӏ᮴⊩ᕫ ⶹ⫼ҔМᑣ߫ৠᅗ䖯㸠↨ᇍˈ᭄ᑧⳌԐᗻ᧰㋶Փ៥Ӏ㛑Ң᭄ᑧЁᄬⱘ᭄कϛϾᑣ߫ Ёᣥ䗝ߎৃ㛑ৠᛳ݈䍷ⱘᑣ᳝߫݇㘨ⱘᑣ߫ˈ䖭Ͼᮍ⊩᳝ᯊӮᇐ㟈ᛣᛇϡࠄⱘᬊ㦋DŽ⫼䖭⾡ ㄪ⬹㦋ᕫ៤ࡳⱘϔϾ՟ᄤᰃҎӀℸথ⦄⮙↦㚓⯸v-sisᰃ㒚㚲Ё㓪ⷕ㸔ᇣᵓ⌒⫳⫳䭓 ᄤⱘⱘϔϾবԧᔶᓣ(Doolittle et al., 1983; Waterfield et al., 1983)DŽ䙷Ͼᯊ ˈᑣ᭄߫ᑧ䖬ϡˈℸ䖭Ͼথ⦄䎇ҹҎᛳࠄϛߚ༛DŽ✊㗠Ҟབᵰ䖯㸠᭄ᑧ᧰ ㋶ᑊϨϔ᮴᠔㦋ⱘ䆱ˈ䙷ህҎᛳࠄ䌍㾷њDŽབৠ݊ᅗϾᇣⱘ⠽⾡㒘ϔḋˈ䝉↡ saccharomyces cerevisiaeⱘ㒘ܼᑣ߫Ꮖ㒣㹿⌟ᅮߎᴹDŽ㛞Ợࡼ⠽Ёˈ䞣ⱘ䚼ߚ 䇌བҎ㉏㗕哴ⱘ䛑Ꮖ㒣㹿⌟ᅮᑊᄬܹᑧ˄genebank˅Ёˈ䖭гᇐ㟈њ㸼䖒ᑣ߫ ᷛㅒ˄EST˅ᎹDŽEST⠛↉ⱘЏ㽕⫼䗨ᰃ᭄ᑧ᧰㋶Ёˈ⫼EST⠛↉䖯㸠cDNAܟ䱚ৃҹߚ行 ߎ݈ᛳ䍷ⱘˈࣙᣀ݊ᅗൟ⫳⠽Ёⱘৠ⑤DŽ᳔䖥ᇐⱘ䞡ߚݙ⊠㝎㚓⯸˄MENI˅ ህҎϢ㗕哴ⱘϾEST⠛↉Ⳍऍ䜡ˈ݊ЁПϔMENIথ㸼ࠡϔᑈህᏆ㒣ܹᑧֱᄬњ (Chandrasekharappa et al., 1997)DŽ ϗゴᑣ߫↨ᇍ᭄ᑧ᧰㋶ 义ⷕˈ9/28 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ϗゴᑣ߫↨ᇍ᭄ᑧ᧰㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第七章序列比对和数据库搜索 页码,10/2 在数据库搜索中,基本操作就是将查询序列和数据库中的主题序列作比对。比对结果是排列 好的 hit list,后面是一系列的单独的比对情况,以及不同的分值和统计值(如图7.9)。下 文将会详细介绍选择不同的搜索程序、序列数据库和不同的参数都会对搜索产生影响,而且 还有不同的界面,比如操作台命令、w形式和E-mai等。图7.10给出了一个使用Web界面进 行数据库搜索的例子。这种形式的一个优点就是对任何一个感兴趣的比对,全部注解和文献 应用都可以通过超文本简单方便地联接至原始的序列条目和相关的在线文献。 a The best score are: ini tn ini tI opt z-SC E(59248) gi |1706794 sp[ P49789 FHI T_HUMAN FRAGILE HI STIDI NE 996 996 1350. 4 0 gi170339sp|P49776|APh_ SCHPO B|S(5-NCLE0SM)43139539553622.8e-23 gi|1723425|sp|P49775|YD15 YEAST HYPOTHETI CAL24.8290171316428.12.9e-17 gi1724021|sp|0066| YHI T MYC TU HYPOTHETI CAL20.0178178184250.72.2e-07 qi|417124|sp|004344| HIT YEAST HITI PROTE|N(RFu159104157216.21.8e-05 gil41844|5p|P32084| YHIT SYNP7 HYPOTHETI CAL12.4139139140195.00.00028 gi|351828|sp|P47378| YHI T MYCGE HYPOTHETICAL15.6132132133183.90.0012 gil1169826|sp|P43424|GAL7 RAT GALACT0SE-1-PH0sPHA9797128169.70.0072 gi 418446 sp P32083 YHI T_MYCHR HYYPOTHETICAL 13 1 102 102 119 166.8 0. 01 gi|1708543|sp|P49773|1FK1 HUMAN PRC0TE|NK| NASE C8787118164.50.0014 gi|1724020sp|P49774| YHI T MYCLE HYPOTHETICAL17.013182117161.50.02 gi 1724019 sp[ P53795 YHI T_CAEEL HYPOTHETI CAL HI 98 116 161.5 0.02 gil70581|sp|P16436|1PK1_B0NPTE|NK| NASE C8686115160.40.023 gi 1730 003249|GAL7 MOUSE GALACT0sE-1-P0sp878712015930.027 gi|177047|sp|P42856|2B14MA|lE14 KD ZINC-B00N13279112156.30.04 gi1209081sp|P07902|GAL7_ HUMAN CALACT0SE-1-P0sH7878117154.80.048 gi|177046sp|P42855|ZB14BRAJ14KDZ|MC-B|NDN11576110154.50.05 gi|140775|sp|P26724| YHIT AZOBR HYPOTHETI CAL13.211565109152.60.064 qi|169852|spP31764|GAL7HA| N GALACTOSE-1-Posp6262104137.90.42 gil399p16550APA1 YEAST5′,5′-P-1,P-4-l10866103137.10.47 >>gi 1169826 sp P43424 GAL7_RAT GALACTOSE-1-PHOSPHATE UR(379 aa) ini tn: 97 ini t1: 97 opt: 128 Z-score: 169.7 EO: 0.0072 Smi th-Waterman score: 128: 30. 8% i denti ty in 107 aa over I ap file://E:wcb生物信息学(中译本)\第七章序列比对和数据库搜索.htm 2005-1-18
᭄ᑧ᧰㋶Ёˈᴀ᪡ህᰃᇚᶹ䆶ᑣ᭄߫ᑧЁⱘЏ乬ᑣ߫↨ᇍDŽ↨ᇍ㒧ᵰᰃᥦ߫ དⱘhit listˈৢ䴶ᰃϔ㋏߫ⱘऩ⣀ⱘ↨ᇍᚙމˈҹঞϡৠⱘߚؐ㒳䅵ؐ˄བ7.9˅DŽϟ ᭛ᇚӮ䆺㒚ҟ㒡䗝ᢽϡৠⱘ᧰㋶ᑣǃᑣ᭄߫ᑧϡৠⱘখ᭄䛑Ӯᇍ᧰㋶ѻ⫳ᕅડˈ㗠Ϩ 䖬᳝ϡৠⱘ⬠䴶ˈ↨བ᪡ৄੑҸǃWWWᔶᓣE-mailㄝDŽ7.10㒭ߎњϔϾՓ⫼Web⬠䴶䖯 㸠᭄ᑧ᧰㋶ⱘ՟ᄤDŽ䖭⾡ᔶᓣⱘϔϾӬ⚍ህᰃᇍӏԩϔϾᛳ݈䍷ⱘ↨ᇍˈܼ䚼⊼㾷᭛⤂ ᑨ⫼䛑ৃҹ䗮䖛䍙᭛ᴀㅔऩᮍ֓ഄ㘨㟇ॳྟⱘᑣ߫ᴵⳂⳌ݇ⱘ㒓᭛⤂DŽ a The best score are: initn initl opt z-sc E(59248) gi|1706794|sp|P49789|FHIT_HUMAN FRAGILE HISTIDINE 996 996 996 1350.4 0 gi|1703339|sp|P49776|APH1_SCHPO BIS(5’-NUCLEOSYL) 431 395 395 536.2 2.8e-23 gi|1723425|sp|P49775|YD15_YEAST HYPOTHETICAL 24.8 290 171 316 428.1 2.9e-17 gi|1724021|sp|Q11066|YHIT_MYCTU HYPOTHETICAL 20.0 178 178 184 250.7 2.2e-07 gi|417124|sp|Q04344|HIT_YEAST HIT1 PROTEIN (ORF U 159 104 157 216.2 1.8e-05 gi|418447|sp|P32084|YHIT_SYNP7 HYPOTHETICAL 12.4 139 139 140 195.0 0.00028 gi|1351828|sp|P47378|YHIT_MYCGE HYPOTHETICAL 15.6 132 132 133 183.9 0.0012 Æ gi|1169826|sp|P43424|GAL7_RAT GALACTOSE-1-PHOSPHA 97 97 128 169.7 0.0072 gi|418446|sp|P32083|YHIT_MYCHR HYYPOTHETICAL 13.1 102 102 119 166.8 0.01 gi|1708543|sp|P49773|IPK1_HUMAN PROTEIN KINASE C 87 87 118 164.5 0.0014 gi|1724020|sp|P49774|YHIT_MYCLE HYPOTHETICAL 17.0 131 82 117 161.5 0.02 gi|1724019|sp|P53795|YHIT_CAEEL HYPOTHETICAL HIT- 98 98 116 161.5 0.02 gi|1170581|sp|P16436|IPK1_BOVIN PROTEIN KINASE C 86 86 115 160.4 0.023 gi|1730188|sp|Q03249|GAL7_MOUSE GALACTOSE-1-PHOSP 87 87 120 159.3 0.027 gi|1177047|sp|P42856|ZB14_MAIZE 14 KD ZINC-BIODIN 132 79 112 156.3 0.04 gi|1209081|sp|P07902|GAL7_HUMAN CALACTOSE-1-PHOSPH 78 78 117 154.8 0.048 gi|1177046|sp|P42855|ZB14_BRAJU 14 KD ZINC-BINDIN 115 76 110 154.5 0.05 gi|140775|sp|P26724|YHIT_AZOBR HYPOTHETICAL 13.2 115 65 109 152.6 0.064 gi|1169852|sp|P31764|GAL7_HAEIN GALACTOSE-1-PHOSP 62 62 104 137.9 0.42 gi|113999|sp|P16550|APA1_YEAST 5’,5’’’-P-1,P-4-TE 108 66 103 137.1 0.47 b >>gi|1169826|sp|P43424|GAL7_RAT GALACTOSE-1-PHOSPHATE UR (379 aa) initn: 97 init1: 97 opt: 128 z-score: 169.7 E(): 0.0072 Smith-Waterman score: 128; 30.8% identity in 107 aa overlap ϗゴᑣ߫↨ᇍ᭄ᑧ᧰㋶ 义ⷕˈ10/28 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ϗゴᑣ߫↨ᇍ᭄ᑧ᧰㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com