第十章利用核酸序列的预测方法 页码,6/16 (事实上,由于大多交替剪接在数据库中未被提及,完整评估算法精度很困难。)作为复合 基因搜寻程序一部分的 GENSCAN, Burgen和 Karlin(1997)将剪接位点归为不同的类,并使用 判决树(例如, Brei man等,1984)将PM应用于树的每一叶上。这种方法显著提高了精度 许多复合的基因识别服务程序(见下)提供分离的剪接点预测(例如, FGENEH/D/NA程序中 的H/D/ N/ASPL成分, Sol ovyev和 Sal amoy,1997)。此外, Brunak等(1991)提供独立的剪接 点预测程序№ euGene(见章末列表),将剪接点本身信息与对两侧编码的评估结合起来。 翻译起始位点 对于真核生物,如果转录起始点已知,并且没有内含子打断5′非翻译区的话, Kozak规则 ( Kozak,19%6)可以在大多数情况下定位起始密码子。原核生物一般没有剪接过程,但在开 放阅读框中找正确的起始密码子仍很困难。这种情况里,由于多顺反操纵子的存在,启动子 定位虽有用,但不象在真核生物中起关键作用。对原核生物,关键是核糖体结合点的可靠定 位。这一目的可以由多个程序提供解决,见 Gel Fand(1995)综述 终止信号 多腺苷化和翻译终止信号看上去没有基因起始信号那么重要,但这些信号也能帮助划分基因 的范围。例子可见 Kondrakhin等(1994), Wahl e和 Keller(1996), Dal phi n等(1997), 以及 Sol ovyevi和 Sal amoy(1997)等对此的陈述 复合的基因语法分析 第一代计算机辅助基因识别程序主要处理识别基因的分离特征一一例如,单独识别剪接位 点,或者只识别不涉及信号的编码区的规则性。但比方说如果一个剪接位点将一段编码区 断,那它就能帮助检测时在一边寻找编码区,而在另一边找非编码区。这说明综合考虑待定 特征的整体一致性能显著提高预测的精度。例如,60%的50bp以下长度的外显子在以前的 GRAL电子邮件服务程序中会被遗漏,但在加上一个简单的剪接和框架逻辑分析后就能够被检 测出来( Einstein等,1992)。 复合的基因搜寻程序先搜索信号序列并作编码区分析(有时也作同源序列搜索)。然后,对 相应打分函数进行优化,以确定外显子并给出与手头上所有数据看上去最一致的一些可能的 基因结构。不断提高精度和使用的便利是推动这些程序不断发展的重要动力。 现在能得到许多这样的复合算法(表10.1),至少在一些情况下它们能给出关于基因结构的 些好意见。图10.3显示了用 GENSCAN(遮蔽重复序列之后)分析人类磷酸丙酮酸水合酶基因 (HSEN03;添加号X56832)的结果。 在 Fi ckett和Gugo(19)文献中能找到用其它一些程序分析这个基因的结果。为了对比, 这里是 Gen Bank对这个基因的注解 CDs join(1579.1663,2540.2635,2796..2854,3016..3085,3455.3588,4820.5042 5153..5350,5688 6318..6426,6576..6634,6723.6792) 表10.2将结果列为更易于阅读的方式。 这些程序(在这一新技术领域的第一代中)的主要局限性在于:(1)复合的算法目前只适用 少数物种;(2)所有的程序(除了 GENSCAN)在输入序列中包含多基因或者部分基因时,所 预测的外显子仍可靠,但所预测的基因结构就不一定了;(3)由于尚不完全清楚的原因,预 测精度可能比原先想象的低得多,尤其是对新发现的基因。( Burst和 Gui go,1996,用百来 file://E:wcb生物信息学(中译本)\第十章利用核酸序列的预测方法.htm2005-1-18
˄џᅲϞˈ⬅ѢѸ᳓࠾᭄ᑧЁ㹿ᦤঞˈᅠᭈ䆘Ԅㅫ⊩㊒ᑺᕜೄ䲒DŽ˅Ўড় ᧰ᇏᑣϔ䚼ߚⱘGENSCANˈBurgenKarlin˄1997˅ᇚ࠾ԡ⚍ᔦЎϡৠⱘ㉏ˈᑊՓ⫼ ߸އ˄ᷥ՟བˈBreimanㄝˈ1984˅ᇚPWMᑨ⫼Ѣᷥⱘ↣ϔϞDŽ䖭⾡ᮍ⊩ᰒ㨫ᦤ催њ㊒ᑺDŽ 䆌ড়ⱘ䆚߿᳡ࡵᑣ˄㾕ϟ˅ᦤկߚ行ⱘ࠾⚍乘⌟˄՟བˈFGENEH/D/N/AᑣЁ ⱘH/D/N/ASPL៤ߚˈSolovyevSalamovˈ1997˅DŽℸˈBrunakㄝ˄1991˅ᦤկ⣀ゟⱘ࠾ ⚍乘⌟ᑣNetGene˄㾕ゴ߫㸼˅ˈᇚ࠾⚍ᴀ䑿ֵᙃϢᇍϸջ㓪ⷕⱘ䆘Ԅ㒧ড়䍋ᴹDŽ 㗏䆥䍋ྟԡ⚍ ᇍѢⳳḌ⫳⠽ˈབᵰ䕀ᔩ䍋ྟ⚍ᏆⶹˈᑊϨ≵᳝ݙᄤᠧᮁ5'䴲㗏䆥ऎⱘ䆱ˈKozak㾘߭ ˄Kozakˈ1996˅ৃҹ᭄ᚙމϟᅮԡ䍋ྟᆚⷕᄤDŽॳḌ⫳⠽ϔ㠀≵᳝࠾䖛ˈԚᓔ ᬒ䯙䇏ḚЁᡒℷ⹂ⱘ䍋ྟᆚⷕᄤҡᕜೄ䲒DŽ䖭⾡ᚙމ䞠ˈ⬅Ѣ乎ড᪡㒉ᄤⱘᄬˈਃࡼᄤ ᅮԡ㱑᳝⫼ˈԚϡ䈵ⳳḌ⫳⠽Ё䍋݇䬂⫼DŽᇍॳḌ⫳⠽ˈ݇䬂ᰃḌ㊪ԧ㒧ড়⚍ⱘৃ䴴ᅮ ԡDŽ䖭ϔⳂⱘৃҹ⬅Ͼᑣᦤկ㾷އˈ㾕GelFand˄1995˅㓐䗄DŽ 㒜ℶֵো 㝎㣋࣪㗏䆥㒜ℶֵোⳟϞএ≵᳝䍋ྟֵো䙷М䞡㽕ˈԚ䖭ѯֵোг㛑ᐂߚߦࡽ ⱘ㣗ೈDŽ՟ᄤৃ㾕Kondrakhinㄝ˄1994˅ˈWahleKeller˄1996˅ˈDalphinㄝ˄1997˅ˈ ҹঞSolovyevSalamov˄1997˅ㄝᇍℸⱘ䰜䗄DŽ ড়ⱘ䇁⊩ߚᵤ ϔҷ䅵ㅫᴎ䕙ࡽ䆚߿ᑣЏ㽕໘⧚䆚߿ⱘߚ行⡍ᕕ̣̣՟བˈऩ⣀䆚࠾߿ԡ ⚍ˈ㗙া䆚߿ϡ⍝ঞֵোⱘ㓪ⷕऎⱘ㾘߭ᗻDŽԚ↨ᮍ䇈བᵰϔϾ࠾ԡ⚍ᇚϔ↉㓪ⷕऎ䱨 ᮁˈ䙷ᅗህ㛑ᐂࡽẔ⌟ᯊϔ䖍ᇏᡒ㓪ⷕऎˈ㗠ϔ䖍ᡒ䴲㓪ⷕऎDŽ䖭䇈ᯢ㓐ড়㗗㰥ᕙᅮ ⡍ᕕⱘᭈԧϔ㟈ᗻ㛑ᰒ㨫ᦤ催乘⌟ⱘ㊒ᑺDŽ՟བˈ60ˁⱘ50bpҹϟ䭓ᑺⱘᰒᄤҹࠡⱘ GRAIL⬉ᄤ䚂ӊ᳡ࡵᑣЁӮ㹿䘫ⓣˈԚࡴϞϔϾㅔऩⱘ࠾Ḛᶊ䘏䕥ߚᵤৢህ㛑㹿Ẕ ⌟ߎᴹ˄Einsteinㄝˈ1992˅DŽ ড়ⱘ᧰ᇏᑣܜ᧰㋶ֵোᑣ߫ᑊ㓪ⷕऎߚᵤ˄᳝ᯊгৠ⑤ᑣ߫᧰㋶˅DŽ✊ৢˈᇍ Ⳍᑨᠧߑߚ᭄䖯㸠Ӭ࣪ˈҹ⹂ᅮᰒᄤᑊ㒭ߎϢ༈Ϟ᠔᭄᳝ⳟϞএ᳔ϔ㟈ⱘϔѯৃ㛑ⱘ 㒧ᵘDŽϡᮁᦤ催㊒ᑺՓ⫼ⱘ߽֓ᰃࡼ䖭ѯᑣϡᮁথሩⱘ䞡㽕ࡼDŽ ⦄㛑ᕫࠄ䆌䖭ḋⱘড়ㅫ⊩˄㸼10.1˅ˈ㟇ᇥϔѯᚙމϟᅗӀ㛑㒭ߎ݇Ѣ㒧ᵘⱘ ϔѯདᛣ㾕DŽ10.3ᰒ⼎њ⫼GENSCAN˄䙂㬑䞡ᑣ߫Пৢ˅ߚᵤҎ㉏⻋䝌ϭ䝂䝌∈ড়䝊 ˄HSENO3˗⏏ࡴোX56832˅ⱘ㒧ᵰDŽ FickettGuigó˄1996˅᭛⤂Ё㛑ᡒࠄ݊⫼ᅗϔѯᑣߚᵤ䖭Ͼⱘ㒧ᵰDŽЎњᇍ↨ˈ 䖭䞠ᰃGenBankᇍ䖭Ͼⱘ⊼㾷˖ CDS join (1579..1663, 2540..2635, 2796..2854, 3016..3085, 3455..3588, 4820..5042, 5153..5350, 5688..5889, 6318..6426, 6576..6634, 6723..6792) 㸼10.2ᇚ㒧ᵰ߫ЎᯧѢ䯙䇏ⱘᮍᓣDŽ 䖭ѯᑣ˄䖭ϔᮄᡔᴃ乚ඳⱘϔҷЁ˅ⱘЏ㽕ሔ䰤ᗻѢ˖˄˅ড়ⱘㅫ⊩Ⳃࠡা䗖⫼ ᇥ᭄⠽⾡˗˄˅᠔᳝ⱘᑣ˄䰸њGENSCAN˅䕧ܹᑣ߫Ёࣙ㗙䚼ߚˈᯊ᠔ 乘⌟ⱘᰒᄤҡৃ䴴ˈԚ᠔乘⌟ⱘ㒧ᵘህϡϔᅮњ˗˄˅⬅Ѣᇮϡᅠܼ⏙Ἦⱘॳˈ乘 ⌟㊒ᑺৃ㛑↨ॳܜᛇ䈵ⱘԢᕫˈᇸ݊ᰃᇍᮄথ⦄ⱘDŽ˄BursetGuigóˈ1996ˈ⫼ⱒᴹ कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ6/16 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第十章利用核酸序列的预测方法 页码,7/16 简单实例来标定了能得到的程序,结果无一能正确预测出多于一半的外显子);(4)大多 复合算法都明显对测序错误十分敏感( Burst和 Gui go,1996);以及(5)象交替剪接、重 叠基因和启动子结构这样的基因语法结构仍超出当前程序的处理能力。 既然这些程序中没有一个十全十美,它们都覆盖了一些不同算法,都在迅速进步,因此强烈 建议分析每个序列时采用3到4个不同程序,并仔细对比其结果。如果某个工具会经常用到, 就值得用大量已知结果的序列对其进行测试,以便对算法适用性有所了解。 表10.1因特网上的编码蛋白基因识别工具 Servi ce Organi sm(s) EcoParse Krogh et al. (1994) Escherichi a coli e-maI I: ecopa FGENEH/D/N/Y/A Sol ovyev and Mammal i an, Drosophila e-mail:ana/」 al amoy (1997) CDSB (1997) nematode, yeast, pl ant, and bacteri a httpdefra GeneI d Gui go et al.(1992)Vertebrate e-mai l: genei GeneMark Borodovsky and Many i ndi vi dual speci es e-mai I genen Mcl ni nch(1993) http://intrc GeneParser Snyder and Stormo Human http://beag (1995) Genie Kul p et al.(1996)Human http://www-f GenLang Dong and Searls Di cotyl edons, Drosophila,vertebrates e-mai l: gen/a (1994) http://cbi/ GENSCAN Burge and Karl in Vertebrate, Caenorhabdi tis, mai ze, Arabidopsis e-mai l: genso (1997) http://gnon EnvI ew Mi I anesi et al. Human, mouse, Di ptera http://www.i (1993) GRAI L/GAP/ Xu et al.(1994) Human e-mai l: grail XGRAIL http://avalc MZEF Zhang(1997) Human, mouse, Arabi dopsis, fi ssi on yeast http://www.c Procrustes Gel fand et al http://www-f (1996) Predi cted ger nes/exons Gn. Ex Type S. Begi n.. End. Len Fr Ph I/Ac Do/T CodRg P....Tscr file://E:wcb生物信息学(中译本)\第十章利用核酸序列的预测方法.htm2005-1-18
Ͼㅔऩᅲ՟ᴹᷛᅮњ㛑ᕫࠄⱘᑣˈ㒧ᵰ᮴ϔ㛑ℷ⹂乘⌟ߎѢϔञⱘᰒᄤ˅˗˄˅ ড়ㅫ⊩䛑ᯢᰒᇍ⌟ᑣ䫭䇃कߚᬣᛳ˄BursetGuigóˈ1996˅˗ҹঞ˄˅䈵Ѹ᳓࠾ǃ䞡 ਃࡼᄤ㒧ᵘ䖭ḋⱘ䇁⊩㒧ᵘҡ䍙ߎᔧࠡᑣⱘ໘⧚㛑DŽ ᮶✊䖭ѯᑣЁ≵᳝ϔϾकܼक㕢ˈᅗӀ䛑㽚Ⲫњϔѯϡৠㅫ⊩ˈ䛑䖙䗳䖯ℹˈℸᔎ⚜ ᓎ䆂ߚᵤ↣Ͼᑣ߫ᯊ䞛⫼ࠄϾϡৠᑣˈᑊҨ㒚ᇍ↨݊㒧ᵰDŽབᵰᶤϾᎹӮ㒣ᐌ⫼ࠄˈ ህؐᕫ⫼䞣Ꮖⶹ㒧ᵰⱘᑣ߫ᇍ݊䖯㸠⌟䆩ˈҹ֓ᇍㅫ⊩䗖⫼ᗻ᳝᠔њ㾷DŽ 㸼10.1⡍㔥Ϟⱘ㓪ⷕ㲟ⱑ䆚߿Ꮉ Predicted genes/exons: Gn.Ex Type S .Begin ...End .Len Fr Ph I/Ac Do/T CodRg P.... Tscr.. Service Ref. Organism(s) EcoParse Krogh et al.(1994) Escherichia coli e-mail:ecoparse@cse.ucsc.edu FGENEH/D/N/Y/A Solovyev and Salamov(1997) Mammalian,Drosophila. e-mail:analysis@theory.bchs.uh.edu CDSB (1997) nematode,yeast,plant,and bacteria http://defrag.bcm.tmc.edu:9503/ltp.html GeneID Guigo et al.(1992) Vertebrate e-mail:geneid@darwin.bu.edu GeneMark Borodovsky and Mclninch(1993) Many individual species e-mail:genemark@ford.gatech.edu http://intron.biology.gatech.edu/~genmark GeneParser Snyder and Stormo (1995) Human http://beagle.colorado.edu/~eesnyder/GeneParser.html Genie Kulp et al.(1996) Human http://www-hgc.lbl.gov/inf/genie.html GenLang Dong and Searls (1994) Dicotyledons,Drosophila,vertebrates e-mail:genlang@cbil.humgen.upenn.edu http://cbil.humgen.upenn.edu/~sdong/genlang_home.html GENSCAN Burge and Karlin (1997) Vertebrate,Caenorhabditis,maize,Arabidopsis e-mail:genscan@gnomic.stanford.edu http://gnomic.stanford.edu/~chris/GENSCANW.html GenView Milanesi et al. (1993) Human,mouse,Diptera http://www.itba.mi.cnr.it/webgene GRAIL/GAP/ Xu et al.(1994) Human e-mail:grail@ornl.gov XGRAIL http://avalon.epm.ornl.gov/gallery.html MZEF Zhang(1997) Human,mouse,Arabidopsis,fission yeast http://www.cshl.org/geneginder Procrustes Gelfand et al. (1996) Any http://www-hto.usc.edu/software/procrustes कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ7/16 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com