基因 启动子 转录区 终止子 转录 RNA起点 多聚腺苷酸化起点 初级RNA转录本 TAA 5 UTR UTR 一种典型的真核蛋白质编码基因的结构示意图。其编码序列(外显子)是 不连续的,被非编码区(内含子)隔断
一种典型的真核蛋白质编码基因的结构示意图。其编码序列(外显子)是 不连续的,被非编码区(内含子)隔断
所谓基因区域预测,一般是指预测DNA序列 中编码蛋白质的部分,即外显子部分。 不过目前基因区域的预测已从单纯外显子预 测发展到整个基因结构的预测。这些预测综1 各种外显子预测的算法和人们对基因结构信号 (如TATA盒等)的认识,预测出可能的完整基因
所谓基因区域预测,一般是指预测DNA序列 中编码蛋白质的部分,即外显子部分。 不过目前基因区域的预测已从单纯外显子预 测发展到整个基因结构的预测。这些预测综合 各种外显子预测的算法和人们对基因结构信号 (如TATA盒等)的认识,预测出可能的完整基因
翻译起始 加poly(A)信号 植物 C/GAANNATGG 植物G/ AATAA1-3 动物 A/GNNATGG 动物 AATAAA TATA盒 各内含子 5端 AGGA或 加帽位点 CAAT盒5 m'GpppNp各个外显子终止密码子 真核基因的一般结构
TATA盒 翻译起始 植物C/GAANNATGG 动物A/GNNATGG 各内含子 加poly(A)信号 植物 G/AATAA1-3 动物 AATAAA 各个外显子 终止密码子 AGGA或 CAAT盒 加帽位点 5'm7GpppNp 5'端 真核基因的一般结构
基因区域的预测是一个活跃的研究领域,先 后有一大批预测算法和相应程序被提出和应用 其中有的方法对编码序列的预测准确率高达 90%以上,而且在敏感性和特异性之间取得了 很好的平衡 预测方法中,最早是通过序列核苷酸频率、密码子等特性进行预 测(如最长ORF法等),随着各类数据库的建立和完善,通过相似 性列线比对也可以预测可能的基因。同时,一批新方法也被提了 出来,如隐马尔可夫模型( Hidden Markov Model,HMM)、动 态规划法( dynamic programming)、法则系统( (ruled- based system)、语言学( linguistic)方法、线性判别分析 CLinear Discriminant Analysis,LDA)、决策树( decision tree)、拼接列 线( spliced alingment)、博利叶分析( Fourier analysis)等。 下表列出了 claverie(1997对部分程序预测基因区域能力的比较 结果,表中同时列出了相应算法和程序的网址
基因区域的预测是一个活跃的研究领域,先 后有一大批预测算法和相应程序被提出和应用, 其中有的方法对编码序列的预测准确率高达 90%以上,而且在敏感性和特异性之间取得了 很好的平衡 预测方法中,最早是通过序列核苷酸频率、密码子等特性进行预 测(如最长ORF法等),随着各类数据库的建立和完善,通过相似 性列线比对也可以预测可能的基因。同时,一批新方法也被提了 出来,如隐马尔可夫模型(Hidden Markov Model,HMM)、动 态规划法(dynamic programming)、法则系统(ruled-based system)、语言学(linguistic)方法、线性判别分析(Linear Discriminant Analysis,LDA)、决策树(decision tree)、拼接列 线(spliced alingment)、博利叶分析(Fourier analysis)等。 下表列出了claverie(1997)对部分程序预测基因区域能力的比较 结果,表中同时列出了相应算法和程序的网址
表4.2部分程序预测基因区域能力的比较结果( claverie,1997) 程序名称所用 作者 预测敏感性物异性敏感性特异丢失性错误的 算法 对象( nucl(%nucl(% exact(exac的外显|外显子 网址 exon) t exon)子(%)|(%) FGENEH DA| solovyev ct基因|83 73 78 15 11 dol ingen, bc, tmc. edu: 9331/gene a11995 RB6 igo et al基因|69 http://seneidadarwin.busedu 1992 结构 www.imim,es/geneldeNtification/geneid /geneid. input. html GeneParse DP SnyderaStorm基因66 35 40 17 http:/beagLe.coloradoedu/-eesnyder/genepa 01993 结构 Genie HMM,D Henderson et基因|87 989 69 70 15 http://www-hgc.ibL.gov/inf/genie.htmi a11997 结构 GeyLang DongaSearIs基因72 51 52 21 http://www.chiupenn.edu/-sdonggenlangho 1994 结构 me html GENSCAN| HMM,D BurgeaKarlin基因|93 93 78 81 http://genomic,stanfordedu/gensc-anw 1997 结构 HEXON LDA, D Solovyer et 因88 65 10 http://dot.ingenbcm.tmcedu9331/gen sl1994 e-finder/gf. html MORGAN DT 因83 58 51 http://www.cs.jhuedu/labs/compbio/mo rgan. html MEF Zhang199基因|87 86 http://clio.cshl.o VEIL HM4 D Krogh et al基因|83 http://www.cs.jhuedu/labs/compbio/ve 结构 il. html ①LDA:线性判别分析;RB:法则系统;DP:动态规划法;HM:隐马尔可夫模型;DT:决策树;②敏感性(%nucl):实际编码序列被成功预测为编码序列;特异 性(Mnuc):预测为编码的序列实际确定为编码序列;敏感性(% exact exon):实际的外显子被准确预测(包括拼接位点);特异性(% exact exon):预测为外显子 的序列与实际外显子准确符合;丢失的外显子(%):未能预测出的实际外显子;错误的外显子(%):预测为外显子的序列实际不是任何外显子的片段