利用蛋白质序列的预测方法 页码,6/20 与α螺旋相比,β链是一种更舒展的结构。与α螺旋在二级结构单元内部形成氢键不同 键形成于两条或多条相邻的β链之间。多条β链间通过这种氢键作用使整个结构形成β折叠 片。这些折叠片可以是平行的,也可以是反平行的,这取决于各β链中N末端和C末端的取 向。一个β折叠片的变种是β拐角,多肽链构成发卡状的急转弯,并形成反平行β叠片。 1976年Leⅵtt和 Chothi a根据蛋白质中二级结构元件的排列顺序提出了一个分类系统( Levi tt 和 Chothi a,1976)。非常简单,一个α结构基本由α螺旋构成:一个β结构主要由β链构 成。肌红蛋白是典型的全由α螺旋构成的蛋白质,因而属于α结构类( Takano,1977)。质 体蓝素是β类的好例子,其中8条β链间的氢键的模式形成了一个紧密的桶状结构(Guss和 Freeman,1983)。组合折叠类α邝β是由交替出现的β链和α螺旋构成的。黄素氧还蛋白是 α邝β蛋白的一个好例子,其中β链构成中心的β折叠,周围由α螺旋包围( Burnett等, 1974) 在以下讨论中,有一个术语会经常出现:神经网络。它赋予了计算过程“学习”的能力以模 仿人类的学习,而大多数计算程序都延着固有的顺序盲目地执行指令。神经网络技术在如二 级结构预测这种分析模式和趋势的问题中有广泛的应用。每个神经网络都包含一个输入层和 个输出层。在二级结构预测的应用中,输入层是序列带来的信息,输出层是每个特定氨基 酸形成特定二级结构的几率。实际的学习过程发生在位于输入层和输出层之间的一个或多个 隐含层中。学习的实现需要向网络提供一组训练数据集。这里,一组合适的训练集是已测出 结构的蛋白质数据库。网络会加工这些信息去寻找氨基酸序列与之以特定上下文关系所形成 结构之间的微弱联系。神经网络在二级结构预测中的应用更具体的讨论可见 Kneller等 (1990)的文献。 nnpredict nnpredi ct算法使用了一个双层、前馈神经网络去给每个氨基酸分配预测的类型(Knel!er 等,1990)。在预测时,服务器使用 FASTA格式的文件,其中有单字符或三字符的序列以及蛋 白质的折叠类(α、β或α邝β)。残基被分为几类,如α螺旋(H)、β链(E)或其它 (一)。若对给定残基未给出预测,则会标上问号(?),这说明无法作出可信的分配。若 没有关于折叠类的信息,预测也能在不定折叠类的情况下进行,而且这是缺省的工作方式 据报道,对于最佳实例的预测, nnpredi ct的准确率超过了65% 序列通过向 nnpredicteceleste.ucsf.eo发送电子邮件提交给 nnpredi ct。以黄素氧还蛋白为 例,电子邮件的格式为 opti on: a/b >fl avodoxi n- Anacystis ni dul ans AKI GLFYGTOTGVTQTI AESI QQEFGGESI VDLNDI ANADASKLNAYDYLI I GCPTWNVGELOSDWEGIY DDLDSVNFOGKKVAYEGAGDOVGYSDNFQDAMGI LEEKI SSLGSQTVGYWPI EGYDENESKAVRNNQFVG LAI DEDNOPDLTKNRI KTWSQLKSEFGL 0 pti on行标明蛋白质的折叠类:n用于无折叠类,a为α,b为β,a/b为α/β。每个电子邮 件只能提交一个序列,服务器返回的结果经整理见图11.3 Predi ctProtei n file://E:wcb生物信息学(中译本)\第十一章利用蛋白质序列的预测方 2005-1-18
ϢD㶎ᮟⳌ↨ˈE䫒ᰃϔ⾡㟦ሩⱘ㒧ᵘDŽϢD㶎ᮟѠ㑻㒧ᵘऩݙܗ䚼ᔶ៤⇶䬂ϡৠˈ⇶ 䬂ᔶ៤ѢϸᴵᴵⳌ䚏ⱘE䫒П䯈DŽᴵE䫒䯈䗮䖛䖭⾡⇶䬂⫼ՓᭈϾ㒧ᵘᔶ៤Eᡬ ⠛DŽ䖭ѯᡬ⠛ৃҹᰃᑇ㸠ⱘˈгৃҹᰃডᑇ㸠ⱘˈ䖭পއѢE 䫒Ё1ッ&ッⱘপ DŽϔϾEᡬ⠛ⱘব⾡ᰃEᢤ㾦ˈ㚑䫒ᵘ៤থव⢊ⱘᗹ䕀ᔃˈᑊᔶ៤ডᑇ㸠E⠛DŽ 1976ᑈLevittChothiaḍ㲟ⱑ䋼ЁѠ㑻㒧ᵘܗӊⱘᥦ߫乎ᑣᦤߎњϔϾߚ㉏㋏㒳˄Levitt Chothiaˈ1976˅DŽ䴲ᐌㅔऩˈϔϾD 㒧ᵘᴀ⬅D 㶎ᮟᵘ៤˗ϔϾE 㒧ᵘЏ㽕⬅E䫒ᵘ ៤DŽ㙠㑶㲟ⱑᰃൟⱘܼ⬅D㶎ᮟᵘ៤ⱘ㲟ⱑ䋼ˈ㗠ሲѢD㒧ᵘ㉏˄Takanoˈ1977˅DŽ䋼 ԧ㪱㋴ᰃE ㉏ⱘད՟ᄤˈ݊ЁᴵE 䫒䯈ⱘ⇶䬂ⱘᓣᔶ៤њϔϾ㋻ᆚⱘṊ⢊㒧ᵘ˄Guss Freemanˈ1983˅DŽ㒘ড়ᡬ㉏D /Eᰃ⬅Ѹ᳓ߎ⦃ⱘE䫒D㶎ᮟᵘ៤ⱘDŽ咘㋴⇻䖬㲟ⱑᰃ D /E 㲟ⱑⱘϔϾད՟ᄤˈ݊ЁE 䫒ᵘ៤ЁᖗⱘE ᡬˈ਼ೈ⬅D 㶎ᮟࣙೈ˄Burnettㄝˈ 1974˅DŽ ҹϟ䅼䆎Ёˈ᳝ϔϾᴃ䇁Ӯ㒣ᐌߎ干˖⦃㒣㔥㒰DŽᅗ䌟ќњ䅵ㅫ䖛Āᄺдāⱘ㛑ҹ ӓҎ㉏ⱘᄺдˈ㗠᭄䅵ㅫᑣ䛑ᓊⴔ᳝ⱘ乎ᑣⳆⳂഄᠻ㸠ᣛҸDŽ⼲㒣㔥㒰ᡔᴃབѠ 㑻㒧ᵘ乘⌟䖭⾡ߚᵤᓣ䍟ⱘ䯂乬Ё᳝ᑓ⊯ⱘᑨ⫼DŽ↣Ͼ⼲㒣㔥㒰䛑ࣙϔϾ䕧ܹሖ ϔϾ䕧ߎሖDŽѠ㑻㒧ᵘ乘⌟ⱘᑨ⫼Ёˈ䕧ܹሖᰃᑣ߫ᏺᴹⱘֵᙃˈ䕧ߎሖᰃ↣Ͼ⡍ᅮ⇼ 䝌ᔶ៤⡍ᅮѠ㑻㒧ᵘⱘ⥛DŽᅲ䰙ⱘᄺд䖛থ⫳ԡѢ䕧ܹሖ䕧ߎሖП䯈ⱘϔϾϾ 䱤ሖЁDŽᄺдⱘᅲ⦄䳔㽕㔥㒰ᦤկϔ㒘䆁㒗᭄䲚DŽ䖭䞠ˈϔ㒘ড়䗖ⱘ䆁㒗䲚ᰃᏆ⌟ߎ 㒧ᵘⱘ㲟ⱑ䋼᭄ᑧDŽ㔥㒰ӮࡴᎹ䖭ѯֵᙃএᇏᡒ⇼䝌ᑣ߫ϢПҹ⡍ᅮϞϟ᭛݇㋏᠔ᔶ៤ 㒧ᵘП䯈ⱘᖂᔅ㘨㋏DŽ⼲㒣㔥㒰Ѡ㑻㒧ᵘ乘⌟Ёⱘᑨ⫼ԧⱘ䅼䆎ৃ㾕Knellerㄝ ˄1990˅ⱘ᭛⤂DŽ nnpredict nnpredictㅫ⊩Փ⫼њϔϾঠሖǃࠡ作⼲㒣㔥㒰এ㒭↣Ͼ⇼䝌ߚ䜡乘⌟ⱘ㉏ൟ˄Kneller ㄝˈ1990˅DŽ乘⌟ᯊˈ᳡ࡵ఼Փ⫼FASTAḐᓣⱘ᭛ӊˈ݊Ё᳝ऩᄫヺϝᄫヺⱘᑣ߫ҹঞ㲟 ⱑ䋼ⱘᡬ㉏˄D ǃE D /E ˅DŽ⅟㹿ߚЎ㉏ˈབD 㶎ᮟ˄+˅ǃE 䫒˄(˅݊ᅗ ˄ˉ˅DŽ㢹ᇍ㒭ᅮ⅟㒭ߎ乘⌟ˈ߭ӮᷛϞ䯂ো˄˛˅ˈ䖭䇈ᯢ᮴⊩ߎֵৃⱘߚ䜡DŽ㢹 ≵᳝݇Ѣᡬ㉏ⱘֵᙃˈ乘⌟г㛑ϡᅮᡬ㉏ⱘᚙމϟ䖯㸠ˈ㗠Ϩ䖭ᰃ㔎ⳕⱘᎹᮍᓣDŽ 䘧ˈᇍѢ᳔Շᅲ՟ⱘ乘⌟ˈnnpredictⱘޚ⥛⹂䍙䖛њ65ˁDŽ ᑣ߫䗮䖛nnpredict@celeste.ucsf.eduথ䗕⬉ᄤ䚂ӊᦤѸ㒭nnpredictDŽҹ咘㋴⇻䖬㲟ⱑЎ ՟ˈ⬉ᄤ䚂ӊⱘḐᓣЎ˖ option: a/b >flavodoxin - Anacystis nidulans AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASKLNAYDYLIIGCPTWNVGELQSDWEGIY DDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG LAIDEDNQPDLTKNRIKTWVSQLKSEFGL Option㸠ᷛᯢ㲟ⱑ䋼ⱘᡬ㉏˖Q⫼Ѣ᮴ᡬ㉏ˈDЎD ˈEЎE ˈa/bЎD /EDŽ↣Ͼ⬉ᄤ䚂 ӊা㛑ᦤѸϔϾᑣ߫ˈ᳡ࡵ఼䖨ಲⱘ㒧ᵰ㒣ᭈ⧚㾕11.3DŽ PredictProtein कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ6/20 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ... 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
利用蛋白质序列的预测方法 页码,7 Predi ctProtei n(Rost等,1994)在预测中应用了略为不同的方法。首先,蛋白质序列被作 为查询序列在SwSS-PR0T库中搜索相似的序列。当相似的序列被找到后,一个名为 MaxHom的 算法被用来进行一次基于特征简图的多序列比对( Sander和 Schnei der,1991)。 MaxHom用迭 代的方法来构造比对:当第一次搜索SWSS-PROT后,所有找到的序列与查询序列进行比对, 并构造出一个比对后的特征简图。然后,这个简图又被用来在SWSS-PR0T中搜索新的相似序 列。由 MaxHom产生的多序列比对随后被置入一个神经网络,用一套称为PHD(Rost,1996)的 方法进行预测。PHD这一套二级结构预测方法不仅仅给每个残基分配一个二级结构类型,它还 对序列上每个位点的预测可信度给予统计分析。该方法的平均准确率超过72%:最佳残基预 测准确率达90%以上。 向 predi ctprotei n@emb/-hcde/berg.ce发送的输入序列电子邮件为以下格式: Joe Buzzcut Nati onal Human genome Research insti tute nih buzzcutebal dguys org fl avodoxi n- Anacystis ni dul ans AKI GLFYGTQTGVTQTI AESI QQEFGGESI VDLNDI ANADASDLNAYDYLI I GCPTWNVGELOSDWEGIY DDLDSVNFOGKKVAYEGAGDOVGYSDNFODAMGI LEEKI SSLGSOTVGYWPI EGYDENESKAVRNNOFVG LAI DEDNOPDLTKNRI KTWVSQLKSEFGL 在名字、从属关系和地址行之后,#号向服务器表明随后是一个单字符序列。序列基本上是 FASTA格式,但其中不允许有空格,传统的〉号由#号代替,序列之后也不许有其它东西 输出结果内容很多并包含大量有关信息。其中有 MaxHom搜索结果,并包括多序列比对的结 果,它可以用于例如基于特征简图的搜索或物种谱系分析等进一步研究。如果提交的序列 在PDB库中有已知同源蛋白,则其PDB标识号也会输出返回。随后是方法本身信息,最后是实 际预测结果。与 nnpredi ct不同, Predi ctProtei n还返回每个位点的“预测可信度索引”,范 围从0到9,9具有最高的可信度,也就是说该位点所分配的二级结构类型是正确的。对特定例 子该程序返回的预测结果,以及与其它预测方法的比较整理后见图11.3。 SSPRED 与 Predi ctProtei n相似,EMBL的二级结构预测方法( Mehta等,1995)先在数据库中搜索序列 的相似蛋白,构建多序列比对,然后进行预测。该方法在比对时,特别注意非保守位点的替 换,并利用比对结果作为初始预测结果。初始预测结果经过滤除去那些简单不合理的结果单 元,这些包括长度不合理的单元或是一种结构类型打断了一串另一种类型(例如,预测为 HHEH,就应变成HH)。所有的α螺旋应至少4个残基长,所有的β链应至少3个残基 同样以黄素氧还蛋白为例,以下是提交给 sspredaemb/- hei de/berg.∂e的作 SSPRED搜索邮件格 式 SEQUENCE TITLE fi avodoxi n- Anacystis ni dul ans file://E:wcb生物信息学(中译本)\第十一章利用蛋白质序列的预测方 2005-1-18
PredictProtein˄Rostㄝˈ1994˅乘⌟Ёᑨ⫼њ⬹Ўϡৠⱘᮍ⊩DŽ佪ܜˈ㲟ⱑ䋼ᑣ߫㹿 Ўᶹ䆶ᑣ߫SWISS-PROTᑧЁ᧰㋶ⳌԐⱘᑣ߫DŽᔧⳌԐⱘᑣ߫㹿ᡒࠄˈৢϔϾৡЎMaxHomⱘ ㅫ⊩㹿⫼ᴹ䖯㸠ϔѢ⡍ᕕㅔⱘᑣ߫↨ᇍ˄SanderSchneiderˈ1991˅DŽMaxHom⫼䗁 ҷⱘᮍ⊩ᴹᵘ䗴↨ᇍ˖ᔧϔ᧰㋶SWISS-PROTৢˈ᠔᳝ᡒࠄⱘᑣ߫Ϣᶹ䆶ᑣ߫䖯㸠↨ᇍˈ ᑊᵘ䗴ߎϔϾ↨ᇍৢⱘ⡍ᕕㅔDŽ✊ৢˈ䖭Ͼㅔজ㹿⫼ᴹSWISS-PROTЁ᧰㋶ᮄⱘⳌԐᑣ ߫DŽ⬅MaxHomѻ⫳ⱘᑣ߫↨ᇍ䱣ৢ㹿㕂ܹϔϾ⼲㒣㔥㒰ˈ⫼ϔ༫⿄ЎPHD˄Rostˈ1996˅ⱘ ᮍ⊩䖯㸠乘⌟DŽPHD䖭ϔ༫Ѡ㑻㒧ᵘ乘⌟ᮍ⊩ϡҙҙ㒭↣Ͼ⅟ߚ䜡ϔϾѠ㑻㒧ᵘ㉏ൟˈᅗ䖬 ᇍᑣ߫Ϟ↣Ͼԡ⚍ⱘ乘⌟ৃֵᑺ㒭ќ㒳䅵ߚᵤDŽ䆹ᮍ⊩ⱘᑇഛޚ⥛⹂䍙䖛72ˁ˖᳔Շ⅟乘 䖒90ˁҹϞDŽ⹂⥛ޚ⌟ predictprotein@embl-hcidelberg.deথ䗕ⱘ䕧ܹᑣ߫⬉ᄤ䚂ӊЎҹϟḐᓣ˖ Joe Buzzcut National Human Genome Research Institute, NIH buzzcut@baldguys.org # flavodoxin - Anacystis nidulans AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIY DDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG LAIDEDNQPDLTKNRIKTWVSQLKSEFGL ৡᄫǃҢሲ݇㋏ഄഔ㸠Пৢˈো᳡ࡵ఼㸼ᯢ䱣ৢᰃϔϾऩᄫヺᑣ߫DŽᑣ߫ᴀϞᰃ FASTAḐᓣˈԚ݊Ёϡܕ䆌᳝ぎḐˈӴ㒳ⱘ!ো⬅োҷ᳓ˈᑣ߫Пৢгϡ䆌᳝݊ᅗϰ㽓DŽ 䕧ߎ㒧ᵰݙᆍᕜᑊࣙ䞣ֵ᳝݇ᙃDŽ݊Ё᳝MaxHom᧰㋶㒧ᵰˈᑊࣙᣀᑣ߫↨ᇍⱘ㒧 ᵰˈᅗৃҹ⫼Ѣ՟བѢ⡍ᕕㅔⱘ᧰㋶⠽⾡䈅㋏ߚᵤㄝ 䖯ϔℹⷨおDŽབᵰ ᦤѸⱘᑣ߫ PDBᑧЁ᳝Ꮖⶹৠ⑤㲟ⱑˈ߭݊PDBᷛ䆚োгӮ䕧ߎ䖨ಲDŽ䱣ৢᰃᮍ⊩ᴀ䑿ֵᙃˈ᳔ৢᰃᅲ 䰙乘⌟㒧ᵰDŽϢnnpredictϡৠˈPredictProtein䖬䖨ಲ↣Ͼԡ⚍ⱘĀ乘⌟ৃֵᑺ㋶ᓩāˈ㣗 ೈҢࠄˈ᳔᳝催ⱘৃֵᑺˈгህᰃ䇈䆹ԡ⚍᠔ߚ䜡ⱘѠ㑻㒧ᵘ㉏ൟᰃℷ⹂ⱘDŽᇍ⡍ᅮ՟ ᄤ䆹ᑣ䖨ಲⱘ乘⌟㒧ᵰˈҹঞϢ݊ᅗ乘⌟ᮍ⊩ⱘ↨䕗ᭈ⧚ৢ㾕11.3DŽ SSPRED ϢPredictProteinⳌԐˈEMBLⱘѠ㑻㒧ᵘ乘⌟ᮍ⊩˄Mehtaㄝˈ1995˅ܜ᭄ᑧЁ᧰㋶ᑣ߫ ⱘⳌԐ㲟ⱑˈᵘᓎᑣ߫↨ᇍˈ✊ৢ䖯㸠乘⌟DŽ䆹ᮍ⊩↨ᇍᯊˈ⡍߿⊼ᛣ䴲ֱᅜԡ⚍ⱘ᳓ ᤶˈᑊ߽↨⫼ᇍ㒧ᵰЎ߱ྟ乘⌟㒧ᵰDŽ߱ྟ乘⌟㒧ᵰ㒣䖛Ⓒ䰸এ䙷ѯㅔऩϡড়⧚ⱘ㒧ᵰऩ ܗˈ䖭ѯࣙᣀ䭓ᑺϡড়⧚ⱘऩܗᰃϔ⾡㒧ᵘ㉏ൟᠧᮁњϔІϔ⾡㉏ൟ˄՟བˈ乘⌟Ў HHHEHHˈህᑨব៤HHHHHH˅DŽ᠔᳝ⱘD 㶎ᮟᑨ㟇ᇥϾ⅟䭓ˈ᠔᳝ⱘE 䫒ᑨ㟇ᇥϾ⅟ 䭓DŽ ৠḋҹ咘㋴⇻䖬㲟ⱑЎ՟ˈҹϟᰃᦤѸ㒭sspred@embl-heidelberg.deⱘSSPRED᧰㋶䚂ӊḐ ᓣ˖ SEQUENCE TITLE flavodoxin - Anacystis nidulans कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ7/20 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ... 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com