利用蛋白质序列的预测方法 页码,1/20 利用蛋白质序列的预测方法 Andreas d. baxevanis Genome Technology Branch Nationa/ Human Genome Research /nsti tute National /nsti tutes of hea/ th Bethesda. Mry/ and David landsman Nationa/ Center fro biotechnol ogy Informai ton omputati ona/ Biology Branch National Li brary of Medicine National /nsti tute of heal th Bethsda. Maryl and 本书对数据库的讨论及前几章中提供的信息都说明,当前各种公共数据库中的序列信息的数 量正急剧增加。与我们已知的核酸序列一样,所有蛋白质序列,无论是直接测得还是由核酸 序列中的开放阅读框转换而来,都包含有决定其结构功能的内在信息。可惜用实验方法获取 这些信息的速度远远赶不上单纯序列数据产生的速度。象圆二色谱、旋光色散、X光晶体衍射 和核磁共振都是确定结构特征的强有力技术,但它们的实现需要大量时间,并对技术和技巧 都有很高要求。对比蛋白质序列和结构数据库的容量可知两类信息之间差距已十分明显,到 写这本书时,有428,814个条目在冗余的蛋白质序列库(n),而PDB库中仅有5017个条目 为缩小这一差距所做的尝试都围绕于“预测的方法”。这些序列条目能在缺少生物化学数据 的情况下提供关于蛋白质性质的见解。 方法大多并不依赖于双序列或多序列的比对。核酸序列所包含的四种核苷酸在化学上性质相 似(但不相同),与之不同的是,构成蛋白质的20种氨基酸残基由于化学构造上差别很大, 因而在结构和功能上存在更大多样性。任一残基对蛋白质的整体物理性质都会产生影响,因 为这些残基本身就是酸性或者碱性的。因而在蛋白质结构域中每种残基对构成不同类型结构 都存在偏向。当然,这些属性就是生物化学的核心原理之一“序列决定构象”的基础 ( Anfi nsen等,1961)。 在谈及这种或那种预测技术之前要预先说明的是,无论用哪种方法,这些结果都是预测。不 同的方法,采用了不同的算法,可能产生相同或不同的结果。但有一点很重要:弄清楚某种 方法的原理,而不是仅把算法当作一个“黑箱”。因为一种方法可能对特定实例很合适,而 对另一个则完全不对。虽然如此,存在一种强大合作的潜力:正确应用这些预测技术,参照 file://E:wcb生物信息学(中译本)\第十一章利用蛋白质序列的预测方 2005-1-18
ᴀкᇍ᭄ᑧⱘ䅼䆎ঞࠡゴЁᦤկⱘֵᙃ䛑䇈ᯢˈᔧࠡ⾡᭄݀݅ᑧЁⱘᑣֵ߫ᙃⱘ᭄ 䞣ℷᗹ࠻ࡴDŽϢ៥ӀᏆⶹⱘḌ䝌ᑣ߫ϔḋˈ᠔᳝㲟ⱑ䋼ᑣ߫ˈ᮴䆎ᰃⳈ⌟ᕫ䖬ᰃ⬅Ḍ䝌 ᑣ߫Ёⱘᓔᬒ䯙䇏Ḛ䕀ᤶ㗠ᴹˈ䛑᳝ࣙއᅮ݊㒧ᵘࡳ㛑ⱘݙֵᙃDŽৃᚰ⫼ᅲ偠ᮍ⊩㦋প 䖭ѯֵᙃⱘ䗳ᑺ䖰䖰䍊ϡϞऩ㒃ᑣ᭄߫ѻ⫳ⱘ䗳ᑺDŽ䈵Ѡ㡆䈅ǃᮟܝ㡆ᬷǃ;ܝԧ㸡ᇘ Ḍ⺕݅ᤃ䛑ᰃ⹂ᅮ㒧ᵘ⡍ᕕⱘᔎ᳝ᡔᴃˈԚᅗӀⱘᅲ⦄䳔㽕䞣ᯊ䯈ˈᑊᇍᡔᴃᡔᎻ 䛑᳝ᕜ催㽕∖DŽᇍ↨㲟ⱑ䋼ᑣ߫㒧ᵘ᭄ᑧⱘᆍ䞣ৃⶹϸ㉏ֵᙃП䯈Ꮒ䎱Ꮖकߚᯢᰒˈࠄ ݭ䖭ᴀкᯊˈ᳝428,814ϾᴵⳂݫԭⱘ㲟ⱑ䋼ᑣ߫ᑧ˄nr˅ˈ㗠PDBᑧЁҙ᳝5017ϾᴵⳂ1DŽ Ў㓽ᇣ䖭ϔᏂ䎱᠔خⱘᇱ䆩䛑ೈ㒩ѢĀ乘⌟ⱘᮍ⊩āDŽ䖭ѯᑣ߫ᴵⳂ㛑㔎ᇥ⫳⠽࣪ᄺ᭄ ⱘᚙމϟᦤկ݇Ѣ㲟ⱑ䋼ᗻ䋼ⱘ㾕㾷DŽ ᴀゴⱘ⛺⚍ᰃҢᑣ߫ᴀ䑿Ё㦋প⫳⠽ᄺথ⦄ⱘ䅵ㅫᡔᴃˈϢࠡゴЁⱘᡔᴃϡৠП໘Ѣ䖭ѯ ᮍ⊩ᑊϡձ䌪Ѣঠᑣ߫ᑣ߫ⱘ↨ᇍDŽḌ䝌ᑣ߫᠔ࣙⱘಯ⾡Ḍ㣋䝌࣪ᄺϞᗻ䋼Ⳍ Ԑ˄ԚϡⳌৠ˅ˈϢПϡৠⱘᰃˈᵘ៤㲟ⱑ䋼ⱘ20⾡⇼䝌⅟⬅Ѣ࣪ᄺᵘ䗴ϞᏂ߿ᕜˈ 㗠㒧ᵘࡳ㛑ϞᄬḋᗻDŽӏϔ⅟ᇍ㲟ⱑ䋼ⱘᭈԧ⠽⧚ᗻ䋼䛑Ӯѻ⫳ᕅડˈ Ў䖭ѯ⅟ᴀ䑿ህᰃ䝌ᗻ㗙⺅ᗻⱘDŽ㗠㲟ⱑ䋼㒧ᵘඳЁ↣⾡⅟ᇍᵘ៤ϡৠ㉏ൟ㒧ᵘ 䛑ᄬأDŽᔧ✊ˈ䖭ѯሲᗻህᰃ⫳⠽࣪ᄺⱘḌᖗॳ⧚ПϔĀᑣ߫އᅮᵘ䈵āⱘ⸔ ˄Anfinsenㄝˈ1961˅DŽ 䇜ঞ䖭⾡䙷⾡乘⌟ᡔᴃПࠡ㽕乘ܜ䇈ᯢⱘᰃˈ᮴䆎⫼ા⾡ᮍ⊩ˈ䖭ѯ㒧ᵰ䛑ᰃ乘⌟DŽϡ ৠⱘᮍ⊩ˈ䞛⫼њϡৠⱘㅫ⊩ˈৃ㛑ѻ⫳Ⳍৠϡৠⱘ㒧ᵰDŽԚ᳝ϔ⚍ᕜ䞡㽕˖ᓘ⏙Ἦᶤ⾡ ᮍ⊩ⱘॳ⧚ˈ㗠ϡᰃҙᡞㅫ⊩ᔧϔϾĀ咥ㆅāDŽЎϔ⾡ᮍ⊩ৃ㛑ᇍ⡍ᅮᅲ՟ᕜড়䗖ˈ㗠 ᇍϔϾ߭ᅠܼϡᇍDŽ㱑✊བℸˈᄬϔ⾡ᔎড়ⱘ┰˖ℷ⹂ᑨ⫼䖭ѯ乘⌟ᡔᴃˈখ✻ 11 ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ⊩ Andreas D. Baxevanis Genome Technology Branch National Human Genome Research Institute National Institutes of Health Bethesda. Mryland David Landsman National Center fro Biotechnology Informaiton Computational Biology Branch National Library of Medicine National Institute of Health Bethsda. Maryland कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ1/20 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ... 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
利用蛋白质序列的预测方法 页码,2/2 以主要的生化数据,就能提供有关蛋白质结构与功能的有价值信息。 1. Gen Bank发布编号100.0,1997年4月15日;PDB为1997年3月13日之数据。 基于组成的蛋白质辨识 人们早已熟知了20种氨基酸中每一个的物理和化学性质,并以此开发了许多有用的计算工具用 于确认未知蛋白(或反过来分析已知蛋白)。其中的大部分可通过在 Geneva大学医院和 Geneva大学的 EXPASy服务(Appe等,1994)来获得。 EXPASy工具的应用有两个焦点:既分析 和确认由二维凝胶电泳分离得到的未知蛋白,也预测已知蛋白的基本性质。这些工具利用了 S硎IsSs-PRoT数据库中的有效注解来进行预测。既然这类计算对电泳分析有用,它们也能在其 它实验领域中有所帮助,尤其是对色谱和沉降分析。在这里及以下内容中,包含在 EXPASy中 的工具都会标明,但由此而来的讨论也包括了许多由其他小组开发提供的有用程序。本章末 列出了与本章中所提及的工具有关的因特网资源 AACompl dent AACompSi m(EXPASy) 与把氨基酸序列在SW|Ss-PROT库中搜索不同, AACompl dent工具利用未知蛋白的氨基酸组成去 确认具有相同组成的已知蛋白( Wilkins等,19%6)。对于输入部分,该程序需要蛋白质的氨 基酸组成,等电点p和分子量(如果知道),正确的物种分类及特别的关键词。此外,用户 还需在六种氨基酸“组合”中作出选择,这影响到分析如何进行。例如,某种“组合”会把 残基Asp/Asn(D/N)和Gln/Gu(O/E)组合成Ax(B)和Gx(Z);或者某种残基会在分析 中被完全除去。 对数据库中的每一个蛋白序列,算法会对其氨基酸组成与所查询的氨基酸组成的差异打分 由电子邮件返回的结果被组织成三级列表:第一张列表中的蛋白都基于特定的物种分类而不 考虑p和分子量;第二张列表包含了不考虑物种分类、p和分子量的全体蛋白:第三张列表 中的蛋白不但基于特定物种分类,并且将p|和分子量也考虑在内。虽然计算所得结果各不相 同,但零分表明了该序列与提出的组成完全相符 Compl dent的一个变种, AAComp Si m提供类似的分析,但与前者以实验所得的氨基酸组成为 依据进行搜索不同,后者使用SWSS-PROT中的序列为依据( Wi I kins等,1996)。利用 Compute pl/硎(见下)所得的不同数值可以计算出理论等电点和分子量。有报道称,氨基酸 组成在物种之间是十分保守的( Corde等,1995),并且通过分析氨基酸的组成,研究者 能从低于25%序列相似性的蛋白之间发现弱相似性( Hobohm和 Sander,1995)。因此,在 “传统的”数据库搜索基础上辅以组成分析,能为蛋白质之间关系提供更多见解 PROPSEARCH pR0 OPSEARCH与 AACompSi m一样,也利用蛋白的氨基酸组成来检测蛋白质之间的微弱联系。据该 软件开发者称这一技术能轻易发现同一蛋白质家族的成员( Hobohm和 Sander,1995)。但这 技术比 AACompSi m更加强壮:它使用了144种不同的物化属性来进行分析,其中包括分子 量、巨大残基的含量、平均疏水性和平均电荷等。这些属性的集合被称作“査询向量”,并 将其与数据库(SMSS-PR0T和PR)中的每个序列预先计算好的向量进行比较。拥有这样一个 预先计算好的“向量数据库”大大节约了每次查询所需的时间。 PROPSEARCH的Web服务所需的输入是查询序列本身,其输出的一个实例为图11.1。这里作为查 询序列的是人自身抗原N0R-90的序列。结果由距离分值分成几段,该分值代表了查询序列与 由 PROPSEARCH找到的新序列之间的相似性程度,从而属于同一家族,因此通常表明具有相似 的功能。10分或更低表明两种蛋白相似的可能性大于87%。低于8.7分将相似性可信度提高到 94%,而低于7.5分则达到99.6%。分析图11.1的结果可见,NOR-90与一些核转录因子、蛋白 file://E:wcb生物信息学(中译本)\第十一章利用蛋白质序列的预测方 2005-1-18
ҹЏ㽕ⱘ⫳᭄࣪ˈህ㛑ᦤկ᳝݇㲟ⱑ䋼㒧ᵘϢࡳ㛑ⱘ᳝ӋֵؐᙃDŽ 1. GenBankথᏗ㓪ো100.0ˈ1997ᑈ᳜15᮹˗PDBЎ1997ᑈ᳜13᮹П᭄DŽ Ѣ㒘៤ⱘ㲟ⱑ䋼䕼䆚 ҎӀᮽᏆ❳ⶹњ20⾡⇼䝌Ё↣ϔϾⱘ⠽⧚࣪ᄺᗻ䋼ᑊҹℸᓔথњ䆌᳝⫼ⱘ䅵ㅫᎹ⫼ Ѣ⹂䅸ⶹ㲟ⱑ˄ড䖛ᴹߚᵤᏆⶹ㲟ⱑ˅DŽ݊Ёⱘ䚼ߚৃ䗮䖛Genevaᄺए䰶 GenevaᄺⱘExPASy᳡ࡵ˄Appelㄝˈ1994˅ᴹ㦋ᕫDŽExPASyᎹⱘᑨ⫼᳝ϸϾ⛺⚍˖᮶ߚᵤ ⹂䅸⬅Ѡ㓈ޱ㛊⬉⋇ߚ行ᕫࠄⱘⶹ㲟ⱑˈг乘⌟Ꮖⶹ㲟ⱑⱘᴀᗻ䋼DŽ䖭ѯᎹ߽⫼њ SWISS-PROT᭄ᑧЁⱘ᳝ᬜ⊼㾷ᴹ䖯㸠乘⌟DŽ᮶✊䖭㉏䅵ㅫᇍ⬉⋇ߚᵤ᳝⫼ˈᅗӀг㛑݊ ᅗᅲ偠乚ඳЁ᳝᠔ᐂࡽˈᇸ݊ᰃᇍ㡆䈅≝䰡ߚᵤDŽ䖭䞠ঞҹϟݙᆍЁˈࣙExPASyЁ ⱘᎹ䛑ӮᷛᯢˈԚ⬅ℸ㗠ᴹⱘ䅼䆎гࣙᣀњ䆌⬅݊Ҫᇣ㒘ᓔথᦤկⱘ᳝⫼ᑣDŽᴀゴ ߫ߎњϢᴀゴЁ᠔ᦤঞⱘᎹ᳝݇ⱘ⡍㔥䌘⑤DŽ AACompIdentϢAACompSim˄ExPASy˅ Ϣᡞ⇼䝌ᑣ߫SWISS-PROTᑧЁ᧰㋶ϡৠˈAACompIdentᎹ߽⫼ⶹ㲟ⱑⱘ⇼䝌㒘៤এ ⹂䅸᳝Ⳍৠ㒘៤ⱘᏆⶹ㲟ⱑ˄Wilkinsㄝˈ1996˅DŽᇍѢ䕧ܹ䚼ߚˈ䆹ᑣ䳔㽕㲟ⱑ䋼ⱘ⇼ 䝌㒘៤ˈㄝ⬉⚍pIߚᄤ䞣˄བᵰⶹ䘧˅ˈℷ⹂ⱘ⠽⾡ߚ㉏ঞ⡍߿ⱘ݇䬂䆡DŽℸˈ⫼᠋ 䖬䳔݁⾡⇼䝌Ā㒘ড়āЁߎ䗝ᢽˈ䖭ᕅડߚࠄᵤབԩ䖯㸠DŽ՟བˈᶤ⾡Ā㒘ড়āӮᡞ ⅟Asp/Asn˄D/N˅Gln/Glu˄Q/E˅㒘ড়៤Asx˄%˅Glx˄=˅˗㗙ᶤ⾡⅟Ӯߚᵤ Ё㹿ᅠܼ䰸এDŽ ᇍ᭄ᑧЁⱘ↣ϔϾ㲟ⱑᑣ߫ˈㅫ⊩Ӯᇍ݊⇼䝌㒘៤Ϣ᠔ᶹ䆶ⱘ⇼䝌㒘៤ⱘᏂᓖᠧߚDŽ ⬅⬉ᄤ䚂ӊ䖨ಲⱘ㒧ᵰ㹿㒘㒛៤ϝ㑻߫㸼˖ϔᓴ߫㸼Ёⱘ㲟ⱑ䛑Ѣ⡍ᅮⱘ⠽⾡ߚ㉏㗠ϡ 㗗㰥pIߚᄤ䞣˗Ѡᓴ߫㸼ࣙњϡ㗗㰥⠽⾡ߚ㉏ǃpIߚᄤ䞣ⱘܼԧ㲟ⱑ˗ϝᓴ߫㸼 Ёⱘ㲟ⱑϡԚѢ⡍ᅮ⠽⾡ߚ㉏ˈᑊϨᇚpIߚᄤ䞣г㗗㰥ݙDŽ㱑✊䅵ㅫ᠔ᕫ㒧ᵰϡⳌ ৠˈԚ䳊ߚ㸼ᯢњ䆹ᑣ߫Ϣᦤߎⱘ㒘៤ᅠܼⳌヺDŽ AACompIdentⱘϔϾব⾡ˈAACompSimᦤկ㉏ԐⱘߚᵤˈԚϢࠡ㗙ҹᅲ偠᠔ᕫⱘ⇼䝌㒘៤Ў ձ䖯㸠᧰㋶ϡৠˈৢ㗙Փ⫼SWISS-PROTЁⱘᑣ߫Ўձ˄Wilkinsㄝˈ1996˅DŽ߽⫼ Compute pI/MW˄㾕ϟ˅᠔ᕫⱘϡৠ᭄ؐৃҹ䅵ㅫߎ⧛䆎ㄝ⬉⚍ߚᄤ䞣DŽ᳝䘧⿄ˈ⇼䝌 㒘៤⠽⾡П䯈ᰃकߚֱᅜⱘ˄Cordwellㄝˈ1995˅ˈᑊϨ䗮䖛ߚᵤ⇼䝌ⱘ㒘៤ˈⷨお㗙 㛑ҢԢѢ25ˁᑣ߫ⳌԐᗻⱘ㲟ⱑП䯈থ⦄ᔅⳌԐᗻ˄HobohmSanderˈ1995˅DŽℸˈ ĀӴ㒳ⱘā᭄ᑧ᧰㋶⸔Ϟ䕙ҹ㒘៤ߚᵤˈ㛑Ў㲟ⱑ䋼П䯈݇㋏ᦤկ㾕㾷DŽ PROPSEARCH PROPSEARCHϢAACompSimϔḋˈг߽⫼㲟ⱑⱘ⇼䝌㒘៤ᴹẔ⌟㲟ⱑ䋼П䯈ⱘᖂᔅ㘨㋏DŽ䆹 䕃ӊᓔথ㗙⿄䖭ϔᡔᴃ㛑䕏ᯧথ⦄ৠϔ㲟ⱑ䋼ᆊᮣⱘ៤ਬ˄HobohmSanderˈ1995˅DŽԚ䖭 ϔᡔᴃ↨AACompSimࡴᔎໂ˖ᅗՓ⫼њ144⾡ϡৠⱘ⠽࣪ሲᗻᴹ䖯㸠ߚᵤˈ݊Ёࣙᣀߚᄤ 䞣ǃᎼ⅟ⱘ䞣ǃᑇഛ⭣∈ᗻᑇഛ⬉㥋ㄝDŽ䖭ѯሲᗻⱘ䲚ড়㹿⿄Āᶹ䆶䞣āˈᑊ ᇚ݊Ϣ᭄ᑧ˄SWISS-PROTPIR˅Ёⱘ↣Ͼᑣ߫乘ܜ䅵ㅫདⱘ䞣䖯㸠↨䕗DŽᢹ᳝䖭ḋϔϾ 乘ܜ䅵ㅫདⱘĀ䞣᭄ᑧā㡖㑺њ↣ᶹ䆶᠔䳔ⱘᯊ䯈DŽ PROPSEARCHⱘWeb᳡ࡵ᠔䳔ⱘ䕧ܹᰃᶹ䆶ᑣ߫ᴀ䑿ˈ݊䕧ߎⱘϔϾᅲ՟Ў11.1DŽ䖭䞠Ўᶹ 䆶ᑣ߫ⱘᰃҎ㞾䑿ᡫॳNOR-90ⱘᑣ߫DŽ㒧ᵰ⬅䎱⾏ߚؐߚ៤ˈ0⁄3䆹ߚؐҷ㸼њᶹ䆶ᑣ߫Ϣ ⬅PROPSEARCHᡒࠄⱘᮄᑣ߫П䯈ⱘⳌԐᗻᑺˈҢ㗠ሲѢৠϔᆊᮣˈℸ䗮ᐌ㸼ᯢ᳝ⳌԐ ⱘࡳ㛑DŽ10ߚԢ㸼ᯢϸ⾡㲟ⱑⳌԐⱘৃ㛑ᗻѢ87ˁDŽԢѢ8.7ߚᇚⳌԐᗻৃֵᑺᦤ催ࠄ 94ˁˈ㗠ԢѢ7.5ߚ߭䖒ࠄ99.6ˁDŽߚᵤ11.1ⱘ㒧ᵰৃ㾕ˈNOR-90ϢϔѯḌ䕀ᔩᄤǃ㲟ⱑ कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ2/20 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ... 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
利用蛋白质序列的预测方法 页码,3/20 微酶、一个 reti nobl stoma结合蛋白、肌动蛋白结合蛋白 radi xin和推测是一种GTP酶靶蛋白 的RaBP1等蛋白相似。既然这些蛋白的功能各自不同,它们并不都是想要的结果;然而,其 中许多是DNA的结合蛋白,这就暗示一种可能是在不同功能区中都采用了的十分相似的结构 域。至少进行一次 BLASTP搜索对确认结果和识别关键性残基是十分必要的。 Fragment search: OFF(POS1 and POS2 are begi n and end of sequence) Rank ID DIST LEN2 POS1 POS2 pl DE >p1s181930.00727 1. 33 autoanti gen NOR-90-human ubf1 human1.36‖764 764 5.62 NUCLEOLAR TRANSCRI PTI ON FACTOR 1(UPSTREA ubf1 mouse‖1.40765 7655.55 NUCLEOLAR TRANSCRI PTI ON FACTOR 1(UPSTRE ubf1_rat.57764 17645. 61 NUCLEOLAR TRANSCRI PTI ON FACTOR 1(UPSTREA 456 ubf1 xenl a 3. 95 677 16775.79 NUCLEOLAR TRANSCRI PTI ON FACTOR 1(UPSTREA ubf2 xenl a4.18‖701 17016.05 NUCLEOLAR TRANSCRI PTION FACTOR 2(UPSTREA >p1:s5527.72606 6066.63 hypotheti cal protein YPRO18w-yeast(Sa >p1: i50463849 17725. 71 protei n ki nase -chi cken p1: h540248 83 768 17685. 27 protei n ki nase(EC 2. 1. 37) cdc2-rel atec p1:b540248.87777 7775. 27 protei n ki nase(EC 2. 7.1.37) cdc2-rel ated p1:g540248.9076 17665. 21 protein ki nase (EC 2.7.1.37)cdc2-rel ated 12 >p1:a558179.00‖783 17835. 19 cycl i n-dependent kinase 130-PI TSLRE-mc >p1540491177 7775. 30 protein ki nase(EC 2. 7.1.37)cdc2-rel ated >p1: e54024911779 7795. 42 protei n ki nase(EC 2. 7. 1. 37)cdc2-rel atec 15984. 78HYPOTHETI CAL 69.5 KD PROTEI N C22G705 IN 1:562449‖9 1. 78 hypothetical protein SPAC22G705 >f1:i58390‖9.45‖920 9205.00 reti nobl stoma bi ndi ng protein 1 isoform >p1: $631939.58590 5906 15 hypotheti cal protein YNL227c- yeast(S 19 ynw7-yeast9.58590 15906. 15HYPOTHETI CAL 68.8 KD PROTEIN IN URE2-SSU >p1:s496349.74‖899 899 4.79 hypothetical protein YML093W-yeast(Sa ymj3_yeast 9. 74899 18994 79 HYPOTHETI CAL 103. 0 KD PROTEIN IN RAD10-PF adi_human 9. 76 583 1583‖6.33‖ RADI N radi_pig9.81‖583 5836. RADI XIN(MOESIN B) >f1;i7883‖9.83‖866 18664. 77 reti nobl astoma bi ndi ng protein 1 i soform file://E:wcb生物信息学(中译本)\第十一章利用蛋白质序列的预测方 2005-1-18
▔䝊ǃϔϾretinoblastoma㒧ড়㲟ⱑǃ㙠ࡼ㲟ⱑ㒧ড়㲟ⱑradixin⌟ᰃϔ⾡GTP䝊䵊㲟ⱑ ⱘRalBP1ㄝ㲟ⱑⳌԐDŽ᮶✊䖭ѯ㲟ⱑⱘࡳ㛑㞾ϡৠˈᅗӀᑊϡ䛑ᰃᛇ㽕ⱘ㒧ᵰ˗✊㗠ˈ݊ Ё䆌ᰃDNAⱘ㒧ড়㲟ⱑˈ䖭ህᱫ⼎ϔ⾡ৃ㛑ᰃϡৠࡳ㛑ऎЁ䛑䞛⫼њⱘकߚⳌԐⱘ㒧ᵘ ඳDŽ㟇ᇥ䖯㸠ϔBLASTP᧰㋶ᇍ⹂䅸㒧ᵰ䆚߿݇䬂ᗻ⅟ᰃकߚᖙ㽕ⱘDŽ Fragment search: OFF (POS1 and POS2 are begin and end of sequence) Rank ID DIST LEN2 POS1 POS2 pI DE 1 >p1;s18193 0.00 727 1 727 5.33 autoantigen NOR-90 – human 2 ubf1_human 1.36 764 1 764 5.62 NUCLEOLAR TRANSCRIPTION FACTOR 1 (UPSTREAM BINDING FACTOR 1) (UBF 3 ubf1_mouse 1.40 765 1 765 5.55 NUCLEOLAR TRANSCRIPTION FACTOR 1 (UPSTREAM BINDING FACTOR 1) (UBF 4 ubf1_rat 1.57 764 1 764 5.61 NUCLEOLAR TRANSCRIPTION FACTOR 1 (UPSTREAM BINDING FACTOR 1) (UBF 5 ubf1_xenla 3.95 677 1 677 5.79 NUCLEOLAR TRANSCRIPTION FACTOR 1 (UPSTREAM BINDING FACTOR 1) (UBF 6 ubf2_xenla 4.18 701 1 701 6.05 NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPSTREAM BINDING FACTOR 2) (UBF 7 >p1;s57552 7.72 606 1 606 6.63 hypothetical protein YPR018w – yeast (Saccharomyces cerevisiae) 8 >p1;i50463 8.49 772 1 772 5.71 protein kinase – chicken 9 >p1;h54024 8.83 768 1 768 5.27 protein kinase (EC 2.7.1.37) cdc2-related PITSLRE alpha 2 10 >p1;b54024 8.87 777 1 777 5.27 protein kinase (EC 2.7.1.37) cdc2-related PITSLRE alpha 2 11 >p1;g54024 8.90 766 1 766 5.21 protein kinase (EC 2.7.1.37) cdc2-related PITSLRE beta 2 12 >p1;a55817 9.00 783 1 783 5.19 cyclin-dependent kinase 130-PITSLRE – mouse 13 >p1;f54024 9.11 777 1 777 5.30 protein kinase (EC 2.7.1.37) cdc2-related PITSLRE beta 2 14 >p1;e54024 9.11 779 1 779 5.42 protein kinase (EC 2.7.1.37) cdc2-related PITSLRE alpha 2 15 yaa5_schpo 9.45 598 1 598 4.78 HYPOTHETICAL 69.5 KD PROTEIN C22G7.05 IN CHROMOSOME I. 16 >p1;s62449 9.45 598 1 598 4.78 hypothetical protein SPAC22G7.05 – fission yeast (Schizosaccharomyces pombe) 17 >f1;i58390 9.45 920 1 920 5.00 retinoblastoma binding protein 1 isoform I 18 >p1;s63193 9.58 590 1 590 6.15 hypothetical protein YNL227c – yeast (Saccharomyces cerevisiae) 19 ynw7_yeast 9.58 590 1 590 6.15 HYPOTHETICAL 68.8 KD PROTEIN IN URE2-SSU72 INTERGENIC REGION. 20 >p1;s49634 9.74 899 1 899 4.79 hypothetical protein YML093w – yeast (Saccharomyces cerevisiae) 21 ymj3_yeast 9.74 899 1 899 4.79 HYPOTHETICAL 103.0 KD PROTEIN IN RAD10-PRS4 INTERGENIC REGION. 22 radi_human 9.76 583 1 583 6.33 RADIXIN. 23 radi_pig 9.81 583 1 583 6.21 RADIXIN (MOESIN B). 24 >f1;i78883 9.83 866 1 866 4.77 retinoblastoma binding protein 1 isoform II कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ3/20 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ... 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
利用蛋白质序列的预测方法 页码,4/20 >pl:b429979.87754 1 5. 17 reti nobl astoma-associ ated protein 2-hl 1:a574679.91 16475.74‖Ra1BP1-rat 图11.1基于氨基酸组成的 PROPSEARCH数据搜索。输入序列是人自身抗原NR-90。为简洁起 见,除去了解释性材料和一张与整个目标数据库距离打分的直方图。表中的列给出的是根据 距离得分排列的顺序、SMSS-PR0T或PIR标识、距离得分、査询序列与该序列重叠的长度、重 叠的位置(从P0S1到P0S2)、计算出的p,以及对该序列的描述 MOWSE 分子量搜索( Mol ecul ar Wei ght Search, MOWSE)算法利用了通过质谱(MS)技术获得的信 息( Pappi n等,1993)。利用完整蛋白质的分子量及其被特定蛋白酶消化后产物的分子量, 种未知蛋白质能被准确无误地确认,给出由若干实验才能决定的结果。由于未知蛋白无需 再全部或部分测序,这一方法显著地减少了实验时间 MOWSE的输入是一个纯文本文件,包含一张实验测定的肽段列表,分子量范围在0.7到4.0Kda 之间。计算过程基于在OW非冗余蛋白质序列库( Aki gg等,1988)中包含的信息。打分基于 在一定分子量范围内蛋白中一个片段分子量出现的次数。输出的结果是得分最佳的30个蛋白 的列表,包括它们在0唰中的条目名称,相符肽段序列,和其它统计信息。模拟研究得出在使 用5个或更少输入肽段分子量时,准确率为99%。该搜索服务可通过向 mowseedaresburg.a.k发送电子邮件实现。为获得更多关于查询格式的细节信息,可以相该 地址发送电子邮件,并在消息正文中写上“help”这个词 基于序列的物理性质 Compute pl/M(ExPASy) Compute pl/M是计算输入序列等电点和分子量的工具。对pl的确定基于早期研究中将蛋白质 从由中性到酸性变性条件下迁移过程中所获得的pK值( Bel l gvi st等,1993)。因此,该作 者警告用户,对于碱性蛋白质所得到的p值可能不准确。分子量的计算是把序列中每个氨基 酸的同位素平均分子量加在一起,再加上一个水分子的分子量。用户可以把序列整理为 FASTA 格式,或提供 SWISS-PR0T标识,或者是可唯一确定的添加号。若用户提供了序列,该工具会 自动计算全序列的p和分子量:若用户提供的是SWSS-PROT标识,程序会显示该条目的描述 和物种记录;如果用户给出了一段序列片段范围则计算将在该片段上进行,而不是针对整个 序列 Pepti deMass (ExPASy) Pepti deMass工具针对肽段谱图分析实验,用于确定蛋白质在与特定蛋白酶或化学试剂作用下 的内切产物( Wi Akins等,1997)。通过 Pepti deMass可以预测水解结果的酶和试剂包括:胰 蛋白酶( trypsi n)、糜蛋白酶( chymotrypsin n)、LysC、溴化氰、ArgC、AspN和GlUC(双羧 酯或磷酸酯)。半胱氨酸和甲硫氨酸可在计算产物肽段前加以修饰。若用户提供的是SMSS PROT标识,而不单是一段序列, Pepti deMass还能利用 SWI SS-PROT库中标注中的信息协助计 算。例如,除去信号序列,后在剪切之前引入已知的翻译后修饰。输出结果会列成表格,其 中将给出输入蛋白的p和分子量,然后是SWSS-PROT中关于变种的分子量、位点、修饰后变 种的信息,最后是肽片段的序列 TGREASE file://E:wcb生物信息学(中译本)\第十一章利用蛋白质序列的预测方 2005-1-18
11.1Ѣ⇼䝌㒘៤ⱘPROPSEARCH᭄᧰㋶DŽ䕧ܹᑣ߫ᰃҎ㞾䑿ᡫॳNOR-90DŽЎㅔ⋕䍋 㾕ˈ䰸এњ㾷䞞ᗻᴤ᭭ϔᓴϢᭈϾⳂ᭄ᷛᑧ䎱⾏ᠧߚⱘⳈᮍDŽ㸼Ёⱘ߫㒭ߎⱘᰃḍ 䎱⾏ᕫߚᥦ߫ⱘ乎ᑣǃSWISS-PROTPIRᷛ䆚ǃ䎱⾏ᕫߚǃᶹ䆶ᑣ߫Ϣ䆹ᑣ߫䞡ⱘ䭓ᑺǃ䞡 ⱘԡ㕂˄ҢPOS1ࠄPOS2˅ǃ䅵ㅫߎⱘpIˈҹঞᇍ䆹ᑣ߫ⱘᦣ䗄DŽ MOWSE ߚᄤ䞣᧰㋶˄Molecular Weight SearchˈMOWSE˅ㅫ⊩߽⫼њ䗮䖛䋼䈅˄MS˅ᡔᴃ㦋ᕫⱘֵ ᙃ˄Pappinㄝˈ1993˅DŽ߽⫼ᅠᭈ㲟ⱑ䋼ⱘߚᄤ䞣ঞ݊㹿⡍ᅮ㲟ⱑ䝊⍜࣪ৢѻ⠽ⱘߚᄤ䞣ˈ ϔ⾡ⶹ㲟ⱑ䋼㛑㹿ޚ⹂᮴䇃ഄ⹂䅸ˈ㒭ߎ⬅㢹ᑆᅲ偠ᠡ㛑އᅮⱘ㒧ᵰDŽ⬅Ѣⶹ㲟ⱑ᮴䳔 ݡܼ䚼䚼ߚ⌟ᑣˈ䖭ϔᮍ⊩ᰒ㨫ഄޣᇥњᅲ偠ᯊ䯈DŽ MOWSEⱘ䕧ܹᰃϔϾ㒃᭛ᴀ᭛ӊˈࣙϔᓴᅲ偠⌟ᅮⱘ㚑↉߫㸼ˈߚᄤ䞣㣗ೈ0.7ࠄ4.0Kda П䯈DŽ䅵ㅫ䖛ѢOWL䴲ݫԭ㲟ⱑ䋼ᑣ߫ᑧ˄Akriggㄝˈ1988˅ЁࣙⱘֵᙃDŽᠧߚѢ ϔᅮߚᄤ䞣㣗ೈݙ㲟ⱑЁϔϾ⠛↉ߚᄤ䞣ߎ⦃ⱘ᭄DŽ䕧ߎⱘ㒧ᵰᰃᕫߚ᳔Շⱘ30Ͼ㲟ⱑ ⱘ߫㸼ˈࣙᣀᅗӀOWLЁⱘᴵⳂৡ⿄ˈⳌヺ㚑↉ᑣ߫ˈ݊ᅗ㒳䅵ֵᙃDŽᢳⷨおᕫߎՓ ⫼Ͼᇥ䕧ܹ㚑↉ߚᄤ䞣ᯊˈޚ⥛⹂Ў99ˁDŽ䆹᧰㋶᳡ࡵৃ䗮䖛 mowse@daresburg.ac.ukথ䗕⬉ᄤ䚂ӊᅲ⦄DŽЎ㦋ᕫ݇Ѣᶹ䆶Ḑᓣⱘ㒚㡖ֵᙃˈৃҹⳌ䆹 ഄഔথ䗕⬉ᄤ䚂ӊˈᑊ⍜ᙃℷ᭛ЁݭϞ“help”䖭Ͼ䆡DŽ Ѣᑣ߫ⱘ⠽⧚ᗻ䋼 Compute pI/MW˄ExPASy˅ Compute pI/MWᰃ䅵ㅫ䕧ܹᑣ߫ㄝ⬉⚍ߚᄤ䞣ⱘᎹDŽᇍpIⱘ⹂ᅮѢᮽᳳⷨおЁᇚ㲟ⱑ䋼 Ң⬅Ёᗻࠄ䝌ᗻবᗻᴵӊϟ䖕⿏䖛Ё᠔㦋ᕫⱘpKؐ˄Bjellqvistㄝˈ1993˅DŽℸˈ䆹 㗙䄺ਞ⫼᠋ˈᇍѢ⺅ᗻ㲟ⱑ䋼᠔ᕫࠄⱘpIؐৃ㛑ϡޚ⹂DŽߚᄤ䞣ⱘ䅵ㅫᰃᡞᑣ߫Ё↣Ͼ⇼ 䝌ⱘৠԡ㋴ᑇഛߚᄤ䞣ࡴϔ䍋ˈࡴݡϞϔϾ∈ߚᄤⱘߚᄤ䞣DŽ⫼᠋ৃҹᡞᑣ߫ᭈ⧚ЎFASTA ḐᓣˈᦤկSWISS-PROTᷛ䆚ˈ㗙ᰃৃଃϔ⹂ᅮⱘ⏏ࡴোDŽ㢹⫼᠋ᦤկњᑣ߫ˈ䆹ᎹӮ 㞾ࡼ䅵ㅫܼᑣ߫ⱘpIߚᄤ䞣˗㢹⫼᠋ᦤկⱘᰃSWISS-PROTᷛ䆚ˈᑣӮᰒ⼎䆹ᴵⳂⱘᦣ䗄 ⠽⾡䆄ᔩ˗བᵰ⫼᠋㒭ߎњϔ↉ᑣ߫⠛↉㣗ೈ߭䅵ㅫᇚ䆹⠛↉Ϟ䖯㸠ˈ㗠ϡᰃ䩜ᇍᭈϾ ᑣ߫DŽ PeptideMass˄ExPASy˅ PeptideMassᎹ䩜ᇍ㚑↉䈅ߚᵤᅲ偠ˈ⫼Ѣ⹂ᅮ㲟ⱑ䋼Ϣ⡍ᅮ㲟ⱑ䝊࣪ᄺ䆩ࠖ⫼ϟ ⱘߛݙѻ⠽˄Wilkinsㄝˈ1997˅DŽ䗮䖛PeptideMassৃҹ乘⌟∈㾷㒧ᵰⱘ䝊䆩ࠖࣙᣀ˖㛄 㲟ⱑ䝊˄trypsin˅ǃ㊰㲟ⱑ䝊˄chymotrypsin˅ǃLysCǃ⒈࣪∃ǃArgCǃAspNGluC˄ঠ㕻 䝃⻋䝌䝃˅DŽञ㛅⇼䝌⬆⸿⇼䝌ৃ䅵ㅫѻ⠽㚑↉ࠡࡴҹׂ佄DŽ㢹⫼᠋ᦤկⱘᰃSWISSPROTᷛ䆚ˈ㗠ϡऩᰃϔ↉ᑣ߫ˈPeptideMass䖬㛑߽⫼SWISS-PROTᑧЁᷛ⊼Ёⱘֵᙃणࡽ䅵 ㅫDŽ՟བˈ䰸এֵোᑣ߫ˈৢߛ࠾ПࠡᓩܹᏆⶹⱘ㗏䆥ৢׂ佄DŽ䕧ߎ㒧ᵰӮ߫៤㸼Ḑˈ݊ Ёᇚ㒭ߎ䕧ܹ㲟ⱑⱘpIߚᄤ䞣ˈ✊ৢᰃSWISS-PROTЁ݇Ѣব⾡ⱘߚᄤ䞣ǃԡ⚍ǃׂ佄ৢব ⾡ⱘֵᙃˈ᳔ৢᰃ㚑⠛↉ⱘᑣ߫DŽ TGREASE 25 >p1;b42997 9.87 754 1 754 5.17 retinoblastoma-associated protein 2 – human 26 >p1;a57467 9.91 647 1 647 5.74 Ra1BP1 – rat कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ4/20 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ... 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
利用蛋白质序列的预测方法 页码,5/20 GREASE是沿蛋白质序列长度计算其疏水性的工具(Kyte和 Doolittle,1982)。“疏水性 是每种氨基酸所固有的特性,即氨基酸远离周围水分子,将自己包埋进蛋白质核心的相对趋 势。这一趋势加上空间立体条件和其它一些因素决定了一个蛋白质最终折叠成的三维空间构 象。因此, TGREASE对预测球状蛋白内埋区以及判断待定跨膜序列等方面都有应用。 TGREASE 属于 FASTA系列程序之一,可以从Ⅵirini a大学得到,并可以作为独立程序在Mc或Dos系统下 运行。 疏水性预测的方法依赖于疏水性的衡量尺度,这里每个氨基酸根据其一系列的物理特性(例 如,溶解性、跨越水一汽相时产生的自由能等),被赋予一个数值以代表其疏水性。具有更 高正值的氨基酸具有更大的疏水性;而具有更低负值的氨基酸则更加亲水。然后,沿蛋白质 序列的疏水性的移动平均值,或者称为亲/疏水性索引被计算出来。窗口的宽度是可以调整 的,这里推荐7-11残基的窗口宽度以获得更多的信息和更少的噪声干扰。最后把结果绘制成 亲/疏水性一残基序号的线形图。图11.2是用人的白介素8受体B作的 TGREASE图。图中的峰与 实际跨膜区段的位置虽然不完全一致,但二者的相关性已经相当明显。要注意的是这种方法 不仅仅预测跨膜区段,还预测所有的疏水区。专门用来检测跨膜区段的方法将在后面专门讨 图112 TGREASE所作Kytt- Dool ttl!e疏水性分析结果。输入序列是人高亲和白介素8受体B, 使用了缺省的窗口长度。图中底部的粗横线是手工加上的,代表了 SWISS-PR0T中标注的该蛋 白1L-8R-B(P25025)中的七个跨膜区段的位置 SAPS 蛋白质序列统计分析方法( Statisti cal Anal ysis of Protein Sequences,SAPS)用于给出 关于查询序列的广泛的统计信息( Brende等,1992 个蛋白序列通过Web界面提交给 SAPS,服务器会返回一大堆关于该蛋白的物理和化学性质的信息,这些都是仅仅通过序列本 身就可以分析出来的。输出的结果最先是按种类对氨基酸的统计计数;随后是电荷分布分 析,包括正/负电荷聚集区的位置,高度带电和不带电区段,以及电荷的传播和模式等;最后 的部分给出了高疏水性和跨膜区段、重复结构和多重态、以及周期性分析。 二级结构和折叠类 分析新发现的蛋白质或未知功能的基因产物的第一步是用 BLAST或其它工具在公共数据库中进 行相似性搜索。然而,这种搜索可能无法找到一个已知相符蛋白质;即使能得到一个统计显 著的相符蛋白质,也很可能在序列记录中没有任何关于其二级结构的信息,而这些信息对设 计合理的生物化学实验十分重要。虽然没有“已知”的信息,但仍然有办法预测出序列折叠 成α螺旋或β叠片的性能。这些方法依赖于对大量实验测定三维结构的蛋白质的观察和分 析 在讨论技术本身之前,有必要简要回顾一下二级结构和折叠类。前面已经提及,许多氨基酸 具有疏水性的侧链,而主链或称骨架是亲水性的。肽链通过构成离散的二级结构元件来平衡 这两种相反的作用力。这在1951年由 Li nus Paul i ng及其合作者提出( Paul i ng和 Corey, 1951)。α螺旋是一种用来起瓶塞的钻头一样的螺旋结构,由主链构成螺旋的骨架,侧链从 螺旋向外伸出。骨架是通过各个氨基酸上的C0基团与C末端方向+4个氨基酸(n+4)的№H基 团形成的氢键来保持稳定的,这样就形成了结实的棒状结构。一些残基比其它残基更易形成 α螺旋:丙氨酸、谷氨酸、亮氨酸和甲硫氨酸经常在α螺旋中岀现;而脯氨酸、甘氨酸、酪 氨酸和丝氨酸一般不会在α螺旋中岀现。通常认为,脯氨酸是螺旋破坏者,这是由于它的环 状结构中断了n+4氢键的形成 file://E:wcb生物信息学(中译本)\第十一章利用蛋白质序列的预测方 2005-1-18
TGREASEᰃ⊓㲟ⱑ䋼ᑣ߫䭓ᑺ䅵ㅫ݊⭣∈ᗻⱘᎹ˄KyteDoolittleˈ1982˅DŽĀ⭣∈ᗻ” ᰃ↣⾡⇼䝌᠔᳝ⱘ⡍ᗻˈे⇼䝌䖰⾏਼ೈ∈ߚᄤˈᇚ㞾Ꮕࣙඟ䖯㲟ⱑ䋼ḌᖗⱘⳌᇍ䍟 DŽ䖭ϔ䍟ࡴϞぎ䯈ゟԧᴵӊ݊ᅗϔѯ㋴އᅮњϔϾ㲟ⱑ䋼᳔㒜ᡬ៤ⱘϝ㓈ぎ䯈ᵘ 䈵DŽℸˈTGREASEᇍ乘⌟⧗⢊㲟ⱑݙඟऎҹঞ߸ᮁᕙᅮ䎼㝰ᑣ߫ㄝᮍ䴶䛑᳝ᑨ⫼DŽTGREASE ሲѢFASTA㋏߫ᑣПϔˈৃҹҢVirginiaᄺᕫࠄˈᑊৃҹЎ⣀ゟᑣMacDos㋏㒳ϟ 䖤㸠DŽ ⭣∈ᗻ乘⌟ⱘᮍ⊩ձ䌪Ѣ⭣∈ᗻⱘ㸵䞣ሎᑺˈ䖭䞠↣Ͼ⇼䝌ḍ݊ϔ㋏߫ⱘ⠽⧚⡍ᗻ˄՟ བˈ⒊㾷ᗻǃ䎼䍞∈ˉ≑Ⳍᯊѻ⫳ⱘ㞾⬅㛑ㄝ˅ˈ㹿䌟ќϔϾ᭄ؐҹҷ㸼݊⭣∈ᗻDŽ᳝ 催ℷؐⱘ⇼䝌᳝ⱘ⭣∈ᗻ˗㗠᳝Ԣ䋳ؐⱘ⇼䝌߭ࡴ∋҆DŽ✊ৢˈ⊓㲟ⱑ䋼 ᑣ߫ⱘ⭣∈ᗻⱘ⿏ࡼᑇഛؐˈ㗙⿄Ў҆⭣∈ᗻ㋶ᓩ㹿䅵ㅫߎᴹDŽにষⱘᆑᑺᰃৃҹ䇗ᭈ ⱘˈ䖭䞠㤤ˉ11⅟ⱘにষᆑᑺҹ㦋ᕫⱘֵᙃᇥⱘాໄᑆᡄDŽ᳔ৢᡞ㒧ᵰ㒬ࠊ៤ ҆⭣∈ᗻˉ⅟ᑣোⱘ㒓ᔶDŽ11.2ᰃ⫼Ҏⱘⱑҟ㋴ফԧ%ⱘTGREASEDŽЁⱘዄϢ ᅲ䰙䎼㝰ऎ↉ⱘԡ㕂㱑✊ϡᅠܼϔ㟈ˈԚѠ㗙ⱘⳌ݇ᗻᏆ㒣ⳌᔧᯢᰒDŽ㽕⊼ᛣⱘᰃ䖭⾡ᮍ⊩ ϡҙҙ乘⌟䎼㝰ऎ↉ˈ䖬乘⌟᠔᳝ⱘ⭣∈ऎDŽϧ䮼⫼ᴹẔ⌟䎼㝰ऎ↉ⱘᮍ⊩ᇚৢ䴶ϧ䮼䅼 䆎DŽ ……………… 11.2 TGREASE᠔Kytt-Doolittle⭣∈ᗻߚᵤ㒧ᵰDŽ䕧ܹᑣ߫ᰃҎ催҆ⱑҟ㋴ফԧ%ˈ Փ⫼њ㔎ⳕⱘにষ䭓ᑺDŽЁᑩ䚼ⱘ㉫῾㒓ᰃᎹࡴϞⱘˈҷ㸼њSWISS-PROTЁᷛ⊼ⱘ䆹㲟 ⱑ1L-8R-B˄P25025˅ЁⱘϗϾ䎼㝰ऎ↉ⱘԡ㕂DŽ SAPS 㲟ⱑ䋼ᑣ߫㒳䅵ߚᵤᮍ⊩˄Statistical Analysis of Protein SequencesˈSAPS˅⫼Ѣ㒭ߎ ݇Ѣᶹ䆶ᑣ߫ⱘᑓ⊯ⱘ㒳䅵ֵᙃ˄Brendelㄝˈ1992˅DŽᔧϔϾ㲟ⱑᑣ߫䗮䖛Web⬠䴶ᦤѸ㒭 SAPSˈ᳡ࡵ఼Ӯ䖨ಲϔේ݇Ѣ䆹㲟ⱑⱘ⠽⧚࣪ᄺᗻ䋼ⱘֵᙃˈ䖭ѯ䛑ᰃҙҙ䗮䖛ᑣ߫ᴀ 䑿ህৃҹߚᵤߎᴹⱘDŽ䕧ߎⱘ㒧ᵰ᳔ܜᰃᣝ⾡㉏ᇍ⇼䝌ⱘ㒳䅵䅵᭄˗䱣ৢᰃ⬉㥋ߚᏗߚ ᵤˈࣙᣀℷ䋳⬉㥋㘮䲚ऎⱘԡ㕂ˈ催ᑺᏺ⬉ϡᏺ⬉ऎ↉ˈҹঞ⬉㥋ⱘӴ᪁ᓣㄝ˗᳔ৢ ⱘ䚼ߚ㒭ߎњ催⭣∈ᗻ䎼㝰ऎ↉ǃ䞡㒧ᵘ䞡ᗕǃҹঞ਼ᳳᗻߚᵤDŽ Ѡ㑻㒧ᵘᡬ㉏ ߚᵤᮄথ⦄ⱘ㲟ⱑ䋼ⶹࡳ㛑ⱘѻ⠽ⱘϔℹᰃ⫼BLAST݊ᅗᎹ᭄݅݀ᑧЁ䖯 㸠ⳌԐᗻ᧰㋶DŽ✊㗠ˈ䖭⾡᧰㋶ৃ㛑᮴⊩ᡒࠄϔϾᏆⶹⳌヺ㲟ⱑ䋼˗ेՓ㛑ᕫࠄϔϾ㒳䅵ᰒ 㨫ⱘⳌヺ㲟ⱑ䋼ˈгᕜৃ㛑ᑣ߫䆄ᔩЁ≵᳝ӏԩ݇Ѣ݊Ѡ㑻㒧ᵘⱘֵᙃˈ㗠䖭ѯֵᙃᇍ䆒 䅵ড়⧚ⱘ⫳⠽࣪ᄺᅲ偠कߚ䞡㽕DŽ㱑✊≵᳝ĀᏆⶹāⱘֵᙃˈԚҡ✊᳝ࡲ⫣乘⌟ߎᑣ߫ᡬ ៤D 㶎ᮟE ⠛ⱘᗻ㛑DŽ䖭ѯᮍ⊩ձ䌪Ѣᇍ䞣ᅲ偠⌟ᅮϝ㓈㒧ᵘⱘ㲟ⱑ䋼ⱘ㾖ᆳߚ ᵤDŽ 䅼䆎ᡔᴃᴀ䑿Пࠡˈ᳝ᖙ㽕ㅔ㽕ಲ乒ϔϟѠ㑻㒧ᵘᡬ㉏DŽࠡ䴶Ꮖ㒣ᦤঞˈ䆌⇼䝌 ∋⭣᳝ᗻⱘջ䫒ˈ㗠Џ䫒⿄偼ᶊᰃ҆∈ᗻⱘDŽ㚑䫒䗮䖛ᵘ៤⾏ᬷⱘѠ㑻㒧ᵘܗӊᴹᑇ㸵 䖭ϸ⾡Ⳍডⱘ⫼DŽ䖭1951ᑈ⬅Linus Paulingঞ݊ড়㗙ᦤߎ˄PaulingCoreyˈ 1951˅DŽD 㶎ᮟᰃϔ⾡⫼ᴹ䍋⫊าⱘ䪏༈ϔḋⱘ㶎ᮟ㒧ᵘˈ⬅Џ䫒ᵘ៤㶎ᮟⱘ偼ᶊˈջ䫒Ң 㶎ᮟԌߎDŽ偼ᶊᰃ䗮䖛Ͼ⇼䝌ϞⱘCOಶϢ&ッᮍˇϾ⇼䝌˄Qˇ˅ⱘNH ಶᔶ៤ⱘ⇶䬂ᴹֱᣕ〇ᅮⱘˈ䖭ḋህᔶ៤њ㒧ᅲⱘẦ⢊㒧ᵘDŽϔѯ⅟↨݊ᅗ⅟ᯧᔶ៤ D㶎ᮟ˖ϭ⇼䝌ǃ䈋⇼䝌ǃ҂⇼䝌⬆⸿⇼䝌㒣ᐌD㶎ᮟЁߎ˗⦃㗠㜃⇼䝌ǃ⫬⇼䝌ǃ䜾 ⇼䝌ϱ⇼䝌ϔ㠀ϡӮD 㶎ᮟЁߎ⦃DŽ䗮ᐌ䅸Ўˈ㜃⇼䝌ᰃ㶎ᮟ⸈ണ㗙ˈ䖭ᰃ⬅Ѣᅗⱘ⦃ ⢊㒧ᵘЁᮁњQˇ⇶䬂ⱘᔶ៤DŽ कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ5/20 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ... 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com