当前位置：和泉文库 > 生物 > 浏览文档

《生物信息学》课程教学资源（中译本）第九章系统发育分析

系统发育学研究的是进化关系,系统发育分析就是要推断或者评估这些进化关系。通过系统发育分析所推断出来的进化关系一般用分枝图表(进化树)来描述,这个进化树就描述了同一谱系的进化关系,包括了分子进化(因树)、物种进化以及分子进化和物种进化的综合。因为 cl ade这个词(拥有共同祖先的同一谱系)在希腊文中的本意是分支,所以系统发育学有时被称为遗传分类学(cl adi sti cs)。在现代系统发育学研究中,研究的重点已经不再是生物的形态学特征或者其他特性,而是生物大分子尤其是序列。

文件格式：PDF，文件大小：319.6KB，售价：9.24元

文档详细内容（约32页）

第九章系统发育分析页码,1/3 第九章系统发育分析 Mark A. Hershkovi tz and Detlef D Lei pe Nati onal Center for Biotechnol ogy I nformati on Nati onal Li brary of Medi ci ne Nati onal insti tutes of heal th Bethesda, Maryl and 系统发育学研究的是进化关系,系统发育分析就是要推断或者评估这些进化关系。通过系统发育分析所推断出来的进化关系一般用分枝图表(进化树)来描述,这个进化树就描述了同一谱系的进化关系,包括了分子进化(基因树)、物种进化以及分子进化和物种进化的综合。因为”cade”这个词(拥有共同祖先的同一谱系)在希腊文中的本意是分支,所以系统发育学有时被称为遗传分类学( cl adi stics)。在现代系统发育学研究中,研究的重点已经不再是生物的形态学特征或者其他特性,而是生物大分子尤其是序列。尽管本章的目的是想描述一个万能的系统发育分析方法,但是这个目标过于天真,是不可能实现的( Hils et al.,1993)。虽然人们已经设计了大量的用于系统发育的算法、过程和计算机程序,这些方法的可靠性和实用性还是依赖于数据的结构和大小,因此关于这些方法的优点和缺点的激烈争论成了分类学和系统发育学期刊的热门课题( Avi se,1994: Sai tou,1996 Li,1997; Swofford et al.,1996a)。 Hillis等人(1993)曾经极其简单地介绍过系统发育学比起许多其它学科而言,用计算的方法进行系统发育分析很容易得到错误的结果,而且出错的危险几乎是不可避免的;其它学科一般都会有实验基础,而系统发育分析不太可能会拥有实验基础,至多也就是一些模拟实验或者病毒实验( Hillis et a.,194);实际上,系统发育的发生过程都是已经完成的历史,只能去推断或者评估,而无法再现了。尽管现在的系统发育分析的程序存在着很多缺陷,许多生物学著作中仍然大量引用系统发育分析得到的结论,这些结论的源数据只是简单地应用了某一个系统发育的分析程序。只有在很偶然的情况 ,在应用某些软件处理数据时受到的困难会少一点,但是在概念上理解这些程序是如何处理数据仍然是个难题。本文中关于系统发育分析方法的指导有如下一些目的。首先,我们要介绍一个概念性的步骤,这个步骤包含了当前在对生物序列进行系统发育分析时最广泛使用的方法中应用到的些最重要的原理。这个步骤认为,所有的系统发育方法都刻画了一个模型去模拟真实的进化过程,然后假定程序发现的序列之间的差异是模拟的进化结果,而这个模型本身就包含了方法中固有的假定。对于一个好的使用的系统发育的分析方法,刻画一个正确的模型同描绘个正确的进化树是同等重要的。另外,我们还将讨论一些比较通用的方法所刻画的模型,并且讨论一下这些模型是如何影响对数据组的分析的。最后,我们会针对系统发育模型和进化史的推论,提供一些具体方法应用的例子系统发育模型的组成系统发育的建树方法都会预先假定一个进化模型( Penny et al.1994)。比如,所有广泛使用的方法都假定进化的分歧是严格分枝的,因此我们可以用树状拓扑发生图来描述已知的数据。但是在一个给定的数据组中,因为存在着物种的杂交以及物种之间遗传物质的传递 file://E:wcb生物信息学(中译本)\第九章系统发育分析.htm 2005-1-18

㄀бゴ㋏㒳থ㚆ߚᵤ Mark A. Hershkovitz and Detlef D.Leipe National Center for Biotechnology Information National Library of Medicine National Institutes of Health Bethesda,Maryland ㋏㒳থ㚆ᄺⷨおⱘᰃ䖯࣪LTDˈLTD݇㒳থ㚆ߚᵤህᰃ㽕᥼ᮁ៪㗙䆘Ԅ䖭ѯ䖯࣪LTD݇Ǆ䗮䖛㋏㒳 থ㚆ߚᵤ᠔᥼ᮁߎᴹⱘ䖯࣪LTD݇ϔ㠀⫼ߚᵱ೒㸼˄䖯࣪˅ᷥᴹᦣ䗄ˈ䖭Ͼ䖯࣪ᷥህᦣ䗄њৠ ϔ䈅㋏ⱘ䖯࣪ˈLTD݇ࣙᣀњߚᄤ䖯࣪˅ᷥ಴෎˄ǃ⠽⾡䖯࣪ҹঞߚᄤ䖯࣪੠⠽⾡䖯࣪ⱘ㓐 ড়Ǆ಴Ў”clade”䖭Ͼ䆡˄ᢹ᳝݅ৠ⼪ܜⱘৠϔ䈅㋏˅೼Ꮰ㜞᭛Ёⱘᴀᛣᰃߚˈᬃ᠔ҹ㋏㒳 থ㚆ᄺ᳝ᯊ㹿⿄Ў䘫Ӵߚ㉏ᄺ(cladistics)Ǆ೼⦄ҷ㋏㒳থ㚆ᄺⷨおЁˈⷨおⱘ䞡⚍Ꮖ㒣ϡ ݡᰃ⫳⠽ⱘᔶᗕᄺ⡍ᕕ៪㗙݊Ҫ⡍ᗻˈ㗠ᰃ⫳⠽໻ߚᄤᇸ݊ᰃᑣ߫Ǆ ሑㅵᴀゴⱘⳂⱘᰃᛇᦣ䗄ϔϾϛ㛑ⱘ㋏㒳থ㚆ߚᵤᮍ⊩ˈԚᰃ䖭ϾⳂᷛ䖛Ѣ໽ⳳˈᰃϡৃ㛑 ᅲ⦄ⱘ(Hills et al.,1993)Ǆ㱑✊ҎӀᏆ㒣䆒䅵њ໻䞣ⱘ⫼Ѣ㋏㒳থ㚆ⱘㅫ⊩ǃ䖛⿟੠䅵ㅫ ᴎ⿟ᑣˈ䖭ѯᮍ⊩ⱘৃ䴴ᗻ੠ᅲ⫼ᗻ䖬ᰃձ䌪Ѣ᭄᥂ⱘ㒧ᵘ੠໻ᇣˈ಴ℸ݇Ѣ䖭ѯᮍ⊩ⱘӬ ⚍੠㔎⚍ⱘ▔⚜ѝ䆎៤њߚ㉏ᄺ੠㋏㒳থ㚆ᄺᳳߞⱘ⛁䮼䇒乬˄Avise, 1994:Saitou, 1996; Li, 1997; Swofford et al., 1996a˅ǄHillisㄝҎ˄1993˅᳒㒣ᵕ݊ㅔऩഄҟ㒡䖛㋏㒳থ 㚆ᄺǄ ↨䍋䆌໮݊ᅗᄺ⾥㗠㿔ˈ⫼䅵ㅫⱘᮍ⊩䖯㸠㋏㒳থ㚆ߚᵤᕜᆍᯧᕫࠄ䫭䇃ⱘ㒧ᵰˈ㗠Ϩߎ䫭 ⱘॅ䰽޴Тᰃϡৃ䙓ܡⱘ˗݊ᅗᄺ⾥ϔ㠀䛑Ӯ᳝ᅲ偠෎⸔ˈ㗠㋏㒳থ㚆ߚᵤϡ໾ৃ㛑Ӯᢹ᳝ ᅲ偠෎⸔ˈ㟇໮гህᰃϔѯ῵ᢳᅲ偠៪㗙⮙↦ᅲ偠˄Hillis et al., 1994˅˗ᅲ䰙Ϟˈ㋏㒳 থ㚆ⱘথ⫳䖛⿟䛑ᰃᏆ㒣ᅠ៤ⱘग़৆ˈা㛑এ᥼ᮁ៪㗙䆘Ԅˈ㗠᮴⊩ݡ⦃њǄሑㅵ⦄೼ⱘ㋏㒳থ㚆ߚᵤⱘ⿟ᑣᄬ೼ⴔᕜ໮㔎䱋ˈ䆌໮⫳⠽ᄺ㨫԰Ёҡ✊໻䞣ᓩ⫼㋏㒳থ㚆ߚᵤᕫࠄⱘ㒧䆎ˈ䖭ѯ㒧䆎ⱘ⑤᭄᥂াᰃㅔऩഄᑨ⫼њᶤϔϾ㋏㒳থ㚆ⱘߚᵤ⿟ᑣǄা᳝೼ᕜي✊ⱘᚙމ ϟˈ೼ᑨ⫼ᶤѯ䕃ӊ໘⧚᭄᥂ᯊফࠄⱘೄ䲒Ӯᇥϔ⚍ˈԚᰃ೼ὖᗉϞ⧚㾷䖭ѯ⿟ᑣᰃབԩ໘ ⧚᭄᥂ҡ✊ᰃϾ䲒乬Ǆ ᴀ᭛Ё݇Ѣ㋏㒳থ㚆ߚᵤᮍ⊩ⱘᣛᇐ᳝བϟϔѯⳂⱘǄ佪ܜˈ៥Ӏ㽕ҟ㒡ϔϾὖᗉᗻⱘℹ 偸ˈ䖭Ͼℹ偸ࣙ৿њᔧࠡ೼ᇍ⫳⠽ᑣ߫䖯㸠㋏㒳থ㚆ߚᵤᯊ᳔ᑓ⊯Փ⫼ⱘᮍ⊩Ёᑨ⫼ࠄⱘϔ ѯ᳔䞡㽕ⱘॳ⧚Ǆ䖭Ͼℹ偸䅸Ўˈ᠔᳝ⱘ㋏㒳থ㚆ᮍ⊩䛑ࠏ⬏њϔϾ῵ൟএ῵ᢳⳳᅲⱘ䖯࣪ 䖛⿟ˈ✊ৢ؛ᅮ⿟ᑣথ⦄ⱘᑣ߫П䯈ⱘᏂᓖᰃ῵ᢳⱘ䖯࣪㒧ᵰˈ㗠䖭Ͼ῵ൟᴀ䑿ህࣙ৿њᮍ ⊩Ё೎᳝ⱘ؛ᅮǄᇍѢϔϾདⱘՓ⫼ⱘ㋏㒳থ㚆ⱘߚᵤᮍ⊩ˈࠏ⬏ϔϾℷ⹂ⱘ῵ൟৠᦣ㒬ϔ Ͼℷ⹂ⱘ䖯࣪ᷥᰃৠㄝ䞡㽕ⱘǄ঺໪ˈ៥Ӏ䖬ᇚ䅼䆎ϔѯ↨䕗䗮⫼ⱘᮍ⊩᠔ࠏ⬏ⱘ῵ൟˈᑊ Ϩ䅼䆎ϔϟ䖭ѯ῵ൟᰃབԩᕅડᇍ᭄᥂㒘ⱘߚᵤⱘǄ᳔ৢˈ៥ӀӮ䩜ᇍ㋏㒳থ㚆῵ൟ੠䖯࣪ ৆ⱘ᥼䆎ˈᦤկϔѯ݋ԧᮍ⊩ᑨ⫼ⱘ՟ᄤǄ ㋏㒳থ㚆῵ൟⱘ㒘៤ ㋏㒳থ㚆ⱘᓎᷥᮍ⊩䛑Ӯ乘؛ܜᅮϔϾ䖯࣪˄ൟ῵Penny et al., 1994˅Ǆ↨བˈ᠔᳝ᑓ⊯ Փ⫼ⱘᮍ⊩䛑؛ᅮ䖯࣪ⱘߚFAXᰃϹḐߚᵱⱘˈ಴ℸ៥Ӏৃҹ⫼ᷥ⢊ᢧᠥথ⫳೒ᴹᦣ䗄Ꮖⶹⱘ ᭄᥂ǄԚᰃ೼ϔϾ㒭ᅮⱘ᭄᥂㒘Ёˈ಴Ўᄬ೼ⴔ⠽⾡ⱘᴖѸҹঞ⠽⾡П䯈䘫Ӵ⠽䋼ⱘӴ䗦ˈ ㄀бゴ㋏㒳থ㚆ߚᵤ 义ⷕˈ1/32 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀бゴ㋏㒳থ㚆ߚᵤ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第九章系统发育分析页码,2/3 这个假定很可能会被推翻。因此,如果所观察的序列并非是严格遗传的话,大多数系统发育方法就会得到错误的结果。系统发育方法中固有的模型会导致一些额外的假定: 1.序列有指定的来源并且正确无误( Hel big and Sei bol d,1996; Hershkovi tz and Lewis, 1996: Sol tis et al. 1997) 2.序列是同源的(也就是说,所有的序列都起源于同一祖先序列);这些序列不是 paral og°( paral og指的是一个祖先序列通过复制等方法在基因组中产生的歧化序列)的混合物。 3.序列比对中,不同序列的同一个位点都是同源的 4.在接受分析的一个序列组中,序列之间的系统发育史是相同的(比如,序列组中不存在核序列与细胞器序列的混合)。 5.样本足以解决感兴趣的问题 6.样本序列之间的差异代表了感兴趣的宽组 7.样本序列之间的差异包含了足以解决感兴趣的问题的系统发育信号还有一些假定,在某些方法中是默认的,但是在另外一些方法中是可以修正的 8.样本序列是随机进化的。 9.序列中的所有位点的进化都是随机的。 10.序列中的每一个位点的进化都是独立的许多公开发表的系统发育分析结果的错误通常都是因为违反了上述假定,特别令人恼火的是现有的方法并不能察觉对基本假定的违反。每一个序列组都必须根据上述基本假定进行评估,并且同分析过程相协调。下面我们将会描述分析过程。系统发育数据分析:比对,建立取代模型,建立进化树以及进化树评估对DNA序列进行系统发育分析的四个主要步骤是比对,建立取代模型,建立进化树以及进化树评估。一般来说,执行这四个步骤的计算机程序都是相互独立的,但是他们都是进行系统发育分析的有机部分当前的讨论主要集中在分析DNA序列的方法上,这些方法基本上(不全是)仍然是通过碱基和密码子的替代来考察序列的差异;这个方法同样应用于对蛋白质序列的分析,但是由于氨基酸的生物化学多样性,我们必须引入更多的数学参数。因此,下面讨论的适用于核苷酸碱基的方法同样适用于氨基酸和密码子,而关于蛋白质的一些特殊问题和程序会在别的地方得到讨论( Fel sensei n,1996)。因为建树的标准在一定程度上依赖比对和取代模型,因此一开始就应该介绍这些方法,这些介绍非常必要。三种主要的建树方法分别是距离、最大节约( maxi mum parsi mony,MP)和最大似然( maxi mum ike i hood,ML)。距离树考察数据组中所有序列的两两比对结果,通过 file://E:wcb生物信息学(中译本)\第九章系统发育分析.htm 2005-1-18

䖭Ͼ؛ᅮᕜৃ㛑Ӯ㹿᥼㗏Ǆ಴ℸˈབᵰ᠔㾖ᆳⱘᑣ߫ᑊ䴲ᰃϹḐ䘫Ӵⱘ䆱ˈ໻໮᭄㋏㒳থ㚆 ᮍ⊩ህӮᕫࠄ䫭䇃ⱘ㒧ᵰǄ ㋏㒳থ㚆ᮍ⊩Ё೎᳝ⱘ῵ൟӮᇐ㟈ϔѯ乱໪ⱘ؛ᅮ˖ 1. ᑣ᳝߫ᣛᅮⱘᴹ⑤ᑊϨℷ⹂᮴䇃˄Helbig and Seibold, 1996; Hershkovitz and Lewis, 1996; Soltis et al., 1997˅Ǆ 2. ᑣ߫ᰃৠ⑤ⱘ˄гህᰃ䇈ˈ᠔᳝ⱘᑣ߫䛑䍋⑤Ѣৠϔ⼪ܜᑣ߫˅˗䖭ѯᑣ߫ϡᰃ “paralog“˄paralogᣛⱘᰃϔϾ⼪ܜᑣ߫䗮䖛໡ࠊㄝᮍ⊩೼෎಴㒘Ёѻ⫳ⱘ℻࣪ᑣ ߫˅ⱘ⏋ড়⠽Ǆ 3. ᑣ߫↨ᇍЁˈϡৠᑣ߫ⱘৠϔϾԡ⚍䛑ᰃৠ⑤ⱘǄ 4. ೼᥹ফߚᵤⱘϔϾᑣ߫㒘Ёˈᑣ߫П䯈ⱘ㋏㒳থ㚆৆ᰃⳌৠⱘ˄↨བˈᑣ߫㒘Ёϡᄬ೼ Ḍᑣ߫Ϣ㒚㚲఼ᑣ߫ⱘ⏋ড়˅Ǆ 5. ḋᴀ䎇ҹ㾷އ݈ᛳ䍷ⱘ䯂乬Ǆ 6. ḋᴀᑣ߫П䯈ⱘᏂᓖҷ㸼њᛳ݈䍷ⱘᆑ㒘Ǆ 7. ḋᴀᑣ߫П䯈ⱘᏂᓖࣙ৿њ䎇ҹ㾷އ݈ᛳ䍷ⱘ䯂乬ⱘ㋏㒳থ㚆ֵোǄ 䖬᳝ϔѯ؛ᅮˈ೼ᶤѯᮍ⊩Ёᰃ咬䅸ⱘˈԚᰃ೼঺໪ϔѯᮍ⊩Ёᰃৃҹׂℷⱘ˖ 8. ḋᴀᑣ߫ᰃ䱣ᴎ䖯࣪ⱘǄ 9. ᑣ߫Ёⱘ᠔᳝ԡ⚍ⱘ䖯࣪䛑ᰃ䱣ᴎⱘǄ 10. ᑣ߫Ёⱘ↣ϔϾԡ⚍ⱘ䖯࣪䛑ᰃ⣀ゟⱘǄ 䆌໮݀ᓔথ㸼ⱘ㋏㒳থ㚆ߚᵤ㒧ᵰⱘ䫭䇃䗮ᐌ䛑ᰃ಴Ў䖱ডњϞ䗄؛ᅮˈ⡍߿ҸҎᙐ☿ⱘᰃ ⦄᳝ⱘᮍ⊩ᑊϡ㛑ᆳ㾝ᇍ෎ᴀ؛ᅮⱘ䖱ডǄ↣ϔϾᑣ߫㒘䛑ᖙ乏ḍ᥂Ϟ䗄෎ᴀ؛ᅮ䖯㸠䆘 ԄˈᑊϨৠߚᵤ䖛⿟Ⳍण䇗Ǆϟ䴶៥ӀᇚӮᦣ䗄ߚᵤ䖛⿟Ǆ ㋏㒳থ㚆᭄᥂ߚᵤ˖↨ᇍˈᓎゟপҷ῵ൟˈᓎゟ䖯࣪ᷥҹঞ䖯䆘Ԅᷥ࣪ ᇍDNAᑣ߫䖯㸠㋏㒳থ㚆ߚᵤⱘಯϾЏ㽕ℹ偸ᰃ↨ᇍˈᓎゟপҷ῵ൟˈᓎゟ䖯࣪ᷥҹঞ䖯࣪ᷥ 䆘ԄǄϔ㠀ᴹ䇈ˈᠻ㸠䖭ಯϾℹ偸ⱘ䅵ㅫᴎ⿟ᑣ䛑ᰃⳌѦ⣀ゟⱘˈԚᰃҪӀ䛑ᰃ䖯㸠㋏㒳থ 㚆ߚᵤⱘ᳝ᴎ䚼ߚǄ ᔧࠡⱘ䅼䆎Џ㽕䲚Ё೼ߚᵤDNAᑣ߫ⱘᮍ⊩Ϟˈ䖭ѯᮍ⊩෎ᴀϞ˄ϡܼᰃ˅ҡ✊ᰃ䗮䖛⺅෎੠ ᆚⷕᄤⱘ᳓ҷᴹ㗗ᆳᑣ߫ⱘᏂᓖ˗䖭Ͼᮍ⊩ৠḋᑨ⫼Ѣᇍ㲟ⱑ䋼ᑣ߫ⱘߚᵤˈԚᰃ⬅Ѣ⇼෎ 䝌ⱘ⫳⠽࣪ᄺ໮ḋᗻˈ៥Ӏᖙ乏ᓩܹ᳈໮ⱘ᭄ᄺখ᭄Ǆ಴ℸˈϟ䴶䅼䆎ⱘ䗖⫼ѢḌ㣋䝌⺅෎ ⱘᮍ⊩ৠḋ䗖⫼Ѣ⇼෎䝌੠ᆚⷕᄤˈ㗠݇Ѣ㲟ⱑ䋼ⱘϔѯ⡍⅞䯂乬੠⿟ᑣӮ೼߿ⱘഄᮍᕫࠄ 䅼䆎˄Felsenstein, 1996˅Ǆ ಴Ўᓎᷥⱘᷛޚ೼ϔᅮ⿟ᑺϞձ䌪↨ᇍ੠পҷ῵ൟˈ಴ℸϔᓔྟህᑨ䆹ҟ㒡䖭ѯᮍ⊩ˈ䖭ѯ ҟ㒡䴲ᐌᖙ㽕Ǆϝ⾡Џ㽕ⱘᓎᷥᮍ⊩߿ߚᰃ䎱⾏ǃ᳔໻㡖㑺˄maximum parsimony, MP˅੠᳔ ໻Ԑ✊˄maximum likelihoodˈML˅Ǆ䎱⾏ᷥ㗗ᆳ᭄᥂㒘Ё᠔᳝ᑣ߫ⱘϸϸ↨ᇍ㒧ᵰˈ䗮䖛㄀бゴ㋏㒳থ㚆ߚᵤ 义ⷕˈ2/32 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀бゴ㋏㒳থ㚆ߚᵤ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第九章系统发育分析页码,3/32 序列两两之间的差异决定进化树的拓扑结构和树枝长度。最大节约方法考察数据组中序列的多重比对结果,优化出的进化树能够利用最少的离散步骤去解释多重比对中的碱基差异。最大似然方法考察数据组中序列的多重比对结果,优化出拥有一定拓扑结构和树枝长度的进化树,这个进化树能够以最大的概率导致考察的多重比对结果。这些方面将会在后面详细讨论建立数据模型(比对) 系统发育的序列数据通常会进行多重比对,也就是说,在系统发育的有关文献中通常会把那些单独的比对好的碱基所占据的位置称作位点;在进行系统发育的理论讨论时这些位点等同于特征符,而占据这些位点的真实的碱基或者空位被称为特征符状态;但是也有例外, STATALI GN程序( Thorne and ki shi no,1992)在进行系统发育分析时不会进行多重比对,它使用原始的未比对过的序列。多重比对在第七章中有详细讨论,在这里我们只讨论与系统发育分析有关的多重比对方法。对准的序列位点将会被应用于系统发育分析,但是这只能描述一个先验的系统发育的结论, 因为位点本身(不是真实的碱基)都是假定为同源的( Mi ndel l,1991; Wheeler,1994)。因此,出于系统发育的目的,比对程序只是系统发育分析的一部分。建立一个比对模型的基本步骤包括:选择合适的比对程序;然后从比对结果中提取系统发育的数据集,至于如何提取有效数据,取决于所选择的建树程序如何处理容易引起歧义的比对区域和插入---删除序列(即所谓的inde状态或者空位状态) 多重比对程序多重比对程序有如下一些属性: 计算机依赖性:无依赖;部分依赖;完全依赖系统发育调用:无调用;先验调用;递归调用。比对参数评估:先验评估;动态评估;递归评估。比对特征:基本结构(比如序列);高级结构。数学优化:统计优化:非统计优化。在系统发育分析研究中,一个典型的比对过程包括:首先应用 CLUSTAL W程序,然后进行手工比对,最后提交给一个建树程序。这个过程有如下特征选项:(1)、部分依赖于计算机(也就是说,需要手工调整);(2)、需要一个先验的系统发育标准(也就是说需要一个前导树):(3)、使用先验评估方法和动态评估方法(推荐)对比对参数进行评估;(4)、对基本结构(序列)进行比对(对于亲水的氨基酸,推荐引入部分的二级结构特征);(5)、应用非统计数学优化。这些特征选项的取舍都依赖于下面将要描述的具体的系统发育分析方计算机依赖型提倡进行完全的计算机多重比对的人常常有这样的依据,他们认为手工比对通常都是含混不清的( Gatesy et al.,1993)。 MALI GN( Wheeler and gl adstei n,1994)和 TreeAl i gn (Hein,1990,1994)程序都试图在根据系统发育功能而优化比对的时候实现完全计算机化,尤其是试图通过初步的多重比对而优化出一个最大节约树( MP tree)。一般来说,只有 file://E:wcb生物信息学(中译本)\第九章系统发育分析.htm 2005-1-18

ᑣ߫ϸϸП䯈ⱘᏂᓖއᅮ䖯࣪ᷥⱘᢧᠥ㒧ᵘ੠ᷥᵱ䭓ᑺǄ᳔໻㡖㑺ᮍ⊩㗗ᆳ᭄᥂㒘Ёᑣ߫ⱘ ໮䞡↨ᇍ㒧ᵰˈӬߎ࣪ⱘ䖯࣪ᷥ㛑໳᳔߽⫼ᇥⱘ⾏ᬷℹ偸এ㾷䞞໮䞡↨ᇍЁⱘ⺅෎ᏂᓖǄ᳔ ໻Ԑ✊ᮍ⊩㗗ᆳ᭄᥂㒘Ёᑣ߫ⱘ໮䞡↨ᇍ㒧ᵰˈӬߎ࣪ᢹ᳝ϔᅮᢧᠥ㒧ᵘ੠ᷥᵱ䭓ᑺⱘ䖯࣪ ᷥˈ䖭Ͼ䖯࣪ᷥ㛑໳ҹ᳔໻ⱘὖ⥛ᇐ㟈㗗ᆳⱘ໮䞡↨ᇍ㒧ᵰǄ䖭ѯᮍ䴶ᇚӮ೼ৢ䴶䆺㒚䅼䆎Ǆ ᓎゟ᭄᥂῵ൟ˄↨ᇍ˅ ㋏㒳থ㚆ⱘᑣ᭄߫᥂䗮ᐌӮ䖯㸠໮䞡↨ᇍˈгህᰃ䇈ˈ೼㋏㒳থ㚆ⱘ᳝݇᭛⤂Ё䗮ᐌӮᡞ䙷 ѯऩ⣀ⱘ↨ᇍདⱘ⺅෎᠔ऴ᥂ⱘԡ㕂⿄԰ԡ⚍˗೼䖯㸠㋏㒳থ㚆ⱘ⧚䆎䅼䆎ᯊ䖭ѯԡ⚍ㄝৠ Ѣ⡍ᕕヺˈ㗠ऴ᥂䖭ѯԡ⚍ⱘⳳᅲⱘ⺅෎៪㗙ぎԡ㹿⿄Ў⡍ᕕヺ⢊ᗕ˗Ԛᰃг᳝՟໪ˈ STATALIGN⿟ᑣ˄Thorne and Kishino, 1992˅೼䖯㸠㋏㒳থ㚆ߚᵤᯊϡӮ䖯㸠໮䞡↨ᇍˈᅗ Փ⫼ॳྟⱘ᳾↨ᇍ䖛ⱘᑣ߫Ǆ ໮䞡↨ᇍ೼㄀ϗゴЁ᳝䆺㒚䅼䆎ˈ೼䖭䞠៥Ӏা䅼䆎Ϣ㋏㒳থ㚆ߚᵤ᳝݇ⱘ໮䞡↨ᇍᮍ⊩Ǆ ᇍޚⱘᑣ߫ԡ⚍ᇚӮ㹿ᑨ⫼Ѣ㋏㒳থ㚆ߚᵤˈԚᰃ䖭া㛑ᦣ䗄ϔϾܜ偠ⱘ㋏㒳থ㚆ⱘ㒧䆎ˈ ಴Ўԡ⚍ᴀ䑿˄ϡᰃⳳᅲⱘ⺅෎˅䛑ᰃ؛ᅮЎৠ⑤ⱘ˄Mindell, 1991; Wheeler, 1994˅Ǆ ಴ℸˈߎѢ㋏㒳থ㚆ⱘⳂⱘˈ↨ᇍ⿟ᑣাᰃ㋏㒳থ㚆ߚᵤⱘϔ䚼ߚǄ ᓎゟϔϾ↨ᇍ῵ൟⱘ෎ᴀℹ偸ࣙᣀ˖䗝ᢽড়䗖ⱘ↨ᇍ⿟ᑣ˗✊ৢҢ↨ᇍ㒧ᵰЁᦤপ㋏㒳থ㚆 ⱘ᭄᥂䲚ˈ㟇Ѣབԩᦤপ᳝ᬜ᭄᥂ˈপއѢ᠔䗝ᢽⱘᓎᷥ⿟ᑣབԩ໘⧚ᆍᯧᓩ䍋℻Нⱘ↨ᇍ ऎඳ੠ᦦܹ----ߴ䰸ᑣ߫˄े᠔䇧ⱘindel⢊ᗕ៪㗙ぎԡ⢊ᗕ˅Ǆ ໮䞡↨ᇍ⿟ᑣ ໮䞡↨ᇍ⿟ᑣ᳝བϟϔѯሲᗻ˖ 䅵ㅫᴎձ䌪ᗻ˖᮴ձ䌪˗䚼ߚձ䌪˗ᅠܼձ䌪Ǆ ㋏㒳থ㚆䇗⫼˖᮴䇗⫼˗ܜ偠䇗⫼˗䗦ᔦ䇗⫼Ǆ ↨ᇍখ᭄䆘Ԅ˖ܜ偠䆘Ԅ˗ࡼᗕ䆘Ԅ˗䗦ᔦ䆘ԄǄ ↨ᇍ⡍ᕕ˖෎ᴀ㒧ᵘ˄↨བᑣ߫˅˗催㑻㒧ᵘǄ ᭄ᄺӬ࣪˖㒳䅵Ӭ࣪˗䴲㒳䅵Ӭ࣪Ǆ ೼㋏㒳থ㚆ߚᵤⷨおЁˈϔϾ݌ൟⱘ↨ᇍ䖛⿟ࣙᣀ˖佪ܜᑨ⫼CLUSTAL W⿟ᑣˈ✊ৢ䖯㸠᠟Ꮉ ↨ᇍˈ᳔ৢᦤѸ㒭ϔϾᓎᷥ⿟ᑣǄ䖭Ͼ䖛⿟᳝བϟ⡍ᕕ䗝乍˖˄˅ǃ䚼ߚձ䌪Ѣ䅵ㅫᴎ˄г ህᰃ䇈ˈ䳔㽕᠟Ꮉ䇗ᭈ˅˗˄˅ǃ䳔㽕ϔϾܜ偠ⱘ㋏㒳থ㚆ᷛޚ˄гህᰃ䇈䳔㽕ϔϾࠡᇐ ᷥ˅˗˄˅ǃՓ⫼ܜ偠䆘Ԅᮍ⊩੠ࡼᗕ䆘Ԅᮍ⊩˄᥼㤤˅ᇍ↨ᇍখ᭄䖯㸠䆘Ԅ˗˄˅ǃᇍ ෎ᴀ㒧ᵘ˄ᑣ߫˅䖯㸠↨ᇍ˄ᇍѢ҆∈ⱘ⇼෎䝌ˈ᥼㤤ᓩܹ䚼ߚⱘѠ㑻㒧ᵘ⡍ᕕ˅˗˄˅ǃ ᑨ⫼䴲㒳䅵᭄ᄺӬ࣪Ǆ䖭ѯ⡍ᕕ䗝乍ⱘপ㟡䛑ձ䌪Ѣϟ䴶ᇚ㽕ᦣ䗄ⱘ݋ԧⱘ㋏㒳থ㚆ߚᵤᮍ ⊩Ǆ 䅵ㅫᴎձ䌪ൟ ᦤ׵䖯㸠ᅠܼⱘ䅵ㅫᴎ໮䞡↨ᇍⱘҎᐌᐌ᳝䖭ḋⱘձ᥂ˈҪӀ䅸Ў᠟Ꮉ↨ᇍ䗮ᐌ䛑ᰃ৿⏋ϡ ⏙ⱘ˄Gatesy et al., 1993˅ǄMALIGN˄Wheeler and Gladstein, 1994˅੠TreeAlign ˄Hein, 1990, 1994˅⿟ᑣ䛑䆩೒೼ḍ᥂㋏㒳থ㚆ࡳ㛑㗠Ӭ࣪↨ᇍⱘᯊ׭ᅲ⦄ᅠܼ䅵ㅫᴎ ࣪ˈᇸ݊ᰃ䆩೒䗮䖛߱ℹⱘ໮䞡↨ᇍ㗠Ӭߎ࣪ϔϾ᳔໻㡖㑺ᷥ˄MP tree˅Ǆϔ㠀ᴹ䇈ˈা᳝ ㄀бゴ㋏㒳থ㚆ߚᵤ 义ⷕˈ3/32 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀бゴ㋏㒳থ㚆ߚᵤ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第九章系统发育分析页码,4/3 当我们假定计算机程序能够进行正确的比对的时候,我们才会实行完全的计算机处理。之所以还提倡进行手工比对(比如, Thompson et al.,1994),是因为现在的比对算法和程序还不能满足系统发育分析的需要。系统发育标准许多计算机多重比对程序(比如 CLUSTAL, PileUp, ALI GN in ProPack)根据明确的系统发育标准(一个前导树)进行比对,这个前导树是由双重比对得到的。但是SAM( Hughey et al 1996)和 MACAW( Lawrence et al.,1993)程序在进行多重比对时并不引入明确的系统发育标准,虽然这些程序也可以模拟系统发育过程操作参数。如果在进行系统发育分析的时候,比对中引入了前导树,那么通过这个比对推导出的进化树逻辑上应该同前导树的拓扑结构相同。由 CLUSTALI比对得到的前导树(如图9.1)将会被转化成 PHYLIP树的文件格式,然后输入到画树程序中,这些画树程序包括 TreeTool( x wi ndows) TreeDraw(Maci ntosh), PHYLODENDRON (Maci ntos), TREEVI EW(Maci ntosh, Mi crosof Wi ndows)或者PAUP(图9.1; Maci tosh, Mi crosoft wi ndows)的画树工具。按道理,我们应该回过头来为 CLUSTAL比对再指定一个前导树,但是在实际操作中我们并不会这么做。有些程序(比如 TreeAl i gn and MALI GN)为了得到优化的比对和系统发育树,程序本身就设计了交叉(同步)递归优化的算法。理论上,能够解决比对-系统发育难题的同步优化算法或者配套算法应该是存在的,但是递归算法必须冒一定的风险,它很可能会导致一个错误的或者不完整的结果( Thorne and ki shi no,1992)。因此,根据比对结果建立进化树之后,必须考虑另外的可能性,也就是说,如果根据其它的比对结果得到一个并不是最优化的进化树, 这个次优化的进化树是不是更能够满足研究的需要。比对参数评估在比对中会出现一些序列区域,其长度是可变的,如何处理这些区域中inde状态的位点是最重要,这取决于进化模型的所有要素(比如,包括核苷酸转换/颠换速率),而且相关的参数在前导树与比对推导的进化树中应该保持一致。比对参数应该随着进化的分叉动态变化 ( Thompson et al.,1994),只有这样才能保证碱基错配的几率能够满足序列趋异的需要; 比对参数应该随时调整( Thompson et al.1994, Hughey et al.,1996),以防止引入过多的近似序列而导致比对序列的信息量不足,可以通过降低近似序列的比对分值权重来防止这种情况。 CULSTAL程序兼顾了这两种情况(参数动态变化),而SAM程序引入了序列权重。利用基本结构或者高级结构进行比对根据二级或者三级序列结构进行比对,比起直接利用一级序列进行比对的可信度要好,因为在同源性评估中,人们一直认为复杂结构的保守性高于简单特征(核苷酸,氨基酸)的同源保守性,而且,立足于复杂结构的比对程序还可以搜索到一些特殊的关联位点,这些位点是进化的功能区域。实际上,基于系统发育的结构多重比对并没有将问题简化,也就是说,序列比对必须服从结构进化,而结构进化则同系统发育保持一致。有一个探索式的手工程序 (如图9.2),是用来对核糖体DNA进行结构比对的( Gutell et al.,1994),这个程序要考察相关取代的样式,但是相关性必须通过系统发育树中的多个独立的补偿性突变推导得到 (cf. harvey and pagel 1991) 数学优化有些比对程序(比如, MACAW,SAM)根据一个统计模型进行优化,但是这些统计同系统发育模型的关系并不清楚。仅仅根据一个系统发育模型是没有办法比较多重比对方法的优劣的。总结:对于系统发育分析,最好的比对程序是什么呢? file://E:wcb生物信息学(中译本)\第九章系统发育分析.htm 2005-1-18

ᔧ៥Ӏ؛ᅮ䅵ㅫᴎ⿟ᑣ㛑໳䖯㸠ℷ⹂ⱘ↨ᇍⱘᯊ׭ˈ៥ӀᠡӮᅲ㸠ᅠܼⱘ䅵ㅫᴎ໘⧚ǄП᠔ ҹ䖬ᦤ׵䖯㸠᠟Ꮉ↨ᇍ˄↨བˈThompson et al., 1994˅ˈᰃ಴Ў⦄೼ⱘ↨ᇍㅫ⊩੠⿟ᑣ䖬 ϡ㛑⒵䎇㋏㒳থ㚆ߚᵤⱘ䳔㽕Ǆ ޚᷛ㒳থ㚆㋏䆌໮䅵ㅫᴎ໮䞡↨ᇍ⿟ᑣ˄↨བCLUSTAL, PileUp,ALIGN in ProPack˅ḍ᥂ᯢ⹂ⱘ㋏㒳থ㚆 ᷛޚ˄ϔϾࠡᇐᷥ˅䖯㸠↨ᇍˈ䖭Ͼࠡᇐᷥᰃ⬅ঠ䞡↨ᇍᕫࠄⱘǄԚᰃSAM˄Hughey et al., 1996˅੠MACAW˄Lawrence et al., 1993˅⿟ᑣ೼䖯㸠໮䞡↨ᇍᯊᑊϡᓩܹᯢ⹂ⱘ㋏㒳থ㚆 ᷛޚˈ㱑✊䖭ѯ⿟ᑣгৃҹ῵ᢳ㋏㒳থ㚆䖛⿟᪡԰খ᭄Ǆ བᵰ೼䖯㸠㋏㒳থ㚆ߚᵤⱘᯊ׭↨ˈᇍЁᓩܹњࠡᇐᷥˈ䙷М䗮䖛䖭Ͼ↨ᇍ᥼ᇐߎⱘ䖯࣪ᷥ 䘏䕥Ϟᑨ䆹ৠࠡᇐᷥⱘᢧᠥ㒧ᵘⳌৠǄ⬅CLUSTAL↨ᇍᕫࠄⱘࠡᇐᷥ˄བ೒9.1˅ᇚӮ㹿䕀࣪ ៤PHYLIPᷥⱘ᭛ӊḐᓣˈ✊ৢ䕧ܹࠄ⿟ᷥ⬏ᑣЁˈ䖭ѯ⬏ᷥ⿟ᑣࣙᣀTreeTool(X windows), TreeDraw(Macintosh), PHYLODENDRON(Macintosh), TREEVIEW(Macintosh, Microsoft Windows) ៪㗙PAUP(೒ 9.1˗Macintosh, Microsoft Windows)ⱘ⬏ᷥᎹ݋Ǆᣝ䘧⧚ˈ៥Ӏᑨ 䆹ಲ䖛༈ᴹЎCLUSTAL↨ᇍݡᣛᅮϔϾࠡᇐᷥˈԚᰃ೼ᅲ䰙᪡԰Ё៥ӀᑊϡӮ䖭МخǄ᳝ѯ⿟ ᑣ˄↨བTreeAlign and MALIGN˅ЎњᕫࠄӬ࣪ⱘ↨ᇍ੠㋏㒳থ㚆ᷥˈ⿟ᑣᴀ䑿ህ䆒䅵њѸ ঝ˄ৠℹ˅䗦ᔦӬ࣪ⱘㅫ⊩Ǆ⧚䆎Ϟˈ㛑໳㾷އ↨ᇍ----㋏㒳থ㚆䲒乬ⱘৠℹӬ࣪ㅫ⊩៪㗙䜡༫ㅫ⊩ᑨ䆹ᰃᄬ೼ⱘˈԚᰃ䗦ᔦㅫ⊩ᖙ乏ݦϔᅮⱘ亢䰽ˈᅗᕜৃ㛑Ӯᇐ㟈ϔϾ䫭䇃ⱘ៪㗙 ϡᅠᭈⱘ㒧ᵰ˄Thorne and Kishino, 1992˅Ǆ಴ℸˈḍ᥂↨ᇍ㒧ᵰᓎゟ䖯࣪ᷥПৢˈᖙ乏㗗㰥঺໪ⱘৃ㛑ᗻˈгህᰃ䇈ˈབᵰḍ᥂݊ᅗⱘ↨ᇍ㒧ᵰᕫࠄϔϾᑊϡᰃ᳔Ӭ࣪ⱘ䖯࣪ˈᷥ 䖭Ͼ⃵Ӭ࣪ⱘ䖯࣪ᷥᰃϡᰃ᳈㛑໳⒵䎇ⷨおⱘ䳔㽕Ǆ ↨ᇍখ᭄䆘Ԅ ೼↨ᇍЁӮߎ⦃ϔѯᑣ߫ऎඳˈ݊䭓ᑺᰃৃবⱘˈབԩ໘⧚䖭ѯऎඳЁindel⢊ᗕⱘԡ⚍ᰃ᳔ 䞡㽕ˈ䖭পއѢ䖯࣪ൟ῵ⱘ᠔᳝㽕㋴˄↨བˈࣙᣀḌ㣋䝌䕀ᤶ乴ᤶ䗳⥛˅ˈ㗠ϨⳌ݇ⱘখ᭄ ೼ࠡᇐᷥϢ↨ᇍ᥼ᇐⱘ䖯࣪ᷥЁᑨ䆹ֱᣕϔ㟈Ǆ↨ᇍখ᭄ᑨ䆹䱣ⴔ䖯࣪ⱘߚঝࡼᗕব࣪ ˄Thompson et al., 1994˅ˈা᳝䖭ḋᠡ㛑ֱ䆕⺅෎䫭䜡ⱘ޴⥛㛑໳⒵䎇ᑣ߫䍟ᓖⱘ䳔㽕˗ ↨ᇍখ᭄ᑨ䆹䱣ᯊ䇗ᭈ˄Thompson et al., 1994, Hughey et al., 1996˅ˈҹ䰆ℶᓩܹ䖛 ໮ⱘ䖥Ԑᑣ߫㗠ᇐ㟈↨ᇍᑣ߫ⱘֵᙃ䞣ϡ䎇ˈৃҹ䗮䖛䰡Ԣ䖥Ԑᑣ߫ⱘ↨ᇍߚؐᴗ䞡ᴹ䰆ℶ 䖭⾡ᚙމǄCULSTAL⿟ᑣݐ乒њ䖭ϸ⾡ᚙމ˄খ᭄ࡼᗕব࣪ˈ˅㗠SAM⿟ᑣᓩܹњᑣ߫ᴗ䞡Ǆ ߽෎⫼ᴀ㒧ᵘ៪㗙催㑻㒧ᵘ䖯㸠↨ᇍ ḍ᥂Ѡ㑻៪㗙ϝ㑻ᑣ߫㒧ᵘ䖯㸠↨ᇍˈ↨䍋Ⳉ᥹߽⫼ϔ㑻ᑣ߫䖯㸠↨ᇍⱘৃֵᑺ㽕དˈ಴Ў ೼ৠ⑤ᗻ䆘ԄЁˈҎӀϔⳈ䅸Ў໡ᴖ㒧ᵘⱘֱᅜᗻ催Ѣㅔऩ⡍ᕕ˄Ḍ㣋䝌ˈ⇼෎䝌˅ⱘৠ⑤ ֱᅜᗻˈ㗠Ϩˈゟ䎇Ѣ໡ᴖ㒧ᵘⱘ↨ᇍ⿟ᑣ䖬ৃҹ᧰㋶ࠄϔѯ⡍⅞ⱘ݇㘨ԡ⚍ˈ䖭ѯԡ⚍ᰃ 䖯࣪ⱘࡳ㛑ऎඳǄᅲ䰙Ϟˈ෎Ѣ㋏㒳থ㚆ⱘ㒧ᵘ໮䞡↨ᇍᑊ≵᳝ᇚ䯂乬ㅔ࣪ˈгህᰃ䇈ˈᑣ ߫↨ᇍᖙ乏᳡Ң㒧ᵘ䖯࣪ˈ㗠㒧ᵘ䖯࣪߭ৠ㋏㒳থ㚆ֱᣕϔ㟈Ǆ᳝ϔϾ᥶㋶ᓣⱘ᠟Ꮉ⿟ᑣ ˄བ೒9.2˅ˈᰃ⫼ᴹᇍḌ㊪ԧDNA䖯㸠㒧ᵘ↨ᇍⱘ˄Gutell et al., 1994˅ˈ䖭Ͼ⿟ᑣ㽕㗗 ᆳⳌ݇পҷⱘḋᓣˈԚᰃⳌ݇ᗻᖙ乏䗮䖛㋏㒳থ㚆ᷥЁⱘ໮Ͼ⣀ゟⱘ㸹ٓᗻさব᥼ᇐᕫࠄ ˄cf. Harvey and Pagel, 1991˅Ǆ ᭄࣪ᄺӬ ᳝ѯ↨ᇍ⿟ᑣ˄↨བˈMACAW, SAM˅ḍ᥂ϔϾ㒳䅵῵ൟ䖯㸠Ӭ࣪ˈԚᰃ䖭ѯ㒳䅵ৠ㋏㒳থ㚆 ῵ൟⱘ݇㋏ᑊϡ⏙ἮǄҙҙḍ᥂ϔϾ㋏㒳থ㚆῵ൟᰃ≵᳝ࡲ↨⫣䕗໮䞡↨ᇍᮍ⊩ⱘӬࡷⱘǄ ᘏ㒧˖ᇍѢ㋏㒳থ㚆ߚᵤˈ᳔དⱘ↨ᇍ⿟ᑣᰃҔМਸ਼˛ ㄀бゴ㋏㒳থ㚆ߚᵤ 义ⷕˈ4/32 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀бゴ㋏㒳থ㚆ߚᵤ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第九章系统发育分析页码,5/32 对于一个给定的系统发育问题,如果预先不知道其中的系统发育关系,就很难知道最适用的比对方法(cf. Morri son and ellis,1997)。一般来说,我们并不赞成直接把计算机比对结果提交给建树程序,因为建树程序不能发现比对的错误;尤其是那些包含在比对程序包中 (比如, CLUSTAL and tree in ProPack)的建树程序,特别要注意这一点( Feng and Dooli ttle,1996),因为在这些程序包中的建树程序更加不严格。我们必须通过分子结构 功能和碱基取代过程作出一些假定,并且结合另外一些独立的系统发育证据,对整个比对进行考察。从比对中提取系统发育数据集在某些比对中,比对长度是可变的,这时,系统发育数据集同比对就不会完全吻合;即使在些长度不变的比对中,数据集也可能同比对结果不一致--举一个很简单的例子,有时候我们只需要处理第一个和第二个密码子位点,就不需要全部的比对结果,这个话题我们在后面讨论取代模型的时候还会涉及到如果比对中出现可变长度,我们通常会根据比对的不确定性程度和处理inde状态的原则这两个标准对比对结果进行取舍,从中选择所需的系统发育数据集;其中针对 i ndel状态的处理方法取决于建树方法以及从比对结果中发掘出的系统发育信息,最极端的方法是把包括空位在内的所有 i ndel位点从比对中清除出去,在分析时不加考虑(cf. Swofford et al.,1996a),这个方法的好处是可以把序列的变化包容在取代模型中,而不需要特别的模型来处理 i ndel状态,但是它的缺点也很明显:inde区域的系统发育信息完全被忽略了, 在提取数据集时保留inde区域但是忽略所有的空位分值,将会保留包括空位在内的位点碱基变化信息。某些长度可变区域在部分序列或者全部序列中很难对准,在这种情况下,这些难以对准的碱基的分值应该清零;这个方法存在很大的缺陷,M和M建树方法会不加考虑地把这些清零的或者被忽略的分值理解为零分歧,但是实际上隐藏在这些分值下面的实际的数据 (不管是空位还是难以对准的碱基),一般来说,反映出的分歧度都很大。PAUP4.0中的距离建树方法(将在下文描述)允许通过非空位区域外推得到空位区域的距离。最大节约(MP;见下)是允许把可比对的空位合并,并将其视为特征符的唯一方法;可以通过两种方式达到目的:作为一个附加的特征符状态(第五种核酸碱基或者第二十一种氨基酸),或者作为一套独立于碱基取代的特征符集。当空位占据了不止一个位点的时候,前一个方法行不通,因为每一个空位位点都会被统计为一次独立的特征符状态变化。当比对的列的局部出现很好的可比对的空位的时候,后一种方法非常有用。我们可以把一套空位特征符附加到比对序列数据集中,也可以用额外的碱基程序在适当的位置对空位计分,但是在计分的时候,空位位点中只有一个作为空位计分,其余的将会被忽略。PAUP将会执行这个方法。对于某些比对而言,比对程序会忽略所有的空位分值或者忽略所有低于预设值的空位分值但是,还没有任何一种程序会忽略单个序列的单个位点。如果比对在序列组内部相当明确, 但是处身其中时却不太清楚,此时必须对比对做“手术”,确保同序列组相关的明确的信息被保留,而除去模糊的信息。图9.3给出了一个比对“手术”的例子。在空位区域,我们必须作出决定:在可供选择的比对中,哪一个更加合理,尤其重要的是,哪一个更加适合于建立进化树分析。如果手工解决比对的不确定性,就必须考虑系统发育关系、取代过程(比如,转换和颠换)和碱基组成;在这个阶段,用系统发育证据解决不确定性非常合理。在倾向于变长的序列区域,关系非常疏远的序列和序列组的比对就可以侧向展开(就是说,引入人工空位,并且忽略分值),最终的结果使得只有关系很近的序列区域对准在一起。某些序列中的某些位点虽然对准了,但是并不确定,他们的分值可以在计分时忽略;这个方法的优点是可以保留同这些序列相关的明确信息,缺点是最大节约和最大似然的建树方法会把这些“缺失”的分值看做是零分歧 file://E:wcb生物信息学(中译本)\第九章系统发育分析.htm 2005-1-18

ᇍѢϔϾ㒭ᅮⱘ㋏㒳থ㚆䯂乬ˈབᵰ乘ܜϡⶹ䘧݊Ёⱘ㋏㒳থ㚆݇㋏ˈህᕜ䲒ⶹ䘧᳔䗖⫼ⱘ ↨ᇍᮍ⊩˄cf. Morrison and Ellis, 1997˅Ǆϔ㠀ᴹ䇈ˈ៥Ӏᑊϡ䌲៤Ⳉ᥹ᡞ䅵ㅫᴎ↨ᇍ 㒧ᵰᦤѸ㒭ᓎᷥ⿟ᑣˈ಴Ўᓎᷥ⿟ᑣϡ㛑থ⦄↨ᇍⱘ䫭䇃˗ᇸ݊ᰃ䙷ѯࣙ↨೼৿ᇍ⿟ᑣࣙЁ ˄↨བˈCLUSTAL and TREE in ProPack˅ⱘᓎᷥ⿟ᑣˈ⡍߿㽕⊼ᛣ䖭ϔ⚍˄Feng and Doolittle, 1996˅ˈ಴Ў೼䖭ѯ⿟ᑣࣙЁⱘᓎᷥ⿟ᑣ᳈ࡴϡϹḐǄ៥Ӏᖙ乏䗮䖛ߚᄤ㒧ᵘ ࡳ㛑੠⺅෎পҷ䖛⿟԰ߎϔѯ؛ᅮˈᑊϨ㒧ড়঺໪ϔѯ⣀ゟⱘ㋏㒳থ㚆䆕᥂ˈᇍᭈϾ↨ ᇍ䖯㸠㗗ᆳǄ Ң↨ᇍЁᦤপ㋏㒳থ㚆᭄᥂䲚 ೼ᶤѯ↨ᇍЁˈ↨ᇍ䭓ᑺᰃৃবⱘˈ䖭ᯊˈ㋏㒳থ㚆᭄᥂䲚ৠ↨ᇍህϡӮᅠܼਏড়˗ेՓ೼ ϔѯ䭓ᑺϡবⱘ↨ᇍЁˈ᭄᥂䲚гৃ㛑ৠ↨ᇍ㒧ᵰϡϔ㟈--ВϔϾᕜㅔऩⱘ՟ᄤˈ᳝ᯊ׭៥ Ӏা䳔㽕໘⧚㄀ϔϾ੠㄀ѠϾᆚⷕᄤԡ⚍ˈህϡ䳔㽕ܼ䚼ⱘ↨ᇍ㒧ᵰˈ䖭Ͼ䆱乬៥Ӏ೼ৢ䴶䅼䆎পҷ῵ൟⱘᯊ׭䖬Ӯ⍝ঞࠄǄ བᵰ↨ᇍЁߎৃ⦃ব䭓ᑺˈ៥Ӏ䗮ᐌӮḍ᥂↨ᇍⱘϡ⹂ᅮᗻ⿟ᑺ੠໘⧚indel⢊ᗕⱘॳ߭䖭ϸ Ͼᷛޚᇍ↨ᇍ㒧ᵰ䖯㸠প㟡ˈҢЁ䗝ᢽ᠔䳔ⱘ㋏㒳থ㚆᭄᥂䲚˗݊Ё䩜ᇍindel⢊ᗕⱘ໘⧚ᮍ ⊩পއѢᓎᷥᮍ⊩ҹঞҢ↨ᇍ㒧ᵰЁথᥬߎⱘ㋏㒳থ㚆ֵᙃˈ᳔ᵕッⱘᮍ⊩ᰃᡞࣙᣀぎԡ೼ ݙⱘ᠔᳝indelԡ⚍Ң↨ᇍЁ⏙䰸ߎএˈ೼ߚᵤᯊϡࡴ㗗㰥˄cf. Swofford et al., 1996a˅ˈ䖭 Ͼᮍ⊩ⱘད໘ᰃৃҹᡞᑣ߫ⱘবࣙ࣪ᆍ೼পҷ῵ൟЁˈ㗠ϡ䳔㽕⡍߿ⱘ῵ൟᴹ໘⧚indel⢊ ᗕˈԚᰃᅗⱘ㔎⚍гᕜᯢᰒ˖indelऎඳⱘ㋏㒳থ㚆ֵᙃᅠܼ㹿ᗑ⬹њǄ ೼ᦤপ᭄᥂䲚ᯊֱ⬭indelऎඳԚᰃᗑ⬹᠔᳝ⱘぎԡߚˈؐᇚӮֱ⬭ࣙᣀぎԡ೼ݙⱘԡ⚍⺅෎ বֵ࣪ᙃǄᶤѯ䭓ᑺৃবऎඳ೼䚼ߚᑣ߫៪㗙ܼ䚼ᑣ߫Ёᕜ䲒ᇍޚ೼ˈ䖭⾡ᚙމϟˈ䖭ѯ䲒 ҹᇍޚⱘ⺅෎ⱘߚؐᑨ䆹⏙䳊˗䖭Ͼᮍ⊩ᄬ೼ᕜ໻ⱘ㔎䱋ˈMP੠MLᓎᷥᮍ⊩Ӯϡࡴ㗗㰥ഄᡞ 䖭ѯ⏙䳊ⱘ៪㗙㹿ᗑ⬹ⱘߚ⧛ؐ㾷Ў䳊ߚˈFAXԚᰃᅲ䰙Ϟ䱤㮣೼䖭ѯߚؐϟ䴶ⱘᅲ䰙ⱘ᭄᥂ ˄ϡㅵᰃぎԡ䖬ᰃ䲒ҹᇍޚⱘ⺅෎˅ˈϔ㠀ᴹ䇈ˈড᯴ߎⱘߚFAXᑺ䛑ᕜ໻ǄPAUP 4.0Ёⱘ䎱⾏ᓎᷥᮍ⊩˄ᇚ೼ϟ᭛ᦣ䗄˅ܕ䆌䗮䖛䴲ぎԡऎඳ໪᥼ᕫࠄぎԡऎඳⱘ䎱⾏Ǆ ᳔໻㡖㑺˄MP˗㾕ϟ˅ᰃܕ䆌ᡞৃ↨ᇍⱘぎԡড়ᑊˈᑊᇚ݊㾚Ў⡍ᕕヺⱘଃϔᮍ⊩˗ৃҹ䗮䖛ϸ⾡ᮍᓣ䖒ࠄⳂⱘ˖԰ЎϔϾ䰘ࡴⱘ⡍ᕕヺ⢊ᗕ˄㄀Ѩ⾡Ḍ䝌⺅෎៪㗙㄀Ѡकϔ⾡⇼෎ 䝌˅ˈ៪㗙԰Ўϔ༫⣀ゟѢ⺅෎পҷⱘ⡍ᕕヺ䲚Ǆᔧぎԡऴ᥂њϡℶϔϾԡ⚍ⱘᯊ׭ࠡˈϔ Ͼᮍ⊩㸠ϡ䗮ˈ಴Ў↣ϔϾぎԡԡ⚍䛑Ӯ㹿㒳䅵Ўϔ⃵⣀ゟⱘ⡍ᕕヺ⢊ᗕব࣪Ǆᔧ↨ᇍⱘᑣ ߫ⱘሔ䚼ߎ⦃ᕜདⱘৃ↨ᇍⱘぎԡⱘᯊ׭ৢˈϔ⾡ᮍ⊩䴲ᐌ᳝⫼Ǆ៥Ӏৃҹᡞϔ༫ぎԡ⡍ᕕ ヺ䰘ࠄࡴ↨ᇍᑣ᭄߫᥂䲚Ёˈгৃҹ⫼乱໪ⱘ⺅෎⿟ᑣ೼䗖ᔧⱘԡ㕂ᇍぎԡ䅵ߚˈԚᰃ೼䅵 ߚⱘᯊ׭ˈぎԡԡ⚍Ёা᳝ϔϾ԰Ўぎԡ䅵ߚԭ݊ˈⱘᇚӮ㹿ᗑ⬹ǄPAUPᇚӮᠻ㸠䖭Ͼᮍ ⊩Ǆ ᇍѢᶤѯ↨ᇍ㗠㿔ˈ↨ᇍ⿟ᑣӮᗑ⬹᠔᳝ⱘぎԡߚ៪ؐ㗙ᗑ⬹᠔᳝ԢѢ乘䆒ؐⱘぎԡߚ˗ؐ Ԛᰃˈ䖬≵᳝ӏԩϔ⾡⿟ᑣӮᗑ⬹ऩϾᑣ߫ⱘऩϾԡ⚍Ǆབᵰ↨ᇍ೼ᑣ߫㒘ݙ䚼Ⳍᔧᯢ⹂ˈ Ԛᰃ໘䑿݊Ёᯊैϡ໾⏙Ἦˈℸᯊᖙ乏ᇍ↨ᇍخĀ᠟ᴃāˈ⹂ֱৠᑣ߫㒘Ⳍ݇ⱘᯢ⹂ⱘֵᙃ 㹿ֱ⬭ˈ㗠䰸এ῵㊞ⱘֵᙃǄ ೒9.3㒭ߎњϔϾ↨ᇍĀ᠟ᴃāⱘ՟ᄤǄ೼ぎԡऎඳˈ៥Ӏᖙ乏԰އߎᅮ˖೼ৃկ䗝ᢽⱘ↨ᇍ ЁˈાϔϾ᳈ࡴড়⧚ˈᇸ݊䞡㽕ⱘᰃˈાϔϾ᳈ࡴ䗖ড়Ѣᓎゟ䖯࣪ᷥߚᵤǄབᵰ᠟Ꮉ㾷އ↨ ᇍⱘϡ⹂ᅮᗻˈህᖙ乏㗗㰥㋏㒳থ㚆݇㋏ǃপҷ䖛⿟˄↨བˈ䕀ᤶ੠乴ᤶ˅੠⺅෎㒘៤˗೼ 䖭Ͼ䰊↉ˈ⫼㋏㒳থ㚆䆕᥂㾷އϡ⹂ᅮᗻ䴲ᐌড়⧚Ǆ೼ؒ৥Ѣব䭓ⱘᑣ߫ऎඳˈ݇㋏䴲ᐌ⭣ 䖰ⱘᑣ߫੠ᑣ߫㒘ⱘ↨ᇍህৃҹջ৥ሩᓔ˄ህᰃ䇈ˈᓩܹҎᎹぎԡˈᑊϨᗑ⬹ߚ᳔ˈ˅ؐ㒜 ⱘ㒧ᵰՓᕫা᳝݇㋏ᕜ䖥ⱘᑣ߫ऎඳᇍޚ೼ϔ䍋Ǆᶤѯᑣ߫Ёⱘᶤѯԡ⚍㱑✊ᇍޚњˈԚᰃ ᑊϡ⹂ᅮˈҪӀⱘߚৃؐҹ೼䅵ߚᯊᗑ⬹˗䖭Ͼᮍ⊩ⱘӬ⚍ᰃৃҹֱ⬭ৠ䖭ѯᑣ߫Ⳍ݇ⱘᯢ ⹂ֵᙃˈ㔎⚍ᰃ᳔໻㡖㑺੠᳔໻Ԑ✊ⱘᓎᷥᮍ⊩Ӯᡞ䖭ѯĀ㔎༅āⱘߚؐⳟخᰃ䳊ߚFAXǄ ㄀бゴ㋏㒳থ㚆ߚᵤ 义ⷕˈ5/32 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀бゴ㋏㒳থ㚆ߚᵤ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

点击进入文档下载页（PDF格式）

共32页，可试读12页，点击继续阅读 ↓↓

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录