第九章系统发育分析 页码,6/32 由 MALI GN( Wheeler and gl adstein,1994)和 TreeAl i gn得到的比对不需要在比对后用这些 方法中的建树方法进行数据修饰,即使这些比对中仍然有一些同样类型的不确定性,这些不 确定性在另外一个程序进行分析时需要修正。如前所述,这些程序会根据由比对得到的最好 的MP系统发育进化树,对比对参数进行递归优化。 MALI GN还会利用一套空位为代价,对以连 接的可供选择的比对为基础的建树方法进行优化;在这个方法中,在最有可能的几种比对中 出现的比对特征将会被加权。这就提供了一种方法,可以捕获序列分歧的数量(在取消不确 定的比对区域的分值的时候这些分歧是被忽略掉的),因为这些区域的所有可能的比对方式 都将显示这些区域的最大的序列分歧。处于不确定的比对区域中的位点很可能不是同源的, 因此在进化树中需要加入一些噪声干扰或者偏向。 决定取代模型 对于取代模型,应该给予同比对和建树同样的重视。就像前面暗示的那样,取代模型既影响 比对,也影响建树;因此需要采用递归方法。现在,对于核酸数据而言,可以通过取代模型 中的两个要素进行计算机评估( Swofford,1997),但是对于氨基酸和密码子数据而言,没 有什么评估方案( Fel sensei n,1996)。其中一个要素是碱基之间相互取代的模型;另外- 个要素是序列中不同位点的所有取代的相对速率。还没有一种简单的计算机程序可以对较复 杂的变量(比如,位点特异性或者系统特异性取代模型)进行评估,同样,现有的建树软件 也不可能理解这些复杂变量。 碱基取代速率模型 一般而言,生物化学性质相近的碱基之间的取代频率较高;在DNA中,四种转换(A→G,G→ A,C→T,T>C)的频率比八种颠换(A→C,A→T,C→G,G→T,以及前四种的反向取 代)的频率要高;这些偏向会影响两个序列之间的预计的分歧。 各个残基之间的相对取代速率一般由方阵形式列出;对于碱基而言,行数和列数都是4,对于 氨基酸而言,行数和列数都是20(比如PAM方阵),对于密码子而言,行数和列数都是61(除 去了中止密码子)。非对角线元素对应于一个碱基变为另一个碱基的相对代价,而对角线元 素则代表不同序列拥有同一个碱基的代价 这些代价值可以固定为先验的代价表,以确保建树方法在计分时对每一种取代都使用确定的 代价值。固定的代价方阵是典型的静态权重方阵,MP建树方法(如图9.4)使用的就是这种方 阵。如果使用这种权重,那么这个方法就会被称为“加权节约”。又如,ML建树方法,代价 值是由即时的速率方阵得到的,这个方阵(如图9.5)代表了各种取代可能会发生的概率的M 估计值。MP权重方阵只涉及简单的算术,而应用距离和M速率方阵则可以引入复杂的代数 为了避免盲目使用不适当的方法,建议大家熟悉其内部的基本原理(见Li,1997,and/or Swofford et al. 1996a) 实际上,“前进”和“反向”取代速率被认为是相同的:这个取代模型被称为是“时间可 逆”;这个模型拥有“静态”的性质,因为在所有的碱基频率中没有预知的变化。在系统发 育的特殊历史中,不同序列中的碱基频率不同表明,前进和反向速率实际上可能会不同;而 传统的取代权重或者速率方阵不能包容这个“非静态”环境;本节的结尾将讨论一个基于非 静态取代模型(“1og�:det")的建树方法,这个方法将会提供一个可供选择的计算方 法 通常,特征符状态的权重方阵都会或多或少地通过观察进行过估值,当然也可以从速率矩阵 衍生得到。比如,如果假定两个转化的其中一个,发生的频率是每个颠换的两倍,那么据此 就可以确定一个权重方阵,比如,A�:G的转换代价为1,而A�:T的颠换代价为2(图 9.4)。(节约方法规定对角线元素值,或者说是不同序列中拥有相同碱基的代价值为零。这 是节约方法的一个缺点��详见下文)在随后的建树步骤中,这套假定会把颠换的总数 file://E:wcb生物信息学(中译本)\第九章系统发育分析.htm 2005-1-18
⬅MALIGN˄Wheeler and Gladstein, 1994˅TreeAlignᕫࠄⱘ↨ᇍϡ䳔㽕↨ᇍৢ⫼䖭ѯ ᮍ⊩Ёⱘᓎᷥᮍ⊩䖯㸠᭄ׂ佄ˈेՓ䖭ѯ↨ᇍЁҡ✊᳝ϔѯৠḋ㉏ൟⱘϡ⹂ᅮᗻˈ䖭ѯϡ ⹂ᅮᗻϔϾᑣ䖯㸠ߚᵤᯊ䳔㽕ׂℷDŽབࠡ᠔䗄ˈ䖭ѯᑣӮḍ⬅↨ᇍᕫࠄⱘ᳔ད ⱘMP㋏㒳থ㚆䖯࣪ˈᷥᇍ↨ᇍখ᭄䖯㸠䗦ᔦӬ࣪DŽMALIGN䖬Ӯ߽⫼ϔ༫ぎԡЎҷӋˈᇍҹ䖲 ⱘৃկ䗝ᢽⱘ↨ᇍЎ⸔ⱘᓎᷥᮍ⊩䖯㸠Ӭ࣪˗䖭Ͼᮍ⊩Ёˈ᳔᳝ৃ㛑ⱘ↨辵ᇍЁ ߎ⦃ⱘ↨ᇍ⡍ᕕᇚӮ㹿ࡴᴗDŽ䖭ህᦤկњϔ⾡ᮍ⊩ˈৃҹᤩ㦋ᑣ߫ߚFAXⱘ᭄䞣˄প⍜ϡ⹂ ᅮⱘ↨ᇍऎඳⱘߚؐⱘᯊ䖭ѯߚFAXᰃ㹿ᗑ⬹ᥝⱘ˅ˈЎ䖭ѯऎඳⱘ᠔᳝ৃ㛑ⱘ↨ᇍᮍᓣ 䛑ᇚᰒ⼎䖭ѯऎඳⱘ᳔ⱘᑣ߫ߚFAXDŽ໘Ѣϡ⹂ᅮⱘ↨ᇍऎඳЁⱘԡ⚍ᕜৃ㛑ϡᰃৠ⑤ⱘˈ ℸ䖯࣪ᷥЁ䳔㽕ࡴܹϔѯాໄᑆᡄ㗙أDŽ ൟᅮপҷއ ᇍѢপҷൟˈᑨ䆹㒭ќৠ↨ᇍᓎᷥৠḋⱘ䞡㾚DŽህڣࠡ䴶ᱫ⼎ⱘ䙷ḋˈপҷൟ᮶ᕅડ ↨ᇍˈгᕅડᓎᷥ˗ℸ䳔㽕䞛⫼䗦ᔦᮍ⊩DŽ⦄ˈᇍѢḌ䝌᭄㗠㿔ˈৃҹ䗮䖛পҷൟ ЁⱘϸϾ㽕㋴䖯㸠䅵ㅫᴎ䆘Ԅ˄Swofford, 1997˅ˈԚᰃᇍѢ⇼䝌ᆚⷕᄤ᭄㗠㿔ˈ≵ ᳝ҔМ䆘ԄᮍḜ˄Felsenstein, 1996˅DŽ݊ЁϔϾ㽕㋴ᰃ⺅П䯈ⳌѦপҷⱘൟ˗ϔ Ͼ㽕㋴ᰃᑣ߫Ёϡৠԡ⚍ⱘ᠔᳝পҷⱘⳌᇍ䗳⥛DŽ䖬≵᳝ϔ⾡ㅔऩⱘ䅵ㅫᴎᑣৃҹᇍ䕗 ᴖⱘব䞣˄↨བˈԡ⚍⡍ᓖᗻ㗙㋏㒳⡍ᓖᗻপҷൟ˅䖯㸠䆘Ԅˈৠḋˈ⦄᳝ⱘᓎᷥ䕃ӊ гϡৃ㛑⧚㾷䖭ѯᴖব䞣DŽ ⺅পҷ䗳⥛ൟ ϔ㠀㗠㿔ˈ⫳⠽࣪ᄺᗻ䋼Ⳍ䖥ⱘ⺅П䯈ⱘপҷ乥⥛䕗催˗DNAЁˈಯ⾡䕀ᤶ˄AÆ G, GÆ A, CÆ T, TÆ &˅ⱘ乥⥛↨ܿ⾡乴ᤶ˄AÆ C, AÆ T, CÆ G, GÆ T, ҹঞࠡಯ⾡ⱘডপ ҷ˅ⱘ乥⥛㽕催˗䖭ѯأӮᕅડϸϾᑣ߫П䯈ⱘ乘䅵ⱘߚFAXDŽ Ͼ⅟П䯈ⱘⳌᇍপҷ䗳⥛ϔ㠀⬅ᮍ䰉ᔶᓣ߫ߎ˗ᇍѢ⺅㗠㿔ˈ㸠᭄᭄߫䛑ᰃˈᇍѢ ⇼䝌㗠㿔ˈ㸠᭄᭄߫䛑ᰃ20˄↨བPAMᮍ䰉˅ˈᇍѢᆚⷕᄤ㗠㿔ˈ㸠᭄᭄߫䛑ᰃ61˄䰸 এњЁℶᆚⷕᄤ˅DŽ䴲ᇍ㾦㒓ܗ㋴ᇍᑨѢϔϾ⺅বЎϔϾ⺅ⱘⳌᇍҷӋˈ㗠ᇍ㾦㒓ܗ ㋴߭ҷ㸼ϡৠᑣ߫ᢹ᳝ৠϔϾ⺅ⱘҷӋDŽ 䖭ѯҷӋؐৃҹᅮЎܜ偠ⱘҷӋ㸼ˈҹ⹂ֱᓎᷥᮍ⊩䅵ߚᯊᇍ↣ϔ⾡পҷ䛑Փ⫼⹂ᅮⱘ ҷӋؐDŽᅮⱘҷӋᮍ䰉ᰃൟⱘ䴭ᗕᴗ䞡ᮍ䰉ˈMPᓎᷥᮍ⊩˄བ9.4˅Փ⫼ⱘህᰃ䖭⾡ᮍ 䰉DŽབᵰՓ⫼䖭⾡ᴗ䞡ˈ䙷М䖭Ͼᮍ⊩ህӮ㹿⿄ЎĀࡴᴗ㡖㑺āDŽজབˈMLᓎᷥᮍ⊩ˈҷӋ ؐᰃ⬅ेᯊⱘ䗳⥛ᮍ䰉ᕫࠄⱘˈ䖭Ͼᮍ䰉˄བ9.5˅ҷ㸼њ⾡পҷৃ㛑Ӯথ⫳ⱘὖ⥛ⱘML Ԅ䅵ؐDŽMPᴗ䞡ᮍ䰉া⍝ঞㅔऩⱘㅫᴃˈ㗠ᑨ⫼䎱⾏ML䗳⥛ᮍ䰉߭ৃҹᓩܹᴖⱘҷ᭄DŽ Ўњ䙓ܡⳆⳂՓ⫼ϡ䗖ᔧⱘᮍ⊩ˈᓎ䆂ᆊ❳ᙝ݊ݙ䚼ⱘᴀॳ⧚˄㾕Li, 1997, and / or Swofford et al., 1996a˅DŽ ᅲ䰙ϞˈĀࠡ䖯āĀডāপҷ䗳⥛㹿䅸ЎᰃⳌৠⱘ˗䖭Ͼপҷൟ㹿⿄ЎᰃĀᯊ䯈ৃ 䗚ā˗䖭Ͼൟᢹ᳝Ā䴭ᗕāⱘᗻ䋼ˈЎ᠔᳝ⱘ⺅乥⥛Ё≵᳝乘ⶹⱘব࣪DŽ㋏㒳থ 㚆ⱘ⡍⅞ग़Ёˈϡৠᑣ߫Ёⱘ⺅乥⥛ϡৠ㸼ᯢˈࠡ䖯ড䗳⥛ᅲ䰙Ϟৃ㛑Ӯϡৠ˗㗠 Ӵ㒳ⱘপҷᴗ䞡㗙䗳⥛ᮍ䰉ϡ㛑ࣙᆍ䖭ϾĀ䴲䴭ᗕā⦃๗˗ᴀ㡖ⱘ㒧ሒᇚ䅼䆎ϔϾѢ䴲 䴭ᗕপҷൟ˄“log�det”˅ⱘᓎᷥᮍ⊩ˈ䖭Ͼᮍ⊩ᇚӮᦤկϔϾৃկ䗝ᢽⱘ䅵ㅫᮍ ⊩DŽ 䗮ᐌˈ⡍ᕕヺ⢊ᗕⱘᴗ䞡ᮍ䰉䛑Ӯᇥഄ䗮䖛㾖ᆳ䖯㸠䖛Ԅؐˈᔧ✊гৃҹҢ䗳⥛ⶽ䰉 㸡⫳ᕫࠄDŽ↨བˈབᵰ؛ᅮϸϾ䕀࣪ⱘ݊ЁϔϾˈথ⫳ⱘ乥⥛ᰃ↣Ͼ乴ᤶⱘϸסˈ䙷Мℸ ህৃҹ⹂ᅮϔϾᴗ䞡ᮍ䰉ˈ↨བˈA�Gⱘ䕀ᤶҷӋЎˈ㗠A�Tⱘ乴ᤶҷӋЎ˄ 9.4˅DŽ˄㡖㑺ᮍ⊩㾘ᅮᇍ㾦㒓ܗ㋴ؐˈ㗙䇈ᰃϡৠᑣ߫Ёᢹ᳝Ⳍৠ⺅ⱘҷӋؐЎ䳊DŽ䖭 ᰃ㡖㑺ᮍ⊩ⱘϔϾ㔎⚍��䆺㾕ϟ᭛˅䱣ৢⱘᓎᷥℹ偸Ёˈ䖭༫؛ᅮӮᡞ乴ᤶⱘᘏ᭄ бゴ㋏㒳থ㚆ߚᵤ 义ⷕˈ6/32 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?бゴ㋏㒳থ㚆ߚᵤ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第九章系统发育分析 页码,7/3 降至最低值,而力求把那些主要差异是转换的序列集中在一起。 任何一种“时间可逆”的核苷酸取代模型都可以用图9.5所示的方阵刻画,只是其中一个速率 和其它速率的差异;在任意组合中,最多可以达到只有六个参数,其中每一个速率参数都是 独立的( Swofford et al.,19%6a;Li,1997)。如果平衡的碱基频率不相等,则需要额外 的参数:如果平衡的碱基频率不相等,但是却假定这些频率相等,那么系统发育进化树的最 终结果将会出错(Li,1997)。 侧线( paral inear)(Lake,1994)和“log�det”( Lockhart et al.,1994)做了一些 修正(见 Swofford et a.,1996a)来满足非静态环境的需要;这个方法只适用于距离进化 树的建立;在这个方法中,对于每一个序列匹配,各种类型和变化方向的原始取代的数目都 会计算在一个4×4的方阵中(如图9.6)。每个方阵都会有一个代数行列式,这个行列式的 og值是评估序列差异性的一个要素,因此被称为“Iog�:det”。对那些拥有各种各样的碱 基频率的序列进行双重比较,就会得到各种各样的方阵,也就会得到各种各样的行列式值 因此,在评估序列两两之间的距离的时候,就要受到序列两两之间的行列式值的影响,而且 序列两两之间的比较允许适用不同的取代模型,因此沿着系统发育进化树的不同树枝,将会 产生多元化。Log&#o;det尤其对位点之间的速率差异(见下文)敏感,因此,碱基频率的偏 向可能只存在于那些承受变化的位点 位点内速率差异模型 除了取代模型的多元化以外,一个序列中各个不同位点之间取代速率的差异也会对建立进化 树的结果产生很深远的影响( Swofford et a.,1996a);关于位点之间的速率差异(或者 叫做位点异质性),有一个最明显的例子,就是在一个编码序列中,三联体编码的位点差 异:在三联体编码中,第三个编码位点比另外两个位点更加容易发生变化;正是出于这个原 因,许多系统发育分析方法在分析编码序列时,都会把第三个编码位点排除在外;但是在某 些情况下,速率差异模型会更加敏锐(比如,对应于蛋白质或者rRNA的保守序列) 对位点差异的取代速率进行估值的方法有非参数化模型(W.M. Yang et a.,1996),不变 式模型和gama分布模型( Swofford et al.1996a)。非参数化方法源于特异位点的相对速 率的范畴;这个方法可以在MP建树方法中使用,只要根据相对的变异频率对特异位点进行简 单加权就可以了,当然进行加权时需要有关于真实进化树的预备知识;这个方法同样也可以 适用于M建树方法,但是在计算上被认为是不切实际的(W.M. Yang et al.,1996)。不 式模型对一定比例的位点进行估值,这些位点并不能自由变化;剩余的位点假定为等概率变 化。至于gama模型方法,它假定一个给定的序列变化的概率是遵守 gamma分布规律的,据此 指定位点的取代概率; gamma分布的形状(有形状参数α描述)描述了一个序列中各个位点的 取代频率的分布( Swofford et al.,1996a,p.444 Fi gure13:cf.Li,1997,p.76, Fi gure3.10:注意尺度差异)。在一个混合方法中,可以假定一部分位点是不变的,而剩余 的位点则是按照 gamma分布变化的。 实际上,gama修正可以是连续的,离散的或者自离散的(W.M. Yang et al.1996)。连续 gama的意思是各个位点沿一条连续的概率曲线变化;目前,这个方法在绝大多数情况下无法 计算。离散gama逼近方法指定各个位点的概率,使得这些(大量的)概率值逼近 gamma曲 线。自离散模型假定相邻的位点的变化速率是相关联的;许多组位点被分为许多类,其中每 类中的位点的变化速率可能被假定为常量或者异类值。 进化树建立程序使用各种各样的位点速率差异修正方法。对于核酸数据,PAUP4.0在单独或 者混合使用时间可逆的距离建树方法和最大似然建树方法时,既使用不变式 gamma模型,也使 用离散的gama模型;在使用lσ&#o;det距离建树方法时,使用不变式模型(见下)。对于核 酸,氨基酸和编码子数据,PAM使用连续的,离散的和自离散的gama模型。对于核酸和氨基 酸数据, PHYLIP使用一种离散的gama模型 file://E:wcb生物信息学(中译本)\第九章系统发育分析.htm 2005-1-18
䰡㟇᳔Ԣؐˈ㗠∖ᡞ䙷ѯЏ㽕Ꮒᓖᰃ䕀ᤶⱘᑣ߫䲚Ёϔ䍋DŽ ӏԩϔ⾡Āᯊ䯈ৃ䗚āⱘḌ㣋䝌পҷൟ䛑ৃҹ⫼9.5᠔⼎ⱘᮍ䰉ࠏˈ⬏াᰃ݊ЁϔϾ䗳⥛ ݊ᅗ䗳⥛ⱘᏂᓖ˗ӏᛣ㒘ড়Ёˈ᳔ৃҹ䖒ࠄা᳝݁Ͼখ᭄ˈ݊Ё↣ϔϾ䗳⥛খ᭄䛑ᰃ ⣀ゟⱘ˄Swofford et al., 1996a˗Li, 1997˅DŽབᵰᑇ㸵ⱘ⺅乥⥛ϡⳌㄝˈ߭䳔㽕乱 ⱘখ᭄˗བᵰᑇ㸵ⱘ⺅乥⥛ϡⳌㄝˈԚᰃै؛ᅮ䖭ѯ乥⥛Ⳍㄝˈ䙷М㋏㒳থ㚆䖯࣪ᷥⱘ᳔ 㒜㒧ᵰᇚӮߎ䫭˄Li, 1997˅DŽ ջ㒓˄paralinear˅˄Lake, 1994˅“log�det”˄Lockhart et al., 1994˅خњϔѯ ׂℷ˄㾕Swofford et al., 1996a˅ᴹ⒵䎇䴲䴭ᗕ⦃๗ⱘ䳔㽕˗䖭Ͼᮍ⊩া䗖⫼Ѣ䎱⾏䖯࣪ ᷥⱘᓎゟ˗䖭Ͼᮍ⊩ЁˈᇍѢ↣ϔϾᑣ߫ऍ䜡ˈ⾡㉏ൟব࣪ᮍⱘॳྟপҷⱘ᭄Ⳃ䛑 Ӯ䅵ㅫϔϾ4×4ⱘᮍ䰉Ё˄བ9.6˅DŽ↣Ͼᮍ䰉䛑Ӯ᳝ϔϾҷ᭄㸠߫ᓣˈ䖭Ͼ㸠߫ᓣⱘ logؐᰃ䆘Ԅᑣ߫ᏂᓖᗻⱘϔϾ㽕㋴ˈℸ㹿⿄Ў“log�det”DŽᇍ䙷ѯᢹ᳝⾡ḋⱘ⺅ 乥⥛ⱘᑣ߫䖯㸠ঠ䞡↨䕗ˈህӮᕫࠄ辵ḋⱘᮍ䰉ˈгህӮᕫࠄ辵ḋⱘ㸠߫ᓣؐ˗ ℸˈ䆘Ԅᑣ߫ϸϸП䯈ⱘ䎱⾏ⱘᯊˈህ㽕ফࠄᑣ߫ϸϸП䯈ⱘ㸠߫ᓣؐⱘᕅડˈ㗠Ϩ ᑣ߫ϸϸП䯈ⱘ↨䕗ܕ䆌䗖⫼ϡৠⱘপҷൟˈℸ⊓ⴔ㋏㒳থ㚆䖯࣪ᷥⱘϡৠᷥᵱˈᇚӮ ѻ⫳࣪ܗDŽLog�detᇸ݊ᇍԡ⚍П䯈ⱘ䗳⥛Ꮒᓖ˄㾕ϟ᭛˅ᬣᛳˈℸˈ⺅乥⥛ⱘأ ৃ㛑াᄬѢ䙷ѯᡓফব࣪ⱘԡ⚍DŽ ԡ⚍ݙ䗳⥛Ꮒᓖൟ 䰸њপҷൟⱘ࣪ܗҹˈϔϾᑣ߫ЁϾϡৠԡ⚍П䯈পҷ䗳⥛ⱘᏂᓖгӮᇍᓎゟ䖯࣪ ᷥⱘ㒧ᵰѻ⫳ᕜ⏅䖰ⱘᕅડ˄Swofford et al., 1996a˅˗݇Ѣԡ⚍П䯈ⱘ䗳⥛Ꮒᓖ˄㗙 িخԡ⚍ᓖ䋼ᗻ˅ˈ᳝ϔϾ᳔ᯢᰒⱘ՟ᄤˈህᰃϔϾ㓪ⷕᑣ߫Ёˈϝ㘨ԧ㓪ⷕⱘԡ⚍Ꮒ ᓖ˖ϝ㘨ԧ㓪ⷕЁˈϝϾ㓪ⷕԡ⚍↨ϸϾԡ⚍ࡴᆍᯧথ⫳ব࣪˗ℷᰃߎѢ䖭Ͼॳ ˈ䆌㋏㒳থ㚆ߚᵤᮍ⊩ߚᵤ㓪ⷕᑣ߫ᯊˈ䛑ӮᡞϝϾ㓪ⷕԡ⚍ᥦ䰸˗Ԛᰃᶤ ѯᚙމϟˈ䗳⥛ᏂᓖൟӮࡴᬣ䫤˄↨བˈᇍᑨѢ㲟ⱑ䋼㗙rRNAⱘֱᅜᑣ߫˅DŽ ᇍԡ⚍Ꮒᓖⱘপҷ䗳⥛䖯㸠Ԅؐⱘᮍ⊩᳝䴲খ᭄࣪˄ൟW.M. Yang et al., 1996˅ˈϡব ᓣൟgammaߚᏗൟ˄Swofford et al., 1996a˅DŽ䴲খ᭄࣪ᮍ⊩⑤Ѣ⡍ᓖԡ⚍ⱘⳌᇍ䗳 ⥛ⱘ㣗⭈˗䖭Ͼᮍ⊩ৃҹMPᓎᷥᮍ⊩ЁՓ⫼ˈা㽕ḍⳌᇍⱘবᓖ乥⥛ᇍ⡍ᓖԡ⚍䖯㸠ㅔ ऩࡴᴗህৃҹњˈᔧ✊䖯㸠ࡴᴗᯊ䳔㽕᳝݇Ѣⳳᅲ䖯࣪ᷥⱘ乘ⶹ䆚˗䖭Ͼᮍ⊩ৠḋгৃҹ 䗖⫼ѢMLᓎᷥᮍ⊩ˈԚᰃ䅵ㅫϞ㹿䅸Ўᰃϡߛᅲ䰙ⱘ˄W.M. Yang et al., 1996˅DŽϡব ᓣൟᇍϔᅮ↨՟ⱘԡ⚍䖯㸠Ԅؐˈ䖭ѯԡ⚍ᑊϡ㛑㞾⬅ব࣪˗࠽ԭⱘԡ⚍؛ᅮЎㄝὖ⥛ব ࣪DŽ㟇Ѣgammaൟᮍ⊩ˈᅗ؛ᅮϔϾ㒭ᅮⱘᑣ߫ব࣪ⱘὖ⥛ᰃ䙉ᅜgammaߚᏗ㾘ᕟⱘˈℸ ᣛᅮԡ⚍ⱘপҷὖ⥛˗gammaߚᏗⱘᔶ⢊˄᳝ᔶ⢊খ᭄Įᦣ䗄˅ᦣ䗄њϔϾᑣ߫ЁϾԡ⚍ⱘ পҷ乥⥛ⱘߚᏗ˄Swofford et al., 1996a, p. 444, Figure 13; cf. Li, 1997, p. 76, Figure 3.10; ⊼ᛣሎᑺᏂᓖ˅DŽϔϾ⏋ড়ᮍ⊩Ёˈৃҹ؛ᅮϔ䚼ߚԡ⚍ᰃϡবⱘˈ㗠࠽ԭ ⱘԡ⚍߭ᰃᣝ✻gammaߚᏗব࣪ⱘDŽ ᅲ䰙Ϟˈgammaׂℷৃҹᰃ䖲㓁ⱘˈ⾏ᬷⱘ㗙㞾⾏ᬷⱘ˄W.M. Yang et al., 1996˅DŽ䖲㓁 gammaⱘᛣᗱᰃϾԡ⚍⊓ϔᴵ䖲㓁ⱘὖ⥛᳆㒓ব࣪˗Ⳃࠡˈ䖭Ͼᮍ⊩㒱᭄ᚙމϟ᮴⊩ 䅵ㅫDŽ⾏ᬷgamma䘐䖥ᮍ⊩ᣛᅮϾԡ⚍ⱘὖ⥛ˈՓᕫ䖭ѯ˄䞣ⱘ˅ὖ⥛ؐ䘐䖥gamma᳆ 㒓DŽ㞾⾏ᬷൟ؛ᅮⳌ䚏ⱘԡ⚍ⱘব࣪䗳⥛ᰃⳌ݇㘨ⱘ˗䆌㒘ԡ⚍㹿ߚЎ䆌㉏ˈ݊Ё↣ ϔ㉏Ёⱘԡ⚍ⱘব࣪䗳⥛ৃ㛑㹿؛ᅮЎᐌ䞣㗙ᓖ㉏ؐDŽ 䖯࣪ᷥᓎゟᑣՓ⫼⾡ḋⱘԡ⚍䗳⥛Ꮒᓖׂℷᮍ⊩DŽᇍѢḌ䝌᭄ˈPAUP 4.0ऩ⣀ 㗙⏋ড়Փ⫼ᯊ䯈ৃ䗚ⱘ䎱⾏ᓎᷥᮍ⊩᳔Ԑ✊ᓎᷥᮍ⊩ᯊˈ᮶Փ⫼ϡবᓣgammaൟˈгՓ ⫼⾏ᬷⱘgammaൟ˗Փ⫼log�det䎱⾏ᓎᷥᮍ⊩ᯊˈՓ⫼ϡবᓣൟ˄㾕ϟ˅DŽᇍѢḌ 䝌ˈ⇼䝌㓪ⷕᄤ᭄ˈPAMLՓ⫼䖲㓁ⱘˈ⾏ᬷⱘ㞾⾏ᬷⱘgammaൟDŽᇍѢḌ䝌⇼ 䝌᭄ˈPHYLIPՓ⫼ϔ⾡⾏ᬷⱘgammaൟDŽ бゴ㋏㒳থ㚆ߚᵤ 义ⷕˈ7/32 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?бゴ㋏㒳থ㚆ߚᵤ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第九章系统发育分析 页码,8/3 究竟使用哪一种取代模型呢? 在一个给定的序列集中,即使一个取代模型中的任何参数都可以证明是很有判断力的,但是 最好的模型并不一定总是拥有最多的蚕室;相反,参数越少,模型越好,这是因为对每一个 参数进行估值都会引入一个相关的变量,而每引入一个附加的参数维度,都会使得整体的变 数增加,有时候甚至会对模型起抑制作用(见Li,1997:p.84,表4.1)。对于一个给定的 序列比较,如果模型只有两个参数,那么碱基差异的总和要被划分为两个类别;如果模型有 六个参数,那么碱基差异的总和要被划分为六个类别;很明显,如果分为六个类别,那么每 一个类别中的位点样本数目将会很小,很可能小得无法进行合理地估值 PAUP的“描述树”特征是对DNA序列的取代模型进行规范的一个较好的策略,它使用似然方法 同时评估六个可逆的取代速率、gama分布的a形状参数和不变的位点的比例(图97)。这些 参数可以通过相等的或者指定的碱基频率进行估值。通常,任何一个合理的系统发育进化树 (比如,很容易就可以得到一个相邻连接的进化树)都适用于这个程序,因为很明显,对参 数的估值在很大程度上受到特征符模式的影响,而不是进化树的拓扑结构( Swofford et a.,1996b)。这个估值程序对于50个序列而言,并不会耗费太多的时间。如果序列较多, 或者时间较紧,可以对试验的进化树进行精简,在保留全部的系统发育范围和结构的同时, 减少分类数目。通过这些估算的取代参数,我们可以通过比较由较多参数和较少参数分别评 估得到的似然分值,决定一个简化的模型是否合理(比如,六个取代类别是否可以减少到两 个)。有时候,α参数和不变位点的比例可以相互替换,所以我们应该比较每一个单独使用时 得到的似然分值和两个同时使用时得到的似然分值。注意,和MP以及M不同,用不同的参数 值得到M分值可以直接比较( Swofford et a.,1996b) 对于编码蛋白质的DNA序列,根据样本的分歧程度,有时候很明显地,有用的变化基本上都是 第一位和第二位的编码位点,而在整个数据集中,第三位点通常都是随机的,或者第三位点 变化而第一位点和第二位点不变。尽管除去“无用”位点可以提高剩余位点的不同速率的估 值精确度,上面所述的程序还是要对这个速率差异进行修正。对于节约进化树的建立,我们 有时候会把随机的第三位点从分析中除去,因为这些位点只会引入噪声,如果碱基频率不相 等,这些位点还会引入错误 怎么样才能确定数据集中的非静态因素是否会成为一个问题呢?最简单的方法可能就是去比 较PAUP中两种通过不同方法得到的建树结果和进化树评估结果,一种方法是使用时间可逆的 方法,另一种方法是log�:det距离建树方法。下面的章节中将会涉及到这些程序。 还没有什么好的计算方法,能够直接从序列数据中评估非静态因素的影响。PAUP中有一个命 令,会列出所有序列的碱基频率。这个程序应该使用排除不变位点( Excl ude Constant Si tes)的选项。序列中的碱基频率可以很直观地比较出来。数据文件应该指定 gapmode= mi ssi ng,或者PAUP要把一个空位特征符计算为一个碱基变化。碱基频率的命令还要 对数据执行一个“chi平方(chi� square)”测试,但是这个测试并不切实际,因为它假 定数据是从一个随机样本中提取的,而结果就会假定所观察到的不相等是相互独立的而不是 系统发育结构的结果。一个毫无意义的chi� square分值并不能除去非静态因素,而一个有 意义的分值很可能会进一步证实非静态因素。PAUP中的碱基组成命令已经被用来证明:在被 子植物和绿藻的5.8SrD№A序列中,两者之间变化比较大的位点集中存在中碱基偏好,但是并 不一定在某个序列上产生变化( Hershkovi tz and lewis,1996)。 建树方法 现有的软件中所采用的建树方法已经在某些著作( Sai tou,1996: Swofford et a.,1996a Li,1997)中有很详尽的讨论;这部分只是简单地描述一些最常用的方法。建树方法可以分 为两类,每类有两种不同的方法: file://E:wcb生物信息学(中译本)\第九章系统发育分析.htm 2005-1-18
おコՓ⫼ાϔ⾡পҷൟਸ਼˛ ϔϾ㒭ᅮⱘᑣ߫䲚ЁˈेՓϔϾপҷൟЁⱘӏԩখ᭄䛑ৃҹ䆕ᯢᰃᕜ᳝߸ᮁⱘˈԚᰃ ᳔དⱘൟᑊϡϔᅮᘏᰃᢹ᳔᳝ⱘ㱩ᅸ˗Ⳍডˈখ᭄䍞ᇥˈൟ䍞དˈ䖭ᰃЎᇍ↣ϔϾ খ᭄䖯㸠Ԅؐ䛑ӮᓩܹϔϾⳌ݇ⱘব䞣ˈ㗠↣ᓩܹϔϾ䰘ࡴⱘখ᭄㓈ᑺˈ䛑ӮՓᕫᭈԧⱘব ᭄ࡴᯊ᳝ˈ⫮㟇Ӯᇍൟ䍋ᡥࠊ˄⫼㾕Li, 1997: p. 84, 㸼4.1˅DŽᇍѢϔϾ㒭ᅮⱘ ᑣ߫↨䕗ˈབᵰൟা᳝ϸϾখ᭄ˈ䙷М⺅Ꮒᓖⱘᘏ㽕㹿ߚߦЎϸϾ㉏߿˗བᵰൟ᳝ ݁Ͼখ᭄ˈ䙷М⺅Ꮒᓖⱘᘏ㽕㹿ߚߦЎ݁Ͼ㉏߿˗ᕜᯢᰒˈབᵰߚЎ݁Ͼ㉏߿ˈ䙷М↣ ϔϾ㉏߿Ёⱘԡ⚍ḋᴀ᭄ⳂᇚӮᕜᇣˈᕜৃ㛑ᇣᕫ᮴⊩䖯㸠ড়⧚ഄԄؐDŽ PAUPⱘĀᦣ䗄ᷥā⡍ᕕᰃᇍDNAᑣ߫ⱘপҷൟ䖯㸠㾘㣗ⱘϔϾ䕗དⱘㄪ⬹ˈᅗՓ⫼Ԑ✊ᮍ⊩ ৠᯊ䆘Ԅ݁Ͼৃ䗚ⱘপҷ䗳⥛ǃgammaߚᏗⱘĮᔶ⢊খ᭄ϡবⱘԡ⚍ⱘ↨՟˄9.7˅DŽ䖭ѯ খ᭄ৃҹ䗮䖛Ⳍㄝⱘ㗙ᣛᅮⱘ⺅乥⥛䖯㸠ԄؐDŽ䗮ᐌˈӏԩϔϾড়⧚ⱘ㋏㒳থ㚆䖯࣪ᷥ ˄↨བˈᕜᆍᯧህৃҹᕫࠄϔϾⳌ䚏䖲ⱘ䖯࣪˅ᷥ䛑䗖⫼Ѣ䖭ϾᑣˈЎᕜᯢᰒˈᇍখ ᭄ⱘԄؐᕜᑺϞফࠄ⡍ᕕヺᓣⱘᕅડˈ㗠ϡᰃ䖯࣪ᷥⱘᢧᠥ㒧ᵘ˄Swofford et al., 1996b˅DŽ䖭ϾԄؐᑣᇍѢ50Ͼᑣ߫㗠㿔ˈᑊϡӮ㗫䌍ⱘᯊ䯈DŽབᵰᑣ߫䕗ˈ 㗙ᯊ䯈䕗㋻ˈৃҹᇍ䆩偠ⱘ䖯࣪ᷥ䖯㸠㊒ㅔˈֱ⬭ܼ䚼ⱘ㋏㒳থ㚆㣗ೈ㒧ᵘⱘৠᯊˈ ޣᇥߚ㉏᭄ⳂDŽ䗮䖛䖭ѯԄㅫⱘপҷখ᭄ˈ៥Ӏৃҹ䗮䖛↨䕗⬅䕗খ᭄䕗ᇥখ᭄߿ߚ䆘 ԄᕫࠄⱘԐ✊ߚˈؐއᅮϔϾㅔ࣪ⱘൟᰃ৺ড়⧚˄↨བˈ݁Ͼপҷ㉏߿ᰃ৺ৃҹޣᇥࠄϸ Ͼ˅DŽ᳝ᯊˈĮখ᭄ϡবԡ⚍ⱘ↨՟ৃҹⳌѦ᳓ᤶˈ᠔ҹ៥Ӏᑨ䆹↨䕗↣ϔϾऩ⣀Փ⫼ᯊ ᕫࠄⱘԐ✊ߚؐϸϾৠᯊՓ⫼ᯊᕫࠄⱘԐ✊ߚؐDŽ⊼ᛣˈMPҹঞMEϡৠˈ⫼ϡৠⱘখ᭄ ؐᕫࠄMLߚৃؐҹⳈ↨䕗˄Swofford et al., 1996b˅DŽ ᇍѢ㓪ⷕ㲟ⱑ䋼ⱘDNAᑣ߫ˈḍḋᴀⱘߚFAXᑺˈ᳝ᯊᕜᯢᰒഄˈ᳝⫼ⱘব࣪ᴀϞ䛑ᰃ ϔԡѠԡⱘ㓪ⷕԡ⚍ˈ㗠ᭈϾ᭄䲚Ёˈϝԡ⚍䗮ᐌ䛑ᰃ䱣ᴎⱘˈ㗙ϝԡ⚍ ব࣪㗠ϔԡ⚍Ѡԡ⚍ϡবDŽሑㅵ䰸এĀ᮴⫼āԡ⚍ৃҹᦤ催࠽ԭԡ⚍ⱘϡৠ䗳⥛ⱘԄ ؐ㊒⹂ᑺˈϞ䴶᠔䗄ⱘᑣ䖬ᰃ㽕ᇍ䖭Ͼ䗳⥛Ꮒᓖ䖯㸠ׂℷDŽᇍѢ㡖㑺䖯࣪ᷥⱘᓎゟˈ៥Ӏ ᳝ᯊӮᡞ䱣ᴎⱘϝԡ⚍ҢߚᵤЁ䰸এˈЎ䖭ѯԡ⚍াӮᓩܹాໄˈབᵰ⺅乥⥛ϡⳌ ㄝˈ䖭ѯԡ⚍䖬Ӯᓩܹ䫭䇃DŽ ᗢМḋᠡ㛑⹂ᅮ᭄䲚Ёⱘ䴲䴭ᗕ㋴ᰃ৺Ӯ៤ЎϔϾ䯂乬ਸ਼˛᳔ㅔऩⱘᮍ⊩ৃ㛑ህᰃএ↨ 䕗PAUPЁϸ⾡䗮䖛ϡৠᮍ⊩ᕫࠄⱘᓎᷥ㒧ᵰ䖯࣪ᷥ䆘Ԅ㒧ᵰˈϔ⾡ᮍ⊩ᰃՓ⫼ᯊ䯈ৃ䗚ⱘ ᮍ⊩ˈϔ⾡ᮍ⊩ᰃlog�det䎱⾏ᓎᷥᮍ⊩DŽϟ䴶ⱘゴ㡖ЁᇚӮ⍝ঞࠄ䖭ѯᑣDŽ 䖬≵᳝ҔМདⱘ䅵ㅫᮍ⊩ˈ㛑ⳈҢᑣ᭄߫Ё䆘Ԅ䴲䴭ᗕ㋴ⱘᕅડDŽPAUPЁ᳝ϔϾੑ ҸˈӮ߫ߎ᠔᳝ᑣ߫ⱘ⺅乥⥛DŽ䖭Ͼᑣᑨ䆹Փ⫼ᥦ䰸ϡবԡ⚍˄Exclude Constant Sites˅ⱘ䗝乍DŽᑣ߫Ёⱘ⺅乥⥛ৃҹᕜⳈ㾖ഄ↨䕗ߎᴹDŽ᭄᭛ӊᑨ䆹ᣛᅮ gapmode=missingˈ㗙PAUP㽕ᡞϔϾぎԡ⡍ᕕヺ䅵ㅫЎϔϾ⺅ব࣪DŽ⺅乥⥛ⱘੑҸ䖬㽕 ᇍ᭄ᠻ㸠ϔϾ“chiᑇᮍ˄chi�square˅ā⌟䆩ˈԚᰃ䖭Ͼ⌟䆩ᑊϡߛᅲ䰙ˈЎᅗ؛ ᅮ᭄ᰃҢϔϾ䱣ᴎḋᴀЁᦤপⱘˈ㗠㒧ᵰህӮ؛ᅮ᠔㾖ᆳࠄⱘϡⳌㄝᰃⳌѦ⣀ゟⱘ㗠ϡᰃ ㋏㒳থ㚆㒧ᵘⱘ㒧ᵰDŽϔϾ↿᮴ᛣНⱘchi�squareߚؐᑊϡ㛑䰸এ䴲䴭ᗕ㋴ˈ㗠ϔϾ᳝ ᛣНⱘߚؐᕜৃ㛑Ӯ䖯ϔℹ䆕ᅲ䴲䴭ᗕ㋴DŽPAUPЁⱘ⺅㒘៤ੑҸᏆ㒣㹿⫼ᴹ䆕ᯢ˖㹿 ᄤỡ⠽㓓㯏ⱘ5.8S rDNAᑣ߫Ёˈϸ㗙П䯈ব࣪↨䕗ⱘԡ⚍䲚ЁᄬЁ⺅أདˈԚᰃᑊ ϡϔᅮᶤϾᑣ߫Ϟѻ⫳ব࣪˄Hershkovitz and Lewis, 1996˅DŽ ᓎᷥᮍ⊩ ⦄᳝ⱘ䕃ӊЁ᠔䞛⫼ⱘᓎᷥᮍ⊩Ꮖ㒣ᶤѯ㨫˄Saitou, 1996; Swofford et al., 1996a; Li, 1997˅Ё᳝ᕜ䆺ሑⱘ䅼䆎˗䖭䚼ߚাᰃㅔऩഄᦣ䗄ϔѯ᳔ᐌ⫼ⱘᮍ⊩DŽᓎᷥᮍ⊩ৃҹߚ Ўϸ㉏ˈ↣㉏᳝ϸ⾡ϡৠⱘᮍ⊩˖ бゴ㋏㒳থ㚆ߚᵤ 义ⷕˈ8/32 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?бゴ㋏㒳থ㚆ߚᵤ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第九章系统发育分析 页码,9/32 1.基于算法的和基于标准的。基于算法的建树方法根据一系列的步骤得到一个进化树;而 基于标准的建树方法则是根据一些优化的功能对可选的进化树进行评估。相邻连接方法 (NJ)是一个纯粹的基于算法的建树方法,这个方法只得到一个进化树,这个进化树拥 有令人满意的性质,它的距离附加值接近或者是非常优化的(见下);而一个基于标准 的距离建树方法将会根据进化树的附加值优化的标准,对所有可能的进化树(不管这些 进化树是否产生)进行评估 2.基于距离的和基于特征符的。历史上的和现有的许多关于系统发育的讨论描述了各种各 样的基于距离的和基于特征符的建树方法的效用(比如, Sai tou,1996: 1997) 距离建树方法根据一些尺度计算出双重序列的距离,然后抛开真实数据,只是根据固定 的距离建立进化树;而基于特征符的建树方法在建立进化树时,优化了每一个特征符的 真实数据模式的分布,于是双重序列的距离不再固定,而是取决于进化树的拓扑结构 最常用的基于特征符的建树方法包括MP和ML。 距离建树方法 距离建树方法根据双重序列比对的差异程度(距离)建立进化树。如果所有的起源分歧事件 都很精确地记录在序列中( Swofford et al.,19%6a),那么距离建树方法将会重构真实的 进化树。然而,当序列突变达到饱和时,分歧程度就会达到上限。一对分歧序列的其中之 在某个特定位点发生突变后,后续的突变不管发生在哪一条序列,都不会再造成更多的差 异。实际上,后续的变异很可能会使得前一个位点恢复成相等的状态,从而屏蔽掉前一个突 变,因此,绝大多数基于距离的建树方法都会针对这样“不可见”的替换进行修正。在实际 操作中,使用的速率方阵都会很有效地假定:在所观察的相等的碱基对中,实际上存在 比例的位点,这些位点经受了多次突变,而且,随着整个序列差异程度的增加,这些位点的 比例也在增加。有些程序(至少是随意地)会计算出不正确的距离进行,比方说,MEGA程序 ( Kumar et al.,1994)只针对密码子和氨基酸数据会计算出错误的距离:除非序列的整体 差异程度很小,这个程序实质上将会保证给出错误的结果 双重序列差异使用最大似然方法的取代速率计算得到。最常用的距离建树程序使用的模型局 限于时间可逆模型,只包含很有限的几个取代模型;但是PAUP4.0基本上会测试时间可逆模 型的所有变化,包括用最大似然方法从数据中评估得到的实际模型,以及针对非静态数据的 log�det距离建树方法所得到的模型 与最大似然方法相比,距离建树方法的计算强度很小,但是可以使用序列进化的相同模型, 这是它们最主要的优点。这个方法的缺点是屏蔽了真实的特征符数据。最常用的距离建树方 法是“不加权配对组算术方法”( UPGMA, unwei ghted pai r group method wi th ari thetic mean)、相邻连接方法(NJ, nei gabor joi ni ng)和对距离进化树的附加值进行优化的方 法,包括最小进化方法(ME, mi ni mum evol uti on)。有些方法被不止一个系统发育软件包引 用,但是在使用时不一定会使用相同的指定参数和(或)进化树优化特征(比如,树枝交换 �,8�见下)。 不加权配对组算术方法( UPGMA, unweighted pair group method with arithmetic mean) UPGMA是一种聚类或者说是分类方法��它按照配对序列的最大相似性和连接配对的平均 值的标准将进化树的树枝连接起来。它还不是一种严格的进化距离建树方法(Li,1997) 只有当序列分歧是基于一个分子钟或者近似等于原始的序列差异性的时候,我们才会期望 UPGMA会产生一个拥有真实的树枝长度的准确的拓扑结构( ul trametric; Swofford et al. 1996a)。正如前面讨论的那样,在实际问题中很少会遇到这种情况 相邻连接方法(NJ, neighbor joining) file://E:wcb生物信息学(中译本)\第九章系统发育分析.htm 2005-1-18
1. Ѣㅫ⊩ⱘѢᷛޚⱘDŽѢㅫ⊩ⱘᓎᷥᮍ⊩ḍϔ㋏߫ⱘℹ偸ᕫࠄϔϾ䖯࣪˗ᷥ㗠 Ѣᷛޚⱘᓎᷥᮍ⊩߭ᰃḍϔѯӬ࣪ⱘࡳ㛑ᇍৃ䗝ⱘ䖯࣪ᷥ䖯㸠䆘ԄDŽⳌ䚏䖲ᮍ⊩ ˄NJ˅ᰃϔϾ㒃㊍ⱘѢㅫ⊩ⱘᓎᷥᮍ⊩ˈ䖭Ͼᮍ⊩াᕫࠄϔϾ䖯࣪ˈᷥ䖭Ͼ䖯࣪ᷥᢹ ᳝ҸҎ⒵ᛣⱘᗻ䋼ˈᅗⱘ䎱⾏䰘ࡴؐ䖥㗙ᰃ䴲ᐌӬ࣪ⱘ˄㾕ϟ˅˗㗠ϔϾѢᷛޚ ⱘ䎱⾏ᓎᷥᮍ⊩ᇚӮḍ䖯࣪ᷥⱘ䰘ࡴؐӬ࣪ⱘᷛޚˈᇍ᠔᳝ৃ㛑ⱘ䖯࣪˄ᷥϡㅵ䖭ѯ 䖯࣪ᷥᰃ৺ѻ⫳˅䖯㸠䆘ԄDŽ 2. Ѣ䎱⾏ⱘѢ⡍ᕕヺⱘDŽग़Ϟⱘ⦄᳝ⱘ䆌݇Ѣ㋏㒳থ㚆ⱘ䅼䆎ᦣ䗄њ⾡ ḋⱘѢ䎱⾏ⱘѢ⡍ᕕヺⱘᓎᷥᮍ⊩ⱘᬜ⫼˄↨བˈSaitou, 1996: Li, 1997˅DŽ 䎱⾏ᓎᷥᮍ⊩ḍϔѯሎᑺ䅵ㅫߎঠ䞡ᑣ߫ⱘ䎱⾏ˈ✊ৢᡯᓔⳳᅲ᭄ˈাᰃḍᅮ ⱘ䎱⾏ᓎゟ䖯࣪˗ᷥ㗠Ѣ⡍ᕕヺⱘᓎᷥᮍ⊩ᓎゟ䖯࣪ˈᯊᷥӬ࣪њ↣ϔϾ⡍ᕕヺⱘ ⳳᅲ᭄ᓣⱘߚᏗˈѢᰃঠ䞡ᑣ߫ⱘ䎱⾏ϡݡᅮˈ㗠ᰃপއѢ䖯࣪ᷥⱘᢧᠥ㒧ᵘDŽ ᳔ᐌ⫼ⱘѢ⡍ᕕヺⱘᓎᷥᮍ⊩ࣙᣀMPMLDŽ 䎱⾏ᓎᷥᮍ⊩ 䎱⾏ᓎᷥᮍ⊩ḍঠ䞡ᑣ߫↨ᇍⱘᏂᓖᑺ˄䎱⾏˅ᓎゟ䖯࣪ᷥDŽབᵰ᠔᳝ⱘ䍋⑤ߚFAXџӊ 䛑ᕜ㊒⹂ഄ䆄ᔩᑣ߫Ё˄Swofford et al., 1996a˅ˈ䙷М䎱⾏ᓎᷥᮍ⊩ᇚӮ䞡ᵘⳳᅲⱘ 䖯࣪ᷥDŽ✊㗠ˈᔧᑣ߫さব䖒ࠄ佅ᯊˈߚFAXᑺህӮ䖒ࠄϞ䰤DŽϔᇍߚFAXᑣ߫ⱘ݊ЁПϔ ᶤϾ⡍ᅮԡ⚍থ⫳さবৢˈৢ㓁ⱘさবϡㅵথ⫳ાϔᴵᑣ߫ˈ䛑ϡӮݡ䗴៤ⱘᏂ ᓖDŽᅲ䰙Ϟˈৢ㓁ⱘবᓖᕜৃ㛑ӮՓᕫࠡϔϾԡ⚍ᘶ៤Ⳍㄝⱘ⢊ᗕˈҢ㗠ሣ㬑ᥝࠡϔϾさ বˈℸˈ㒱᭄Ѣ䎱⾏ⱘᓎᷥᮍ⊩䛑Ӯ䩜ᇍ䖭ḋĀϡৃ㾕āⱘ᳓ᤶ䖯㸠ׂℷDŽᅲ䰙 ᪡ЁˈՓ⫼ⱘ䗳⥛ᮍ䰉䛑Ӯᕜ᳝ᬜഄ؛ᅮ˖᠔㾖ᆳⱘⳌㄝⱘ⺅ᇍЁˈᅲ䰙Ϟᄬϔᅮ ↨՟ⱘԡ⚍ˈ䖭ѯԡ⚍㒣ফњさবˈ㗠Ϩˈ䱣ⴔᭈϾᑣ߫Ꮒᓖᑺⱘࡴˈ䖭ѯԡ⚍ⱘ ↨՟гࡴDŽ᳝ѯᑣ˄㟇ᇥᰃ䱣ᛣഄ˅Ӯ䅵ㅫߎϡℷ⹂ⱘ䎱⾏䖯㸠ˈ↨ᮍ䇈ˈMEGAᑣ ˄Kumar et al., 1994˅া䩜ᇍᆚⷕᄤ⇼䝌᭄Ӯ䅵ㅫߎ䫭䇃ⱘ䎱⾏˗䰸䴲ᑣ߫ⱘᭈԧ Ꮒᓖᑺᕜᇣˈ䖭Ͼᑣᅲ䋼ϞᇚӮֱ䆕㒭ߎ䫭䇃ⱘ㒧ᵰDŽ ঠ䞡ᑣ߫ᏂᓖՓ⫼᳔Ԑ✊ᮍ⊩ⱘপҷ䗳⥛䅵ㅫᕫࠄDŽ᳔ᐌ⫼ⱘ䎱⾏ᓎᷥᑣՓ⫼ⱘൟሔ 䰤Ѣᯊ䯈ৃ䗚ൟˈাࣙᕜ᳝䰤ⱘϾপҷൟ˗ԚᰃPAUP 4.0 ᴀϞӮ⌟䆩ᯊ䯈ৃ䗚 ൟⱘ᠔᳝ব࣪ˈࣙᣀ⫼᳔Ԑ✊ᮍ⊩Ң᭄Ё䆘Ԅᕫࠄⱘᅲ䰙ൟˈҹঞ䩜ᇍ䴲䴭ᗕ᭄ⱘ log�det䎱⾏ᓎᷥᮍ⊩᠔ᕫࠄⱘൟDŽ Ϣ᳔Ԑ✊ᮍ⊩Ⳍ↨ˈ䎱⾏ᓎᷥᮍ⊩ⱘ䅵ㅫᔎᑺᕜᇣˈԚᰃৃҹՓ⫼ᑣ߫䖯࣪ⱘⳌৠൟˈ 䖭ᰃᅗӀ᳔Џ㽕ⱘӬ⚍DŽ䖭Ͼᮍ⊩ⱘ㔎⚍ᰃሣ㬑њⳳᅲⱘ⡍ᕕヺ᭄DŽ᳔ᐌ⫼ⱘ䎱⾏ᓎᷥᮍ ⊩ᰃĀϡࡴᴗ䜡ᇍ㒘ㅫᴃᮍ⊩ā˄UPGMAˈunweighted pair group method with arithmetic mean˅ǃⳌ䚏䖲ᮍ⊩˄NJˈneighbor joining˅ᇍ䎱⾏䖯࣪ᷥⱘ䰘ࡴؐ䖯㸠Ӭ࣪ⱘᮍ ⊩ˈࣙᣀ᳔ᇣ䖯࣪ᮍ⊩˄MEˈminimum evolution˅DŽ᳝ѯᮍ⊩㹿ϡℶϔϾ㋏㒳থ㚆䕃ӊࣙᓩ ⫼ˈԚᰃՓ⫼ᯊϡϔᅮӮՓ⫼Ⳍৠⱘᣛᅮখ᭄˄˅䖯࣪ᷥӬ࣪⡍ᕕ˄↨བˈᷥᵱѸᤶ ��㾕ϟ˅DŽ ϡࡴᴗ䜡ᇍ㒘ㅫᴃᮍ⊩˄UPGMAˈunweighted pair group method with arithmetic mean˅ UPGMAᰃϔ⾡㘮㉏㗙䇈ᰃߚ㉏ᮍ⊩��ᅗᣝ✻䜡ᇍᑣ߫ⱘ᳔ⳌԐᗻ䖲䜡ᇍⱘᑇഛ ؐⱘᷛޚᇚ䖯࣪ᷥⱘᷥᵱ䖲䍋ᴹDŽᅗ䖬ϡᰃϔ⾡ϹḐⱘ䖯࣪䎱⾏ᓎᷥᮍ⊩˄Li, 1997˅DŽ া᳝ᔧᑣ߫ߚFAXᰃѢϔϾߚᄤ䩳㗙䖥ԐㄝѢॳྟⱘᑣ߫Ꮒᓖᗻⱘᯊˈ៥ӀᠡӮᳳᳯ UPGMAӮѻ⫳ϔϾᢹ᳝ⳳᅲⱘᷥᵱ䭓ᑺⱘޚ⹂ⱘᢧᠥ㒧ᵘ˄ultrametric; Swofford et al., 1996a˅DŽℷབࠡ䴶䅼䆎ⱘ䙷ḋˈᅲ䰙䯂乬ЁᕜᇥӮ䘛ࠄ䖭⾡ᚙމDŽ Ⳍ䚏䖲ᮍ⊩˄NJˈneighbor joining˅ бゴ㋏㒳থ㚆ߚᵤ 义ⷕˈ9/32 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?бゴ㋏㒳থ㚆ߚᵤ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第九章系统发育分析 页码,10/32 相邻连接算法在距离建树中经常会用到,而不会理会使用什么样的优化标准。完全解析出的 进化树是通过对完全没有解析出的“星型”进化树进行“分解”得到的,分解的步骤是连续 不断地在最接近(实际上,是最孤立的)的序列对中插入树枝,而保留进化树的终端(图 9.8)。于是,最接近的序列对被巩固了,而“星型”进化树被改善了,这个过程将不断重 复。这个方法相对而言很快,也就是说,对于一个50个序列的进化树,只需要若干秒甚至更 少 Fitch� Margoliash (FM) Fi tch�: Margol i ash(FM)方法设法通过把所有可能观察到的距离相对于进化树中所有可能 的路径长度的偏差的平方极小化,将进化树中观察到的双重距离的合适度极大化 ( Fel sensei n,1997)。有一些变量,在怎样对错误进行加权的处理上不太一样。对变化的 估值并非是完全独立的,因为所有的进化树内部的树枝中存在的错误都至少被计算了两次 (Rzhetsky and Nei, 1992) 最小进化方法(ME, Minimum Evolution) 最小进化方法先使用同「M相同的方式计算出路径长度,然后根据路径长度优化出最短的进化 树;也就是说,它要求将观察到的距离相对于基于进化树的距离的偏差的平方最小化 ( Rzhetsky and Nei,1992: Swofford et al.,1996a; Fel senstein,1997)。同FM方法不 同,ME方法并不使用所有可能的双重序列距离和所有可能的相关的进化树路径长度,而是先 根据到外层节点的距离固定进化树内部节点的位置,然后根据这些观察点之间的最小计算误 差,对内部的树枝长度进行优化。于是这个方法声称它消除了FM计算的依赖性 究竟哪一个基于距离的建树程序是最好的 ME和FM似乎是最好的程序程序,它们在模拟硏究中所取得的成绩几乎相同( Hue senbeck, 1995)。ME在计算机程序中的应用越来越广泛了,包括 METREE( Rzhetsky and Nei,194) 和PAUP都在使用ME。对于蛋白质数据, PHYLIP中的FM程序提供了最多的时间可逆取代模型 但是没有对位点内部的取代速率差异进行修正。MEGA( Kumar et a.,1994)和 METRE软件 包包括一个针对蛋白质的 gamma修正,但是只有同一个原始("p�距离”)的分歧模型 (没有距离修正或者偏好修正)结合时才进行修正,这种方法只有当分歧很小时才合理 ( RZhetsky and Nei,1994)。MEGA也计算同义的和异义的位点的分离距离,但是只有当没 有取代或者碱基频率偏好的时候,以及没有对位点内部的速率差异进行修正的时候,这个方 法才合理。因此,对于绝大多数数据集而言,对核苷酸数据应用一个更加理想的模型可能会 比MEGA方法要好。 模拟研究指出,对于一个大范围的进化树形状空间, UPGMA的可操作性很差( Hue senbeck, 1995)。我们并不赞成使用这种方法,而之所以在这里会提及这个方法,是因为在现在的出 版物上经常会出现 UPGMA的应用,这一点可以由当前的出版物中出现的 UPGMA“基因进化树 证明( Hue senbeck,1995) 很显然,NJ是最快的程序,并且所产生的进化树同M进化树相比,虽不能说一样,但也已经 非常相近了( Rzhetsky and Nei,1992:Li,1997)。但是,NJ只产生一个进化树。根据数 据结构,有大量不同的进化树可能和N进化树一样好,甚至比N进化树好得多( Swofford et a.1996a)。我们中的一个(MAH)和D. Hillis(个人通讯)已经各自独立地得到了一些(虽 然很少)数据集,对于这些数据集,N给出的进化树很糟糕;但是使用PAP方法中的“最接 近( cl osest)”选项后,进行逐步加总,得到了一个较好的距离进化树( Swofford, 1997)。 特征符建树方法 file://E:wcb生物信息学(中译本)\第九章系统发育分析.htm 2005-1-18
Ⳍ䚏䖲ㅫ⊩䎱⾏ᓎᷥЁ㒣ᐌӮ⫼ࠄˈ㗠ϡӮ⧚ӮՓ⫼ҔМḋⱘӬ࣪ᷛޚDŽᅠܼ㾷ᵤߎⱘ 䖯࣪ᷥᰃ䗮䖛ᇍᅠܼ≵᳝㾷ᵤߎⱘĀ᯳ൟā䖯࣪ᷥ䖯㸠Āߚ㾷āᕫࠄⱘˈߚ㾷ⱘℹ偸ᰃ䖲㓁 ϡᮁഄ᳔䖥˄ᅲ䰙Ϟˈᰃ᳔ᄸゟⱘ˅ⱘᑣ߫ᇍЁᦦܹᷥᵱˈ㗠ֱ⬭䖯࣪ᷥⱘ㒜ッ˄ 9.8˅DŽѢᰃˈ᳔䖥ⱘᑣ߫ᇍ㹿Ꮍњˈ㗠Ā᯳ൟā䖯࣪ᷥ㹿ᬍњˈ䖭Ͼ䖛ᇚϡᮁ䞡 DŽ䖭Ͼᮍ⊩Ⳍᇍ㗠㿔ᕜᖿˈгህᰃ䇈ˈᇍѢϔϾ50Ͼᑣ߫ⱘ䖯࣪ˈᷥা䳔㽕㢹ᑆ⾦⫮㟇 ᇥDŽ Fitch�Margoliash˄FM˅ Fitch�Margoliash˄FM˅ᮍ⊩䆒⊩䗮䖛ᡞ᠔᳝ৃ㛑㾖ᆳࠄⱘ䎱⾏ⳌᇍѢ䖯࣪ᷥЁ᠔᳝ৃ㛑 ⱘ䏃ᕘ䭓ᑺⱘأᏂⱘᑇᮍᵕᇣ࣪ˈᇚ䖯࣪ᷥЁ㾖ᆳࠄⱘঠ䞡䎱⾏ⱘড়䗖ᑺᵕ࣪ ˄Felsenstein, 1997˅DŽ᳝ϔѯব䞣ˈᗢḋᇍ䫭䇃䖯㸠ࡴᴗⱘ໘⧚ϞϡϔḋDŽᇍব࣪ⱘ Ԅؐᑊ䴲ᰃᅠܼ⣀ゟⱘˈЎ᠔᳝ⱘ䖯࣪ᷥݙ䚼ⱘᷥᵱЁᄬⱘ䫭䇃䛑㟇ᇥ㹿䅵ㅫњϸ ˄Rzhetsky and Nei, 1992˅DŽ ᳔ᇣ䖯࣪ᮍ⊩˄ME,Minimum Evolution˅ ᳔ᇣ䖯࣪ᮍ⊩ܜՓ⫼ৠFMⳌৠⱘᮍᓣ䅵ㅫߎ䏃ᕘ䭓ᑺˈ✊ৢḍ䏃ᕘ䭓ᑺӬߎ᳔࣪ⷁⱘ䖯࣪ ᷥ˗гህᰃ䇈ˈᅗ㽕∖ᇚ㾖ᆳࠄⱘ䎱⾏ⳌᇍѢѢ䖯࣪ᷥⱘ䎱⾏ⱘأᏂⱘᑇᮍ᳔ᇣ࣪ ˄Rzhetsky and Nei, 1992; Swofford et al., 1996a; Felsenstein, 1997˅DŽৠFMᮍ⊩ϡ ৠˈMEᮍ⊩ᑊϡՓ⫼᠔᳝ৃ㛑ⱘঠ䞡ᑣ߫䎱⾏᠔᳝ৃ㛑ⱘⳌ݇ⱘ䖯࣪ᷥ䏃ᕘ䭓ᑺˈ㗠ᰃܜ ḍࠄሖ㡖⚍ⱘ䎱⾏ᅮ䖯࣪ᷥݙ䚼㡖⚍ⱘԡ㕂ˈ✊ৢḍ䖭ѯ㾖ᆳ⚍П䯈ⱘ᳔ᇣ䅵ㅫ䇃 Ꮒˈᇍݙ䚼ⱘᷥᵱ䭓ᑺ䖯㸠Ӭ࣪DŽѢᰃ䖭Ͼᮍ⊩ໄ⿄ᅗ⍜䰸њFM䅵ㅫⱘձ䌪ᗻDŽ おコાϔϾѢ䎱⾏ⱘᓎᷥᑣᰃ᳔དⱘ MEFMԐТᰃ᳔དⱘᑣᑣˈᅗӀᢳⷨおЁ᠔পᕫⱘ៤㒽ТⳌৠ˄Huelsenbeck, 1995˅DŽME䅵ㅫᴎᑣЁⱘᑨ⫼䍞ᴹ䍞ᑓ⊯њˈࣙᣀMETREE˄Rzhetsky and Nei, 1994˅ PAUP䛑Փ⫼MEDŽᇍѢ㲟ⱑ䋼᭄ˈPHYLIPЁⱘFMᑣᦤկњ᳔ⱘᯊ䯈ৃ䗚পҷൟˈ Ԛᰃ≵᳝ᇍԡ⚍ݙ䚼ⱘপҷ䗳⥛Ꮒᓖ䖯㸠ׂℷDŽMEGA˄Kumar et al., 1994˅METREE䕃ӊ ࣙࣙᣀϔϾ䩜ᇍ㲟ⱑ䋼ⱘgammaׂℷˈԚᰃা᳝ৠϔϾॳྟ˄“p�䎱⾏ā˅ⱘߚൟFAX ˄≵᳝䎱⾏ׂℷ㗙أདׂℷ˅㒧ড়ᯊᠡ䖯㸠ׂℷˈ䖭⾡ᮍ⊩া᳝ᔧߚFAXᕜᇣᯊᠡড়⧚ ˄Rzhetsky and Nei, 1994˅DŽMEGAг䅵ㅫৠНⱘᓖНⱘԡ⚍ⱘߚ行䎱⾏ˈԚᰃা᳝ᔧ≵ ᳝পҷ㗙⺅乥⥛أདⱘᯊˈҹঞ≵᳝ᇍԡ⚍ݙ䚼ⱘ䗳⥛Ꮒᓖ䖯㸠ׂℷⱘᯊˈ䖭Ͼᮍ ⊩ᠡড়⧚DŽℸˈᇍѢ㒱᭄᭄䲚㗠㿔ˈᇍḌ㣋䝌᭄ᑨ⫼ϔϾࡴ⧛ᛇⱘൟৃ㛑Ӯ ↨MEGAᮍ⊩㽕དDŽ ᢳⷨおᣛߎˈᇍѢϔϾ㣗ೈⱘ䖯࣪ᷥᔶ⢊ぎ䯈ˈUPGMAⱘৃ᪡ᗻᕜᏂ˄Huelsenbeck, 1995˅DŽ៥Ӏᑊϡ䌲៤Փ⫼䖭⾡ᮍ⊩ˈ㗠П᠔ҹ䖭䞠Ӯᦤঞ䖭Ͼᮍ⊩ˈᰃЎ⦄ⱘߎ ⠜⠽Ϟ㒣ᐌӮߎ⦃UPGMAⱘᑨ⫼ˈ䖭ϔ⚍ৃҹ⬅ᔧࠡⱘߎ⠜⠽Ёߎ⦃ⱘUPGMA“䖯࣪“ᷥ 䆕ᯢ˄Huelsenbeck, 1995˅DŽ ᕜᰒ✊ˈNJᰃ᳔ᖿⱘᑣˈᑊϨ᠔ѻ⫳ⱘ䖯࣪ᷥৠME䖯࣪ᷥⳌ↨ˈ㱑ϡ㛑䇈ϔḋˈԚгᏆ㒣 䴲ᐌⳌ䖥њ˄Rzhetsky and Nei, 1992; Li, 1997˅DŽԚᰃˈNJাѻ⫳ϔϾ䖯࣪ᷥDŽḍ᭄ 㒧ᵘˈ᳝䞣ϡৠⱘ䖯࣪ৃᷥ㛑NJ䖯࣪ᷥϔḋདˈ⫮㟇↨NJ䖯࣪ᷥདᕫ˄Swofford et al.1996a˅DŽ៥ӀЁⱘϔϾ˄MAH˅D.Hillis˄ϾҎ䗮䆃˅Ꮖ㒣㞾⣀ゟഄᕫࠄњϔѯ˄㱑 ✊ᕜᇥ˅᭄䲚ˈᇍѢ䖭ѯ᭄䲚ˈNJ㒭ߎⱘ䖯࣪ᷥᕜ㊳㊩˗ԚᰃՓ⫼PAUPᮍ⊩ЁⱘĀ᳔ 䖥˄closest˅ā䗝乍ৢˈ䖯㸠䗤ℹࡴᘏˈᕫࠄњϔϾ䕗དⱘ䎱⾏䖯࣪˄ᷥSwoffordˈ 1997˅DŽ ⡍ᕕヺᓎᷥᮍ⊩ бゴ㋏㒳থ㚆ߚᵤ 义ⷕˈ10/32 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?бゴ㋏㒳থ㚆ߚᵤ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com