第八章系统发育分析 系统发生(或种系发生、系统发育, phylogeny)是指生物形成或进化的历史。系统发 生学( phylogenetics研究物种之间的进化关系,其基本思想是比较物种的特征,并认为特征 相似的物种在遗传学上接近。系统发生研究的结果往往以系统发生树( phylogenetic tree)表 示,用它描述物种之间的进化关系。通过对生物学数据的建模提取特征,进而比较这些特征, 研究生物形成或进化的历史。在分子水平上进行系统发生分析具有许多优势,所得到的结果 更加科学、可靠。分子系统发生分析主要分成三个步骤:分子序列或特征数据的分析、系统 发生树的构造以及结果的检验。 TREERO Other Vertebra te Click on the binomial O Homo sapiens(human) O Bos taurus(cow) B AnopHeles gambiae (mosquito) sfaB∥aris(doq) e Saccharomyces cereris/ae(bakers yeast) 0Magn动p0 rthe grisea Plants s Arabidopsis thaliana(thale baHey) B Oryza sativa (rice)
第八章 系统发育分析 系统发生(或种系发生、系统发育,phylogeny)是指生物形成或进化的历史。系统发 生学(phylogenetics)研究物种之间的进化关系,其基本思想是比较物种的特征,并认为特征 相似的物种在遗传学上接近。系统发生研究的结果往往以系统发生树(phylogenetic tree)表 示,用它描述物种之间的进化关系。通过对生物学数据的建模提取特征,进而比较这些特征, 研究生物形成或进化的历史。在分子水平上进行系统发生分析具有许多优势,所得到的结果 更加科学、可靠。分子系统发生分析主要分成三个步骤:分子序列或特征数据的分析、系统 发生树的构造以及结果的检验
81分子系统发生与系统发生树 811分子系统发生分析 系统发生学是进化生物学的一个重要研究领域,系统发生分析早在达尔文时代就已经开 始。从那时起,科学家们就开始寻找物种的源头,分析物种之间的进化关系,给各个物种分 门别类。经典系统发生学研究所涉及的特征主要是生物表型( phenotype).特征,所谓的表型特 征主要指形态学的(结构的)特征,如生物体的大小、颜色、触角个数,也包括某些生理的 生化的以及行为习性的特征。通过表型比较来推断生物体的基因型( genotype),研究物种之 间的进化关系。但是,利用表型特征是有局限性的。有时候关系很远的物种也能进化出相似 的表型,这是由称为趋同进化( convergent evolution)的过程造成的。例如,如果一个生物学 家按照生物体是否有眼睛来构建进化树,那么他可能将人类、两翼昆虫和软体动物放在同- 个进化组中,因为它们都有光探测器官。在这个例子中,很明显这三种生物体并不具有密切 的关系,在其它特征上有天壤之别,就是它们眼睛的构造也大相径庭。这说明表型有时候会 误导我们,表型相似并不总是反映基因相似。用表型来判定进化关系的另一个问题是,对于 许多生物体很难检测到可用来进行比较的表型特征。例如,即使用显微镜检査,也难以发现 细菌的明显特性。当我们试图比较关系较远的生物体的时候,第三个问题又出现了,即什么 样的表型特征能用来比较呢?例如,分析细菌、蠕虫和哺乳动物,它们之间的共同特征实在 是少之又少。 随着人们对生物的认识从宏观发展到微观,科学家对物种分类的依据也从宏观上的形态 发展到了微观上的分子,并且有了突破性的进展,系统发生分析进入分子层次。科学家认为, 现今世界上存在的核酸和蛋白质分子都是从共同的祖先经过不断的进化而形成的,作为生物 遗传物质的核酸和作为生命机器的蛋白质分子中存在着关于生物进化的信息,可用于系统发 生关系的研究。在分子水平上进行分析具有许多表型分析所没有的优势,所得到的结果更加 科学、可靠。分子系统发生分析直接利用从核酸序列或蛋白质分子提取的信息,作为物种的 特征,通过比较生物分子序列,分析序列之间的关系,构造系统发生树,进而阐明各个物种 的进化关系。当然,这些分子不仅在序列上保留进化的痕迹,它们的结构也保留着进化的痕 在分子水平上研究生物之间的关系早在20世纪初就开始了。科学家发现,当把一个生 物体的血液注射到另一个测试生物体中时,产生免疫反应的程度与这两个生物体的进化关系
8.1 分子系统发生与系统发生树 8.1.1 分子系统发生分析 系统发生学是进化生物学的一个重要研究领域,系统发生分析早在达尔文时代就已经开 始。从那时起,科学家们就开始寻找物种的源头,分析物种之间的进化关系,给各个物种分 门别类。经典系统发生学研究所涉及的特征主要是生物表型(phenotype)特征,所谓的表型特 征主要指形态学的(结构的)特征,如生物体的大小、颜色、触角个数,也包括某些生理的、 生化的以及行为习性的特征。通过表型比较来推断生物体的基因型(genotype),研究物种之 间的进化关系。但是,利用表型特征是有局限性的。有时候关系很远的物种也能进化出相似 的表型,这是由称为趋同进化(convergent evolution)的过程造成的。例如,如果一个生物学 家按照生物体是否有眼睛来构建进化树,那么他可能将人类、两翼昆虫和软体动物放在同一 个进化组中,因为它们都有光探测器官。在这个例子中,很明显这三种生物体并不具有密切 的关系,在其它特征上有天壤之别,就是它们眼睛的构造也大相径庭。这说明表型有时候会 误导我们,表型相似并不总是反映基因相似。用表型来判定进化关系的另一个问题是,对于 许多生物体很难检测到可用来进行比较的表型特征。例如,即使用显微镜检查,也难以发现 细菌的明显特性。当我们试图比较关系较远的生物体的时候,第三个问题又出现了,即什么 样的表型特征能用来比较呢?例如,分析细菌、蠕虫和哺乳动物,它们之间的共同特征实在 是少之又少。 随着人们对生物的认识从宏观发展到微观,科学家对物种分类的依据也从宏观上的形态 发展到了微观上的分子,并且有了突破性的进展,系统发生分析进入分子层次。科学家认为, 现今世界上存在的核酸和蛋白质分子都是从共同的祖先经过不断的进化而形成的,作为生物 遗传物质的核酸和作为生命机器的蛋白质分子中存在着关于生物进化的信息,可用于系统发 生关系的研究。在分子水平上进行分析具有许多表型分析所没有的优势,所得到的结果更加 科学、可靠。分子系统发生分析直接利用从核酸序列或蛋白质分子提取的信息,作为物种的 特征,通过比较生物分子序列,分析序列之间的关系,构造系统发生树,进而阐明各个物种 的进化关系。当然,这些分子不仅在序列上保留进化的痕迹,它们的结构也保留着进化的痕 迹。 在分子水平上研究生物之间的关系早在 20 世纪初就开始了。科学家发现,当把一个生 物体的血液注射到另一个测试生物体中时,产生免疫反应的程度与这两个生物体的进化关系
直接相关,由此最早正确地推断出人和猿比它们和其它灵长类动物有更近的共同祖先。直到 20世纪中期,分子数据才开始被广泛应用于系统发生研究。蛋白质电泳使得我们可以在一 些浅层特征上,如分子大小和电荷,来分离和比较相关的蛋白质。20世纪60年代,蛋白质 测序成为可能:20世纪70年代,研究者开始能够获得基因组信息,特别是DNA序列。蛋 白质序列和DNA序列为分子系统发生分析提供了可靠的数据。 在现代分子进化研究中,根据现有生物基因或物种多样性来重建生物的进化史是一个非 常重要的问题。一个可靠的系统发生的推断,将揭示出有关生物进化过程的顺序,有助于我 们了解生物进化的历史和进化机制。根据核酸和蛋白质的序列信息,可以推断物种之间的系 统发生关系。其基本原理非常简单,从一条序列转变为另一条序列所需要的变换越多,那么 这两条序列的相关性就越小,从共同祖先分歧的时间就越早,进化距离就越大:相反,两个 序列越相似,那么它们之间的进化距离就可能越小。为了便于分析,一般假设序列变化的速 率相对恒定。关于地球上现代人起源的研究是一个典型而有趣的例子,科学家分析了取自世 界不同地区许多人的线粒体DNA,分析结果表明,所有现代人都是一个非洲女性的后代。 线粒体DNA非常适合于系统发生分析,因为线粒体DNA从母体完全传到子代,不与父代 DNA重组。由于DNA分子非常稳定,所以我们既可以通过DNA分析活着的生物,也可 以分析死去的生物,甚至分析已经绝种的生物。当然,用细胞核基因来研究系统发生关系时, 遇到的一个严重的问题是,基因常常会被复制,导致在个体基因组中,一个基因可能有若干 个拷贝。在进化过程中,这些拷贝各自演变,形成两个或更多的相似基因。在对不同物种的 基因进行比较时,如果选择这类基因,其分析结果的可靠性将存在问题 所有的生物都可以追溯到共同的祖先,生物的产生和分化就像树一样地生长、分叉,以 树的形式来表示生物之间的进化关系是非常自然的事。可以用树中的各个分支点代表一类生 物起源的相对时间,两个分支点靠得越近,则对应的两群生物进化关系越密切。 系统发生分析一般是建立在分子钟( molecular clock)基础上的。生物随着时间的推进而 演化,进化的速率被视为进化研究中的基本问题之一。进化速率就是在某一段时间内的遗传 改变量。分子进化速率相关的分子钟的概念源于对蛋白质序列的研究。在长期的进化过程中, 有着相似功能约束的位点的分子进化速率则几乎完全一致。20世纪60年代最早由 Emile Zuckerkandl和 Linus pauling所做的蛋白质序列的比较研究表明,蛋白质同系物的替换率就 算过了千百万年也能保持恒定,因此他们将氨基酸的变异积累比做分子钟。科学家们在比较
直接相关,由此最早正确地推断出人和猿比它们和其它灵长类动物有更近的共同祖先。直到 20 世纪中期,分子数据才开始被广泛应用于系统发生研究。蛋白质电泳使得我们可以在一 些浅层特征上,如分子大小和电荷,来分离和比较相关的蛋白质。20 世纪 60 年代,蛋白质 测序成为可能;20 世纪 70 年代,研究者开始能够获得基因组信息,特别是 DNA 序列。蛋 白质序列和 DNA 序列为分子系统发生分析提供了可靠的数据。 在现代分子进化研究中,根据现有生物基因或物种多样性来重建生物的进化史是一个非 常重要的问题。一个可靠的系统发生的推断,将揭示出有关生物进化过程的顺序,有助于我 们了解生物进化的历史和进化机制。根据核酸和蛋白质的序列信息,可以推断物种之间的系 统发生关系。其基本原理非常简单,从一条序列转变为另一条序列所需要的变换越多,那么, 这两条序列的相关性就越小,从共同祖先分歧的时间就越早,进化距离就越大;相反,两个 序列越相似,那么它们之间的进化距离就可能越小。为了便于分析,一般假设序列变化的速 率相对恒定。关于地球上现代人起源的研究是一个典型而有趣的例子,科学家分析了取自世 界不同地区许多人的线粒体 DNA,分析结果表明,所有现代人都是一个非洲女性的后代。 线粒体 DNA 非常适合于系统发生分析,因为线粒体 DNA 从母体完全传到子代,不与父代 DNA 重组。由于 DNA 分子非常稳定,所以我们既可以通过 DNA 分析活着的生物,也可 以分析死去的生物,甚至分析已经绝种的生物。当然,用细胞核基因来研究系统发生关系时, 遇到的一个严重的问题是,基因常常会被复制,导致在个体基因组中,一个基因可能有若干 个拷贝。在进化过程中,这些拷贝各自演变,形成两个或更多的相似基因。在对不同物种的 基因进行比较时,如果选择这类基因,其分析结果的可靠性将存在问题。 所有的生物都可以追溯到共同的祖先,生物的产生和分化就像树一样地生长、分叉,以 树的形式来表示生物之间的进化关系是非常自然的事。可以用树中的各个分支点代表一类生 物起源的相对时间,两个分支点靠得越近,则对应的两群生物进化关系越密切。 系统发生分析一般是建立在分子钟(molecular clock)基础上的。生物随着时间的推进而 演化,进化的速率被视为进化研究中的基本问题之一。进化速率就是在某一段时间内的遗传 改变量。分子进化速率相关的分子钟的概念源于对蛋白质序列的研究。在长期的进化过程中, 有着相似功能约束的位点的分子进化速率则几乎完全一致。20 世纪 60 年代最早由 Emile Zuckerkandl 和 Linus Pauling 所做的蛋白质序列的比较研究表明,蛋白质同系物的替换率就 算过了千百万年也能保持恒定,因此他们将氨基酸的变异积累比做分子钟。科学家们在比较
几种动物的血红蛋白、细胞色素C的序列后注意到:这些蛋白质的氨基酸取代速率在不同 的种系间大致相同,即分子水平的进化存在恒速现象。分子时钟在不同的蛋白质中运行的速 率是不同的,但是两个蛋白质同系物的差异始终和它们独立分化的时间成正比。两序列间 稳定的变异速率,不仅有助于确定物种间系统发生关系,而且能够像利用放射性衰变考察地 质年代那样,准确测定序列分化发展的时间。不同物种间的蛋白质氨基酸序列差异随着分歧 时间的加大而增加,而DNA序列也存在这种规律。 Kimura进一步提出了具体的分子进化 观点:对于各物种的每个蛋白质,如果用每个位点每年发生的氨基酸替换次数作为衡量分子 进化的速率,则该速率是大致恒定的:;功能上次要的分子(或者分子部分)的进化速率比功 能重要的分子(或者分子部分)进化速率快:对现有分子结构或者功能破坏小的氨基酸替换 比破坏力大的氨基酸替换发生得更加频繁 尽管以上的分析给我们带来了很多希望,但是, Zuckerkandl和 Pauling的分子时钟假 说还是有争议的。经典进化学家们认为形态的进化不够稳定,这与分子以稳定的速度变异不 致。关于分化时间也有不同意见,这些意见对这个假说的核心即进化率是稳定的表示质疑 812系统发生树 一般来说,系统发生树是一种二叉树。所谓树,实际上是一个无向非循环图。系统发生 树由一系列节点( nodes)和分支( branches)组成,其中每个节点代表一个分类单元(物 种或序列),而节点之间的连线代表物种之间的进化关系。树的节点又分为外部节点( terminal node)和内部节点( internal node)。在一般情况下,外部节点代表实际观察到的分类单元, 而内部节点又称为分支点,它代表了进化事件发生的位置,或代表分类单元进化历程中的祖 先。分类单元是一种由研究者选定的基本单位,在同一项研究中,分类单元一般应当一致 在下面的讨论中,我们基本上以序列(DNA序列或蛋白质序列)作为分类单元。树节点间 的连线称为分支,其中一端与叶节点相连的为外支,不与叶节点相连的为内支 系统发生树有许多形式:可能是有根树( rooted tree),也可能是无根树( unrooted tree) 可能是一般的树,也可能是二叉树;可能是有权值的树(或标度树, scaled tree,树中标明 分支的长度),也可能是无权值树(或非标度树, unscaled tree)。在一棵有根树中,有一个唯 的根节点,代表所有其它节点的共同祖先,这样的树能够反映进化层次,从根节点历经进 化到任何其它节点只有唯一的路径。系统发生分析中一个重要的差别是,有的能由系统发生
几种动物的血红蛋白、细胞色素 C 的序列后注意到:这些蛋白质的氨基酸取代速率在不同 的种系间大致相同,即分子水平的进化存在恒速现象。分子时钟在不同的蛋白质中运行的速 率是不同的,但是,两个蛋白质同系物的差异始终和它们独立分化的时间成正比。两序列间 稳定的变异速率,不仅有助于确定物种间系统发生关系,而且能够像利用放射性衰变考察地 质年代那样,准确测定序列分化发展的时间。不同物种间的蛋白质氨基酸序列差异随着分歧 时间的加大而增加,而 DNA 序列也存在这种规律。Kimura 进一步提出了具体的分子进化 观点:对于各物种的每个蛋白质,如果用每个位点每年发生的氨基酸替换次数作为衡量分子 进化的速率,则该速率是大致恒定的;功能上次要的分子(或者分子部分)的进化速率比功 能重要的分子(或者分子部分)进化速率快;对现有分子结构或者功能破坏小的氨基酸替换 比破坏力大的氨基酸替换发生得更加频繁。 尽管以上的分析给我们带来了很多希望,但是,Zuckerkandl 和 Pauling 的分子时钟假 说还是有争议的。经典进化学家们认为形态的进化不够稳定,这与分子以稳定的速度变异不 一致。关于分化时间也有不同意见,这些意见对这个假说的核心即进化率是稳定的表示质疑。 8.1.2 系统发生树 一般来说,系统发生树是一种二叉树。所谓树,实际上是一个无向非循环图。系统发生 树由一系列节点(nodes)和分支(branches )组成,其中每个节点代表一个分类单元(物 种或序列),而节点之间的连线代表物种之间的进化关系。树的节点又分为外部节点(terminal node)和内部节点(internal node)。在一般情况下,外部节点代表实际观察到的分类单元, 而内部节点又称为分支点,它代表了进化事件发生的位置,或代表分类单元进化历程中的祖 先。分类单元是一种由研究者选定的基本单位,在同一项研究中,分类单元一般应当一致。 在下面的讨论中,我们基本上以序列(DNA 序列或蛋白质序列)作为分类单元。树节点间 的连线称为分支,其中一端与叶节点相连的为外支,不与叶节点相连的为内支。 系统发生树有许多形式:可能是有根树(rooted tree),也可能是无根树(unrooted tree); 可能是一般的树,也可能是二叉树;可能是有权值的树(或标度树,scaled tree,树中标明 分支的长度),也可能是无权值树(或非标度树,unscaled tree)。在一棵有根树中,有一个唯 一的根节点,代表所有其它节点的共同祖先,这样的树能够反映进化层次,从根节点历经进 化到任何其它节点只有唯一的路径。系统发生分析中一个重要的差别是,有的能由系统发生
树推断出共同祖先和进化方向,而有的却不能。无根树没有层次结构,无根树只说明了节点 之间的关系,没有关于进化发生方向的信息。但是,通过使用外部参考物种(那些明确地最 早从被研究物种中分化出来的物种),可以在无根树中指派根节点。例如,在研究人类和大 猩猩时,可用狒狒作为外部参考物种,树的根节点可以放在连接狒狒与人和大猩猩共同祖先 的分支上。 叉树是一种特殊的树,每个节点最多有两个子节点。在有权值的树中,分支的长度(或 权值)一般与分类单元之间的变化成正比,它是关于生物进化时间或者遗传距离的一种度量 形式。一般假设存在一个分子钟,进化的速率恒定。 系统发生树具有以下性质 (1)如果是一棵有根树,则树根代表在进化历史上是最早的、并且与其它所有分类单元都 有联系的分类单元 (2)如果找不到可以作为树根的单元,则系统发生树是无根树 (3)从根节点出发,到任何一个节点的路径均指明进化时间或者进化距离 图6.1(a)所示的是一棵有根树,而图6.1(b)显示的是一棵无根树,图中的A、B、C、D 为所研究的分类单元 对于给定的分类单元数,有很多棵可能的系统发生树,但是只有一棵树是正确的,分析的目 标就是要寻找这棵正确的树 树根 图6.1系统发生树。(a)有根树;(b)无根树
树推断出共同祖先和进化方向,而有的却不能。无根树没有层次结构,无根树只说明了节点 之间的关系,没有关于进化发生方向的信息。但是,通过使用外部参考物种(那些明确地最 早从被研究物种中分化出来的物种),可以在无根树中指派根节点。例如,在研究人类和大 猩猩时,可用狒狒作为外部参考物种,树的根节点可以放在连接狒狒与人和大猩猩共同祖先 的分支上。 二叉树是一种特殊的树,每个节点最多有两个子节点。在有权值的树中,分支的长度(或 权值)一般与分类单元之间的变化成正比,它是关于生物进化时间或者遗传距离的一种度量 形式。一般假设存在一个分子钟,进化的速率恒定。 系统发生树具有以下性质: (1)如果是一棵有根树,则树根代表在进化历史上是最早的、并且与其它所有分类单元都 有联系的分类单元; (2)如果找不到可以作为树根的单元,则系统发生树是无根树; (3)从根节点出发,到任何一个节点的路径均指明进化时间或者进化距离。 图 6.1(a)所示的是一棵有根树,而图 6.1(b)显示的是一棵无根树,图中的 A、B、C、D 为所研究的分类单元。 对于给定的分类单元数,有很多棵可能的系统发生树,但是只有一棵树是正确的,分析的目 标就是要寻找这棵正确的树