动物学研究2012,Feb.33(1):108-118 CNs3-1040/ Q ISSN0254-5853 Zoological Research DOl:10.3724/SPJ.1141.2012.01108 灵长类比较基因组学的研究进展 廖承红,宿兵2 (1.海南大学农学院,海口570288,2.中国科学院昆明动物研究所遗传资源与进化国家重点实验室,昆明650223) 摘要:随着人类和黑猩猩全基因组测序工作宣布完成,以及其他灵长类基因组测序工作的逐步开展,目前已 经积累了大量的灵长类基因组数据,一个崭新的研究领域——灵长类比较基因组学应运而生。该文主要通过对人 类和其他非人灵长类系统关系和基因组结枃的比较,从系统进化、基因组结构和基因表达调控等方面评述该领域 的研究进展,阐述人类、黑猩猩与其他非人灵长类之间的主要生物学差异,揭示人类进化的生物学机制 关键词:灵长类,比较基因组;进化 中图分类号:Q349,Q959848文献标志码:A文章编号:0254-5853-(2012)01-0108-11 Research proceedings on primate comparative genomics LIAO Cheng-Hong, SU Bing (1. College of Agriculture, Hainan University, Haikou 570288, China, 2. State Key Laboratory of Genetic Resources and Evolution, Kunming Institute of Zoology, the Chinese Academy of Sciences, Kunming 650223, China) Abstract: With the accomplishment of genome sequencing of human, chimpanzee and other primates, there has been a great amount of primate genome information accumulated. Primate comparative genomics has become a new research field at current genome era. In this article, we reviewed recent progress in phylogeny, genome structure and gene expression of human and nonhuman primates, and we elaborated the major biological differences among human, chimpanzee and other non-human primate species, which is informative in revealing the mechanism of human evolution. Key words: Primate; Comparative genomics; Evolution 2001年,人类基因组计划草图序列的完成标志完成 着生命科学新纪元的开始,现在的人类基因组序列 灵长类比较基因组学主要是基于人类和其他 (buld35)近乎完整( International Human Genome灵长类的基因组测序工作已经完成,通过比较基因 Sequencing Consortium,2004),黑猩猩基因组草图组学的方法,探究灵长类与其他灵长类动物不同的 已经初步完成( Chimpanzee Sequencing and Analysis基因组结构,以及人类与它们区别的特征,为研究 Consortium,2005)。进一步的工作正在推进,大猩人类基因的特有结构和功能提供重要线索,解开人 猩、长臂猿等的“低覆盖度”版本基因组图也已完成。类起源和进化的许多奥秘,也是揭示智慧秘密的重 2007年,科学家破译了猕猴的基因组,这是继人类要一步。在基因组时代,从不断增加的测序基因组 和黑猩猩之后,科学家破译出的第3种灵长类动物信息中,人们越来越熟练地解读其生物学意义,因 基因组。截至2009年,已有12种灵长类动物的基而使人类的“亲戚”为人类确定自己的身份提供重要 因组处于测序阶段(图1) Marques- Bonet et al,线索。同时,通过对灵长类基因组测序,了解人类 200帅b)。2011年,科学家初步完成红毛猩猩疾病的遗传学基础,有助于人类疾病动物模型的建 ( Orangutan)的基因组测序,红毛猩猩成为继人类和立 黑猩猩之后第3个基因组成功测序的猿类 Locke et 本文将从系统进化、基因组结构和基因表达调 al,2011)。另外,婴猴和鼠狐猴的基因组草图也基本控等方面,对灵长类比较基因学的研究进展进行综 收稿日期:201201-11:接受日期:2012-0204 基金项目:国家自然科学基金重点项目(31130051),海南省高等学校科学研究项目(Hk20111,海南省自然科学基金(310036) 通信作者( Corresponding author), Tel/Fax.0871-5120212,E-mail: subanal kizacc
收稿日期:2012-01-11;接受日期:2012-02-04 基金项目:国家自然科学基金重点项目(31130051); 海南省高等学校科学研究项目(Hjkj2011-11); 海南省自然科学基金(310036) ∗ 通信作者(Corresponding author),Tel/Fax:0871-5120212, E-mail: sub@mail.kiz.ac.cn 动 物 学 研 究 2012,Feb. 33(1): 108−118 CN 53-1040/Q ISSN 0254-5853 Zoological Research DOI:10.3724/SP.J.1141.2012.01108 灵长类比较基因组学的研究进展 廖承红 1 , 宿 兵 2,* (1. 海南大学 农学院, 海口 570288; 2. 中国科学院昆明动物研究所 遗传资源与进化国家重点实验室, 昆明 650223) 摘要:随着人类和黑猩猩全基因组测序工作宣布完成, 以及其他灵长类基因组测序工作的逐步开展, 目前已 经积累了大量的灵长类基因组数据, 一个崭新的研究领域——灵长类比较基因组学应运而生。该文主要通过对人 类和其他非人灵长类系统关系和基因组结构的比较, 从系统进化、基因组结构和基因表达调控等方面评述该领域 的研究进展, 阐述人类、黑猩猩与其他非人灵长类之间的主要生物学差异, 揭示人类进化的生物学机制。 关键词:灵长类; 比较基因组; 进化 中图分类号:Q349; Q959.848 文献标志码:A 文章编号:0254-5853-(2012)01-0108-11 Research proceedings on primate comparative genomics LIAO Cheng-Hong1 , SU Bing2,* (1. College of Agriculture, Hainan University, Haikou 570288, China; 2. State Key Laboratory of Genetic Resources and Evolution, Kunming Institute of Zoology, the Chinese Academy of Sciences, Kunming 650223, China) Abstract: With the accomplishment of genome sequencing of human, chimpanzee and other primates, there has been a great amount of primate genome information accumulated. Primate comparative genomics has become a new research field at current genome era. In this article, we reviewed recent progress in phylogeny, genome structure and gene expression of human and nonhuman primates, and we elaborated the major biological differences among human, chimpanzee and other non-human primate species, which is informative in revealing the mechanism of human evolution. Key words: Primate; Comparative genomics; Evolution 2001 年, 人类基因组计划草图序列的完成标志 着生命科学新纪元的开始, 现在的人类基因组序列 (build 35)近乎完整(International Human Genome Sequencing Consortium, 2004), 黑猩猩基因组草图 已经初步完成(Chimpanzee Sequencing and Analysis Consortium, 2005)。进一步的工作正在推进, 大猩 猩、长臂猿等的“低覆盖度”版本基因组图也已完成。 2007 年, 科学家破译了猕猴的基因组, 这是继人类 和黑猩猩之后, 科学家破译出的第 3 种灵长类动物 基因组。截至 2009 年, 已有 12 种灵长类动物的基 因组处于测序阶段( 图 1)(Marques-Bonet et al, 2009b) 。 2011 年 , 科学家初步完成红毛猩猩 (Orangutan)的基因组测序, 红毛猩猩成为继人类和 黑猩猩之后第 3 个基因组成功测序的猿类(Locke et al, 2011)。另外, 婴猴和鼠狐猴的基因组草图也基本 完成。 灵长类比较基因组学主要是基于人类和其他 灵长类的基因组测序工作已经完成, 通过比较基因 组学的方法, 探究灵长类与其他灵长类动物不同的 基因组结构, 以及人类与它们区别的特征, 为研究 人类基因的特有结构和功能提供重要线索, 解开人 类起源和进化的许多奥秘, 也是揭示智慧秘密的重 要一步。在基因组时代, 从不断增加的测序基因组 信息中,人们越来越熟练地解读其生物学意义, 因 而使人类的“亲戚”为人类确定自己的身份提供重要 线索。同时, 通过对灵长类基因组测序, 了解人类 疾病的遗传学基础, 有助于人类疾病动物模型的建 立。 本文将从系统进化、基因组结构和基因表达调 控等方面, 对灵长类比较基因学的研究进展进行综
l期 廖承红等:灵长类比较基因组学的研究进展 Human ChimpGorilla Gibbon Macaque Baboon Vervet Squirrel Marmoset Galago MouseMouse Status. APproved 23-25 图1灵长类基因组测序的现状( Marques- Bonet et a,2009b) Fig 1 Primate genome sequencing status(Marques-Bonet et al, 2009b) 分支上的数字表示各物种间的分歧时间(单位:百万年) The numbers on the branches are the divergence times of the species(million years) 述,初步阐述人类、黑猩猩与其它非人灵长类之间 Bonobo 主要的遗传学差异,为揭示人类进化的机制提供 线索 Orangutan Gibbon 1灵长目的系统进化 old world Rhesus ma onkeys 1.1系统进化关系 为了解基因组进化的结构和功能的特点,首先 要掌握各个物种之间的关系,也就是它们的系统发 Galago 育关系。目前,由于灵长类多个物种的基因组数据 已测出,系统基因组学也随之出现。它是利用基因 如4002100 组测序结果来研究亲缘关系较近的物种之间的系 图2灵长类系统进化树(Enad&Pabo,2004 统关系( Eisen& Fraser,2003; Gomase& Tagore, Goodman, 1999) Fig 2 Phylogenetic tree of primates(Enard Paabo, 2004 目前灵长目系统进化关系研究已经比较清楚 图2),仅眼镜猴亚目的系统位置有一定的争议。因由于人类和黑猩猩、大猩猩之间亲缘关系较近,不 为研究发现在眼镜猴亚目、新大陆猴和旧大陆猴的能真实地反映三者之间的系统进化关系,只有利用 相同位点上有3个相同的Au序列,所以推测这33个物种以外的1个物种作为外群( outgroup)来进行 类亚目可能具有共同的祖先( Schmitz,etal,2001)。比较才能解决这个问题。例如,与3个物种系统关 总体上看,猿类是人类的近亲,其他灵长类是 系最近的是红毛猩猩,它的分支发生在更早以前 关系较远的“亲戚”,包括旧大陆猴、新大陆猴、其基因组中没有任何一个区域受到平衡选择等特 眼镜猴和狐猴 殊现象的影响,所以它作为外群可以真实反映人类 在猿类,非洲大猿与人类的关系比小猿和红毛和黑猩猩的系统进化关系。现在,人类、黑猩猩和 猩猩更接近。但是,人类与黑猩猩和大猩猩之间的红毛猩猩的基因组序列已经部分或全部完成,所以 关系哪个更近呢?比较大猿和人类基因组数据时们可以从基因组的角度来解释人类与黑猩猩之 发现,有18%的基因组区域在人类-黑猩猩分支上间的关系。通过对人类、黑猩猩和红毛猩猩3种基 人类和大猿分支却相反Chen&Li,2001)。因组的对比,人们惊奇地发现红毛猩猩的基因组中
1 期 廖承红等:灵长类比较基因组学的研究进展 109 图 1 灵长类基因组测序的现状(Marques-Bonet et al, 2009b) Fig. 1 Primate genome sequencing status(Marques-Bonet et al, 2009b) 分支上的数字表示各物种间的分歧时间(单位:百万年)。 The numbers on the branches are the divergence times of the species (million years). 述, 初步阐述人类、黑猩猩与其它非人灵长类之间 主要的遗传学差异, 为揭示人类进化的机制提供 线索。 1 灵长目的系统进化 1.1 系统进化关系 为了解基因组进化的结构和功能的特点, 首先 要掌握各个物种之间的关系, 也就是它们的系统发 育关系。目前, 由于灵长类多个物种的基因组数据 已测出, 系统基因组学也随之出现。它是利用基因 组测序结果来研究亲缘关系较近的物种之间的系 统关系(Eisen & Fraser, 2003; Gomase & Tagore, 2009)。 目前灵长目系统进化关系研究已经比较清楚 (图 2),仅眼镜猴亚目的系统位置有一定的争议。因 为研究发现在眼镜猴亚目、新大陆猴和旧大陆猴的 相同位点上有 3 个相同的 Alu 序列, 所以推测这 3 类亚目可能具有共同的祖先(Schmitz, et al, 2001)。 总体上看, 猿类是人类的近亲, 其他灵长类是一些 关系较远的“亲戚”, 包括旧大陆猴、新大陆猴、 眼镜猴和狐猴。 在猿类, 非洲大猿与人类的关系比小猿和红毛 猩猩更接近。但是, 人类与黑猩猩和大猩猩之间的 关系哪个更近呢?比较大猿和人类基因组数据时 发现,有 18%的基因组区域在人类−黑猩猩分支上 不一致, 人类和大猿分支却相反(Chen & Li, 2001)。 图 2 灵长类系统进化树(Enard & Pääbo, 2004; Goodman, 1999) Fig. 2 Phylogenetic tree of primates (Enard & Pääbo, 2004; Goodman, 1999) 由于人类和黑猩猩、大猩猩之间亲缘关系较近, 不 能真实地反映三者之间的系统进化关系, 只有利用 3 个物种以外的 1 个物种作为外群(outgroup)来进行 比较才能解决这个问题。例如, 与 3 个物种系统关 系最近的是红毛猩猩, 它的分支发生在更早以前, 其基因组中没有任何一个区域受到平衡选择等特 殊现象的影响, 所以它作为外群可以真实反映人类 和黑猩猩的系统进化关系。现在, 人类、黑猩猩和 红毛猩猩的基因组序列已经部分或全部完成, 所以 人们可以从基因组的角度来解释人类与黑猩猩之 间的关系。通过对人类、黑猩猩和红毛猩猩 3 种基 因组的对比, 人们惊奇地发现红毛猩猩的基因组中
动物学研究 33卷 约1%的序列与人类基因组更接近,而不是黑猩猩 的基因组。这说明人类和黑猩猩的共同祖先经过几 百万年分别进化,在这个过程中,黑猩猩因为某些 ① 原因失去了一部分共同祖先的DNA,而人类则保 留了这些DNA( Hobolth et al,201)l 12分歧时间 人们在分析灵长类准确分歧时间时,由于采用 的手段(化石或DNA数据)、分析的数据来源(线粒 体DNA或核DNA)利用的统计方法以及校正方法 等的不同,都可能会给结果带来不确定性,因而, 使得估计灵长类之间的分歧时间比确定系统进化 图3两条直系同源DNA序列的分歧时间 关系更易产生分歧。例如,利用化石估计的狐猴与Fg3 e divergence time of two orthologous DNA sequences 其他灵长类之间的分歧时间大约是6000万年 的时间(nard&Pabo,2004) Goodman et al, 1998)518000 ]iF(Springer et al, 1)The time of the two sequences diverged from the common ancestral 2003)之间,跨度时间较大。 Glazko&Nei(2003)利 population,) the time after the two species separate(Enard paa 用2种不同的化石作为校正标准以及多种统计方法204 检测,估计出人类和其他灵长类的分歧时间:人类某些存在于尼安德特人的mDNA片段并不存在于 和黑猩猩的分歧时间大约是500~700万年,大猩现代人的mDNA中,尼安德特人对早期现代人的 猩的是600~800万年,红毛猩猩是1200~1500万基因没有显著贡献。但 Green et al(2010将尼安德 年,旧大陆猴是2100~2500万年,新大陆猴的是特人基因组测序结果与现代人基因组进行比较后 3200~3600万年这些数据与过去的一些研究结果发现,现代人与尼安德特人非常可能在小范围内发 基本一致(Chen&Li,200l; Goodman,199)。 生过基因交流,时间可能是现代人走出非洲之后 在利用DNA数据估计关系较近的物种(如人类 和黑猩猩)的分歧时间时,常容易忽略一个问题, 2灵长类基因组的进化及机制 即DNA序列的分歧时间不仅包括物种分开之后的随着越来越多的灵长类DNA序列不断地积累 时间,还包括2条序列从同一祖先群体中分化出来增多,特别是黑猩猩、红毛猩猩和恒河猴基因组的 经历的时间(图3)。如果物种分歧事件发生在较近时测序工作基本完成,使灵长类比较基因组的研究有 间,祖先群体较大,那么DNA序列的分歧时间就大了丰富的数据资源。以下将从染色体进化、片段重 于物种的分歧时间( Enard&Pabo,2004) 复、插入缺失和单核苷酸多态等基因组的结构变化 灭绝的灵长类物种的分子信息也可用于分析蛋白质适应性进化和基因表达调控等方面对灵长 与人类的系统发育关系和分歧时间。尼安德特人就类基因组进行比较,了解人类和非人灵长类之间从 是一个典型的代表。尼安德特人(Homo结构到功能的差异,在演化进程中(如从猿到人)所 neanderthalensis)生活于距今50万年前至距今约3产生的变化及其遵循的规律。 万年前,分布于今天的欧洲、中东,以及亚洲的部21染色体进化 分地区,而且现代人的祖先智人( Homo sapiens)与 灵长类进化过程中,染色体的变化相对保守 尼安德特人在历史上曾经都广泛分布在欧洲且共其中人类和红毛猩猩保持着与祖先更为相近的核 存过,因此,这两大人类集团很可能曾经相遇,并型。相对而言,黑猩猩和大猩猩产生了一些物种特 有机会杂交繁殖,这样,尼安德特人与现代人的关异的染色体重排(Mllr& Wienberg,2001)。人类和 系最近。 Krings et al(1997,200)对尼安德特人和黑猩猩因常染色体重排导致10处不同核型:祖先2 早期现代人的线粒体DNA进行了测序,估计现代条染色体的端粒融合形成人的2号染色体和9处臂 人和尼安德特人的分歧时间为50万年左右,这与间倒位Yuns& Prakash,1982),这些差异都没有导 用考古学和古生物学估计的时间35万年接近。其致功能上的明显变化( Enard&Pabo,2004)。研究发 中有4个尼安德特人的 mtDNA序列被确定,表明现2个姊妹黑猩猩物种——普通黑猩猩和倭黑猩猩
110 动 物 学 研 究 33 卷 约 1%的序列与人类基因组更接近, 而不是黑猩猩 的基因组。这说明人类和黑猩猩的共同祖先经过几 百万年分别进化, 在这个过程中, 黑猩猩因为某些 原因失去了一部分共同祖先的 DNA, 而人类则保 留了这些 DNA(Hobolth et al, 2011)。 1.2 分歧时间 人们在分析灵长类准确分歧时间时, 由于采用 的手段(化石或 DNA 数据)、分析的数据来源(线粒 体 DNA 或核 DNA)、利用的统计方法以及校正方法 等的不同, 都可能会给结果带来不确定性, 因而, 使得估计灵长类之间的分歧时间比确定系统进化 关系更易产生分歧。例如, 利用化石估计的狐猴与 其他灵长类之间的分歧时间大约是 6 000 万年 (Goodman et al, 1998)到 8 000 万年(Springer et al, 2003)之间, 跨度时间较大。Glazko & Nei (2003)利 用 2 种不同的化石作为校正标准以及多种统计方法 检测, 估计出人类和其他灵长类的分歧时间:人类 和黑猩猩的分歧时间大约是 500~700 万年, 大猩 猩的是 600~800 万年, 红毛猩猩是 1200~1500 万 年, 旧大陆猴是 2100~2500 万年, 新大陆猴的是 3200~3600 万年。这些数据与过去的一些研究结果 基本一致(Chen & Li, 2001; Goodman, 1999)。 在利用 DNA 数据估计关系较近的物种(如人类 和黑猩猩)的分歧时间时, 常容易忽略一个问题, 即 DNA 序列的分歧时间不仅包括物种分开之后的 时间, 还包括 2 条序列从同一祖先群体中分化出来 经历的时间(图 3)。如果物种分歧事件发生在较近时 间, 祖先群体较大, 那么DNA序列的分歧时间就大 于物种的分歧时间(Enard & Pääbo, 2004) 。 灭绝的灵长类物种的分子信息也可用于分析 与人类的系统发育关系和分歧时间。尼安德特人就 是一个典型的代表。尼安德特人 ( H o m o neanderthalensis)生活于距今 50 万年前至距今约 3 万年前, 分布于今天的欧洲、中东,以及亚洲的部 分地区, 而且现代人的祖先智人(Homo sapiens)与 尼安德特人在历史上曾经都广泛分布在欧洲且共 存过, 因此,这两大人类集团很可能曾经相遇, 并 有机会杂交繁殖,这样,尼安德特人与现代人的关 系最近。Krings et al (1997,2000)对尼安德特人和 早期现代人的线粒体 DNA 进行了测序, 估计现代 人和尼安德特人的分歧时间为 50 万年左右, 这与 用考古学和古生物学估计的时间 35 万年接近。其 中有 4 个尼安德特人的 mtDNA 序列被确定, 表明 图 3 两条直系同源 DNA 序列的分歧时间 Fig. 3 The divergence time of two orthologous DNA sequences 1) 两条序列从同一祖先群体中分化出来经历的时间; 2) 物种分开之后 的时间 (Enard & Pääbo, 2004)。 1) The time of the two sequences diverged from the common ancestral population; 2) the time after the two species separate (Enard & Pääbo, 2004). 某些存在于尼安德特人的 mtDNA 片段并不存在于 现代人的 mtDNA 中, 尼安德特人对早期现代人的 基因没有显著贡献。但 Green et al (2010)将尼安德 特人基因组测序结果与现代人基因组进行比较后 发现, 现代人与尼安德特人非常可能在小范围内发 生过基因交流, 时间可能是现代人走出非洲之后。 2 灵长类基因组的进化及机制 随着越来越多的灵长类 DNA 序列不断地积累 增多, 特别是黑猩猩、红毛猩猩和恒河猴基因组的 测序工作基本完成, 使灵长类比较基因组的研究有 了丰富的数据资源。以下将从染色体进化、片段重 复、插入缺失和单核苷酸多态等基因组的结构变化, 蛋白质适应性进化和基因表达调控等方面对灵长 类基因组进行比较, 了解人类和非人灵长类之间从 结构到功能的差异, 在演化进程中(如从猿到人)所 产生的变化及其遵循的规律。 2.1 染色体进化 灵长类进化过程中, 染色体的变化相对保守, 其中人类和红毛猩猩保持着与祖先更为相近的核 型。相对而言, 黑猩猩和大猩猩产生了一些物种特 异的染色体重排(Müller & Wienberg, 2001)。人类和 黑猩猩因常染色体重排导致 10 处不同核型:祖先 2 条染色体的端粒融合形成人的 2 号染色体和 9 处臂 间倒位(Yunis & Prakash, 1982), 这些差异都没有导 致功能上的明显变化(Enard & Pääbo, 2004)。研究发 现 2 个姊妹黑猩猩物种——普通黑猩猩和倭黑猩猩
l期 廖承红等:灵长类比较基因组学的研究进展 的近着丝点的倒位情况相同( Locke et al,2003;类的不同染色体之间分布差异很大,其比例在 Zamalek et al,2006)。因此,可以推断这些倒位发生1%~14%之间变化。Y染色体就是一个最极端的例 在2种黑猩猩分开之前,也就是86~200万年前子,其重复片段,占总长度的25%以上。 ( Yoder&Yang,2000,Won&Hey,2005),而且重排 人类基因组的复杂性可能是由于进化过程中 染色体区域蛋白质进化的速度显著快于共线性染片段重复的结果( Stankiewicz et a,2004)。由于重复 色体( colinear chromosomes)上的蛋白质( Callender&片段的相似性都较高,片段长度较长,并且重复片 Lahn,2004a)。“重组抑制模型”认为在早期人类和段是来自于同一个物种的祖先序列,而不是来自不 黑猩猩还有可能杂交繁殖的时候,染色体区域重排同物种,所以在基因组中较难对它们进行正确定位 可能会阻碍人类和黑猩猩之间基因交流( Navarro&( Bailey et al,2001)。而且,如果把这些重复片段从 Barton,2003a)。研究发现人类和黑猩猩在染色体重基因组中忽略,那么人类和黑猩猩之间的差异就会 排区受到较强的正选择作用( Navarro& Barton,更低 iu et al,2003)。重复片段往往也是新基因或 2003b),但是染色体重排对于灵长类的物种形成是新基因家族形成的重要来源,因此,片段重复可能 否有重要作用,还有待进一步的研究。 在物种形成过程中对产生新的表型起到重要作用。 22片段重复 在对3种灵长类(猕猴、红毛猩猩、黑猩猩)和人类 根据所测基因组数据发现,在灵长类基因组中基因组比较中发现片段重复引起的突变明显区别 存在大量的长片段的结构变化,主要是由于片段重于其他遗传学上的突变( Marques-Bonet et al,200%) 复等原因造成的。在人类基因组中存在很多重复片并且这些重复在人类进化过程中起到重要的作用 段( Li et al,2001),比较现有的全基因组数据,人类类基因组的高重复片段比率及与黑猩猩的较大 基因组中片段重复数最高,其覆盖率(约53%)高于差异,表明人类的遗传物质经历了快速的功能变革 大鼠的基因组(约为3%和小鼠的基因组(约为和结构改变,最终导致人类具有一些独特的特征 49% Bailey et al,2004; Cheung et al,2003; She et al,2.3插入和缺失 2008)。这些重复序列位于相对较大的区域内(1 多年来,在比较研究人类和黑猩猩等非人灵长 200kb)的所谓的片段复制区,至少每个单倍体基因类基因组的过程中,人们发现这些基因组之间的差 组有两个拷贝,且拷贝之间相似度高达90% 异不仅仅局限于染色体重排的变化上,还包括了许 100%( Samonte eichler, 2002) 多微细结构上的变化(Brtn2002; Britten et al, 比较人类和大猿基因组,发现人类和非洲大猿2003; Frazer et a,2003, Kuroki et al,2006; Liu et al, 基因组中存在许多散在的重复序列,说明这些重复2003)。这些变化包括了基因组内的插入和缺失,存 序列已经发生在其共同祖先的基因组中在约3%,即9000万个碱基插入或缺失的差异,它 ( Marques-Bonet et al,2009a),并且发生在染色体内们在人类和黑猩猩分开以后很大程度上改变了两 的片段重复数大于发生在染色体间的重复数( Zhang者基因组的大小。不同的机制都可能导致插入或缺 etal,2005),染色体内的大量片段重复发生在较近失的出现,如DNA复制、重组等。在人和黑猩猩 的1000万年前类人猿祖先的基因组中。相反,染色DNA序列中,由于DNA复制引起的插缺在每1000 体间的片段重复发生的时间更早,大约在2500万个碱基内就能找到一个( Ebersberger et al,2002) 年前,即旧大陆猴和类人猿分开的时候( She et al, 插缺在很大程度上影响人类和黑猩猩基因组 2006)。在人类与黑猩猩分歧之后,大约每百万年有大小的变化。基于人类21号染色体测序结果, Frazer 4~5Mb的片段重复发生,33%的重复片段是人类etal(2003)用寡核苷酸芯片技术对人和黑猩猩等灵 特有的( Cheng et al,2005)。重复片段往往群集于每长类的21号染色体进行比较,结果发现人类和黑 条染色体的中部(着丝粒)或亚末端(端粒)附近猩猩的基因共有57处不同排列。从这个结果可以 ( Bailey et al,2002; Zhang et al,2005)。与整个基因组推断出,在整个基因组的近30亿个基因当中,两者 相比,重复片段明显趋向于聚集在这些区域( She et存在大约57000处不同排列,并且在黑猩猩、红毛 al,2004),并且由于人的亚端粒区基因密度相对较猩猩、恒河猴和新大陆猴有约9%的缺失。比较人 高( Flint et al,1997),因此,该区域广泛存在多态性的21号染色体和黑猩猩对应的22号染色体,330万 ( Daniels et al,2001; Trask et al,1998)。重复片段在人对碱基对中就有约68000个插缺( Watanabe et al
1 期 廖承红等:灵长类比较基因组学的研究进展 111 的近着丝点的倒位情况相同(Locke et al, 2003; Szamalek et al, 2006)。因此, 可以推断这些倒位发生 在 2 种黑猩猩分开之前, 也就是 86~200 万年前 (Yoder & Yang, 2000; Won & Hey, 2005), 而且重排 染色体区域蛋白质进化的速度显著快于共线性染 色体(colinear chromosomes)上的蛋白质(Vallender & Lahn, 2004a)。 “重组抑制模型”认为在早期人类和 黑猩猩还有可能杂交繁殖的时候, 染色体区域重排 可能会阻碍人类和黑猩猩之间基因交流(Navarro & Barton, 2003a)。研究发现人类和黑猩猩在染色体重 排区受到较强的正选择作用(Navarro & Barton, 2003b),但是染色体重排对于灵长类的物种形成是 否有重要作用, 还有待进一步的研究。 2.2 片段重复 根据所测基因组数据发现, 在灵长类基因组中 存在大量的长片段的结构变化, 主要是由于片段重 复等原因造成的。在人类基因组中存在很多重复片 段(Li et al, 2001), 比较现有的全基因组数据, 人类 基因组中片段重复数最高, 其覆盖率(约 5.3%)高于 大鼠的基因组(约为 3%)和小鼠的基因组(约为 4.9%)(Bailey et al, 2004; Cheung et al, 2003; She et al, 2008)。这些重复序列位于相对较大的区域内(1~ 200 kb)的所谓的片段复制区, 至少每个单倍体基因 组有两个拷贝, 且拷贝之间相似度高达 90%~ 100% (Samonte & Eichler, 2002)。 比较人类和大猿基因组, 发现人类和非洲大猿 基因组中存在许多散在的重复序列, 说明这些重复 序列已经发生在其共同祖先的基因组中 (Marques-Bonet et al, 2009a), 并且发生在染色体内 的片段重复数大于发生在染色体间的重复数(Zhang et al, 2005), 染色体内的大量片段重复发生在较近 的 1000 万年前类人猿祖先的基因组中。相反, 染色 体间的片段重复发生的时间更早, 大约在 2 500 万 年前, 即旧大陆猴和类人猿分开的时候(She et al, 2006)。在人类与黑猩猩分歧之后, 大约每百万年有 4~5 Mb 的片段重复发生, 33%的重复片段是人类 特有的(Cheng et al, 2005)。重复片段往往群集于每 条染色体的中部(着丝粒)或亚末端(端粒)附近 (Bailey et al, 2002; Zhang et al, 2005)。与整个基因组 相比, 重复片段明显趋向于聚集在这些区域(She et al, 2004), 并且由于人的亚端粒区基因密度相对较 高(Flint et al, 1997), 因此,该区域广泛存在多态性 (Daniels et al, 2001; Trask et al, 1998)。重复片段在人 类的不同染色体之间分布差异很大, 其比例在 1%~14%之间变化。Y 染色体就是一个最极端的例 子, 其重复片段,占总长度的 25%以上。 人类基因组的复杂性可能是由于进化过程中 片段重复的结果(Stankiewicz et al, 2004)。由于重复 片段的相似性都较高, 片段长度较长, 并且重复片 段是来自于同一个物种的祖先序列, 而不是来自不 同物种, 所以在基因组中较难对它们进行正确定位 (Bailey et al, 2001)。而且, 如果把这些重复片段从 基因组中忽略, 那么人类和黑猩猩之间的差异就会 更低(Liu et al, 2003)。重复片段往往也是新基因或 新基因家族形成的重要来源, 因此,片段重复可能 在物种形成过程中对产生新的表型起到重要作用。 在对 3 种灵长类(猕猴、红毛猩猩、黑猩猩)和人类 基因组比较中发现片段重复引起的突变明显区别 于其他遗传学上的突变(Marques-Bonet et al, 2009a), 并且这些重复在人类进化过程中起到重要的作用。 人类基因组的高重复片段比率及与黑猩猩的较大 差异, 表明人类的遗传物质经历了快速的功能变革 和结构改变, 最终导致人类具有一些独特的特征。 2.3 插入和缺失 多年来,在比较研究人类和黑猩猩等非人灵长 类基因组的过程中, 人们发现这些基因组之间的差 异不仅仅局限于染色体重排的变化上, 还包括了许 多微细结构上的变化(Britten 2002; Britten et al, 2003; Frazer et al, 2003; Kuroki et al, 2006; Liu et al, 2003)。这些变化包括了基因组内的插入和缺失, 存 在约 3%,即 9 000 万个碱基插入或缺失的差异, 它 们在人类和黑猩猩分开以后很大程度上改变了两 者基因组的大小。不同的机制都可能导致插入或缺 失的出现,如 DNA 复制、重组等。在人和黑猩猩 DNA 序列中,由于 DNA 复制引起的插缺在每 1000 个碱基内就能找到一个(Ebersberger et al, 2002)。 插缺在很大程度上影响人类和黑猩猩基因组 大小的变化。基于人类 21 号染色体测序结果, Frazer et al (2003)用寡核苷酸芯片技术对人和黑猩猩等灵 长类的 21 号染色体进行比较, 结果发现人类和黑 猩猩的基因共有 57 处不同排列。从这个结果可以 推断出, 在整个基因组的近 30 亿个基因当中, 两者 存在大约 57 000 处不同排列, 并且在黑猩猩、红毛 猩猩、恒河猴和新大陆猴有约 9%的缺失。比较人 的 21 号染色体和黑猩猩对应的 22 号染色体, 330 万 对碱基对中就有约 68 000 个插缺 (Watanabe et al
动物学研究 33卷 2004)。这些插缺导致人第21号染色体要比黑猩猩猩猩对应染色体22号,结果显示两者之间的差异 第22号染色体长400kb,其中5%插缺可能引起蛋(144%)大于基因组平均差异度(1.23%) Watanabe et 白序列改变或产生提前终止编码( Wetterbom et al,al,2004)。其他染色体中,Y染色体的核苷酸变化 2006)。这些研究说明了插缺在灵长类进化过程中的(1.78%)最大,明显高于基因组整体差异性,而Ⅹ染 重要作用,为解释人类和黑猩猩表型差异提供了信色体的变化则最小(0.94%( Hughes et al,2005; 息 Kuroki et al,2006)。这可能是由于雄性生殖细胞突 2.4单核苷酸的替换 变率较快造成的( Li et al,2002; Makova&Li,202; 人类和黑猩猩基因组进行排序比较,结果显示 Taylor et al,2006)。另外,人类和黑猩猩的常染色体 黑猩猩和人类基因组差异性仅相差123%,比过去的替换率也明显不同( bersberger et al,2002; 人们估计的还要低( Chimpanzee Sequencing and Watanabe et al,2004),其原因还不太明确。 Analysis Consortium,2005)。整体上来看,人类和黑 另外,在考虑整个基因组核苷酸替换率时,CpG 猩猩是2个极其相近的物种,两者之间的差异只相(CG两联核苷酸常称作CpG以表明连接两个核苷 当于任意2个不同人之间基因组差异的10倍。它酸的磷酸二脂键)占DNA序列中的比例也是个重要 们核苷酸的变化程度受物种内多态性的很强影响,因素( Enard&Pabo,2004)。因为CpG二联核苷酸 如果不考虑物种内核苷酸多态性的话,那么人类和与一种重要的化学修饰一一甲基化密切相关,甲基 黑猩猩的DNA序列差异性更低(~1%)( Chimpanzee化后的胞嘧啶特别容易发生突变(特别是突变成 Sequencing and Analysis Consortium, 2005) TpG和CpA)。因此,在估计突变率时,需要考虑 比较黑猩猩和人类X染色体上10kb区域,黑CpG位点的变化( Hellmann et a,2003) 猩猩种内DNA序列的差异是人类的3倍25蛋白质编码基因的适应性进化 ( Kaessmann et al,2001)。如果把人类、倭黑猩猩和 人类与黑猩猩的蛋白质,平均只差2个氨基酸 黑猩猩(非洲东部、西部和中部)更大区域的DNA进约有1/3的蛋白质完全相同( Chimpanzee sequencing 行比较,发现黑猩猩序列的种内差异是人类的15 and Analysis Consortium,2005)。对于编码蛋白的基 倍之多( Yu et al,2003)。在中性位点上(即该位点发因,非同义替换率( nonsynonymous substitution rate, 生改变并不影响生物体的适合度),可以利用观察Ka)与同义替换率( synonymous substitution rate,Ks) 到的物种间替换率来估计突变率。大猿的每年突变的比率(Ka/Ks)被广泛地用来检测基因在进化过程 率在进化过程中比较稳定,旧大陆猴的突变率比大中受到怎样的选择作用 Miyata& Yasunaga,1980 猿的高30%,狐猴的突变率是大猿的2倍( Liu et al,L,1993)。在这里,同义替换被假定为是不改变生 2003),小鼠的突变率是大猿的5倍( Waterston et al,物的适合度的,属于中性替换。如果KaKs<1,说 2002)。“世代假说” (generation time hypothesis)似乎明该基因在进化过程中受到纯化选择( purifying 能部分解释其差异性,虽然现在大家对该假说还持 selection的作用,即蛋白质功能受到限制;若 争议。根据世代假说( Li et al,1996),大多数的生殖a/Ks=1,则该基因被认为经历了一个中性的进化 细胞产生的突变来自DNA的错误复制。世代时间历程;而如果Ka/Ks>1,即某些氨基酸替换具有选 越长,每次参与复制的生殖细胞数量就越少,那么择上的优势,其固定的概率和速度要大于同义替换, 积累固定下来的替换突变就越少。因此,世代时间说明该基因在进化过程中受到了正选择( positive 长的物种,分子进化速率(即进化钟运转速度)就比 selection)作用。人和黑猩猩之间约70%的氨基酸替 世代时间短的物种慢。在所有灵长类动物中,人类代都是轻微有害的( Hellmann et al,2003)。然而,也 的“进化钟”运转最慢( Elango et al,2006),也就是说存在一部分替代是有利的。但是,仅用KaKs的值 人类基因组内单核苷酸变异更少,基因组更稳定;来决定整个编码区是否受到正选择,往往灵敏度不 黑猩猩“进化钟”的运转仅比人类稍快一些,但明显够( Ellegren,2005; Kitano et al,2004; Nielsen et al 比大猩猩和猩猩慢,从而进一步证明人类和黑猩猩2005),如有些KaKs<l的基因实际上在进化中受到 的关系最近( Elango et a,2006) 强烈的正选择( Dorus et al,2006):蛋白质重要功能 人类和黑猩猩的单核苷酸替换率在基因组不域的某个氨基酸改变,也许不会很快表现出来 的范围又各不相同。比较人类21号染色体和黑( Andres et a,2004),但蛋白质其他区域受到负选择
112 动 物 学 研 究 33 卷 2004)。这些插缺导致人第 21 号染色体要比黑猩猩 第 22 号染色体长 400 kb, 其中 5%插缺可能引起蛋 白序列改变或产生提前终止编码(Wetterbom et al, 2006)。这些研究说明了插缺在灵长类进化过程中的 重要作用, 为解释人类和黑猩猩表型差异提供了信 息。 2.4 单核苷酸的替换 人类和黑猩猩基因组进行排序比较, 结果显示 黑猩猩和人类基因组差异性仅相差 1.23%, 比过去 人们估计的还要低 (Chimpanzee Sequencing and Analysis Consortium, 2005)。整体上来看, 人类和黑 猩猩是 2 个极其相近的物种, 两者之间的差异只相 当于任意 2 个不同人之间基因组差异的 10 倍。它 们核苷酸的变化程度受物种内多态性的很强影响, 如果不考虑物种内核苷酸多态性的话, 那么人类和 黑猩猩的 DNA 序列差异性更低(~1%) ( Chimpanzee Sequencing and Analysis Consortium, 2005)。 比较黑猩猩和人类 X 染色体上 10 kb 区域, 黑 猩猩种内 DNA 序列的差异是人类的 3 倍 (Kaessmann et al, 2001)。如果把人类、倭黑猩猩和 黑猩猩(非洲东部、西部和中部)更大区域的 DNA 进 行比较, 发现黑猩猩序列的种内差异是人类的 1.5 倍之多(Yu et al, 2003)。在中性位点上(即该位点发 生改变并不影响生物体的适合度), 可以利用观察 到的物种间替换率来估计突变率。大猿的每年突变 率在进化过程中比较稳定, 旧大陆猴的突变率比大 猿的高 30%, 狐猴的突变率是大猿的 2 倍(Liu et al, 2003), 小鼠的突变率是大猿的 5 倍(Waterston et al, 2002)。“世代假说”(generation time hypothesis)似乎 能部分解释其差异性, 虽然现在大家对该假说还持 争议。根据世代假说(Li et al, 1996), 大多数的生殖 细胞产生的突变来自 DNA 的错误复制。世代时间 越长, 每次参与复制的生殖细胞数量就越少, 那么 积累固定下来的替换突变就越少。因此,世代时间 长的物种, 分子进化速率(即进化钟运转速度)就比 世代时间短的物种慢。在所有灵长类动物中, 人类 的“进化钟”运转最慢(Elango et al, 2006), 也就是说 人类基因组内单核苷酸变异更少, 基因组更稳定; 黑猩猩“进化钟”的运转仅比人类稍快一些, 但明显 比大猩猩和猩猩慢, 从而进一步证明人类和黑猩猩 的关系最近(Elango et al, 2006)。 人类和黑猩猩的单核苷酸替换率在基因组不 同的范围又各不相同。比较人类 21 号染色体和黑 猩猩对应染色体 22 号, 结果显示两者之间的差异 (1.44%)大于基因组平均差异度(1.23%)(Watanabe et al, 2004)。其他染色体中, Y 染色体的核苷酸变化 (1.78%)最大, 明显高于基因组整体差异性, 而 X 染 色体的变化则最小(0.94%)(Hughes et al, 2005; Kuroki et al, 2006)。这可能是由于雄性生殖细胞突 变率较快造成的 (Li et al, 2002; Makova & Li, 2002; Taylor et al, 2006)。另外, 人类和黑猩猩的常染色体 的替换率也明显不同 (Ebersberger et al, 2002; Watanabe et al, 2004),其原因还不太明确。 另外,在考虑整个基因组核苷酸替换率时, CpG (CG 两联核苷酸常称作 CpG, 以表明连接两个核苷 酸的磷酸二脂键)占 DNA 序列中的比例也是个重要 因素 (Enard & Pääbo, 2004)。因为 CpG 二联核苷酸 与一种重要的化学修饰——甲基化密切相关, 甲基 化后的胞嘧啶特别容易发生突变(特别是突变成 TpG 和 CpA)。因此,在估计突变率时, 需要考虑 CpG 位点的变化 (Hellmann et al, 2003)。 2.5 蛋白质编码基因的适应性进化 人类与黑猩猩的蛋白质, 平均只差 2 个氨基酸, 约有 1/3 的蛋白质完全相同(Chimpanzee Sequencing and Analysis Consortium, 2005)。对于编码蛋白的基 因, 非同义替换率 (nonsynonymous substitution rate, Ka)与同义替换率 (synonymous substitution rate, Ks) 的比率(Ka/Ks)被广泛地用来检测基因在进化过程 中受到怎样的选择作用(Miyata & Yasunaga, 1980; Li, 1993)。在这里, 同义替换被假定为是不改变生 物的适合度的, 属于中性替换。如果 Ka/Ks <1, 说 明该基因在进化过程中受到纯化选择(purifying selection)的作用, 即蛋白质功能受到限制; 若 Ka/Ks = 1, 则该基因被认为经历了一个中性的进化 历程; 而如果 Ka/Ks > 1, 即某些氨基酸替换具有选 择上的优势, 其固定的概率和速度要大于同义替换, 说明该基因在进化过程中受到了正选择(positive selection)作用。人和黑猩猩之间约 70%的氨基酸替 代都是轻微有害的 (Hellmann et al, 2003)。然而, 也 存在一部分替代是有利的。但是, 仅用 Ka/Ks 的值 来决定整个编码区是否受到正选择, 往往灵敏度不 够 (Ellegren, 2005; Kitano et al, 2004; Nielsen et al, 2005), 如有些Ka/Ks<1的基因实际上在进化中受到 强烈的正选择(Dorus et al, 2006):蛋白质重要功能 域的某个氨基酸改变, 也许不会很快表现出来 (Andrés et al, 2004), 但蛋白质其他区域受到负选择