第六章生物信息学和进化的研究方法 2007 W.H.Freeman and Company GLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGIL- GLSDGEWOLVLNVWGKVEADIPGHGOEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGIL- KKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLHSKHPGDFGADAQGAMNKALELFRKDMASNYKELGFQG KKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASNYKELGFQG Chapter 6 Opener part 2 Biochemistry.Sixth Edition 2007 W.H.Freeman and Company 蛋白质序列清楚地反映出生物的进化关系。Jane Goodall和一只黑猩猩互动提示人类与黑猩 猩亲缘关系近。血红蛋白的氨基酸序列也证明人类与黑猩猩的亲缘关系。在血红蛋白153 个氨基酸残基中,人血红蛋白(红色)与黑猩猩血红蛋白(蓝色)只有一个氨基酸残基不同。 [左边,Kennan Ward/Corbis.] 如同人类家族的成员一样,分子家族的成员有一些共同的特征。比较蛋白质的三维结构 (即与蛋白功能关系最密切的参数),我们很容易鉴定蛋白家族成员。我们在蛋白质折叠章 节介绍过的牛核酸酶,其三维结构与人核酸酶的三维结构颇为类似(图6.1)。虽然这种类似 性在意料之中(因为这两个蛋白质的功能是一样的),但是有些情况下这种比较却获得了我们 意料之外的结果。例如血管生成素(angiogenin)是能够刺激血管生成的蛋白质。但是血管生 成素的三维结构与核酸酶三维结构非常相似,说明血管生成素和核酸酶属于同一蛋白家族 (图62)。因此它们肯定来自同一祖先分子
第六章 生物信息学和进化的研究方法 蛋白质序列清楚地反映出生物的进化关系。Jane Goodall 和一只黑猩猩互动提示人类与黑猩 猩亲缘关系近。血红蛋白的氨基酸序列也证明人类与黑猩猩的亲缘关系。在血红蛋白 153 个氨基酸残基中,人血红蛋白(红色)与黑猩猩血红蛋白(蓝色)只有一个氨基酸残基不同。 [左边, Kennan Ward/Corbis.] 如同人类家族的成员一样,分子家族的成员有一些共同的特征。比较蛋白质的三维结构 (即与蛋白功能关系最密切的参数),我们很容易鉴定蛋白家族成员。我们在蛋白质折叠章 节介绍过的牛核酸酶,其三维结构与人核酸酶的三维结构颇为类似(图 6.1)。虽然这种类似 性在意料之中(因为这两个蛋白质的功能是一样的),但是有些情况下这种比较却获得了我们 意料之外的结果。例如血管生成素(angiogenin)是能够刺激血管生成的蛋白质。但是血管生 成素的三维结构与核酸酶三维结构非常相似,说明血管生成素和核酸酶属于同一蛋白家族 (图 6.2)。因此它们肯定来自同一祖先分子
Bovine ribonuclease Human ribonuclease adoen 图6.1牛和人核酸酶结构。功能类似性的蛋白质常常具有结构类似性。Drawn from8 RAT.pdb. and 2RNF.pdb] Angiogenin 的n 图62血管生成素的结构。该蛋白质能促进血管生长,具有与核酸酶非常相似的三维结构。 遗憾的是,知道三维结构的蛋白质数量有限。我们知道很多蛋白质的编码基因序列或氨 基酸序列(得盏于DNA克隆和DNA序列测定)。在蛋白质氨基酸序列水平就能观测到蛋白 质的进化关系。例如牛核糖核酸酶和血管生成素的氨基酸序列有35%的氨基酸残基是一致 的。那么这种相似性水平是否足以保证蛋白质的进化关系?如果不够,需要多高的相似性才 能说明蛋白质有进化关系?本章介绍氨基酸序列比较的方法和推测蛋白质进化关联的方法。 序列比较已经成为现代生物化学研究的最有力工具之一。最新鉴定的新序列与数据库比 较,确定与该序列相关的分子。利用这些信息,能够研究具有这种新近测序分子功能和机制。 如果三维结构也清楚,我们能比较三维结构、证实序列比较的结论,还能揭示那些序列比较 没有发现的成员。 考察现有蛋白序列的脚印,生化学家成了分子考古学家,能了解分子进化史所发生的事 件。序列比较能够确定进化途径、估计特定进化事件发生的时间。利用这些信息能够构建特 定蛋白质或核酸从古生菌和细菌到真核生物(包括人类)的进化树。也可以用实验方法研究 分子进化。有些化石的DNA分子也可以进行PCR扩增和测序,直接观察古代的分子序列。 此外科研人员也可以进行一些核酸复制实验观察实验室的分子进化。这些研究的结果能揭示 更多的分子进化机制
图 6.1 牛和人核酸酶结构。功能类似性的蛋白质常常具有结构类似性。[Drawn from 8RAT.pdb. and 2RNF.pdb] 图 6.2 血管生成素的结构。该蛋白质能促进血管生长,具有与核酸酶非常相似的三维结构。 遗憾的是,知道三维结构的蛋白质数量有限。我们知道很多蛋白质的编码基因序列或氨 基酸序列(得益于 DNA 克隆和 DNA 序列测定)。在蛋白质氨基酸序列水平就能观测到蛋白 质的进化关系。例如牛核糖核酸酶和血管生成素的氨基酸序列有 35%的氨基酸残基是一致 的。那么这种相似性水平是否足以保证蛋白质的进化关系?如果不够,需要多高的相似性才 能说明蛋白质有进化关系?本章介绍氨基酸序列比较的方法和推测蛋白质进化关联的方法。 序列比较已经成为现代生物化学研究的最有力工具之一。最新鉴定的新序列与数据库比 较,确定与该序列相关的分子。利用这些信息,能够研究具有这种新近测序分子功能和机制。 如果三维结构也清楚,我们能比较三维结构、证实序列比较的结论,还能揭示那些序列比较 没有发现的成员。 考察现有蛋白序列的脚印,生化学家成了分子考古学家,能了解分子进化史所发生的事 件。序列比较能够确定进化途径、估计特定进化事件发生的时间。利用这些信息能够构建特 定蛋白质或核酸从古生菌和细菌到真核生物(包括人类)的进化树。也可以用实验方法研究 分子进化。有些化石的 DNA 分子也可以进行 PCR 扩增和测序,直接观察古代的分子序列。 此外科研人员也可以进行一些核酸复制实验观察实验室的分子进化。这些研究的结果能揭示 更多的分子进化机制
6.1同源物来自同一祖先 生物化学进化的研究主要是确定蛋白质、其它生物分子、以及生物化学途径如何随着时 间发生的变化。来自同一祖先的两个物体就是同源关系。同源(homologus)分子或同源物 (homologs)可以分为两类(图6.3)。侧向同源物(paralogs)指同种生物的同源物。直向同源 物(orthologs)指不同物种间具有非常相似甚至一致功能的同源物。了解分子间的同源性能够 揭示分子的进化历史和它们的生物功能。如果新近测序的蛋白质与功能已知蛋白具有同源 性,那么这个新近测序的蛋白质也可能具有这样的生物功能。 如何确定人类两种蛋白质具有侧向同源?如何确定人类蛋白和酵母蛋白具有直向同 源?我们在62节要介绍这方面的内容。核酸序列或氨基酸序列之间有显著的类似性常常表 明这些物质之间有同源性。当然,三维结构比较更能揭示生物分子的同源性。 Bovine ribonudlease (digestive enzyme) Orthologs HUMAN BEING Paralogs Human ribonuclease Angiogenin (digestive enzyme) (stimulates blood-vessel growth) 图63两类同源蛋白。不同生物体内执行类似甚至相同功能蛋白质属于垂直同源物 (ortholog)。而同一物种内执行不同功能的相似蛋白叫侧向同源蛋白(paralog)。 6.2序列比对的统计分析检测同源性(omol0gy) 两个分子之间有显著的序列类似性提示这两个分子可能有共同的进化祖先,因此有同样 的三维结构、生物功能和作用机制。虽然核酸序列和蛋白质序列都可用来进行序列比对,但 是蛋白质氨基酸序列比对更好。最显著的原因是构建蛋白质的单体有20种,而构建核酸的 单体只有4种。 为了解释蛋白质比较的方法,我们先考察球蛋白。肌红蛋白是肌肉组织的氧结合蛋白, 而血红蛋白是血液的载氧蛋白(第7章)。这两种蛋白质都有血红素辅基(一种有铁的有机 分子,能结合氧)。人血红蛋白有4个多肽链,每个多肽链结合一个血红素辅基。这四个多 肽链分别是两个完全一样的-链和两个完全一致的B-链。此处我们仅考察-链。研究人血 红蛋白-链的氨基酸序列与人肌红蛋白氨基酸序列之间的类似性(图6.4)。为了确定这两 个序列之间的类似性,建立了序列比对方法
6.1 同源物来自同一祖先 生物化学进化的研究主要是确定蛋白质、其它生物分子、以及生物化学途径如何随着时 间发生的变化。来自同一祖先的两个物体就是同源关系。同源(homologus)分子或同源物 (homologs)可以分为两类(图 6.3)。侧向同源物(paralogs)指同种生物的同源物。直向同源 物(orthologs)指不同物种间具有非常相似甚至一致功能的同源物。了解分子间的同源性能够 揭示分子的进化历史和它们的生物功能。如果新近测序的蛋白质与功能已知蛋白具有同源 性,那么这个新近测序的蛋白质也可能具有这样的生物功能。 如何确定人类两种蛋白质具有侧向同源?如何确定人类蛋白和酵母蛋白具有直向同 源?我们在 6.2 节要介绍这方面的内容。核酸序列或氨基酸序列之间有显著的类似性常常表 明这些物质之间有同源性。当然,三维结构比较更能揭示生物分子的同源性。 图 6.3 两类同源蛋白。不同生物体内执行类似甚至相同功能蛋白质属于垂直同源物 (ortholog)。而同一物种内执行不同功能的相似蛋白叫侧向同源蛋白(paralog)。 6.2 序列比对的统计分析检测同源性(homology) 两个分子之间有显著的序列类似性提示这两个分子可能有共同的进化祖先,因此有同样 的三维结构、生物功能和作用机制。虽然核酸序列和蛋白质序列都可用来进行序列比对,但 是蛋白质氨基酸序列比对更好。最显著的原因是构建蛋白质的单体有 20 种,而构建核酸的 单体只有 4 种。 为了解释蛋白质比较的方法,我们先考察球蛋白。肌红蛋白是肌肉组织的氧结合蛋白, 而血红蛋白是血液的载氧蛋白(第 7 章)。这两种蛋白质都有血红素辅基(一种有铁的有机 分子,能结合氧)。人血红蛋白有 4 个多肽链,每个多肽链结合一个血红素辅基。这四个多 肽链分别是两个完全一样的链和两个完全一致的链。此处我们仅考察链。研究人血 红蛋白链的氨基酸序列与人肌红蛋白氨基酸序列之间的类似性(图 6.4)。为了确定这两 个序列之间的类似性,建立了序列比对方法
Human hemoglobin (a chain) VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHG SAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLS HCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR Human myoglobin GLSDGEWQLVLNVWGKVEADI PGHGQEVL IRLFKGHPETLEKFDKFKHLKS EDEMKASEDLKKHGATVLTALGGI LKKKGHHEAE I KPLAQSHATKHKI PVK YLEFISECI IQVLQSKHPGDFGADAQGAMNKALELFRKDMASNYKELGFQG Figure 困6.4人血红蛋白-链和人肌球蛋白进行序列比对。0-链血红蛋白有141个氨基酸,肌红 蛋白有153个氨基酸。 如何比对两个序列?最简单的方法是将一个蛋白质的氨基酸序列与另一个蛋白质的氨 基酸序列进行所有可能的比对,记录各种比对所获得的一致残基的数目。这种比对不难,只 需每次将一个序列沿着另一个序列滑行一位,计算匹配氨基酸残基的数量(图6.5)。 (A) Hemoglobin Hemoglobin T Myoglobin Myoglobin (B) GLSEGEWQLVLNWGKVEADI PGHGQEVL I RLFKGHPETL YFPHFDLSHGSAQVGHGKKVADALTNAVAHVDDMPNALSA FPTTKTYFPHFDLSHGSAOVGHGKKMADALTNAVAHVDDM LSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHA EAEIKPLAQSHATKHKIPVKYLEFISECI IQVLQSKHPGDF SLDKFL可SVSTVLTSKYR T PAVHASLDRFLASVSTVLTSKYR 22 matches 23 matches 15 10 Alignment Figure 6-5 Biochemistry,Sixth Edition 2007 W.H.Freeman and Company 图6.5人血红蛋白α-链和人肌球蛋白进行序列比对。(A)一条序列沿另一条序列滑行,进 行序列比对(每次滑行一个氨基酸位点),统计两条多肽链中氨基酸一致的位点数量。(B)匹 配数量最多的比对模式(上),将一致氨基酸位点数量(纵轴)与滑行位点(横轴)作图(下)
图 6.4 人血红蛋白链和人肌球蛋白进行序列比对。链血红蛋白有 141 个氨基酸,肌红 蛋白有 153 个氨基酸。 如何比对两个序列?最简单的方法是将一个蛋白质的氨基酸序列与另一个蛋白质的氨 基酸序列进行所有可能的比对,记录各种比对所获得的一致残基的数目。这种比对不难,只 需每次将一个序列沿着另一个序列滑行一位,计算匹配氨基酸残基的数量(图 6.5)。 图 6.5 人血红蛋白链和人肌球蛋白进行序列比对。(A)一条序列沿另一条序列滑行,进 行序列比对(每次滑行一个氨基酸位点),统计两条多肽链中氨基酸一致的位点数量。(B) 匹 配数量最多的比对模式(上),将一致氨基酸位点数量(纵轴)与滑行位点(横轴)作图(下)
-链和肌红蛋白最佳比对只有23个位点是一致的,分散在多肽链中央区域。但是,相 近的比对有22个一致位点,而且这些位,点集中于蛋白质的N-端。如果在比对过程中引入缺 口,就能将上述两种比对的大多数一致位点都囊括进来(图66)。在比对过程中需要添加这 种缺口以补偿基因进化过程中出现的插入或缺失。 Hemoglobin VLSPADK TNVKAAWGKVGAHAGE YGAEALERMFL S FPTTKTYFP HF- Gap Myoglobin L SHGSAQVKGHGKKVADALTNAVAHVDDMPNA L SALSDLHAHKL RVDPVNKK L EMKASEDLKKHGATVLTALGGI LKKKGHHEAE I KPLAQSHATKHK I PVKYLE F HOLLVTLAAHDPADEARRASLDKFLASVSTVLTSK GADAQGAMN LFRKDMA$NU冰ELGFQG 2007 W.H.Freeman and Company 图6.6添加缺口的比对。人血红蛋白0-链和肌红蛋白在加入缺口后的序列比对。 但是用缺口的办法增加了序列比对的复杂性,因为序列比对时所选择的缺口大小有人为 因素。现在已建立了计算机自动进行序列比对时添加缺口的方案。这种方法采用打分系统评 估各种比对方素,利用缺口惩罚来排除序列比对时出现的不合理缺口。例如一致位点加10 分,一个缺口(无论缺口大小)扣25分。图6.6的比对方案得355分(38个一致位点和一个 缺口,38x10-1x25=355)。这样,这两个蛋白质之间氨基酸一致性就达到25.9%(两 个蛋白质平均长度是147氨基酸残基,有38个一致位,点)。下面的问题是,这样的一致性是 否属于明显类似? 用重排的方法估计比对的统计学意义 图65展示的序列类似性似乎是显著的,但是不能排除偶然出现了这些一致性的可能。 如何评估这些偶然性?采用的策略是将某一蛋白质的氨基酸序列进行随机重排(shuffling), 然后将重排所得蛋白序列与目标序列比对(图67)。重复这一过程,构建出各种重排蛋白的 得分。 采用这种策略,肌红蛋白和血红蛋白-链之间权威比对就凸现出来(图68)。权咸比对 的数值远高于随机重排蛋白的平均值。随机重排10次,才出现一次这种比对值。因此我 们可以轻松地认为这两个序列确实是类似的。最简单的解释是这两种蛋白序列来自同一祖 先,属于同源物。 THISISTHEAUTHENTICSEQUENCE Shuffling SNUCSNSEATEEITUHEQIHHTTCEI m 图6.7重排产生的一个新序列
链和肌红蛋白最佳比对只有 23 个位点是一致的,分散在多肽链中央区域。但是,相 近的比对有 22 个一致位点,而且这些位点集中于蛋白质的 N-端。如果在比对过程中引入缺 口,就能将上述两种比对的大多数一致位点都囊括进来(图 6.6)。在比对过程中需要添加这 种缺口以补偿基因进化过程中出现的插入或缺失。 图 6.6 添加缺口的比对。人血红蛋白链和肌红蛋白在加入缺口后的序列比对。 但是用缺口的办法增加了序列比对的复杂性,因为序列比对时所选择的缺口大小有人为 因素。现在已建立了计算机自动进行序列比对时添加缺口的方案。这种方法采用打分系统评 估各种比对方案,利用缺口惩罚来排除序列比对时出现的不合理缺口。例如一致位点加 10 分,一个缺口(无论缺口大小)扣 25 分。图 6.6 的比对方案得 355 分(38 个一致位点和一个 缺口, 38 x 10 - 1 x 25 = 355)。这样,这两个蛋白质之间氨基酸一致性就达到 25.9% (两 个蛋白质平均长度是 147 氨基酸残基,有 38 个一致位点)。下面的问题是,这样的一致性是 否属于明显类似? 用重排的方法估计比对的统计学意义 图 6.5 展示的序列类似性似乎是显著的,但是不能排除偶然出现了这些一致性的可能。 如何评估这些偶然性?采用的策略是将某一蛋白质的氨基酸序列进行随机重排(shuffling), 然后将重排所得蛋白序列与目标序列比对(图 6.7)。重复这一过程,构建出各种重排蛋白的 得分。 采用这种策略,肌红蛋白和血红蛋白链之间权威比对就凸现出来(图 6.8)。权威比对 的数值远高于随机重排蛋白的平均值。随机重排 10 20次,才出现一次这种比对值。因此我 们可以轻松地认为这两个序列确实是类似的。最简单的解释是这两种蛋白序列来自同一祖 先,属于同源物。 图 6.7 重排产生的一个新序列