第一章概论 11本章简介 本章旨在介绍生物信息学的基本概念,指出它在现代生物学中的重要地位。首先,我们 将简要回顾生物信息学发展的几个历史阶段,从早期的蛋白质手工测序,到今天的DNA自 动测序。读完本章,你将会发现,DNA测序自动化引起的生物信息爆炸,使生物大分子序 列数据库的数据量急剧增长,而蛋白质结构测定的速度远不能与之相比。因此,从序列信息 直接推断其可能的生物学功能就显得十分必要。本章还将简述蛋白质结构预测的现状,从蛋 白质一级结构中各种氨基酸所包含的折叠信息入手,重点说明蛋白质三级结构预测的意义 并指出分子伴侣的本质及其在蛋白质折叠过程中的作用。此外,我们将重温蛋白质一级结构 二级结构、三级结构和四级结构的定义。 书中首次出现的术语皆用粗体标出,并在括号中注明英文原文。所有术语均列入书末词 汇表。 12序列测定 121蛋白质序列测定 序列测定( sequencing)已有50多年的历史,但开始时进展十分缓慢。最初,人们致力 于建立蛋白质( proteins)和多肽( peptides)的分离技术,并确定其氨基酸( amino acids) 种类及含量。1945以前,没有任何蛋白质序列定量测定的方法。以后十年中,由于色谱技 术和标记方法的快速进展,第一个多肽激素(胰岛素)的全序列测定于1955年完成(Ryle 等,1955)。五年后,第一个酶(核糖核酸酶)序列测定完成(Hirs等,1960年)。1965年, 约有20个含100多个残基的蛋白质序列被确定。截止1980年,这一数字已达1500个。而 今天,已测定的蛋白质序列已达30万个,这在50年前是难以想象的。 最初,蛋白质序列测定主要采用手工的埃德曼降解和环甲基化( Edman deglation dansylation)方法( Edman,1950年)。蛋白质序列测定的快速进展,应该归功于自动测序 仪的研制成功。与埃德曼和贝格(Beg)于196年发明的测序法相比,1980年开始使用的 自动测序仪的灵敏度提高了近1万倍 质谱技术的发展为蛋白质序列测定开辟了新的途径。第一次用这种方法测定完整的蛋白 质分子是在1997年。质谱法测序的突出优点是可以识别翻译后修饰( post-translation modification)而得到的特殊氨基酸。用其它方法进行蛋白质序列测定时,这种修饰信息无 法获得。正是利用了质谱技术,人们得出了γ氨基丁酸处于凝血素N-末端的重要结论。 122核酸序列测定 本世纪60年代和70年代,科学家们一直致力于研究测定核酸序列的方法。最初使用的 方法只能测定核糖核酸( ribonucleic acid,简称RNA),主要是转移核糖核酸( transfer-RNA, 简称tRNA)。tRNA分子的序列比较容易测定,一则因为它的链较短,通常只有7495个核 苷酸( nucleotide),二则有可能分离单个tRNA分子,尽管有时也不很容易。 而脱氧核糖核酸( deoxynucleic acid,简称DNA)的情况却大相径庭。人的染色体有大 有小,没个染色体约含5千5百万到2亿5千万个碱基对( basepair,简称bp),远远大于 RNA分子。测定一个染色体DNA分子的全部核苷酸序列是一项艰巨的工作。即使可以将其 分割成较小的片段,如何纯化也是一个问题。一次实验中可以测定的最长片段约为500bp 由此推断,要测定人类染色体DNA分子的全序列,就得将其分割成50万个片段。显然, 如何把某个片段从这50万个片段中分离出来,成了DNA序列测定问题的关键 基因克隆( gene cloning)和多豪链式反应( polymerase chain reaction,简称PCR)技 术为DNA全序列测定带来了福音。利用以上方法,从染色体中分离特定DNA片段的难题 迎刃而解,快速高效的测序技术因此而产生。1977年,基于链终止和化学降解的DNA测序 法研究成功,略经改善后很快就被推广到世界各国的分子生物学实验室,成为80年代和90 年代序列测定革命的基础,生物信息学( bioinformatics)也应运而生
第一章 概 论 1.1 本章简介 本章旨在介绍生物信息学的基本概念,指出它在现代生物学中的重要地位。首先,我们 将简要回顾生物信息学发展的几个历史阶段,从早期的蛋白质手工测序,到今天的 DNA 自 动测序。读完本章,你将会发现,DNA 测序自动化引起的生物信息爆炸,使生物大分子序 列数据库的数据量急剧增长,而蛋白质结构测定的速度远不能与之相比。因此,从序列信息 直接推断其可能的生物学功能就显得十分必要。本章还将简述蛋白质结构预测的现状,从蛋 白质一级结构中各种氨基酸所包含的折叠信息入手,重点说明蛋白质三级结构预测的意义, 并指出分子伴侣的本质及其在蛋白质折叠过程中的作用。此外,我们将重温蛋白质一级结构、 二级结构、三级结构和四级结构的定义。 书中首次出现的术语皆用粗体标出,并在括号中注明英文原文。所有术语均列入书末词 汇表。 1.2 序列测定 1.2.1 蛋白质序列测定 序列测定(sequencing)已有 50 多年的历史,但开始时进展十分缓慢。最初,人们致力 于建立蛋白质(proteins)和多肽(peptides)的分离技术,并确定其氨基酸(amino acids) 种类及含量。1945 以前,没有任何蛋白质序列定量测定的方法。以后十年中,由于色谱技 术和标记方法的快速进展,第一个多肽激素(胰岛素)的全序列测定于 1955 年完成(Ryle 等,1955)。五年后,第一个酶(核糖核酸酶)序列测定完成(Hirs 等,1960 年)。1965 年, 约有 20 个含 100 多个残基的蛋白质序列被确定。截止 1980 年,这一数字已达 1500 个。而 今天,已测定的蛋白质序列已达 30 万个,这在 50 年前是难以想象的。 最初,蛋白质序列测定主要采用手工的埃德曼降解和环甲基化(Edman deglation - dansylation)方法(Edman,1950 年)。蛋白质序列测定的快速进展,应该归功于自动测序 仪的研制成功。与埃德曼和贝格(Begg)于 1967 年发明的测序法相比,1980 年开始使用的 自动测序仪的灵敏度提高了近 1 万倍。 质谱技术的发展为蛋白质序列测定开辟了新的途径。第一次用这种方法测定完整的蛋白 质分子是在 1997 年。质谱法测序的突出优点是可以识别翻译后修饰(post-translation modification) 而得到的特殊氨基酸。用其它方法进行蛋白质序列测定时,这种修饰信息无 法获得。正是利用了质谱技术,人们得出了γ-氨基丁酸处于凝血素 N-末端的重要结论。 1.2.2 核酸序列测定 本世纪 60 年代和 70 年代,科学家们一直致力于研究测定核酸序列的方法。最初使用的 方法只能测定核糖核酸(ribonucleic acid,简称 RNA),主要是转移核糖核酸(transfer-RNA, 简称 tRNA)。tRNA 分子的序列比较容易测定,一则因为它的链较短,通常只有 74-95 个核 苷酸(nucleotide),二则有可能分离单个 tRNA 分子,尽管有时也不很容易。 而脱氧核糖核酸(deoxynucleic acid,简称 DNA)的情况却大相径庭。人的染色体有大 有小,没个染色体约含 5 千 5 百万到 2 亿 5 千万个碱基对(basepair,简称 bp),远远大于 RNA 分子。测定一个染色体 DNA 分子的全部核苷酸序列是一项艰巨的工作。即使可以将其 分割成较小的片段,如何纯化也是一个问题。一次实验中可以测定的最长片段约为 500bp。 由此推断,要测定人类染色体 DNA 分子的全序列,就得将其分割成 50 万个片段。显然, 如何把某个片段从这 50 万个片段中分离出来,成了 DNA 序列测定问题的关键。 基因克隆(gene cloning)和多聚酶链式反应(polymerase chain reaction,简称 PCR)技 术为 DNA 全序列测定带来了福音。利用以上方法,从染色体中分离特定 DNA 片段的难题 迎刃而解,快速高效的测序技术因此而产生。1977 年,基于链终止和化学降解的 DNA 测序 法研究成功,略经改善后很快就被推广到世界各国的分子生物学实验室,成为 80 年代和 90 年代序列测定革命的基础,生物信息学(bioinformatics)也应运而生
13什么是生物信息学 过去十年,DNA测序技术( sequencing)的飞速发展使分子生物学经历了信息革命时代。 这一革命,得益于计算机技术在过去十多年来突飞猛进的高速发展。只有使用计算机技术, 我们才有可能应付日益快速增长的生物信息。80年代中期以来,计算机在生物学中的广泛 应用孕育了生物信息学这一新兴学科 生物信息学这一术语在不同的场合下被赋予不同的含义。从广义上说,生物信息学可指 利用信息技术管理和分析生物学数据。这就意味着生物信息学所涉及的范围相当广泛,从人 工智能、机器人一直到基因组( genome)分析。就基因组分析这一角度来看,生物信息学 主要是指核酸和蛋白质序列数据的计算机处理和分析。近年来,蛋白质结构数据的快速增长, 使蛋白质三维结构的处理分析也归入到生物信息学的范畴。 14序列和结构 序列和结构这两大类不同性质的数据在数据量方面有天壤之别。对这一点必须有个明确 的概念。截止1998年4月,公共蛋白质序列非冗余数据库中存放的序列数已达30多万个 已公布的序片段( Boguki,1994年)和表达序列标签( Expressed Sequence Tag,简称EST) 数据库的数目己达百万个(详见第四章)。而蛋白质三维结构数据库( Protein data bank,简 称PDB)中独立的原子坐标依然不足1500套,显然难以与序列数据库的数据量相比 ( Bernstein等,1977年),这是因为结构数据的采集、存储与处理远比序列数据复杂。从信 息理论角度看,结构数据与序列数据之间数据量的巨大差异,反映了这两类既不相同、却又 相关的数据之间信息量的差异。随着基因组计划( genome project)的实施,序列数据大量 积累,这种差距会越来越大。当然,结构数据也在快速增长。可以预计,大规模结构测定计 划的实施,每年测定2000个结构的目标将不会是一句空话。当然,这与序列数据每年翻番 的增长速度相比,依然不可同日而语。目前,平均每一分钟就有一个序列增加到核酸序列数 据库中 下列网址提供了世界各国人类基因组计划有关情况,以及美国能源部人类基 因组计划的历史、所起作用、已取得的成果等。该网页还提供了有关基因组注释 协会( Genome Annotation Consortium,简称GAC)的情况,并以序列测定为主线, 用图表方式详细介绍各基因组计划的有关情况和进展。此外,该网站还提供了分 子遗传学入门的基础知识。 值得一提的是该网站上登载的两篇文章,它们均出自美国科学院院报。其中 篇的题目是“ Beyond Discovery”,谈到了基因组计划将会给人类带来的福音。另 一篇阐述了一个新的研究领域,它把基因组研究成果用于医学。建议读者阅读 下两篇文章,其中许多观点和本书将要讨论的内容有关。 GAC tp: //compbio. ornl. gov/gac/index. shtml ttp://www.oml.gov/techresoUrces/humanGenome DoE in the hgp tp://www.orml.gov/techresouRce/humanGenome/publicat/tko/index.htm Primer http://www.ornl.gov/techresouRce/humanGenome/publicat/primer/inTro.htm Beyond Discovery http://www4.nas.edu/beyond/beyonddiscovery.nsf/framset?openforn Gene Testing http://www4.nas.edu/beyond/beyonddiscovery.nsf/ Document Frameset?Open Form&Human Gene Testing
1.3 什么是生物信息学 过去十年,DNA 测序技术(sequencing)的飞速发展使分子生物学经历了信息革命时代。 这一革命,得益于计算机技术在过去十多年来突飞猛进的高速发展。只有使用计算机技术, 我们才有可能应付日益快速增长的生物信息。80 年代中期以来,计算机在生物学中的广泛 应用孕育了生物信息学这一新兴学科。 生物信息学这一术语在不同的场合下被赋予不同的含义。从广义上说,生物信息学可指 利用信息技术管理和分析生物学数据。这就意味着生物信息学所涉及的范围相当广泛,从人 工智能、机器人一直到基因组(genome)分析。就基因组分析这一角度来看,生物信息学 主要是指核酸和蛋白质序列数据的计算机处理和分析。近年来,蛋白质结构数据的快速增长, 使蛋白质三维结构的处理分析也归入到生物信息学的范畴。 1.4 序列和结构 序列和结构这两大类不同性质的数据在数据量方面有天壤之别。对这一点必须有个明确 的概念。截止 1998 年 4 月,公共蛋白质序列非冗余数据库中存放的序列数已达 30 多万个。 已公布的序片段(Boguki,1994 年)和表达序列标签(Expressed Sequence Tag,简称 EST) 数据库的数目已达百万个(详见第四章)。而蛋白质三维结构数据库(Protein Data Bank,简 称 PDB)中独立的原子坐标依然不足 1500 套,显然难以与序列数据库的数据量相比 (Bernstein 等,1977 年),这是因为结构数据的采集、存储与处理远比序列数据复杂。从信 息理论角度看,结构数据与序列数据之间数据量的巨大差异,反映了这两类既不相同、却又 相关的数据之间信息量的差异。随着基因组计划(genome project)的实施,序列数据大量 积累,这种差距会越来越大。当然,结构数据也在快速增长。可以预计,大规模结构测定计 划的实施,每年测定 2000 个结构的目标将不会是一句空话。当然,这与序列数据每年翻番 的增长速度相比,依然不可同日而语。目前,平均每一分钟就有一个序列增加到核酸序列数 据库中。 下列网址提供了世界各国人类基因组计划有关情况,以及美国能源部人类基 因组计划的历史、所起作用、已取得的成果等。该网页还提供了有关基因组注释 协会(Genome Annotation Consortium, 简称 GAC)的情况,并以序列测定为主线, 用图表方式详细介绍各基因组计划的有关情况和进展。此外,该网站还提供了分 子遗传学入门的基础知识。 值得一提的是该网站上登载的两篇文章,它们均出自美国科学院院报。其中 一篇的题目是“Beyond Discovery”,谈到了基因组计划将会给人类带来的福音。另 一篇阐述了一个新的研究领域,它把基因组研究成果用于医学。建议读者阅读一 下两篇文章,其中许多观点和本书将要讨论的内容有关。 GAC http://compbio.ornl.gov/gac/index.shtml HGP http://www.ornl.gov/TechResources/Human_Genome/ DoE in the HGP http://www.ornl.gov/TechResource/Human_Genome/Publicat/tko/index.htm Primer http://www.ornl.gov/TechResource/Human_Genome/Publicat/primer/intro.htm Beyond Discovery http://www4.nas.edu/beyond/beyonddiscovery.nsf/Framset?openform Gene Testing http://www4.nas.edu/beyond/beyonddiscovery.nsf/ DocumentFrameset?OpenForm&HumanGeneTesting
15基因组计划 80年代中期,美国能源部开始启动一系列研究项目,旨在构建人类基因组详尽的遗传 图谱和物理图谱,测定人类基因组的全部核苷酸序列,并将约10万个人类基因定位于染色 体。如此大规模的研究项目,必须采用新方法分析基因图谱和DNA序列数据,必须用新技 术、新仪器检测和分析DNA分子。为使研究结果尽快为公众所用,计划还要求利用先进的 信息技术将研究结果以最快的速度传递给科学工作者和医务工作者。由这一大规模研究项目 引发的国际合作,就是众所周知的人类基因组计划( Human Genome Project)(图框1.1) 此外,其它一些模式生物( model system)的基因组计划先后在世界各地启动。它们包 括大肠杆菌( Escherichia coli)、啤酒酵母( Saccharomyces cerevisiae)、线虫( Caenorhabditis elegans)、果蝇( Drosophila melanogaster)、拟南芥( Arabidopsis thalania)、狗( Canis familiaris)、小鼠( Mus musculus)。截止1998年4月,尽管只完成了若干基因组容量较小 的模式生物全序列测定,而人类基因组测序也仅完成10%,但由此而产生的序列数据已经 大量涌入公共的核酸序列数据库。 16人类基因组计划现状 根据1998年年中的进展情况和世界各国所投入的人力物力估算,人类基因组计划预计 完成时间不会早于2003年,有可能要到2005年。通过分析在染色体上已定位克隆来测定基 因组全序列的基本过程通常分两步,第一步是随机测序及序列组装,俗称鸟枪法( shotgun) 测序。第二步则是找出这些随机片段之间的间断序列,确定那些歧义位点的碱基 1998年5月,位于美国马里兰州 Rockville的美国国家基因组研究所( The Institute of Genome Research,简称TlGR)主任 Venter宣布,他将和珀金埃尔默公司 Perkin- Elmer Corp.) 共同组建一个新企业,并在3年内完成人类基因组全序列测定。这一消息的宣布的确令人震 惊,因为它意味着人类基因组计划完成时间将至少提前2年。该计划所采用的策略是将整个 基因组随机分割成成千上万个片段并进行测序,而不考虑它们是否已在染色体上定位。众所 周知,人类基因组含70%以上的重复序列。用鸟枪法完成整个基因组所有片段的序列测定 后,如何把它们装配起来,显然具有相当大的难度 对以上研究策略,世界各国基因组研究人员众说纷纭。对于由一个私有企业垄断测序结 果所可能带来的后果,科学家们也深感不安。显然,加快基因组全序列测定速度,已经成了 各国基因组研究人员面前迫在眉睫的问题。一个3年内完成基因组95%序列测定的新计划 因此而产生。该计划基于鸟枪法测序过程的大幅度加快。采用鸟枪法的原因是因为它简单易 行,且成本较低,平均每个碱基约需10美分。此新计划若能付之实施,可望在2001年前初 步获得高质量的序列图谱,尽管它还不是人类基因组全序列的完整图谱 当然,达到上述指标并不意味着人类基因组计划最终目标的实现,但作为过渡性措施, 不失为切实可行的解决方案。虽然人们担心这在某种程度上会延迟全序列测定最终目标的完 成,但它可推动其它研究项目的实施。例如,某些疾病基因己经在染色体上定位,但尚未加 以得到进一步阐明。以上大规模测序计划所得序列数据,不仅有助于这些疾病相关基因的发 现,而且有助于确定它们的分子特征。总而言之,不论人类基因组计划全序列测定将在何时、 何地、由何人、用何种方法完成,序列数据的飞速增长已是毋庸置疑的事实。 17生物信息学的重要性 过去20多年来,计算机在分子生物学中的应用这一研究领域中,占主导地位的分支学 科,当数结构生物学。基因组计划的实施,使这一局面发生了根本性改变。序列数据的激增 使结构数据在数量上无法与其匹配。序列分析已经成了这一领域的首要任务。生物信息学的 中心任务,是从浩如烟海的序列数据中提取理性知识。生物信息学家所面临的任务,不仅是 解决高效的数据储存手段,而且要开发有效的数据分析工具。因为只有利用新的、有效的数 据分析工具,才能将序列信息转换成生物化学和生理学知识,才能弄清它们所蕴含的结构和 功能信息,才能彻底了解它们所代表的生物学意义
1.5 基因组计划 80 年代中期,美国能源部开始启动一系列研究项目,旨在构建人类基因组详尽的遗传 图谱和物理图谱,测定人类基因组的全部核苷酸序列,并将约 10 万个人类基因定位于染色 体。如此大规模的研究项目,必须采用新方法分析基因图谱和 DNA 序列数据,必须用新技 术、新仪器检测和分析 DNA 分子。为使研究结果尽快为公众所用,计划还要求利用先进的 信息技术将研究结果以最快的速度传递给科学工作者和医务工作者。由这一大规模研究项目 引发的国际合作,就是众所周知的人类基因组计划(Human Genome Project)(图框 1.1)。 此外,其它一些模式生物(model system)的基因组计划先后在世界各地启动。它们包 括大肠杆菌(Escherichia coli)、啤酒酵母(Saccharomyces cerevisiae)、线虫(Caenorhabditis elegans)、果蝇(Drosophila melanogaster)、拟南芥(Arabidopsis thalania)、狗(Canis familiaris)、小鼠(Mus musculus)。截止 1998 年 4 月,尽管只完成了若干基因组容量较小 的模式生物全序列测定,而人类基因组测序也仅完成 10%,但由此而产生的序列数据已经 大量涌入公共的核酸序列数据库。 1.6 人类基因组计划现状 根据 1998 年年中的进展情况和世界各国所投入的人力物力估算,人类基因组计划预计 完成时间不会早于 2003 年,有可能要到 2005 年。通过分析在染色体上已定位克隆来测定基 因组全序列的基本过程通常分两步,第一步是随机测序及序列组装,俗称鸟枪法(shotgun) 测序。第二步则是找出这些随机片段之间的间断序列,确定那些歧义位点的碱基。 1998 年 5 月,位于美国马里兰州 Rockville 的美国国家基因组研究所(The Institute of Genome Research,简称 TIGR)主任 Venter 宣布,他将和珀金-埃尔默公司(Perkin-Elmer Corp.) 共同组建一个新企业,并在 3 年内完成人类基因组全序列测定。这一消息的宣布的确令人震 惊,因为它意味着人类基因组计划完成时间将至少提前 2 年。该计划所采用的策略是将整个 基因组随机分割成成千上万个片段并进行测序,而不考虑它们是否已在染色体上定位。众所 周知,人类基因组含 70%以上的重复序列。用鸟枪法完成整个基因组所有片段的序列测定 后,如何把它们装配起来,显然具有相当大的难度。 对以上研究策略,世界各国基因组研究人员众说纷纭。对于由一个私有企业垄断测序结 果所可能带来的后果,科学家们也深感不安。显然,加快基因组全序列测定速度,已经成了 各国基因组研究人员面前迫在眉睫的问题。一个 3 年内完成基因组 95%序列测定的新计划 因此而产生。该计划基于鸟枪法测序过程的大幅度加快。采用鸟枪法的原因是因为它简单易 行,且成本较低,平均每个碱基约需 10 美分。此新计划若能付之实施,可望在 2001 年前初 步获得高质量的序列图谱,尽管它还不是人类基因组全序列的完整图谱。 当然,达到上述指标并不意味着人类基因组计划最终目标的实现,但作为过渡性措施, 不失为切实可行的解决方案。虽然人们担心这在某种程度上会延迟全序列测定最终目标的完 成,但它可推动其它研究项目的实施。例如,某些疾病基因已经在染色体上定位,但尚未加 以得到进一步阐明。以上大规模测序计划所得序列数据,不仅有助于这些疾病相关基因的发 现,而且有助于确定它们的分子特征。总而言之,不论人类基因组计划全序列测定将在何时、 何地、由何人、用何种方法完成,序列数据的飞速增长已是毋庸置疑的事实。 1.7 生物信息学的重要性 过去 20 多年来,计算机在分子生物学中的应用这一研究领域中,占主导地位的分支学 科,当数结构生物学。基因组计划的实施,使这一局面发生了根本性改变。序列数据的激增, 使结构数据在数量上无法与其匹配。序列分析已经成了这一领域的首要任务。生物信息学的 中心任务,是从浩如烟海的序列数据中提取理性知识。生物信息学家所面临的任务,不仅是 解决高效的数据储存手段,而且要开发有效的数据分析工具。因为只有利用新的、有效的数 据分析工具,才能将序列信息转换成生物化学和生理学知识,才能弄清它们所蕴含的结构和 功能信息,才能彻底了解它们所代表的生物学意义
显而易见,序列测定本身不是最终目的,弄清序列数据所包含的生物学意义,才是我们 的目标。揭示序列数据所代表的生物学意义,是一门深奥的科学。难度之大,不亚于破译 部“天书”。如同我们所熟悉的自然语言一样,这部“天书”是由一个个句子、一个个单词 直至一个个字母组成的。若把蛋白质比作句子,把序列模体(motf)比作单词,那么,组 成蛋白质的基本元素氨基酸就是字母。显然,孤立地分析单个字母,并不能获取多少信息。 而由单个字母排列组合所构成的单词,则具有显著的意义。有时,改变一个单词中的某个字 母,则可改变其含义,乃至使整个句子面目全非。举个最简单的例子,英语中hog(猪)和 巫婆(hag)只差一个字母,而它们的含义却大相径庭。因此,准确地破译这部“天书”,是 生物信息学所面临的艰巨任务。生物学中类似的例子就是镰刀状贫血症的分子机理。患者和 正常人的区别只是血红蛋白A链上一个氨基酸残基的突变(谷氨酸Gu突变成丙氨酸Val), 而编码谷氨酸的三联体密码GAA和编码丙氨酸的三联体密码GUA只差一个碱基 我们的目标,则是要掌握这部“天书”中组成各种句子的全部单词,也就是说,弄清组 成各种蛋白质的序列模体所代表的意义,并在将来的某一天,设计自然界不存在的全新蛋白 质,最终实现编写编码人类自身的新的“天书”。今天,现有的计算方法和应用程序已经可 以用来识别这部“天书”中的部分单词,即序列模体所表征的结构功能特征和信息。但是, 我们尚未搞清把单词组合成句子的句法规律,还不知道如何将序列模体片段恰当地组合起 来,构建成具有生物学意义的蛋白质结构 揭示序列数据所隐含的生物学意义的基本方法可分为两类。第一类方法的原理基于模式 识别技术,其基本出发点是找出不同序列间的相似性,并推断它们与结构和功能的内在联系 第二类方法就是所谓“从头计算”方法,即直接从蛋白质序列预测其三维结构,并最终推断 其功能。在可以预见的将来,用传统的实验方法能够测定的蛋白质结构的数量极为有限。因 此,研究开发有效的模式识别和结构预测方法,将是生物信息学所面临的主要任务 18模式识别和预测 首先,我们对模式识别和预测之间的区别作一些说明。如上所述,模式识别和预测是生 物信息学中两种基本分析工具,这两个术语又常常被混用。然而,从它们所要解决的问题和 可以取得的结果来看,这两种方法是完全不同的,不应该将它们混淆 顾名思义,模式识别的基本思想是利用存在于蛋白质序列或结构中的某些特征模式识别 相关蛋白质的性质。如果某一蛋白质序列或结构中的一部分具有保守性,这种保守性或者与 蛋白质的生物活性有关,或者与蛋白质的折叠方式有关;那么,这种特征模式就可以用来识 别该蛋白质家族中的新成员。换句话说,如果将已知蛋白质的特征序列模式和特征结构模式 搜集起来,构建成数据库,则可以用来确定新测定的蛋白质序列中是否具有某种特征模式 从而确定该未知蛋白属于哪个蛋白质家族。目前,利用序列模式和结构模板数据库査询确定 蛋白质家族关系,从而推断该新序列的功能和结构,已经成了常用的方法。 显然,无论是序列模式识别,还是结构模式识别,都建立在已知序列和结构的基础上, 这些已知序列和结构存放在各种数据库中。应该说,序列模式识别比较容易,其结果也比较 可靠。相比之下,结构识别亦即折叠模式识别要困难得多,往往需要有专门研究人员参与。 即使如此,其准确性也只能达到40%左右。序列模式识别和折叠模式识别是目前硏宄的重 点,其方法也在不断改进 相反,预测是生物信息学中的棘手问题,目前尚无行之有效的方法,预计在未来十年内 也很难取得关键性突破。所谓预测,是指直接从氨基酸序列推断某一蛋白质的功能位点或预 测其三维结构,它并不依赖于已知蛋白(图1.2)。因此,预测方法不需要建立序列模式或结 构模式数据库,而需要研究开发解决蛋白质折叠问题的方法和软件。 19蛋白质折叠 蛋白质折叠问题是分子生物学研究的中心课题。它所要解决的是蛋白质一级结构中的氨 基酸序列最终怎样折叠成三维空间结构(图框12)。1973年, Anfinsen通过实验发现,变 性的核糖核酸酶( ribonuclease)可以重新折叠并恢复生物活性。这说明蛋白质一级结构中
显而易见,序列测定本身不是最终目的,弄清序列数据所包含的生物学意义,才是我们 的目标。揭示序列数据所代表的生物学意义,是一门深奥的科学。难度之大,不亚于破译一 部“天书”。如同我们所熟悉的自然语言一样,这部“天书”是由一个个句子、一个个单词 直至一个个字母组成的。若把蛋白质比作句子,把序列模体(motif)比作单词,那么,组 成蛋白质的基本元素氨基酸就是字母。显然,孤立地分析单个字母,并不能获取多少信息。 而由单个字母排列组合所构成的单词,则具有显著的意义。有时,改变一个单词中的某个字 母,则可改变其含义,乃至使整个句子面目全非。举个最简单的例子,英语中 hog(猪)和 巫婆(hag)只差一个字母,而它们的含义却大相径庭。因此,准确地破译这部“天书”,是 生物信息学所面临的艰巨任务。生物学中类似的例子就是镰刀状贫血症的分子机理。患者和 正常人的区别只是血红蛋白 A 链上一个氨基酸残基的突变(谷氨酸 Glu 突变成丙氨酸 Val), 而编码谷氨酸的三联体密码 GAA 和编码丙氨酸的三联体密码 GUA 只差一个碱基。 我们的目标,则是要掌握这部“天书”中组成各种句子的全部单词,也就是说,弄清组 成各种蛋白质的序列模体所代表的意义,并在将来的某一天,设计自然界不存在的全新蛋白 质,最终实现编写编码人类自身的新的“天书”。今天,现有的计算方法和应用程序已经可 以用来识别这部“天书”中的部分单词,即序列模体所表征的结构功能特征和信息。但是, 我们尚未搞清把单词组合成句子的句法规律,还不知道如何将序列模体片段恰当地组合起 来,构建成具有生物学意义的蛋白质结构。 揭示序列数据所隐含的生物学意义的基本方法可分为两类。第一类方法的原理基于模式 识别技术,其基本出发点是找出不同序列间的相似性,并推断它们与结构和功能的内在联系。 第二类方法就是所谓“从头计算”方法,即直接从蛋白质序列预测其三维结构,并最终推断 其功能。在可以预见的将来,用传统的实验方法能够测定的蛋白质结构的数量极为有限。因 此,研究开发有效的模式识别和结构预测方法,将是生物信息学所面临的主要任务。 1.8 模式识别和预测 首先,我们对模式识别和预测之间的区别作一些说明。如上所述,模式识别和预测是生 物信息学中两种基本分析工具,这两个术语又常常被混用。然而,从它们所要解决的问题和 可以取得的结果来看,这两种方法是完全不同的,不应该将它们混淆。 顾名思义,模式识别的基本思想是利用存在于蛋白质序列或结构中的某些特征模式识别 相关蛋白质的性质。如果某一蛋白质序列或结构中的一部分具有保守性,这种保守性或者与 蛋白质的生物活性有关,或者与蛋白质的折叠方式有关;那么,这种特征模式就可以用来识 别该蛋白质家族中的新成员。换句话说,如果将已知蛋白质的特征序列模式和特征结构模式 搜集起来,构建成数据库,则可以用来确定新测定的蛋白质序列中是否具有某种特征模式, 从而确定该未知蛋白属于哪个蛋白质家族。目前,利用序列模式和结构模板数据库查询确定 蛋白质家族关系,从而推断该新序列的功能和结构,已经成了常用的方法。 显然,无论是序列模式识别,还是结构模式识别,都建立在已知序列和结构的基础上, 这些已知序列和结构存放在各种数据库中。应该说,序列模式识别比较容易,其结果也比较 可靠。相比之下,结构识别亦即折叠模式识别要困难得多,往往需要有专门研究人员参与。 即使如此,其准确性也只能达到 40%左右。序列模式识别和折叠模式识别是目前研究的重 点,其方法也在不断改进。 相反,预测是生物信息学中的棘手问题,目前尚无行之有效的方法,预计在未来十年内 也很难取得关键性突破。所谓预测,是指直接从氨基酸序列推断某一蛋白质的功能位点或预 测其三维结构,它并不依赖于已知蛋白(图 1.2)。因此,预测方法不需要建立序列模式或结 构模式数据库,而需要研究开发解决蛋白质折叠问题的方法和软件。 1.9 蛋白质折叠 蛋白质折叠问题是分子生物学研究的中心课题。它所要解决的是蛋白质一级结构中的氨 基酸序列最终怎样折叠成三维空间结构(图框 1.2)。1973 年,Anfinsen 通过实验发现,变 性的核糖核酸酶(ribonuclease)可以重新折叠并恢复生物活性。这说明蛋白质一级结构中
隐含了编码蛋白质三级结构的所有信息。这一发现,为蛋白质结构预测提供了理论依据。这 就是说,在完全掌握了蛋白质序列和结构之间的关系后,就可以通过分析一级结构序列特性 预测其三维空间结构 图框12蛋白质结构级别分类 结构层次特点 级结构即蛋白质中的氨基酸一维序列 二级结构指蛋白质多肽链中有规则重复的区域,如α螺旋,β转角,β折叠等 超二级结构由相邻二级结构单元组合而成的结构单位,可作为蛋白质三维结构的构件 如βuβ单元、β折叠桶等 三级结构由二级结构和超二级结构组成,是蛋白质的基本功能单位 四级结构 些独立的蛋白质经非共价键缔结而成的聚合体 五级结构 由独立的生物大分子组成的聚合体,如蛋白质-蛋白质聚合体,蛋白质-核酸 聚合体 初看起来,由于数据库容量的不断增长,蛋白质结构预测并非不切实际的空想。然而 尽管经过三十多年研究,蛋白质折叠规律仍未认识清楚,结构预测问题依然没有解决。截止 1998年,蛋白质二级结构预测仅有50-60%的准确性 蛋白质二级结构预测的方法有三种。一是由已知结构统计各种氨基酸残基形成二级结构 的构象趋势,其中最常用的是Chou和 Fasman法;二是基于氨基酸的物理化学性质,包括 堆积性( compactness、疏水性( hydrophobicity)、电荷性、氢键形成能力等;三是通过序 列比对,由已知三维结构的同源蛋白推断未知蛋白的二级结构。尽管Chou和 Fasman法被 公认为是经典的二级结构预测方法,但其准确性只能达到65%,与其它方法不相上下。究 其原因,是因为用作统计二级结构构象趋势的蛋白质空间结构数据库中非同源蛋白的数量还 不够多。由于结构测定速度的制约,这一数据库容量不足的问题将始终存在。相比之下,基 于多序列比对的二级结构预测方法其精度可提高几个百分点。尽管如此,即使其准确性能达 到70%,在实际应用中并无太大的实用价值,因为很难由70%的预测结果得到确切的结果 蛋白质三级结构预测,特别是基于二级结构预测的三级结构预测,尽管已经由个别成功 的例子,总的说来,还远远没有成熟。随着对蛋白质折叠过程复杂性的认识逐步深入,我们 不得不承认,实现从蛋白质一级结构序列直接预测其三维空间结构这一目标,还需要几十年 的艰苦努力 110分子伴侣 分子伴侣( molecular chaperon)的发现,使人们对氨基酸序列中包含了蛋白质折叠所需 要的全部信息这一传统观念产生了怀疑。分子伴侣的作用,有时被不恰当地加以强调。研究 表明,分子伴侣是一类蛋白质,其作用是保证合成过程中新生蛋白质链的正确折叠( Hartel 等,1994年)。目前普遍认为,分子伴侣可以阻断蛋白质错误折叠的途径,以防产生不具生 物活性的折叠产物;它们可与装配初期暴露在外的活性表面暂时结合,防止未装配单元的错 误聚合,加速装配的过程。可以肯定,没有分子伴侣的参与,蛋白质依然可以折叠:而有了 分子伴侣,许多徒劳无益的折叠途径可以避免,从而大大提高得到正确折叠产物的效率 111序列分析 综上所述,蛋白质一级结构中包含了用来编码三级结构的信息。然而,这种信息的本质 及其如何编码三级结构,目前尚不清楚。我们还无法读懂用来描述蛋白质折叠方式和生物活 性的“分子语言”。对蛋白质折叠机理的深入研究,使我们越来越清楚地认识到,蛋白质折 叠是一个复杂的过程,蛋白质序列和结构之间有着极为复杂的关系(Gros,1998年)。尽 管如此,我们依然可以利用序列分析的方法,找出新测定的序列和数据库中己知结构或功能 的序列之间的相似性。对于相似程度较高的序列,如两者之间具有50%以上的相同残基, 容易得到明确的答案;而对于相似程度较低的序列,则问题要复杂得多
隐含了编码蛋白质三级结构的所有信息。这一发现,为蛋白质结构预测提供了理论依据。这 就是说,在完全掌握了蛋白质序列和结构之间的关系后,就可以通过分析一级结构序列特性, 预测其三维空间结构。 图框 1.2 蛋白质结构级别分类 结构层次 特 点 一级结构 即蛋白质中的氨基酸一维序列 二级结构 指蛋白质多肽链中有规则重复的区域,如 α 螺旋,β 转角,β 折叠等 超二级结构 由相邻二级结构单元组合而成的结构单位,可作为蛋白质三维结构的构件, 如 βαβ 单元、β 折叠桶等 三级结构 由二级结构和超二级结构组成,是蛋白质的基本功能单位 四级结构 一些独立的蛋白质经非共价键缔结而成的聚合体 五级结构 由独立的生物大分子组成的聚合体,如蛋白质-蛋白质聚合体,蛋白质-核酸 聚合体 初看起来,由于数据库容量的不断增长,蛋白质结构预测并非不切实际的空想。然而, 尽管经过三十多年研究,蛋白质折叠规律仍未认识清楚,结构预测问题依然没有解决。截止 1998 年,蛋白质二级结构预测仅有 50-60%的准确性。 蛋白质二级结构预测的方法有三种。一是由已知结构统计各种氨基酸残基形成二级结构 的构象趋势,其中最常用的是 Chou 和 Fasman 法;二是基于氨基酸的物理化学性质,包括 堆积性(compactness)、疏水性(hydrophobicity)、电荷性、氢键形成能力等;三是通过序 列比对,由已知三维结构的同源蛋白推断未知蛋白的二级结构。尽管 Chou 和 Fasman 法被 公认为是经典的二级结构预测方法,但其准确性只能达到 65%,与其它方法不相上下。究 其原因,是因为用作统计二级结构构象趋势的蛋白质空间结构数据库中非同源蛋白的数量还 不够多。由于结构测定速度的制约,这一数据库容量不足的问题将始终存在。相比之下,基 于多序列比对的二级结构预测方法其精度可提高几个百分点。尽管如此,即使其准确性能达 到 70%,在实际应用中并无太大的实用价值,因为很难由 70%的预测结果得到确切的结果。 蛋白质三级结构预测,特别是基于二级结构预测的三级结构预测,尽管已经由个别成功 的例子,总的说来,还远远没有成熟。随着对蛋白质折叠过程复杂性的认识逐步深入,我们 不得不承认,实现从蛋白质一级结构序列直接预测其三维空间结构这一目标,还需要几十年 的艰苦努力。 1.10 分子伴侣 分子伴侣(molecular chaperon)的发现,使人们对氨基酸序列中包含了蛋白质折叠所需 要的全部信息这一传统观念产生了怀疑。分子伴侣的作用,有时被不恰当地加以强调。研究 表明,分子伴侣是一类蛋白质,其作用是保证合成过程中新生蛋白质链的正确折叠(Hartel 等,1994 年)。目前普遍认为,分子伴侣可以阻断蛋白质错误折叠的途径,以防产生不具生 物活性的折叠产物;它们可与装配初期暴露在外的活性表面暂时结合,防止未装配单元的错 误聚合,加速装配的过程。可以肯定,没有分子伴侣的参与,蛋白质依然可以折叠;而有了 分子伴侣,许多徒劳无益的折叠途径可以避免,从而大大提高得到正确折叠产物的效率。 1.11 序列分析 综上所述,蛋白质一级结构中包含了用来编码三级结构的信息。然而,这种信息的本质 及其如何编码三级结构,目前尚不清楚。我们还无法读懂用来描述蛋白质折叠方式和生物活 性的“分子语言”。对蛋白质折叠机理的深入研究,使我们越来越清楚地认识到,蛋白质折 叠是一个复杂的过程,蛋白质序列和结构之间有着极为复杂的关系(Gross,1998 年)。尽 管如此,我们依然可以利用序列分析的方法,找出新测定的序列和数据库中已知结构或功能 的序列之间的相似性。对于相似程度较高的序列,如两者之间具有 50%以上的相同残基, 容易得到明确的答案;而对于相似程度较低的序列,则问题要复杂得多