第九章蛋白质序列分析与结构预测 种生物体的基因组规定了所有构成该生物体的蛋白质,基因规定了组成蛋白质的氨基 酸序列。虽然蛋白质由氨基酸的线性序列组成,但是,它们只有折叠成特定的空间构象才能 具有相应的活性和相应的生物学功能。了解蛋白质的空间结构不仅有利于认识蛋白质的功 能,也有利于认识蛋白质是如何执行其功能的。确定蛋白质的结构对于生物学研究是非常重 要的。目前,蛋白质序列数据库的数据积累的速度非常快,但是,已知结构的蛋白质相对比 较少。尽管蛋白质结构测定技术有了较为显著的进展,但是,通过实验方法确定蛋白质结构 的过程仍然非常复杂,代价较高。因此,实验测定的蛋白质结构比已知的蛋白质序列要少得 多。另一方面,随着DNA测序技术的发展,人类基因组及更多的模式生物基因组已经或将 要被完全测序,DNA序列数量将会急增,而由于DNA序列分析技术和基因识别方法的进 步,我们可以从DNA推导出大量的蛋白质序列。这意味着已知序列的蛋白质数量和已测定 结构的蛋白质数量(如蛋白质结构数据库PDB中的数据)的差距将会越来越大。人们希望 产生蛋白质结构的速度能够跟上产生蛋白质序列的速度,或者减小两者的差距。那么如何缩 小这种差距呢?我们不能完全依赖现有的结构测定技术,需要发展理论分析方法,这对蛋白 质结构预测提出了极大的挑战。20世纪60年代后期, Anfinsen首先发现去折叠蛋白或者说 变性( denatured)蛋白质在允许重新折叠的实验条件下可以重新折叠到原来的结构,这种天然 结构( native structure)对于蛋白质行使生物功能具有重要作用,大多数蛋白质只有在折叠成其 天然结构的时候才能具有完全的生物活性。自从 Anfinsen提出蛋白质折叠的信息隐含在蛋 白质的一级结构中,科学家们对蛋白质结构的预测进行了大量的研究,分子生物学家将有可 能直接运用适当的算法,从氨基酸序列出发,预测蛋白质的结构。本章主要着重介绍蛋白质 二级结构及空间结构预测的方法。 91引言 基因是生命的蓝图,蛋白质是生命的机器。来自于四种字符字母表(A,T(U),C, G)的核酸序列中蕴藏着生命的信息,而蛋白质则执行着生物体内各种重要的工作,如生物 化学反应的催化、营养物质的输运、生长和分化控制、生物信号的识别和传递等。蛋白质序 列由相应的核酸序列所决定,通过对基因的转录和翻译,将原来四字符的DNA序列,根据 三联密码规则翻译成20字符的蛋白质氨基酸序列
第九章 蛋白质序列分析与结构预测 一种生物体的基因组规定了所有构成该生物体的蛋白质,基因规定了组成蛋白质的氨基 酸序列。虽然蛋白质由氨基酸的线性序列组成,但是,它们只有折叠成特定的空间构象才能 具有相应的活性和相应的生物学功能。了解蛋白质的空间结构不仅有利于认识蛋白质的功 能,也有利于认识蛋白质是如何执行其功能的。确定蛋白质的结构对于生物学研究是非常重 要的。目前,蛋白质序列数据库的数据积累的速度非常快,但是,已知结构的蛋白质相对比 较少。尽管蛋白质结构测定技术有了较为显著的进展,但是,通过实验方法确定蛋白质结构 的过程仍然非常复杂,代价较高。因此,实验测定的蛋白质结构比已知的蛋白质序列要少得 多。另一方面,随着 DNA 测序技术的发展,人类基因组及更多的模式生物基因组已经或将 要被完全测序,DNA 序列数量将会急增,而由于 DNA 序列分析技术和基因识别方法的进 步,我们可以从 DNA 推导出大量的蛋白质序列。这意味着已知序列的蛋白质数量和已测定 结构的蛋白质数量(如蛋白质结构数据库 PDB 中的数据)的差距将会越来越大。人们希望 产生蛋白质结构的速度能够跟上产生蛋白质序列的速度,或者减小两者的差距。那么如何缩 小这种差距呢?我们不能完全依赖现有的结构测定技术,需要发展理论分析方法,这对蛋白 质结构预测提出了极大的挑战。20 世纪 60 年代后期,Anfinsen 首先发现去折叠蛋白或者说 变性(denatured)蛋白质在允许重新折叠的实验条件下可以重新折叠到原来的结构,这种天然 结构(native structure)对于蛋白质行使生物功能具有重要作用,大多数蛋白质只有在折叠成其 天然结构的时候才能具有完全的生物活性。自从 Anfinsen 提出蛋白质折叠的信息隐含在蛋 白质的一级结构中,科学家们对蛋白质结构的预测进行了大量的研究,分子生物学家将有可 能直接运用适当的算法,从氨基酸序列出发,预测蛋白质的结构。本章主要着重介绍蛋白质 二级结构及空间结构预测的方法。 9.1 引言 基因是生命的蓝图,蛋白质是生命的机器。来自于四种字符字母表(A,T(U),C, G)的核酸序列中蕴藏着生命的信息,而蛋白质则执行着生物体内各种重要的工作,如生物 化学反应的催化、营养物质的输运、生长和分化控制、生物信号的识别和传递等。蛋白质序 列由相应的核酸序列所决定,通过对基因的转录和翻译,将原来四字符的 DNA 序列,根据 三联密码规则翻译成 20 字符的蛋白质氨基酸序列
蛋白质具有不同的长度、不同的氨基酸排列和不同的空间结构,实验分析表明蛋白质能 够形成特定的结构。蛋白质中相邻的氨基酸通过肽键形成一条伸展的链,肽链上的氨基酸残 基形成局部的二级结构,各种二级结构组合形成完整的折叠结构。蛋白质分子很大,其折叠 的空间结构会将一些区域包裹在内部,而将其它的区域暴露在外。在蛋白质的空间结构中 序列上相距比较远的氨基酸可能彼此接近。在水溶液中,肽链折叠成为特定的三维结构。主 要的驱动力来自于氨基酸残基的疏水性,氨基酸残基的疏水性要求将氨基酸疏水片段放置于 分子的内部。图7.1(a)是酪氨酸磷酸酶的蛋白质序列,图7.1(b)是对应的二级结构,其 中H代表螺旋,E代表折叠,B表示β桥,G表示310螺旋,I表示π螺旋,T表示氢键转 角,S代表转向,图7.1(c)显示的是该蛋白质的折叠结构。 研究蛋白质的结构意义重大,分析蛋白质结构、功能及其关系是蛋白质组计划中的一个 重要组成部分。研究蛋白质结构,有助于了解蛋白质的作用,了解蛋白质如何行使其生物功 能,认识蛋白质与蛋白质(或其它分子)之间的相互作用,这无论是对于生物学还是对于医 学和药学,都是非常重要的。对于未知功能或者新发现的蛋白质分子,通过结构分析,可以 进行功能注释,指导设计进行功能确认的生物学实验。通过分析蛋白质的结构,确认功能单 位或者结构域,可以为遗传操作提供目标,为设计新的蛋白质或改造已有蛋白质提供可靠的 依据,同时为新的药物分子设计提供合理的靶分子结构
蛋白质具有不同的长度、不同的氨基酸排列和不同的空间结构,实验分析表明蛋白质能 够形成特定的结构。蛋白质中相邻的氨基酸通过肽键形成一条伸展的链,肽链上的氨基酸残 基形成局部的二级结构,各种二级结构组合形成完整的折叠结构。蛋白质分子很大,其折叠 的空间结构会将一些区域包裹在内部,而将其它的区域暴露在外。在蛋白质的空间结构中, 序列上相距比较远的氨基酸可能彼此接近。在水溶液中,肽链折叠成为特定的三维结构。主 要的驱动力来自于氨基酸残基的疏水性,氨基酸残基的疏水性要求将氨基酸疏水片段放置于 分子的内部。图 7.1(a)是酪氨酸磷酸酶的蛋白质序列,图 7.1(b)是对应的二级结构,其 中 H 代表螺旋,E 代表折叠,B 表示 β 桥,G 表示 310 螺旋,I 表示 π 螺旋,T 表示氢键转 角,S 代表转向,图 7.1(c)显示的是该蛋白质的折叠结构。 研究蛋白质的结构意义重大,分析蛋白质结构、功能及其关系是蛋白质组计划中的一个 重要组成部分。研究蛋白质结构,有助于了解蛋白质的作用,了解蛋白质如何行使其生物功 能,认识蛋白质与蛋白质(或其它分子)之间的相互作用,这无论是对于生物学还是对于医 学和药学,都是非常重要的。对于未知功能或者新发现的蛋白质分子,通过结构分析,可以 进行功能注释,指导设计进行功能确认的生物学实验。通过分析蛋白质的结构,确认功能单 位或者结构域,可以为遗传操作提供目标,为设计新的蛋白质或改造已有蛋白质提供可靠的 依据,同时为新的药物分子设计提供合理的靶分子结构
1AA%: PROTEIN TYROS INE PHOSP HATASE 1B(321)w MEMEKEFEQIDKSGSWAAIYQDIRHEASDE PCRVAKLP KNKNRNRYRDVSPFDHSRIKI QED NDYINASL IKMEEAQRSYIL TQGPLPNTCGHEWEMVWEQKSRGVVMLNRYMEKGSI CAQYUP QKEEKEMIFEDTNLKLTLISED IKSYYTVROLELENLTTQETRE ILHEHYTTU DEGVPESPASELNFLEKYRESGSLSPEHGPVYYHSSAGIGRSGTE CLADTCLL LMDKRE PSSVDIKKVLL EMRKF RMGLIQTAD OLRESYLAVIEGAKF IMG DS SYQDQWKELS HEDI PP GHIPPPPRPP KRIlEPHN+ (a) 1 MEMEKEFEQI DKSGSWAAIY QDIRHEASDF PCRVAKLPKN KNRNRYRDVS HHHHHHHH HHHT THHHHH HHHHHH TTTTTGGG GGG S TT 51 PFDHSRIKLH QEDNDYINAS LIKMEEAQRS YIL TQGPLPN TCGHF WEMVW TTTB B S SS B SEE EEEETTTTEE EEEE TT THHHHHHHHH 101 EQKSRGVVML NRVMEKGSLK CAQYUPQKEE KEMIFED TNL KL TL ISEDIK HTT EEEE S SEETTEE SS SSTT S EEETTTTE EEEEEEEE 151 SYYTVRQLEL ENLTTQE TRE ILHFHYTTWP DF GVPESPAS FLNFLFKVRE SSEEEEEEEE EETTTTEEEE EEEEEE TT S HHH HHHHHHHHHH 201 SGSLSPEHGP VVVHSSAGIG RSGTFCLADT CLLLMDKRKD PSSVDIKKVL TTTTTTTS EEEE SSSSS HHHHHHHHHH HHHHHHHHT GGG HHHHH 251 LEMRKFRMGL IQTADQLRFS YLAVIEGAKF IMGDSSVQDQ WKEL SHEDLE HHHHTTTTT S SHHHHHHH HHHHHHHHHH HTTTTHHHHH HHHHHT 301 PPPGHIPPPP RPPKRILEPH N H=helix, B=residue in isolated beta bridge, E=extended beta strand; G=310 helix I=pi helix, T-hydrogen bonded turn, S=bende (b) (c) 图7.1酪氨酸磷酸酶的序列及结构:(a)氨基酸序列;(b)二級结构;(c) 空结构
生物信息学的一个基本观点是:分子的结构决定分子的性质和分子的功能。因此,生物 大分子蛋白质的空间结构决定蛋白质的生物学功能。但是,蛋白质的空间结构又是由什么决 定的呢?当一个蛋白质的空间结构被破坏以后,或者蛋白质解折叠后,可以恢复其自然的折 叠结构。大量的实验结果证明:蛋白质的结构由蛋白质序列所决定。虽然影响蛋白质空间结 构的另一个因素是蛋白质分子所处的溶液环境,但是,决定蛋白质结构的信息则是被编码于 氨基酸序列之中。然而,这种编码是否能被破译呢?或者说是否能够直接从氨基酸序列预测 出蛋白质的空间结构呢? 从数学上讲,蛋白质结构预测的问题是寻找一种从蛋白质的氨基酸线性序列到蛋白质所 有原子三维坐标的映射。典型的蛋白质含有几百个氨基酸、上千个原子,而大蛋白质(如载 脂蛋白)的氨基酸个数超过4500。所有可能的序列到结构的映射数随蛋白质氨基酸残基个 数呈指数增长,是天文数字。然而幸运的是,自然界实际存在的蛋白质是有限的,并且存在 着大量的同源序列,可能的结构类型也不多,序列到结构的关系有一定的规律可循。因此 蛋白质结构预测是可能的。 蛋白质结构预测主要有两大类方法。一类是理论分析方法或从头算方法( Ab initio 通过理论计算(如分子力学、分子动力学计算)进行结构预测。该类方法假设折叠后的蛋白 质取能量最低的构象。从原则上来说,我们可以根据物理、化学原理,通过计算来进行结构 预测。但是在实际中,这种方法往往不合适。主要有几个原因,一是自然的蛋白质结构和未 折叠的蛋白质结构,两者之间的能量差非常小(lkca/mol数量级),二是蛋白质可能的构 象空间庞大,针对蛋白质折叠的计算量非常大。另外,计算模型中力场参数的不准确性也是 个问题。 另一类蛋白质结构预测的方法是统计方法,该类方法对已知结构的蛋白质进行统计分 析,建立序列到结构的映射模型,进而根据映射模型对未知结构的蛋白质直接从氨基酸序列 预测结构。映射模型可以是定性的,也可以是定量的。这是进行蛋白质结构预测较为成功的 类方法。这一类方法包括经验性方法、结构规律提取方法、同源模型化方法等。 所谓经验性方法就是根据一定序列形成一定结构的倾向进行结构预测,例如,根据不同 氨基酸形成特定二级结构的倾向进行结构预测。通过对已知结构的蛋白质(如蛋白质结构数
生物信息学的一个基本观点是:分子的结构决定分子的性质和分子的功能。因此,生物 大分子蛋白质的空间结构决定蛋白质的生物学功能。但是,蛋白质的空间结构又是由什么决 定的呢?当一个蛋白质的空间结构被破坏以后,或者蛋白质解折叠后,可以恢复其自然的折 叠结构。大量的实验结果证明:蛋白质的结构由蛋白质序列所决定。虽然影响蛋白质空间结 构的另一个因素是蛋白质分子所处的溶液环境,但是,决定蛋白质结构的信息则是被编码于 氨基酸序列之中。然而,这种编码是否能被破译呢?或者说是否能够直接从氨基酸序列预测 出蛋白质的空间结构呢? 从数学上讲,蛋白质结构预测的问题是寻找一种从蛋白质的氨基酸线性序列到蛋白质所 有原子三维坐标的映射。典型的蛋白质含有几百个氨基酸、上千个原子,而大蛋白质(如载 脂蛋白)的氨基酸个数超过 4500。所有可能的序列到结构的映射数随蛋白质氨基酸残基个 数呈指数增长,是天文数字。然而幸运的是,自然界实际存在的蛋白质是有限的,并且存在 着大量的同源序列,可能的结构类型也不多,序列到结构的关系有一定的规律可循。因此, 蛋白质结构预测是可能的。 蛋白质结构预测主要有两大类方法。一类是理论分析方法或从头算方法(Ab initio), 通过理论计算(如分子力学、分子动力学计算)进行结构预测。该类方法假设折叠后的蛋白 质取能量最低的构象。从原则上来说,我们可以根据物理、化学原理,通过计算来进行结构 预测。但是在实际中,这种方法往往不合适。主要有几个原因,一是自然的蛋白质结构和未 折叠的蛋白质结构,两者之间的能量差非常小(1kcal/mol 数量级),二是蛋白质可能的构 象空间庞大,针对蛋白质折叠的计算量非常大。另外,计算模型中力场参数的不准确性也是 一个问题。 另一类蛋白质结构预测的方法是统计方法,该类方法对已知结构的蛋白质进行统计分 析,建立序列到结构的映射模型,进而根据映射模型对未知结构的蛋白质直接从氨基酸序列 预测结构。映射模型可以是定性的,也可以是定量的。这是进行蛋白质结构预测较为成功的 一类方法。这一类方法包括经验性方法、结构规律提取方法、同源模型化方法等。 所谓经验性方法就是根据一定序列形成一定结构的倾向进行结构预测,例如,根据不同 氨基酸形成特定二级结构的倾向进行结构预测。通过对已知结构的蛋白质(如蛋白质结构数
据库PDB、蛋白质二级结构数据库DSSP中的蛋白质)进行统计分析,可以发现各种氨基 酸形成不同二级结构的倾向,从而形成一系列关于二级结构预测的规则 与经验性方法相似的另一种办法是结构规律提取方法,这是更一般的方法。该方法从蛋 白质结构数据库中提取关于蛋白质结构形成的一般性规则,指导建立未知结构的蛋白质的模 型。有许多提取结构规律的方法,如通过视觉观察的方法,基于统计分析和序列多重比对的 方法,利用人工神经网络提取规律的方法 同源模型化方法通过同源序列分析或者模式匹配预测蛋白质的空间结构或者结构单元 (如锌指结构、螺旋-转角-螺旋结构、DNA结合区域等)。其原理基于下述事实:每一个 自然蛋白质具有一个特定的结构,但许多不同的序列会采用同一个基本的折叠,也就是说, 具有相似序列的蛋白质倾向于折叠成相似的空间结构。一对自然进化的蛋白质,如果它们的 序列具有25~30%的等同部分或者更多,则可以假设这两个蛋白质折叠成相似的空间结构。 这样,如果一个未知结构的蛋白质与一个已知结构的蛋白质具有足够的序列相似性,那么可 以根据相似性原理给未知结构的蛋白质构造一个近似的三维模型。如果目标蛋白质序列的某 部分与已知结构的蛋白质的某一结构域区域相似,则可以认为目标蛋白质具有相同的结构 域或者功能区域。在蛋白质结构预测方面,预测结果最可靠的方法是同源模型化方法 蛋白质的同源性比较往往是借助于序列比对而进行的,通过序列比对可以发现蛋白质之 间进化的关系。在蛋白质结构分析方面,通过序列比对可以发现序列保守模式或突变模式, 这些序列模式中包含着非常有用的三维结构信息。利用同源模型化方法可以预测10~30%蛋 白质的结构。然而,许多具有相似结构的蛋白质是远程同源的,它们的等同序列不到25%。 也就是说,具有相似空间结构的蛋白质序列等同程度可能小于25%。这些蛋白质的同源性 不能被传统的序列比对方法所识别。如果通过一个未知序列搜索一个蛋白质序列数据库,并 且搜索条件为序列等同程度小于25%的话,那么将会得到大量不相关的蛋白质。因此,搜 索远程同源蛋白质就像在干草堆里寻找一根针。寻找远程同源蛋白质是一项困难的任务,处 理这项任务的技术称为“线索( THREADING)技术”。对于一个未知结构的蛋白质,仅当我 们找不到等同序列大于25%的已知结构的同源蛋白质时,才通过线索技术寻找已知结构的 远程同源蛋白质,进而预测其结构。找到一个远程同源蛋白质后,就可以利用远程同源建模 方法来建立蛋白质的结构模型
据库 PDB、蛋白质二级结构数据库 DSSP 中的蛋白质)进行统计分析,可以发现各种氨基 酸形成不同二级结构的倾向,从而形成一系列关于二级结构预测的规则。 与经验性方法相似的另一种办法是结构规律提取方法,这是更一般的方法。该方法从蛋 白质结构数据库中提取关于蛋白质结构形成的一般性规则,指导建立未知结构的蛋白质的模 型。有许多提取结构规律的方法,如通过视觉观察的方法,基于统计分析和序列多重比对的 方法,利用人工神经网络提取规律的方法。 同源模型化方法通过同源序列分析或者模式匹配预测蛋白质的空间结构或者结构单元 (如锌指结构、螺旋-转角-螺旋结构、DNA 结合区域等)。其原理基于下述事实:每一个 自然蛋白质具有一个特定的结构,但许多不同的序列会采用同一个基本的折叠,也就是说, 具有相似序列的蛋白质倾向于折叠成相似的空间结构。一对自然进化的蛋白质,如果它们的 序列具有 25∼30%的等同部分或者更多,则可以假设这两个蛋白质折叠成相似的空间结构。 这样,如果一个未知结构的蛋白质与一个已知结构的蛋白质具有足够的序列相似性,那么可 以根据相似性原理给未知结构的蛋白质构造一个近似的三维模型。如果目标蛋白质序列的某 一部分与已知结构的蛋白质的某一结构域区域相似,则可以认为目标蛋白质具有相同的结构 域或者功能区域。在蛋白质结构预测方面,预测结果最可靠的方法是同源模型化方法。 蛋白质的同源性比较往往是借助于序列比对而进行的,通过序列比对可以发现蛋白质之 间进化的关系。在蛋白质结构分析方面,通过序列比对可以发现序列保守模式或突变模式, 这些序列模式中包含着非常有用的三维结构信息。利用同源模型化方法可以预测 10∼30%蛋 白质的结构。然而,许多具有相似结构的蛋白质是远程同源的,它们的等同序列不到 25%。 也就是说,具有相似空间结构的蛋白质序列等同程度可能小于 25%。这些蛋白质的同源性 不能被传统的序列比对方法所识别。如果通过一个未知序列搜索一个蛋白质序列数据库,并 且搜索条件为序列等同程度小于 25%的话,那么将会得到大量不相关的蛋白质。因此,搜 索远程同源蛋白质就像在干草堆里寻找一根针。寻找远程同源蛋白质是一项困难的任务,处 理这项任务的技术称为“线索(THREADING)技术”。对于一个未知结构的蛋白质,仅当我 们找不到等同序列大于 25%的已知结构的同源蛋白质时,才通过线索技术寻找已知结构的 远程同源蛋白质,进而预测其结构。找到一个远程同源蛋白质后,就可以利用远程同源建模 方法来建立蛋白质的结构模型