当前位置：和泉文库 > 生物 > 浏览文档

《生物信息学》课程教学资源（电子讲义）第九章蛋白质序列分析与结构预测

一种生物体的基因组规定了所有构成该生物体的蛋白质,基因规定了组成蛋白质的氨基酸序列。虽然蛋白质由氨基酸的线性序列组成,但是,它们只有折叠成特定的空间构象才能具有相应的活性和相应的生物学功能。了解蛋白质的空间结构不仅有利于认识蛋白质的功能,也有利于认识蛋白质是如何执行其功能的确定蛋白质的结构对于生物学研究是非常重要的。目前,蛋白质序列数据库的数据积累的速度非常快,但是,已知结构的蛋白质相对比较少。

文件格式：PDF，文件大小：638.56KB，售价：11.92元

文档详细内容（约42页）

第九章蛋白质序列分析与结构预测种生物体的基因组规定了所有构成该生物体的蛋白质,基因规定了组成蛋白质的氨基酸序列。虽然蛋白质由氨基酸的线性序列组成,但是,它们只有折叠成特定的空间构象才能具有相应的活性和相应的生物学功能。了解蛋白质的空间结构不仅有利于认识蛋白质的功能,也有利于认识蛋白质是如何执行其功能的。确定蛋白质的结构对于生物学研究是非常重要的。目前,蛋白质序列数据库的数据积累的速度非常快,但是,已知结构的蛋白质相对比较少。尽管蛋白质结构测定技术有了较为显著的进展,但是,通过实验方法确定蛋白质结构的过程仍然非常复杂,代价较高。因此,实验测定的蛋白质结构比已知的蛋白质序列要少得多。另一方面,随着DNA测序技术的发展,人类基因组及更多的模式生物基因组已经或将要被完全测序,DNA序列数量将会急增,而由于DNA序列分析技术和基因识别方法的进步,我们可以从DNA推导出大量的蛋白质序列。这意味着已知序列的蛋白质数量和已测定结构的蛋白质数量(如蛋白质结构数据库PDB中的数据)的差距将会越来越大。人们希望产生蛋白质结构的速度能够跟上产生蛋白质序列的速度,或者减小两者的差距。那么如何缩小这种差距呢?我们不能完全依赖现有的结构测定技术,需要发展理论分析方法,这对蛋白质结构预测提出了极大的挑战。20世纪60年代后期, Anfinsen首先发现去折叠蛋白或者说变性( denatured)蛋白质在允许重新折叠的实验条件下可以重新折叠到原来的结构,这种天然结构( native structure)对于蛋白质行使生物功能具有重要作用,大多数蛋白质只有在折叠成其天然结构的时候才能具有完全的生物活性。自从 Anfinsen提出蛋白质折叠的信息隐含在蛋白质的一级结构中,科学家们对蛋白质结构的预测进行了大量的研究,分子生物学家将有可能直接运用适当的算法,从氨基酸序列出发,预测蛋白质的结构。本章主要着重介绍蛋白质二级结构及空间结构预测的方法。 91引言基因是生命的蓝图,蛋白质是生命的机器。来自于四种字符字母表(A,T(U),C, G)的核酸序列中蕴藏着生命的信息,而蛋白质则执行着生物体内各种重要的工作,如生物化学反应的催化、营养物质的输运、生长和分化控制、生物信号的识别和传递等。蛋白质序列由相应的核酸序列所决定,通过对基因的转录和翻译,将原来四字符的DNA序列,根据三联密码规则翻译成20字符的蛋白质氨基酸序列

第九章蛋白质序列分析与结构预测一种生物体的基因组规定了所有构成该生物体的蛋白质，基因规定了组成蛋白质的氨基酸序列。虽然蛋白质由氨基酸的线性序列组成，但是，它们只有折叠成特定的空间构象才能具有相应的活性和相应的生物学功能。了解蛋白质的空间结构不仅有利于认识蛋白质的功能，也有利于认识蛋白质是如何执行其功能的。确定蛋白质的结构对于生物学研究是非常重要的。目前，蛋白质序列数据库的数据积累的速度非常快，但是，已知结构的蛋白质相对比较少。尽管蛋白质结构测定技术有了较为显著的进展，但是，通过实验方法确定蛋白质结构的过程仍然非常复杂，代价较高。因此，实验测定的蛋白质结构比已知的蛋白质序列要少得多。另一方面，随着 DNA 测序技术的发展，人类基因组及更多的模式生物基因组已经或将要被完全测序，DNA 序列数量将会急增，而由于 DNA 序列分析技术和基因识别方法的进步，我们可以从 DNA 推导出大量的蛋白质序列。这意味着已知序列的蛋白质数量和已测定结构的蛋白质数量（如蛋白质结构数据库 PDB 中的数据）的差距将会越来越大。人们希望产生蛋白质结构的速度能够跟上产生蛋白质序列的速度，或者减小两者的差距。那么如何缩小这种差距呢？我们不能完全依赖现有的结构测定技术，需要发展理论分析方法，这对蛋白质结构预测提出了极大的挑战。20 世纪 60 年代后期，Anfinsen 首先发现去折叠蛋白或者说变性(denatured)蛋白质在允许重新折叠的实验条件下可以重新折叠到原来的结构，这种天然结构(native structure)对于蛋白质行使生物功能具有重要作用，大多数蛋白质只有在折叠成其天然结构的时候才能具有完全的生物活性。自从 Anfinsen 提出蛋白质折叠的信息隐含在蛋白质的一级结构中，科学家们对蛋白质结构的预测进行了大量的研究，分子生物学家将有可能直接运用适当的算法，从氨基酸序列出发，预测蛋白质的结构。本章主要着重介绍蛋白质二级结构及空间结构预测的方法。 9.1 引言基因是生命的蓝图，蛋白质是生命的机器。来自于四种字符字母表（A，T（U），C， G）的核酸序列中蕴藏着生命的信息，而蛋白质则执行着生物体内各种重要的工作，如生物化学反应的催化、营养物质的输运、生长和分化控制、生物信号的识别和传递等。蛋白质序列由相应的核酸序列所决定，通过对基因的转录和翻译，将原来四字符的 DNA 序列，根据三联密码规则翻译成 20 字符的蛋白质氨基酸序列

生物信息学的一个基本观点是:分子的结构决定分子的性质和分子的功能。因此,生物大分子蛋白质的空间结构决定蛋白质的生物学功能。但是,蛋白质的空间结构又是由什么决定的呢?当一个蛋白质的空间结构被破坏以后,或者蛋白质解折叠后,可以恢复其自然的折叠结构。大量的实验结果证明:蛋白质的结构由蛋白质序列所决定。虽然影响蛋白质空间结构的另一个因素是蛋白质分子所处的溶液环境,但是,决定蛋白质结构的信息则是被编码于氨基酸序列之中。然而,这种编码是否能被破译呢?或者说是否能够直接从氨基酸序列预测出蛋白质的空间结构呢? 从数学上讲,蛋白质结构预测的问题是寻找一种从蛋白质的氨基酸线性序列到蛋白质所有原子三维坐标的映射。典型的蛋白质含有几百个氨基酸、上千个原子,而大蛋白质(如载脂蛋白)的氨基酸个数超过4500。所有可能的序列到结构的映射数随蛋白质氨基酸残基个数呈指数增长,是天文数字。然而幸运的是,自然界实际存在的蛋白质是有限的,并且存在着大量的同源序列,可能的结构类型也不多,序列到结构的关系有一定的规律可循。因此蛋白质结构预测是可能的。蛋白质结构预测主要有两大类方法。一类是理论分析方法或从头算方法( Ab initio 通过理论计算(如分子力学、分子动力学计算)进行结构预测。该类方法假设折叠后的蛋白质取能量最低的构象。从原则上来说,我们可以根据物理、化学原理,通过计算来进行结构预测。但是在实际中,这种方法往往不合适。主要有几个原因,一是自然的蛋白质结构和未折叠的蛋白质结构,两者之间的能量差非常小(lkca/mol数量级),二是蛋白质可能的构象空间庞大,针对蛋白质折叠的计算量非常大。另外,计算模型中力场参数的不准确性也是个问题。另一类蛋白质结构预测的方法是统计方法,该类方法对已知结构的蛋白质进行统计分析,建立序列到结构的映射模型,进而根据映射模型对未知结构的蛋白质直接从氨基酸序列预测结构。映射模型可以是定性的,也可以是定量的。这是进行蛋白质结构预测较为成功的类方法。这一类方法包括经验性方法、结构规律提取方法、同源模型化方法等。所谓经验性方法就是根据一定序列形成一定结构的倾向进行结构预测,例如,根据不同氨基酸形成特定二级结构的倾向进行结构预测。通过对已知结构的蛋白质(如蛋白质结构数

生物信息学的一个基本观点是：分子的结构决定分子的性质和分子的功能。因此，生物大分子蛋白质的空间结构决定蛋白质的生物学功能。但是，蛋白质的空间结构又是由什么决定的呢？当一个蛋白质的空间结构被破坏以后，或者蛋白质解折叠后，可以恢复其自然的折叠结构。大量的实验结果证明：蛋白质的结构由蛋白质序列所决定。虽然影响蛋白质空间结构的另一个因素是蛋白质分子所处的溶液环境，但是，决定蛋白质结构的信息则是被编码于氨基酸序列之中。然而，这种编码是否能被破译呢？或者说是否能够直接从氨基酸序列预测出蛋白质的空间结构呢？从数学上讲，蛋白质结构预测的问题是寻找一种从蛋白质的氨基酸线性序列到蛋白质所有原子三维坐标的映射。典型的蛋白质含有几百个氨基酸、上千个原子，而大蛋白质（如载脂蛋白）的氨基酸个数超过 4500。所有可能的序列到结构的映射数随蛋白质氨基酸残基个数呈指数增长，是天文数字。然而幸运的是，自然界实际存在的蛋白质是有限的，并且存在着大量的同源序列，可能的结构类型也不多，序列到结构的关系有一定的规律可循。因此，蛋白质结构预测是可能的。蛋白质结构预测主要有两大类方法。一类是理论分析方法或从头算方法（Ab initio），通过理论计算（如分子力学、分子动力学计算）进行结构预测。该类方法假设折叠后的蛋白质取能量最低的构象。从原则上来说，我们可以根据物理、化学原理，通过计算来进行结构预测。但是在实际中，这种方法往往不合适。主要有几个原因，一是自然的蛋白质结构和未折叠的蛋白质结构，两者之间的能量差非常小（1kcal/mol 数量级），二是蛋白质可能的构象空间庞大，针对蛋白质折叠的计算量非常大。另外，计算模型中力场参数的不准确性也是一个问题。另一类蛋白质结构预测的方法是统计方法，该类方法对已知结构的蛋白质进行统计分析，建立序列到结构的映射模型，进而根据映射模型对未知结构的蛋白质直接从氨基酸序列预测结构。映射模型可以是定性的，也可以是定量的。这是进行蛋白质结构预测较为成功的一类方法。这一类方法包括经验性方法、结构规律提取方法、同源模型化方法等。所谓经验性方法就是根据一定序列形成一定结构的倾向进行结构预测，例如，根据不同氨基酸形成特定二级结构的倾向进行结构预测。通过对已知结构的蛋白质（如蛋白质结构数

据库PDB、蛋白质二级结构数据库DSSP中的蛋白质)进行统计分析,可以发现各种氨基酸形成不同二级结构的倾向,从而形成一系列关于二级结构预测的规则与经验性方法相似的另一种办法是结构规律提取方法,这是更一般的方法。该方法从蛋白质结构数据库中提取关于蛋白质结构形成的一般性规则,指导建立未知结构的蛋白质的模型。有许多提取结构规律的方法,如通过视觉观察的方法,基于统计分析和序列多重比对的方法,利用人工神经网络提取规律的方法同源模型化方法通过同源序列分析或者模式匹配预测蛋白质的空间结构或者结构单元 (如锌指结构、螺旋-转角-螺旋结构、DNA结合区域等)。其原理基于下述事实:每一个自然蛋白质具有一个特定的结构,但许多不同的序列会采用同一个基本的折叠,也就是说, 具有相似序列的蛋白质倾向于折叠成相似的空间结构。一对自然进化的蛋白质,如果它们的序列具有25~30%的等同部分或者更多,则可以假设这两个蛋白质折叠成相似的空间结构。这样,如果一个未知结构的蛋白质与一个已知结构的蛋白质具有足够的序列相似性,那么可以根据相似性原理给未知结构的蛋白质构造一个近似的三维模型。如果目标蛋白质序列的某部分与已知结构的蛋白质的某一结构域区域相似,则可以认为目标蛋白质具有相同的结构域或者功能区域。在蛋白质结构预测方面,预测结果最可靠的方法是同源模型化方法蛋白质的同源性比较往往是借助于序列比对而进行的,通过序列比对可以发现蛋白质之间进化的关系。在蛋白质结构分析方面,通过序列比对可以发现序列保守模式或突变模式, 这些序列模式中包含着非常有用的三维结构信息。利用同源模型化方法可以预测10~30%蛋白质的结构。然而,许多具有相似结构的蛋白质是远程同源的,它们的等同序列不到25%。也就是说,具有相似空间结构的蛋白质序列等同程度可能小于25%。这些蛋白质的同源性不能被传统的序列比对方法所识别。如果通过一个未知序列搜索一个蛋白质序列数据库,并且搜索条件为序列等同程度小于25%的话,那么将会得到大量不相关的蛋白质。因此,搜索远程同源蛋白质就像在干草堆里寻找一根针。寻找远程同源蛋白质是一项困难的任务,处理这项任务的技术称为“线索( THREADING)技术”。对于一个未知结构的蛋白质,仅当我们找不到等同序列大于25%的已知结构的同源蛋白质时,才通过线索技术寻找已知结构的远程同源蛋白质,进而预测其结构。找到一个远程同源蛋白质后,就可以利用远程同源建模方法来建立蛋白质的结构模型

据库 PDB、蛋白质二级结构数据库 DSSP 中的蛋白质）进行统计分析，可以发现各种氨基酸形成不同二级结构的倾向，从而形成一系列关于二级结构预测的规则。与经验性方法相似的另一种办法是结构规律提取方法，这是更一般的方法。该方法从蛋白质结构数据库中提取关于蛋白质结构形成的一般性规则，指导建立未知结构的蛋白质的模型。有许多提取结构规律的方法，如通过视觉观察的方法，基于统计分析和序列多重比对的方法，利用人工神经网络提取规律的方法。同源模型化方法通过同源序列分析或者模式匹配预测蛋白质的空间结构或者结构单元（如锌指结构、螺旋-转角-螺旋结构、DNA 结合区域等）。其原理基于下述事实：每一个自然蛋白质具有一个特定的结构，但许多不同的序列会采用同一个基本的折叠，也就是说，具有相似序列的蛋白质倾向于折叠成相似的空间结构。一对自然进化的蛋白质，如果它们的序列具有 25∼30%的等同部分或者更多，则可以假设这两个蛋白质折叠成相似的空间结构。这样，如果一个未知结构的蛋白质与一个已知结构的蛋白质具有足够的序列相似性，那么可以根据相似性原理给未知结构的蛋白质构造一个近似的三维模型。如果目标蛋白质序列的某一部分与已知结构的蛋白质的某一结构域区域相似，则可以认为目标蛋白质具有相同的结构域或者功能区域。在蛋白质结构预测方面，预测结果最可靠的方法是同源模型化方法。蛋白质的同源性比较往往是借助于序列比对而进行的，通过序列比对可以发现蛋白质之间进化的关系。在蛋白质结构分析方面，通过序列比对可以发现序列保守模式或突变模式，这些序列模式中包含着非常有用的三维结构信息。利用同源模型化方法可以预测 10∼30%蛋白质的结构。然而，许多具有相似结构的蛋白质是远程同源的，它们的等同序列不到 25%。也就是说，具有相似空间结构的蛋白质序列等同程度可能小于 25%。这些蛋白质的同源性不能被传统的序列比对方法所识别。如果通过一个未知序列搜索一个蛋白质序列数据库，并且搜索条件为序列等同程度小于 25%的话，那么将会得到大量不相关的蛋白质。因此，搜索远程同源蛋白质就像在干草堆里寻找一根针。寻找远程同源蛋白质是一项困难的任务，处理这项任务的技术称为“线索（THREADING）技术”。对于一个未知结构的蛋白质，仅当我们找不到等同序列大于 25%的已知结构的同源蛋白质时，才通过线索技术寻找已知结构的远程同源蛋白质，进而预测其结构。找到一个远程同源蛋白质后，就可以利用远程同源建模方法来建立蛋白质的结构模型

点击进入文档下载页（PDF格式）

共42页，可试读14页，点击继续阅读 ↓↓

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录