Chou- Fasman预测方法原理简单明了,二级结构参数的物理意义明确,该方法中二级 结构的成核、延伸和终止规则基本上反映了真实蛋白质中二级结构形成的过程。该方法的预 测准确率在50%左右。 923GOR方法 GOR是一种基于信息论和贝叶斯统计学的方法,方法的名称以三个发明人姓名的第 个字母组合而成( Garnier, Osguthorpe, Robson)。信息论是于1950-1960期间发展起来的, 其基本理论由 Shannon首先提出,主要针对解决信息传递和处理问题 GOR方法将蛋白质序列当作一连串的信息值来处理,该方法不仅考虑了被预测位置本 身氨基酸残基种类的影响,而且考虑了相邻残基种类对该位置构象的影响。GOR针对长度 为17的残基窗进行二级结构预测。对序列中的每一个残基,GOR方法将与它N端紧邻的8 个残基和C端紧邻的8个残基与它放在一起进行考虑。与Chou- Fasman方法一样,GOR方 法也是通过对已知二级结构的蛋白样本集进行分析,计算出中心残基的二级结构分别为螺 旋、折叠和转角时每种氨基酸出现在窗口中各个位置的频率,从而产生一个17×20的得分 矩阵。然后利用矩阵中的值来计算待预测的序列中每个残基形成螺旋、折叠或者转角的概率。 GOR方法是基于信息论来计算这些参数的,下面介绍GOR方法的数学基础。 首先考虑两个事件S和R的条件概率P(SR),即在R发生的条件下,S发生的概率。定 义信息为: 1(S, R)=log[ P(S R)/P(S (7-2) 若S和R无关,即fPS的=P(,则I(,R=0:若R的发生有利于S的发生, 即2(S>F(8),则(8,2)>0;如果R的发生不利于S的发生,则有 P(S|<S),E(s,R<0 使用对数的优点在于可将概率的乘积变为信息值的加和。在二级结构预测过程中,S表 示特殊的二级结构类型,R代表氨基酸残基,P(S)就是残基R处于二级结构类型S的 概率。P(S是在统计过程中观察到二级结构类型S的概率
Chou-Fasman 预测方法原理简单明了,二级结构参数的物理意义明确,该方法中二级 结构的成核、延伸和终止规则基本上反映了真实蛋白质中二级结构形成的过程。该方法的预 测准确率在 50%左右。 9.2.3 GOR 方法 GOR 是一种基于信息论和贝叶斯统计学的方法,方法的名称以三个发明人姓名的第一 个字母组合而成(Garnier, Osguthorpe, Robson)。信息论是于 1950-1960 期间发展起来的, 其基本理论由 Shannon 首先提出,主要针对解决信息传递和处理问题。 GOR 方法将蛋白质序列当作一连串的信息值来处理,该方法不仅考虑了被预测位置本 身氨基酸残基种类的影响,而且考虑了相邻残基种类对该位置构象的影响。GOR 针对长度 为 17 的残基窗进行二级结构预测。对序列中的每一个残基,GOR 方法将与它 N 端紧邻的 8 个残基和 C 端紧邻的 8 个残基与它放在一起进行考虑。与 Chou-Fasman 方法一样,GOR 方 法也是通过对已知二级结构的蛋白样本集进行分析,计算出中心残基的二级结构分别为螺 旋、折叠和转角时每种氨基酸出现在窗口中各个位置的频率,从而产生一个 17×20 的得分 矩阵。然后利用矩阵中的值来计算待预测的序列中每个残基形成螺旋、折叠或者转角的概率。 GOR 方法是基于信息论来计算这些参数的,下面介绍 GOR 方法的数学基础。 首先考虑两个事件 S 和 R 的条件概率 P(S|R),即在 R 发生的条件下,S 发生的概率。定 义信息为: 若 S 和 R 无关,即 ,则 ;若 R 的发生有利于 S 的发生, 即 , 则 ;如果 R 的发生不利于 S 的发生,则有 , 。 使用对数的优点在于可将概率的乘积变为信息值的加和。在二级结构预测过程中,S 表 示特殊的二级结构类型,R 代表氨基酸残基, 就是残基 R 处于二级结构类型 S 的 概率。P(S)是在统计过程中观察到二级结构类型 S 的概率
根据条件概率的定义: (S|)=P(S,R (7-3) P(R) P(SR)是同时观察到S和R的联合概率,而P(R)是R的出现概率。对现有蛋白质序列数据库和 级结构数据库进行数学统计分析,很容易得到ISR)。如果令N为数据库中总的氨基酸残基 的个数,为残基R的总个数,为处于二级结构类型S的残基总数,R为残基R处于二级结 构类型S的总数,则 P(S, R) P(R)=fR/N (7-4) P(S)=fs/N R处于二级结构类型S的信息值按下式计算 I(S; R)=log[( sr/ fa)(s/N)] 75) Robson提出一种信息差的计算公式: I(AS: R)=1(S: R)-I(S,R)=log(sr/fs,r)+log(fs fs) (7-6) 这里,S’表示除S之外的其它所有二级结构类型。例如,如果S代表a螺旋,则在三态情 况下,S代表β折叠或者转角。公式(7-6)从正反两个方面给出关于氨基酸残基R与二级 结构S关系的信息值 若R可分为两个较简单的事件R1和R2,则有 (S,B)=l(s,R1,R2)=log[P(S|1,R2)/P(S) (7-7) =log P(S|R1, R2)/P(S,)]+log[ P(S R))/P(S) 式中第一项表示在R发生的条件下,R2对事件S的影响,第二项则表示R1对S的影响。上式可 改写为
根据条件概率的定义: P(S,R)是同时观察到S和R的联合概率,而P(R)是R的出现概率。对现有蛋白质序列数据库和二 级结构数据库进行数学统计分析,很容易得到I(S;R)。如果令N为数据库中总的氨基酸残基 的个数,fR为残基R的总个数,fS为处于二级结构类型S的残基总数,fS,R为残基R处于二级结 构类型S的总数,则: R 处于二级结构类型 S 的信息值按下式计算: Robson 提出一种信息差的计算公式: 这里,S’ 表示除 S 之外的其它所有二级结构类型。例如,如果 S 代表 α 螺旋,则在三态情 况下,S’代表 β 折叠或者转角。公式(7-6)从正反两个方面给出关于氨基酸残基 R 与二级 结构 S 关系的信息值。 若R可分为两个较简单的事件R1和R2,则有: 式中第一项表示在R1发生的条件下,R2对事件S的影响,第二项则表示R1对S的影响。上式可 改写为
I(S,2)=l(S,R2|R1)+(S,R1) 同理,若R可分解为一系列的简单事件R,R Rn,则有 l(|R)=l(S,R1)+l(S,R2|1)+l(S,R3|R2,R1) +…+(S,R2|R1,R2,…,R2-1) 这里,R1,R2,….,Rn代表蛋白质序列中一组连续的残基,预测的对象是中心残基,判断它 处于什么样的构象态,其它残基作为环境。GOR方法只考虑待预测残基及其两侧各8个残 最早期的GOR方法采用了独立事件近似,即 (△S,R)=l(△S,R1)+l(△S,R2)+…+(△S,R2) 后来的改进GOR方法则考虑了中心残基R1的影响,信息计算公式如下 I(AS,R)=I(AS,R1)+I(△S,R2|R1)+(A,R3|B1)+…+l(△S,2|R1)(71) 通过统计,可以得出各种残基R处于中心残基周围各位置i时的信息值(△S,R)或 I(ASR|R1),它们反映了周边残基对中心残基形成特定二级结构的影响。再通过近似公 式(7-10)或(7-1),就可计算出(△SR)。对于一条肽链中任一位置残基r的构象预测过程 包括三个步骤:(1)以r为中心,取其左右两侧共17个残基作为计算的窗口(记为R); (2)取窗口内每个残基的信息值I(△sR),并按照公式(7-10)或者公式(7-1)加和,得到 F(△&R):(3)中心残基r的二级结构预测为(SR)最大的二级结构类型S 假定数据库中有1830个残基,780个处于螺旋态,1050个处于非螺旋态。库中共有390 个丙氨酸(A),有240个A处于螺旋态,其余150个A处于非螺旋态。可得:
同理,若R可分解为一系列的简单事件R1,R2,…,Rn,则有 这里,R1,R2,…,Rn代表蛋白质序列中一组连续的残基,预测的对象是中心残基,判断它 处于什么样的构象态,其它残基作为环境。GOR方法只考虑待预测残基及其两侧各 8 个残 基。 最早期的 GOR 方法采用了独立事件近似,即 后来的改进GOR方法则考虑了中心残基R1的影响,信息计算公式如下: 通过统计,可以得出各种残基 R 处于中心残基周围各位置 i 时的信息值 或 ,它们反映了周边残基对中心残基形成特定二级结构的影响。再通过近似公 式(7-10)或(7-11),就可计算出 。对于一条肽链中任一位置残基 r 的构象预测过程 包括三个步骤:(1)以 r 为中心,取其左右两侧共 17 个残基作为计算的窗口(记为 R); (2)取窗口内每个残基的信息值 ,并按照公式(7-10)或者公式(7-11)加和,得到 ;(3)中心残基 r 的二级结构预测为 最大的二级结构类型 S。 假定数据库中有 1830 个残基,780 个处于螺旋态,1050 个处于非螺旋态。库中共有 390 个丙氨酸(A),有 240 个 A 处于螺旋态,其余 150 个 A 处于非螺旋态。可得:
JF=7801830 J=1050:1830 0390 J票A=1507390 根据公式(7-6),有: 1(AH; 4)=log()+1og(r/ 2 =log(2407390)150390)+log(1050/183001830) 0.7650 这里H代表二级结构螺旋态,而H'代表除H以外的其它类型二级结构,I(△H,A) 就是丙氨酸A处于中心位置时的螺旋信息值 早期GOR方法假设窗口内17个残基(包括中心残基及左右两侧各8个残基)是相互 独立的,每个残基独立地影响中心残基的二级结构。在此基础上统计了75个蛋白质的结构, 总共有12757个残基,所作统计结果为:螺旋297%,折叠197%,转角122%,无规卷曲 38.3%。根据所得到的信息值【(Δs玛〕,发现有些残基的信息值中心对称,在窗口中心 处其值取最大或者最小。例如,A的螺旋信息值、I的折叠信息值在窗口中心处取最大,这 类残基越靠近窗口中心,中心残基就越容易形成特定二级结构:又如,G螺旋信息值、L的 转角信息值在窗口中心处取最小,这类残基离窗口中心越近,中心残基形成特定构象的机会 越小。有些残基的信息值是不对称的,在一端为正,而在另一端为负。有的残基在N端为 正,C端为负,这类残基位于N端时有利于中心残基形成特定构象,例如,E对于螺旋支持 程度属于这种情况:有的残基在N端为负,C端为正,当这类残基位于C端时有利于中心 残基形成特定构象,比如,K对于螺旋的支持程度属于这种情况 GOR方法中的信息值构成了20种氨基酸出现在不同位置时的直接信息量表,根据该表 和相关计算公式,就可以对一条肽链中任一位置残基的构象进行预测。GOR方法的物理意 义明确,数学上比较严格,但计算过程较为复杂。应用GOR方法预测蛋白质的二级结构为 螺旋、折叠或者转角的准确率大约为65% 924基于氨基酸疏水性的预测方法
根据公式(7-6),有: 这里 H 代表二级结构螺旋态,而 H’代表除 H 以外的其它类型二级结构, I(∆H;A) 就是丙氨酸 A 处于中心位置时的螺旋信息值。 早期 GOR 方法假设窗口内 17 个残基(包括中心残基及左右两侧各 8 个残基)是相互 独立的,每个残基独立地影响中心残基的二级结构。在此基础上统计了 75 个蛋白质的结构, 总共有 12757 个残基,所作统计结果为:螺旋 29.7%,折叠 19.7%,转角 12.2%,无规卷曲 38.3% 。根据所得到的信息值 ,发现有些残基的信息值中心对称,在窗口中心 处其值取最大或者最小。例如,A 的螺旋信息值、I 的折叠信息值在窗口中心处取最大,这 类残基越靠近窗口中心,中心残基就越容易形成特定二级结构;又如,G 螺旋信息值、L 的 转角信息值在窗口中心处取最小,这类残基离窗口中心越近,中心残基形成特定构象的机会 越小。有些残基的信息值是不对称的,在一端为正,而在另一端为负。有的残基在 N 端为 正,C 端为负,这类残基位于 N 端时有利于中心残基形成特定构象,例如,E 对于螺旋支持 程度属于这种情况;有的残基在 N 端为负,C 端为正,当这类残基位于 C 端时有利于中心 残基形成特定构象,比如,K 对于螺旋的支持程度属于这种情况。 GOR 方法中的信息值构成了 20 种氨基酸出现在不同位置时的直接信息量表,根据该表 和相关计算公式,就可以对一条肽链中任一位置残基的构象进行预测。GOR 方法的物理意 义明确,数学上比较严格,但计算过程较为复杂。应用 GOR 方法预测蛋白质的二级结构为 螺旋、折叠或者转角的准确率大约为 65%。 9.2.4 基于氨基酸疏水性的预测方法