突变数据矩阵因此成为很多序列分析软件的缺省矩阵,因为它在20%的水平上反映出两个 序列之间的相似性。按理说,使用与比对序列的实际进化距离更接近的相似性矩阵更为有效, 但在实际使用中却无法实现,因为这意味着需要事先知道两个序列之间的进化距离,而导致 先入为主的错误。因此,在实际进行序列比对时,应该选择各种不同的相似性分数矩阵进行 多次比对,并对比对结果进行分析比较,才能得到比较理想的结果 472 BLOSUM矩阵 突变数据矩阵的产生基于相似性较高(通常为85%以上)的序列比对,那些进化距离 较远的矩阵(如PAM250)是从初始模型中推算出来而不是直接计算得到的,其准确率受到 定限制。而序列分析的关键是检测进化距离较远的序列之间是否具有同源性,因此突变数 据矩阵在实际使用时存在着一定的局限性。 为了克服上述弊病, Henikoff'夫妇( Henikof和 Heniko,1992)从蛋白质模块数据库 BLOCKS中找出一组替换矩阵,用于解决序列的远距离相关。在构建矩阵过程中,通过设 置最小相同残基数百分比将序列片段整合在一起,以避免由于同一个残基对被重复计数而引 入的任何潜在的偏差。在每一片段中,计算出每个残基位置的平均贡献,使得整个片段可以 有效地被看作为单一序列。通过设置不同的百分比,产生了不同矩阵。由此,例如高于或等 于80%相同的序列组成的串可用于产生 BLOSUM80矩阵( BIOcks substitution matrix发音 为 blossom):那些有62%或以上相同的串用于产生 BLOSUM62矩阵,依此类推。 473序列比对的统计检验 序列比对实际上是根据特定的数学模型找出两个序列之间的最大匹配残基数。而序列 比对的数学模型一般用来描述两个序列中每一个子字符串之间匹配的情况。通过改变某些参 数可以得到不同的比对结果,例如空位罚分值大小。此外,序列长度差异和字母表复杂度也 会比对结果产生影响。合理地调节参数,会减少空位数目,得到较好的结果,而放宽对空位 罚分的限制,理论上可以对任意两个序列进行比对而得到某个结果。因此,序列比对的结果 并不能作为两者之间一定存在同源关系的依据。 常用序列比对程序通常给出一些统计值,用来表示结果的可信度。 BLAST程序中使用 的统计值有概率p和期望值E。p值表示比对结果得到的分数值的可信度。一般说来,p值 越接近于零,则比对结果的可信度越大;相反,p值越大,则比对结果来自随机匹配的可能 性越大。期望值E描述的是搜索某一特定数据库时,随机出现的匹配序列数目。例如,E值 为1可以解释为当前搜索中,由随机产生的相同分值的匹配的可能性为1。而E值为0则表 明搜索结果不大可能是随机产生的
突变数据矩阵因此成为很多序列分析软件的缺省矩阵,因为它在 20%的水平上反映出两个 序列之间的相似性。按理说,使用与比对序列的实际进化距离更接近的相似性矩阵更为有效, 但在实际使用中却无法实现,因为这意味着需要事先知道两个序列之间的进化距离,而导致 先入为主的错误。因此,在实际进行序列比对时,应该选择各种不同的相似性分数矩阵进行 多次比对,并对比对结果进行分析比较,才能得到比较理想的结果。 4.7.2 BLOSUM 矩阵 突变数据矩阵的产生基于相似性较高(通常为 85%以上)的序列比对,那些进化距离 较远的矩阵(如 PAM250)是从初始模型中推算出来而不是直接计算得到的,其准确率受到 一定限制。而序列分析的关键是检测进化距离较远的序列之间是否具有同源性,因此突变数 据矩阵在实际使用时存在着一定的局限性。 为了克服上述弊病,Henikoff 夫妇(Henikoff 和 Henikoff,1992)从蛋白质模块数据库 BLOCKS 中找出一组替换矩阵,用于解决序列的远距离相关。在构建矩阵过程中,通过设 置最小相同残基数百分比将序列片段整合在一起,以避免由于同一个残基对被重复计数而引 入的任何潜在的偏差。在每一片段中,计算出每个残基位置的平均贡献,使得整个片段可以 有效地被看作为单一序列。通过设置不同的百分比,产生了不同矩阵。由此,例如高于或等 于 80%相同的序列组成的串可用于产生 BLOSUM80 矩阵(BlOcks SUbstitution Matrix 发音 为 blossom);那些有 62%或以上相同的串用于产生 BLOSUM62 矩阵,依此类推。 4.7.3 序列比对的统计检验 序列比对实际上是根据特定的数学模型找出两个序列之间的最大匹配残基数。而序列 比对的数学模型一般用来描述两个序列中每一个子字符串之间匹配的情况。通过改变某些参 数可以得到不同的比对结果,例如空位罚分值大小。此外,序列长度差异和字母表复杂度也 会比对结果产生影响。合理地调节参数,会减少空位数目,得到较好的结果,而放宽对空位 罚分的限制,理论上可以对任意两个序列进行比对而得到某个结果。因此,序列比对的结果 并不能作为两者之间一定存在同源关系的依据。 常用序列比对程序通常给出一些统计值,用来表示结果的可信度。BLAST 程序中使用 的统计值有概率 p 和期望值 E。p 值表示比对结果得到的分数值的可信度。一般说来,p 值 越接近于零,则比对结果的可信度越大;相反,p 值越大,则比对结果来自随机匹配的可能 性越大。期望值 E 描述的是搜索某一特定数据库时,随机出现的匹配序列数目。例如,E 值 为 1 可以解释为当前搜索中,由随机产生的相同分值的匹配的可能性为 1。而 E 值为 0 则表 明搜索结果不大可能是随机产生的
48点阵图 点阵图( dotplot)是用图示方法进行双序列比对的最基本方法。假定由两个序列A和B, 它们的长度不一定相同,但最好相差不大。把序列A的残基序列沿ⅹ轴排列,序列B的残 基序列沿Y轴排列,并构建一个矩阵。该矩阵所有元素的初始值均为0。对每个矩阵元素 XiY,赋予一个相似性值,表示该矩阵元素对应的两个残基之间的相似性程度,其中i的值 为1到序列A的长度,j的值为1到和序列B的长度。如果只考虑同一性而不考虑相似性, 则可以简单地将序列A和序列B相同残基所对应的矩阵元素的值置1,不同残基所对应的 矩阵元素的值置0。 若序列不是很长,上述矩阵很容易用可视化的图形方式表示,例如用某个字符表示值 为1的元素,如表63中的字符X。若序列较长时,则可以使用适当的图形程序(图66) 若序列不是很长,上述矩阵很容易用可视化的图形方式表示,例如用某个字符表示值为 的元素,如表63中的字符X。若序列较长时,则可以使用适当的图形程序(图66)。 M T FRDL S VSFEGPRPDSSAG G FRDLLs SFE
4.8 点阵图 点阵图(dotplot)是用图示方法进行双序列比对的最基本方法。假定由两个序列 A 和 B, 它们的长度不一定相同,但最好相差不大。把序列 A 的残基序列沿 X 轴排列,序列 B 的残 基序列沿 Y 轴排列,并构建一个矩阵。该矩阵所有元素的初始值均为 0。对每个矩阵元素 XiYj,赋予一个相似性值,表示该矩阵元素对应的两个残基之间的相似性程度,其中 i 的值 为 1 到序列 A 的长度,j 的值为 1 到和序列 B 的长度。如果只考虑同一性而不考虑相似性, 则可以简单地将序列 A 和序列 B 相同残基所对应的矩阵元素的值置 1,不同残基所对应的 矩阵元素的值置 0。 若序列不是很长,上述矩阵很容易用可视化的图形方式表示,例如用某个字符表示值 为 1 的元素,如表 6.3 中的字符 X。若序列较长时,则可以使用适当的图形程序(图 6.6)。 若序列不是很长,上述矩阵很容易用可视化的图形方式表示,例如用某个字符表示值为 1 的元素,如表 6.3 中的字符 X。若序列较长时,则可以使用适当的图形程序(图 6.6)。 * M T F R D L L S V S F E G P R P D S S A G G S S A G G M * T * F * * R * * D * * L * * L * * S * * * * * * V * S * * * * * * F * * E * G * * * * * P * * R * * P * *