当前位置：和泉文库 > 生物 > 浏览文档

《生物信息学》课程教学资源（电子讲义）第八章系统发育分析

系统发生(或种系发生、系统发育,phylogeny是指生物形成或进化的历史。系统发生学(phylogenetics)研究物种之间的进化关系,其基本思想是比较物种的特征,并认为特征相似的物种在遗传学上接近。

文件格式：PDF，文件大小：389.52KB，售价：9.78元

文档详细内容（约34页）

基于单个同源基因差异构建的系统发生树称为基因树( gene tree,这比称作物种树 ( species tree)更为合理。因为这种树代表的仅仅是单个基因的进化历史,而不是它所在物种的进化历史。物种树一般最好是通过综合多个基因数据的分析结果而产生。基因树和物种树之间的差异是很重要的,例如,假设只用HLA的等位基因来构建物种树,许多人将与大猩猩分在一起,而不是和其他人分在一起。 813距高和特征用于构建系统发生树的分子数据分成两类:(1)距离( distances)数据,常用距离矩阵描述,表示两个数据集之间所有两两差异:(2)特征( characters数据,表示分子所具有的特征分子系统发生分析的目的是探讨物种之间的进化关系,其分析的对象往往是一组同源的序列。这些序列取自于不同生物基因组的共同位点。序列比对是进行同源分析的一种基本手段,是进行系统发生分析的基础,一般采用基于两两比对渐进的多重序列比对方法,如 Clustalw程序。通过序列的比对,可以分析序列之间的差异,计算序列之间的距离。无论是DNA序列,还是蛋白质序列,都是由特定字母表中的字符组成的。计算序列之间距离的一个前提条件是要有一个字符替换模型,替换模型影响序列多重比对的结果,影响系统发生树的构造结果。在具体的分析过程中,需要选择一个合理的字符替换模型,参见第 3章的各种打分模型或代价、距离模型距离(或者相似度)是反映序列之间关系的一种度量,是建立系统发生树时所常用的类数据。在计算距离之前,首先进行序列比对,然后累加每个比对位置的得分。可以应用第 3章介绍的关于序列比较方法,直接计算序列之间的距离。如果在进行序列比较时使用的是打分函数或相似性度量函数,则需要将相似度(或者得分)转换成距离。令S(ij是序列和序列j各个比对位置得分的加权和,一种归一化的距离计算公式为 d(,)=1-、(a,0-s,(3 (6-1) Sa(2,-S,(

基于单个同源基因差异构建的系统发生树称为基因树（gene tree），这比称作物种树（species tree）更为合理。因为这种树代表的仅仅是单个基因的进化历史，而不是它所在物种的进化历史。物种树一般最好是通过综合多个基因数据的分析结果而产生。基因树和物种树之间的差异是很重要的，例如，假设只用 HLA 的等位基因来构建物种树，许多人将与大猩猩分在一起，而不是和其他人分在一起。 8.1.3 距离和特征用于构建系统发生树的分子数据分成两类：（1）距离（distances）数据，常用距离矩阵描述，表示两个数据集之间所有两两差异；（2）特征(characters)数据，表示分子所具有的特征。分子系统发生分析的目的是探讨物种之间的进化关系，其分析的对象往往是一组同源的序列。这些序列取自于不同生物基因组的共同位点。序列比对是进行同源分析的一种基本手段，是进行系统发生分析的基础，一般采用基于两两比对渐进的多重序列比对方法，如 ClustalW 程序。通过序列的比对，可以分析序列之间的差异，计算序列之间的距离。无论是 DNA 序列，还是蛋白质序列，都是由特定字母表中的字符组成的。计算序列之间距离的一个前提条件是要有一个字符替换模型，替换模型影响序列多重比对的结果，影响系统发生树的构造结果。在具体的分析过程中，需要选择一个合理的字符替换模型，参见第 3 章的各种打分模型或代价、距离模型。距离（或者相似度）是反映序列之间关系的一种度量，是建立系统发生树时所常用的一类数据。在计算距离之前，首先进行序列比对，然后累加每个比对位置的得分。可以应用第 3 章介绍的关于序列比较方法，直接计算序列之间的距离。如果在进行序列比较时使用的是打分函数或相似性度量函数，则需要将相似度（或者得分）转换成距离。令 S(i,j)是序列 i 和序列 j 各个比对位置得分的加权和，一种归一化的距离计算公式为：

其中,S(ij)是序列i和j随机化之后的比对得分的加权和,Sm()是两条序列所有可能的比对的最大值(当两条序列相同时,取最大值)。两个序列归一化距离的值处于0和1之间, 当两个序列完全一致时,距离为0:当两个序列差异很大时,距离接近于1。如果在上式中令Sj)=0,则计算公式变为 d(,j)=1 S(,) (6-2) (2, 为了适合于处理相似性较小的序列,可以进一步修改距离计算公式 d6,=-n, (6-3) 序列比对得分的加权和可以根据常用的打分矩阵获得,如果待处理的序列是蛋白质,则用 PAM矩阵、 BLOSUM矩阵等;如果待处理的序列是DNA或者RNA,则用等价矩阵、核苷酸转换-颠换矩阵或者其它具有非对称置换频率的矩阵距离是系统发生分析时所使用的一类数据,另一类数据就是所谓的离散特征数据。离散特征数据可分为二态特征与多态特征。二态的离散特征只有2种可能的状况,即具有与不具有某种特征,通常用“0”或“1”表示。例如,DNA序列上的某个位置如果是剪切位点,其特征值为1,否则为0。多态离散特征具有两种以上可能的状态,如核酸的序列信息,对序列中某一位置来说,其可能的碱基有A、T、G、C共4种。可以将特征数据转换为距离数据如果建立所有可能状态之间相似性的度量,特征数据就很容易被转换成距离数据。 814分子系统发生分析过程分子系统发生分析主要分成三个步骤:(1)分子序列或特征数据的分析:(2)系统发生树的构造:(3)结果的检验。其中,第一步的作用是通过分析,产生距离或特征数据, 为建立系统发生树提供依据系统发生树的构建方法很多种。根据所处理数据的类型,可以将系统发生树的构建方法大体上分为两大类。一类是基于距离的构建方法,利用所有物种或分类单元间的进化距离依据一定的原则及算法构建系统发生树。基本思路是列出所有可能的序列对,计算序列之间

其中，Sr(i,j)是序列 i 和 j 随机化之后的比对得分的加权和，Smax(i,j)是两条序列所有可能的比对的最大值（当两条序列相同时，取最大值）。两个序列归一化距离的值处于 0 和 1 之间，当两个序列完全一致时，距离为 0；当两个序列差异很大时，距离接近于 1。如果在上式中令 Sr(i,j)=0，则计算公式变为：为了适合于处理相似性较小的序列，可以进一步修改距离计算公式：序列比对得分的加权和可以根据常用的打分矩阵获得，如果待处理的序列是蛋白质，则用 PAM 矩阵、BLOSUM 矩阵等；如果待处理的序列是 DNA 或者 RNA，则用等价矩阵、核苷酸转换-颠换矩阵或者其它具有非对称置换频率的矩阵。距离是系统发生分析时所使用的一类数据，另一类数据就是所谓的离散特征数据。离散特征数据可分为二态特征与多态特征。二态的离散特征只有 2 种可能的状况，即具有与不具有某种特征，通常用“0”或“1”表示。例如，DNA 序列上的某个位置如果是剪切位点，其特征值为 1，否则为 0。多态离散特征具有两种以上可能的状态，如核酸的序列信息，对序列中某一位置来说，其可能的碱基有Ａ、Ｔ、Ｇ、Ｃ共 4 种。可以将特征数据转换为距离数据。如果建立所有可能状态之间相似性的度量，特征数据就很容易被转换成距离数据。 8.1.4 分子系统发生分析过程分子系统发生分析主要分成三个步骤：（1）分子序列或特征数据的分析；（2）系统发生树的构造；（3）结果的检验。其中，第一步的作用是通过分析，产生距离或特征数据，为建立系统发生树提供依据。系统发生树的构建方法很多种。根据所处理数据的类型，可以将系统发生树的构建方法大体上分为两大类。一类是基于距离的构建方法，利用所有物种或分类单元间的进化距离，依据一定的原则及算法构建系统发生树。基本思路是列出所有可能的序列对，计算序列之间

的遗传距离,选出相似程度比较大或非常相关的序列对,利用遗传距离预测进化关系。这类方法有非加权分组平均法( unweighted pair group method with arithmetic means)、邻近归并法( neighbor joining method)、 Fitch- Margoliash法、最小进化方法( minimum evolution)等另一类方法是基于离散特征的构建方法,利用的是具有离散特征状态的数据,如DNA序列中的特定位点的核苷酸。建树时,着重分析分类单位或序列间每个特征(如核苷酸位点) 进化关系等。属于这一类的方法有最大简约法( maximum parsimony method)、最大似然法 ( maximum likelihood method)、进化简约法( evolutionary parsimony method)、相容性方法( compatibility)等。对相似性和距离数据,在重建系统发生树时只能利用距离法。离散特征数据通过适当的方法可转换成距离数据,因此,对于这类数据在重建系统发生树时,既可以用距离法,亦可以采用离散特征法。根据建树算法在执行过程中采用的搜索方式,系统发生树的构建方法也可以分为三类。第一类是穷尽搜索方法,即产生所有可能的树,然后根据评价标准选择一棵最优的树。需要注意的是,系统发生树可能的个数随序列的个数急剧增加。假设要为n个分类单元建立系统发生树,则可能的有根树个数(Ng)和无根系统发生树个数(Nu)可用下面的算式计算得 (64) 22(x-2 可以看到,随着n的增加,可能的有根系统发生树和无根系统发生树的数目迅速增加。表 61中列出了一些n值,以及对应的有根树和无根树的数目。当n大于等于15时,可能的系统发生树数目变得非常惊人,但是只有其中的一棵树代表了待分析的基因或者物种之间的真实进化关系,我们的目的就是找出这棵反映真实进化关系的树。表6.1对不同的n,可能的有根树和无根树数目数据数目有根树数目无根树数目 15 15

的遗传距离，选出相似程度比较大或非常相关的序列对，利用遗传距离预测进化关系。这类方法有非加权分组平均法（unweighted pair group method with arithmetic means）、邻近归并法（neighbor joining method）、Fitch-Margoliash 法、最小进化方法（minimum evolution）等。另一类方法是基于离散特征的构建方法，利用的是具有离散特征状态的数据，如 DNA 序列中的特定位点的核苷酸。建树时，着重分析分类单位或序列间每个特征（如核苷酸位点）的进化关系等。属于这一类的方法有最大简约法（maximum parsimony method）、最大似然法（maximum likelihood method）、进化简约法（evolutionary parsimony method）、相容性方法（compatibility）等。对相似性和距离数据，在重建系统发生树时只能利用距离法。离散特征数据通过适当的方法可转换成距离数据，因此，对于这类数据在重建系统发生树时，既可以用距离法，亦可以采用离散特征法。根据建树算法在执行过程中采用的搜索方式，系统发生树的构建方法也可以分为三类。第一类是穷尽搜索方法，即产生所有可能的树，然后根据评价标准选择一棵最优的树。需要注意的是，系统发生树可能的个数随序列的个数急剧增加。假设要为 n 个分类单元建立系统发生树，则可能的有根树个数（NR）和无根系统发生树个数（NU）可用下面的算式计算得到：可以看到，随着 n 的增加，可能的有根系统发生树和无根系统发生树的数目迅速增加。表 6.1 中列出了一些 n 值，以及对应的有根树和无根树的数目。当 n 大于等于 15 时，可能的系统发生树数目变得非常惊人，但是只有其中的一棵树代表了待分析的基因或者物种之间的真实进化关系，我们的目的就是找出这棵反映真实进化关系的树。表 6.1 对不同的 n，可能的有根树和无根树数目数据数目有根树数目无根树数目 2 1 1 3 3 1 4 15 3 5 105 15

050 34.459425 2.207.025 213,458,046,767,875 7,905,853,580,625 8,200,794,532,637,891,559,375221,643,095476,699,771,875 从计算量来看,穷尽搜索方法只能处理很少的分类单元。当分类单元个数n大于一定值 (如15),几乎不可能采用穷尽搜索的方式来求取最优树第二类方法是分支约束方法,即根据一定的约束条件将搜索空间限制在一定范围内,产生可能的树,然后择优。这是人工智能技术中的一种空间搜索策略,这种搜索方式不需要搜索整个树空间,可大大提高搜索效率。第三类是启发式或经验性方法,即根据先验知识或一定的指导性规则压缩搜索空间,提高计算速度。这种方法能够处理大量的分类单元,虽然不能保证所构建的树是最优的,但实际结果往往接近于最优解。当待分析的对象个数比较多时, 必须采用分支约束方法或者启发式的方法。在构造系统发生树时需要考虑进化假设和进化模型。系统发生树的类型可能是有根树, 这意味着其中的一个序列代表其他所有序列共同的祖先。另一方面,系统发生树可能是无根树,意味着没有共同的祖先。一般认为序列是随机进化的,序列中的所有位点的进化也是随机的而且是独立的。在进行具体的系统发生分析时,一般还要作一些假设:序列必须是正确无误的,待分析的序列是同源的,所有的序列都起源于同一个祖先序列,并且它们不是共生同源(或平行进化)序列,在序列比对中,不同序列的同一个位点都是同源个物种在系统发生树上分化后,各自独立进化发展。对系统发生分析的样本也有一定的要求, 要求样本足以反映感兴趣的问题,样本序列之间的差异包含了足以解决感兴趣的问题的系统发生信息。通过某种算法构造好一棵系统发生树之后,需要对树的合理性和可靠性进行分析。对于若干条序列,如果利用多种不同的分析方法进行系统发生分析,并且得到相似的进化关系那么分析结果具有较高的可信度。 82基于距高的系统发生树构建方法建立系统发生树的基本任务是:在给定的条件下(包括分类单元、分类单元的特征值或者序列),构造一棵最优的系统发生树。这里重点讨论针对DNA序列或者蛋白质序列构建系统发生树

10 34,459,425 2,207,025 15 213,458,046,767,875 7,905,853,580,625 20 8,200,794,532,637,891,559,375 221,643,095,476,699,771,875 从计算量来看，穷尽搜索方法只能处理很少的分类单元。当分类单元个数 n 大于一定值（如 15），几乎不可能采用穷尽搜索的方式来求取最优树。第二类方法是分支约束方法，即根据一定的约束条件将搜索空间限制在一定范围内，产生可能的树，然后择优。这是人工智能技术中的一种空间搜索策略，这种搜索方式不需要搜索整个树空间，可大大提高搜索效率。第三类是启发式或经验性方法，即根据先验知识或一定的指导性规则压缩搜索空间，提高计算速度。这种方法能够处理大量的分类单元，虽然不能保证所构建的树是最优的，但实际结果往往接近于最优解。当待分析的对象个数比较多时，必须采用分支约束方法或者启发式的方法。在构造系统发生树时需要考虑进化假设和进化模型。系统发生树的类型可能是有根树，这意味着其中的一个序列代表其他所有序列共同的祖先。另一方面，系统发生树可能是无根树，意味着没有共同的祖先。一般认为序列是随机进化的，序列中的所有位点的进化也是随机的而且是独立的。在进行具体的系统发生分析时，一般还要作一些假设：序列必须是正确无误的，待分析的序列是同源的，所有的序列都起源于同一个祖先序列，并且它们不是共生同源（或平行进化）序列，在序列比对中，不同序列的同一个位点都是同源的。另外，当两个物种在系统发生树上分化后，各自独立进化发展。对系统发生分析的样本也有一定的要求，要求样本足以反映感兴趣的问题，样本序列之间的差异包含了足以解决感兴趣的问题的系统发生信息。通过某种算法构造好一棵系统发生树之后，需要对树的合理性和可靠性进行分析。对于若干条序列，如果利用多种不同的分析方法进行系统发生分析，并且得到相似的进化关系，那么分析结果具有较高的可信度。 8.2 基于距离的系统发生树构建方法建立系统发生树的基本任务是：在给定的条件下（包括分类单元、分类单元的特征值或者序列），构造一棵最优的系统发生树。这里重点讨论针对 DNA 序列或者蛋白质序列构建系统发生树

点击进入文档下载页（PDF格式）

共34页，可试读12页，点击继续阅读 ↓↓

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录