第五章 核 酸序列分析
第五章核酸序列分析
、碱基组成 DNA序列一个显而易见的特征是 四种碱基类型的分布。几乎所有的 研究都证明碱基是以不同频率分布 的
一、碱基组成 DNA序列一个显而易见的特征是 四种碱基类型的分布。几乎所有的 研究都证明碱基是以不同频率分布 的
表1九种完整DNA序列的碱基组成 序列 名称 碱基频率 总计 A C G T 噬菌体 入 LAMCG 0.250.240.250.26 48502 T PTT 0.270.230.240.26 39936 OX174 PXICG 0.240.220.310.23 5386 病毒 花椰菜镶病毒 MCACGDH 0.370.210.230.19 8016 人类乳头多瘤空泡病毒 BK PVBMM 0.300.200.300.20 肝炎B HPBAYW 0.280.220.230.27 3182 线粒体 人类 HUMMT 0.310.310.250.13 16569 牛 BOVET 0.330.260.270.14 鼠 MUSMT 0.350.240.290.12 16295 Gen Bank数据库中的数据
表1 九种完整DNA序列的碱基组成
成 区段 长度 5′例翼(2) 1000 0.33 0.23 0.22 0.22 3′例翼(2) 1000 0.29 0.15 0.26 0.30 内含子(4) 1996 0.27 0.17 0.27 0.29 外显子(6) 0.24 0.25 0.28 0.22 基因间() 2487 0.32 0.19 0.18 0.31 数据来自EMBL数据库 HSGLBN基因 表2的数据来自两个胎儿球蛋白基因(Gr和Ar), 每个基因具有三个外显子和两个内含子(shen 等1981)。说明序列内和序列间碱基具有不同 的频率。在基因每一侧的500个任意碱基区 域被称为“侧翼”,基因间区域是指两个基因 间的其余序列
表2 人类胎儿球蛋白基因不同区段的碱基组成 表2的数据来自两个胎儿球蛋白基因(Gr和Ar), 每个基因具有三个外显子和两个内含子(shen 等1981)。说明序列内和序列间碱基具有不同 的频率。在基因每一侧的500 个任意碱基区 域被称为“侧翼”,基因间区域是指两个基因 间的其余序列
同向重复序列分析 除了分析整个序列碱基关联程度的特钲外,我 们常对寻找同向重复序列 direct repeats)之类的 题感兴趣。 重复序列大致可以分成三类,即低度重复序列、 中度重复序列和高度重复序列。 中度重复序列的重复次数在10~105之间,占 总DNA的10%~40%,如小鼠基因组的中度重复 序列占20%,果蝇的占15%。通常是非编码序列。 它包括一些蛋白质基因和RNA基因, 高度重复序列的重复次数大于106,基本的重 复序列长度从几个碱基到几百个碱基或更长,占 基因组的10%~60%。既有重复几百万份的基因, 如rRNA基因和某些tRNA基因,更多的则是很 短的非编码序列的重复,这类序列是不能转录的
二.同向重复序列分析 除了分析整个序列碱基关联程度的特征外,我 们常对寻找同向重复序列(direct repeats)之类的问 题感兴趣。 重复序列大致可以分成三类,即低度重复序列、 中度重复序列和高度重复序列。 中度重复序列的重复次数在10~105之间,占 总DNA的10%~40%,如小鼠基因组的中度重复 序列占20%,果蝇的占15%。通常是非编码序列。 它包括一些蛋白质基因和RNA基因, 高度重复序列的重复次数大于106,基本的重 复序列长度从几个碱基到几百个碱基或更长,占 基因组的10%~60%。既有重复几百万份的基因, 如rRNA基因和某些tRNA基因,更多的则是很 短的非编码序列的重复,这类序列是不能转录的