4.1.2.5重复序列分析 脊椎动物基因组中各种重复序列占有很高的 比例。目前已经开发了一批重复序列数据库, 如RepBase(http:lwww.girinst.org/server//RepBase/) 。著名的RepeatMasker软件就是基于该数据库进 行工作(http:/ftp.genome.washington.edu/cgi- bin/RepeatMasker),使用该程序可以进行重复 序列片段分析。 与生物 程 院 2025/5/27 BIOINFORMATICS 21
2025/5/27 BIOINFORMATICS 数 理 与 生 物 工 程 学 院 21 4.1.2.5 重复序列分析 脊椎动物基因组中各种重复序列占有很高的 比例。目前已经开发了一批重复序列数据库, 如 RepBase ( http://www.girinst.org/server/RepBase/ ) 。著名的RepeatMasker软件就是基于该数据库进 行 工 作 ( http://ftp.genome.washington.edu/cgibin/RepeatMasker),使用该程序可以进行重复 序列片段分析
Systems Biology RepeatMasker Web Server RepeatMasker screens DNA sequences in FASTA format against a library of repetitive elements and returns a masked query sequence ready for database searches.RepeatMasker also generates a table annotating the masked regions. Reference:A.F.A.Smit,R.Hubley P.Green,unpublished data.Current Version:open-3.1.3 Check Current Queue Status Basic Options 测览. or GGACAGGAAATATCTATAGATGAACTAAGAAAAGCTTTAAGAAAGGCAACAATAGAGAG Select a sequence file to process or Sequence: AAAGCTCGTTCCCGTTCTTTGCGGTTCTGCATTCAAGAACAAAGGTGTTCAACCCCTTC paste the sequences(s)in FASTA forma TTGACGCAGTTATAGATTACCTGCCTTCTCCTATAGACCTTCCTCCCGTTAAGGGGACA Large sequences will be queued and m AATCCCAAGACCGGGGAAGAAGAGG TCAGACACCCCTCTGACGACGAACCCTTCTGCGC take a while to process. TTACGCCTTTAAGGTTATGTCCGACCCGTATGCCGGACAACTTACCTACATCAGAGTGT TCTCAGGAACGCTAAAAGCGGGTTCTTACGTCTACAACGCAACCAAGGACGAAAA Select the sensitivity of your search Speed/Sensitivity: O rush quick default O slow The more sensitive the longer the processing time. Select a species from the drop dom b Human or select Other. and enter a speci DNA source: name in the text box.Try the protein based repeatmasker if the repeat 图4-5利用RepeatMasker软件分析重复序列的网络界面
图4-5 利用RepeatMasker软件分析重复序列的网络界面
4.1.3基因结构与DNA序列分析 真核基因结构具有一些关键特征(图4-6), 这是我们理解基因结构对序列分析的影响所必 须考虑的。这些特征包括内含子、外显子、编 码序列、非翻译区(untranslated region,.UTR)等 。而原核基因通常缺少内含子,结构相对简单 数理与生物工程学院 2025/5/27 BIOINFORMATICS 23
2025/5/27 BIOINFORMATICS 数 理 与 生 物 工 程 学 院 23 4.1.3 基因结构与DNA序列分析 真核基因结构具有一些关键特征(图4-6), 这是我们理解基因结构对序列分析的影响所必 须考虑的。这些特征包括内含子、外显子、编 码序列、非翻译区(untranslated region, UTR)等 。而原核基因通常缺少内含子,结构相对简单
5 内含子1 内含子2 外昂子1 外异子2 外显子3 单链基因组 转录 CDS 5'UTR 3'UTR mRNA 翻译 蛋白质 图4-6真核基因结构示意图
图4-6 真核基因结构示意图
4.1.3.1非翻译区 非翻译区(UTR)在DNA和RNA中均有 它们是位于蛋白质编码序列(CDS)两侧的序 列,未被翻译成蛋白质。尤其是3端,无论 是对基因还是对物种都是高度特异的。 数理与生物工程学院 2025/5/27 BIOINFORMATICS 25
2025/5/27 BIOINFORMATICS 数 理 与 生 物 工 程 学 院 25 4.1.3.1 非翻译区 非翻译区(UTR)在DNA和RNA中均有 ,它们是位于蛋白质编码序列(CDS)两侧的序 列,未被翻译成蛋白质。尤其是3’端,无论 是对基因还是对物种都是高度特异的