生物信息学课程生物分子的表示BioinformaticsMer Asp Gly lle LyseValVal AspLeuew五工高思究儿中N-terminusLysLeu AlaC-terminusPAlaLeuGinSer LeuPhe5'end3'enderraeoR自直β-Sheet (3 strands)a-helixHelixStemloopPseudoknotea-forneB-fornPseudoknotStem loopDZ-form0RNAomemonomerenMoneDNAHistoneRNAproteinmonomer27(magetoms/DNA_RNAstUCure_28MR23.crg)htcWioaModifed fromsiong/Prgtareoina/medivraProrein.srctreupng)
7 生物信息学 课程 Bioinformatics (Image from: https://upload.wikimedia.org/wikipedia/commons/d/da/DNA_RNA_structure_%28full%29.png) (Modified from: https://commons.wikimedia.org/wiki/Template:Other_versions/Protein_structure_(full)#/media/File:Protein_structure_(full).png) 生物分子的表示
生物信息学课程本节导语BioinformaticsDNA是遗传信息的载体,DNA的碱基组成和排列顺序决定生物的遗传性状。通过对DNA进行基本序列分析不仅可以揭示与特定功能相关的特征信息,也是基因预测的基础。以下以部分典型分析工具与数据库进行介绍更多内容可见后续章节(如第九章中的蛋白质分析)
生物信息学 课程 Bioinformatics 本节导语 DNA是遗传信息的载体,DNA的碱基组成和排列顺序决定生物的遗传性状。通过对DNA进行基本序列分析 不仅可以揭示与特定功能相关的特征信息,也是基因预测的基础。以下以部分典型分析工具与数据库进行介绍 , 更多内容可见后续章节(如第九章中的蛋白质分析)。 7
生物信息学课程序列比对与分析/序列特征解析Bioinformatics程序或软件名描述整合序列分析工具BioEdit用于分析、编辑和处理DNA序列数据的生物信息学软件EMBOSS综合在线分析软件包DNAMANLynnonBiosoft公司开发的高度集成化的DNA序列编辑软件DNASTAR基于Windows和Macintosh平台的序列分析软件序列变换REVSEQEMBOSS软件包中的序列变换程序之ReverseSequenceManipulationSuite(SMS)中的序列变换程序Complement限制性内切酶位点分析REBASE限制性内切酶数据库限制性内酶切位点分析工具,整合REBASENEBcutterWebCutter限制性内酶切位点分析工具,支持线性和环状DNA序列分析以及寻找沉默诱变位点限制性内切酶切位点分析工具,支持线性和环状DNA序RestrictionMapper列分析重复序列分析RepBase真核生物转座子和重复序列数据库STRBase短事联重复序列(STR)数据库RepeatMasker散布重复和低复杂性重复序列分析工具,使用RepBase和Dfam重复序列数据库CENSOR使用RepBase查找重复序列TandemRepeats串联重复序列分析工具Finder8
生物信息学 课程 Bioinformatics 序列比对与分析/序列特征解析 8
生物信息学课程序列比对与分析/序列特征解析Bioinformatics可以采取多种方式来整合这些信号。早期的工作一般是在经典统计推断框架下,通过显式引入特定的统计模型来对DNA序列进行建模与推断。如通过引入隐马尔科夫模型(HiddenMarkovModel,HMM),可以将DNA序列视为由一组包含多个隐状态的马尔可夫过程“生成”的观测序列。具体来说,根据生物学知识,我们猜测不同位置有不同的统计学特性,比如外显子平均碱基组成较均匀(每个碱基25%),内含子富含A/T故可假设A/T各40%,C/G各10%),并且5SS区域核首酸几乎总是G(故可假设95%G和5%A)。接下来我们根据上述假设构造HMM:A=0.25A=0.05A=0.4C=0.25C=0.1C=0G=0.25G=0.95G=0.1T=0.25T=0T=0.4StartEnd承上启下E5结束开始O10.110010.90.9序列:CTTCATGTGAAAGCAGACGTAAGTCA状态路径:EEEEEEEEEEEEEEEEEEIIIT19
生物信息学 课程 Bioinformatics 可以采取多种方式来整合这些信号。早期的工作一般是在经典统计推 断 框架下,通过显式引入特定的统计模型来对DNA序列进行建模与推断。 如通 过引入隐马尔科夫模型(Hidden Markov Model,HMM),可以将DNA序 列视为 由一组包含多个隐状态的马尔可夫过程“生成”的观测序列。具体 来说,根 据生物学知识,我们猜测不同位置有不同的统计学特性,比如外 显子平均碱 基组成较均匀(每个碱基25%),内含子富含A / T(故可假设A / T 各40%,C / G 各10%),并且5′SS区域核苷酸几乎总是G(故可假设95%G和 5%A)。接下来我 们根据上述假设构造HMM: 承上启下 9 序列比对与分析/序列特征解析
生物信息学课程序列比对与分析/序列特征解析Bioinformatics针对图中给出的碱基序列和状态转移路径元,可以得到在参数为θ的HMM条件下,总体概率logP(S,元HMM,)=-41.22。因此,通过使用Viterbi算法即可得到最可能的状态序列,并进而预测这段序列中5剪接序列的位置(5'SS)。与之类似,美国麻省理工大学的Burge和Karlin于1997年开发的GenScan,是基于广义隐马尔可夫模型的人类及脊椎动物基因预测软件。GenScan通过识别序列中的统计特征,如密码子使用频率、外显子和内含子边界信号的共识序列等,对基因进行预测。它还考虑了基因的起始和终止区域,以及潜在的启动子信号,以提供全面的基因结构预测。025A=0.05A=0.4C=0.25C=0C=0.1G=0.95G=0.25G=0.1T=0.25T=0T=0.4StartEnd5E0○结束开始○1010010.90.9序列:CTTCATGTGAAAGCAGACGTAAGTCA10状态路径:EEEEEEEEEEEEEEEEEE5IITTITI
生物信息学 课程 Bioinformatics 针对图中给出的碱基序列和状态转移路径π,可以得到在参数为 θ 的 HMM条件下,总体概率log P(S,π|HMM,θ)= –41.22。因此,通过使用 Viterbi算法即可得到最可能的状态序列,并进而预测这段序列中5’剪接序列的 位置(5'SS)。 与之类似,美国麻省理工大学的Burge和Karlin于1997年开发的GenScan, 是基于广义隐马尔可夫模型的人类及脊椎动物基因预测软件。GenScan通过识 别序列中的统计特征,如密码子使用频率、外显子和内含子边界信号的共识 序列等,对基因进行预测。它还考虑了基因的起始和终止区域,以及潜在 的 启动子信号,以提供全面的基因结构预测。 序列比对与分析/序列特征解析 10