同源性,一致性和相似性的定义 1)同源 homological)基因系指起源于同一祖先但顺序已 经发生变异的基因成员,分布在不同物种间的同源基因 又称直系基因.同一物种的同源基因则称水平基因,水 平基因由重复后趋异产生 )基因同源性只有“是”和“非”的区别,无所谓百分比 3)一致性( (identity)系指同源DNA顺序的同一碱基位置的 相同的碱基成员,或者蛋白质的同一氨基酸位置的相同 的氨基酸成员,可用百分比表示 4)相似性( (similarity)系指同源蛋白质的氨基酸顺序中 致性氨基酸和可取代氨基酸所占的比例.可取代氨基酸 系指具有相同性质如极性氨基酸或非极性氨基酸的成 员,它们之间的代换不影响蛋白质(或酶)的生物学功能
同源性,一致性和相似性的定义 1) 同源(homological) 基因系指起源于同一祖先但顺序已 经发生变异的基因成员, 分布在不同物种间的同源基因 又称直系基因. 同一物种的同源基因则称水平基因, 水 平基因由重复后趋异产生. 2) 基因同源性只有“是”和“非”的区别, 无所谓百分比. 3) 一致性(identity)系指同源DNA顺序的同一碱基位置的 相同的碱基成员, 或者蛋白质的同一氨基酸位置的相同 的氨基酸成员, 可用百分比表示. 4) 相似性(similarity)系指同源蛋白质的氨基酸顺序中一 致性氨基酸和可取代氨基酸所占的比例. 可取代氨基酸 系指具有相同性质如极性氨基酸或非极性氨基酸的成 员, 它们之间的代换不影响蛋白质(或酶)的生物学功能
相似性与一致性 249 MFN-MAI PFGAGAYAQALNQQQAALMASVAQGG 232 I LTSL TLPFS AGAYAQALNQQQTTVIS--TSGS 注:红色为一致性氨基酸,蓝色为可取代氨基酸,白色为趋 异氨基酸 一致性氨基酸百分比为红色氨基酸所占的比例 相似性氨基酸百分比为红色和蓝色氨基酸相加所占的比 例
相似性与一致性 249 MFN-MAI PFGAGAYAQALNQQQAALMASVAQGG 232 I LTSL TLPFS AGAYAQALNQQQTTV I S - -T S GS 注: 红色为一致性氨基酸, 蓝色为可取代氨基酸, 白色为趋 异氨基酸. 一致性氨基酸百分比为红色氨基酸所占的比例. 相似性氨基酸百分比为红色和蓝色氨基酸相加所占的比 例
基因注释的方法 1.目前基因注释的方法主要依赖于生物信息学方 面的分析结论,它们包括以下自动注释内容 I) ab inition软件的预测,依据基因结构的特点 2)同源性比较 3)基序( motif或功能域( domain)分析预测基因 功能 2.基因功能的分类主要采用 ONTOLOGY标准 3.人工注释系指人为检测评价自动注释的结果并 根据其它数据进行分析与校正 4.实验注释系根据实验结果进行注释 5.基因功能注释与调控顺序注释仍处于起始阶段
基因注释的方法 1. 目前基因注释的方法主要依赖于生物信息学方 面的分析结论,它们包括以下自动注释内容: 1) ab inition 软件的预测, 依据基因结构的特点. 2) 同源性比较 3) 基序(motif)或功能域(domain)分析预测基因 功能. 2. 基因功能的分类主要采用ONTOLOGY标准. 3. 人工注释系指人为检测评价自动注释的结果并 根据其它数据进行分析与校正. 4. 实验注释系根据实验结果进行注释. 5. 基因功能注释与调控顺序注释仍处于起始阶段
现有基因注释软件的特点 1)目前基因注释程序的编写主要依据两种信息内涵: 1. signal terms(信号指令),如起始密码,终止密码, 终止信号,剪接受体位与供体位顺序,多聚嘧啶顺序, 分支点等保守的顺序组成; 2. content terms(内容指令),如密码子使用偏好. 对结构紧凑的小基因组上述注释软件效果不错,但对大基 因组特别是超长基因的注释有很大困难.在一个长度数十 或数百kb的内含子中,存在许多可能误判的信号指令 2)常用的注释软如 GenScan主要偏重于内容指令,而 FgeneSH则着重于信号指令 由于每种生物都有种属专一性的密码子偏好,也存在某些非 保守的信号指令,因此在超长基因注释中常出现正向错 误( false- positive,多注释)或负向错误( false negetive,少注释) EI E: Nature Reviews/Genetics, 4: 741-749, 2003
现有基因注释软件的特点 1)目前基因注释程序的编写主要依据两种信息内涵: 1.signal terms (信号指令), 如起始密码, 终止密码, 终止信号, 剪接受体位与供体位顺序, 多聚嘧啶顺序, 分支点等保守的顺序组成; 2.content terms (内容指令), 如密码子使用偏好. 对结构紧凑的小基因组上述注释软件效果不错,但对大基 因组特别是超长基因的注释有很大困难.在一个长度数十 或数百kb的内含子中, 存在许多可能误判的信号指令. 2) 常 用 的 注 释 软 如 GenScan 主 要 偏 重 于 内 容 指 令 , 而 FgeneSH则着重于信号指令. 由于每种生物都有种属专一性的密码子偏好,也存在某些非 保守的信号指令, 因此在超长基因注释中常出现正向错 误 (false-positive, 多注释 ) 或 负 向 错 误 (falsenegetive, 少注释). 引自: Nature Reviews/Genetics, 4:741-749,2003
基因自动注释软件的问题 1)基因注释一般包括如下内容:基因组DNA顺序中确 切的转录为mRNA的顺序;外显子和内含子的位置; 基因编码的蛋白质顺序. 2)在目前即使已有很好研究基础的生物中,最好的计算 机基因注释程序对每个外显子注释的准确率也只能 达到80%如果一个基因有5个外显子,整个基因注释 的准确率为0.85=33% 3)基因注释的软件通常容易犯误拼和误拆的错误即将 两个基因归在一个,或者反过来 4)容易遗漏很小的外显子,特别是保守性不强的基因 5)容易忽略小基因. 6)无法预测mRNA中5-和3-非翻译区(UTR,即很难确 定转录起点与终点
基因自动注释软件的问题 1) 基因注释一般包括如下内容: 基因组DNA顺序中确 切的转录为mRNA的顺序; 外显子和内含子的位置; 基因编码的蛋白质顺序. 2) 在目前即使已有很好研究基础的生物中, 最好的计算 机基因注释程序对每个外显子注释的准确率也只能 达到80%.如果一个基因有5个外显子, 整个基因注释 的准确率为0.85=33%. 3) 基因注释的软件通常容易犯误拼和误拆的错误, 即将 两个基因归在一个, 或者反过来. 4) 容易遗漏很小的外显子, 特别是保守性不强的基因. 5) 容易忽略小基因. 6) 无法预测mRNA中5’-和3-’非翻译区(UTR), 即很难确 定转录起点与终点