高度重复序列 高度重复序列按其长度可分为: 卫星DNA:重复序列的长度在5~100bp 这些序列聚集在一起,串联排列,总长度可 达100mb( mega base)。它们在人群 中的多态性不强 小卫星DNA:重复序列的长度15~70bp, 串联排列,总长度在05~30kb。这类重复 序列在人群中存在高度的多态性。 微卫星DNA:重复序列的长度在2~6bp, 也有高度的多态性
高度重复序列 • 高度重复序列按其长度可分为: • 卫星DNA:重复序列的长度在5~100bp, 这些序列聚集在一起,串联排列,总长度可 达100mb(mega base)。它们在人群 中的多态性不强 • 小卫星DNA:重复序列的长度15~70bp, 串联排列,总长度在0.5~30kb。这类重复 序列在人群中存在高度的多态性。 • 微卫星DNA:重复序列的长度在2~6bp, 也有高度的多态性
RNA二级结构预测 尽管现有一些RNA折叠程序可以预测 RNA二级结构,但这类分析仍然是一门艺 术。RNA折叠有助于找出RNA分子中可能 的稳定茎区,但对给定的RNA分子来说 这一结果的生物学意义究竟有多大,还是 个未知数。即使有此局限性,二级结构 的预测还是有助于找出mRNA控制区以及 RNA分子中可能形成稳定折叠结构的区段
三、RNA二级结构预测 尽管现有一些RNA折叠程序可以预测 RNA二级结构,但这类分析仍然是一门艺 术。RNA折叠有助于找出RNA分子中可能 的稳定茎区,但对给定的RNA分子来说, 这一结果的生物学意义究竟有多大,还是 一个未知数。即使有此局限性,二级结构 的预测还是有助于找出mRNA控制区以及 RNA分子中可能形成稳定折叠结构的区段
四、从序列中寻找基因 基因组( genome)是指细胞或生物体的 遗传物质的总量。即整套染色体所包含 的DNA分子以及DNA分子所携带的全部 遗传信息。 基因(gene)被认为是DNA长链上 个由特定核苷酸组成并具有特定遗传功 能的片段
四、从序列中寻找基因 • 基因组(genome)是指细胞或生物体的 遗传物质的总量。即整套染色体所包含 的DNA分子以及DNA分子所携带的全部 遗传信息。 • 基因(gene)被认为是DNA长链上一 个由特定核苷酸组成并具有特定遗传功 能的片段
人类基因组DNA总长度约3×10bp(碱基 对),包括约3~4万个基因。有些基因是一个 个独立分布的,在基因与基因之间隔着较长间 隔DNA即非编码区;有些基因则紧密排列在 起形成基因簇即基因复合体(Gene complex or gene clusters)。无论是编 码区还是非编码区,在人类基因组中主要以四 类DNA序列存在,即单一序列、轻度重复序 列、中度重复序列和高度重复序列
• 人类基因组DNA总长度约3×109bp(碱基 对),包括约3~4万个基因。有些基因是一个 个独立分布的,在基因与基因之间隔着较长间 隔DNA即非编码区;有些基因则紧密排列在 一起形成基因簇即基因复合体(Gene complex or gene clusters)。无论是编 码区还是非编码区,在人类基因组中主要以四 类DNA序列存在,即单一序列、轻度重复序 列、中度重复序列和高度重复序列
1基因及基因区域预测 基因按其功能可分为结构基因和调控基因: 结构基因可被转录形成mRNA,并进而转译成多肽链 调控基因是指某些可调节控制结构基因表达的基因 在DNA链上,由蛋白质合成的起始密码开始,到终止 密码子为止的一个连续编码序列称为一个开放阅读框 Open Reading Frame, ORF 结构基因多含有插入序列,除了细菌和病毒的DNA中 ORF是连续的,包括人类在内的真核生物的大部分结 构基因为断裂基因,即其编码序列在DNA分子上是不 连续的,或被插入序列隔开:,经基因被转卖成前体 子),再将编码序列(即外显子)连接形成成熟mRNA, 并翻译成蛋白质
1.基因及基因区域预测 • 基因按其功能可分为结构基因和调控基因: • 结构基因可被转录形成mRNA,并进而转译成多肽链; • 调控基因是指某些可调节控制结构基因表达的基因。 • 在DNA链上,由蛋白质合成的起始密码开始,到终止 密码子为止的一个连续编码序列称为一个开放阅读框 (Open Reading Frame,ORF)。 • 结构基因多含有插入序列,除了细菌和病毒的DNA中 ORF是连续的,包括人类在内的真核生物的大部分结 构基因为断裂基因,即其编码序列在DNA分子上是不 连续的,或被插入序列隔开。断裂基因被转录成前体 mRNA,经过剪切过程,切除其中非编码序列(即内含 子),再将编码序列(即外显子)连接形成成熟mRNA, 并翻译成蛋白质