第十四章基因表达调控 学习目标 通过本章的学习,你应该能够: 掌握基因与基因组的概念。基因表达的概念。操纵子的概念。乳糖操纵子的 结构及调节机制。直核基因表达调烤的可调烤点。直核基因染色质水平 的调控机制。真核基因转录水平的调控机制。顺式作用元件、反式作用 因子及转录因子的概念。 熟悉原核基因和真核基因的结构。真核生物基因组的特点。基因表达的特 点、方式与生物学意义。管家基因、增强子、沉默子的概念。mRNA稳定 性的调控机制。转录因子的分类及结构特点。miRNA、siRNA和IneRNA 的概念。 了解病毒基因组和原核基因组的特点。原核基因表达调控的特点。原核生物 基因表达的翻译水平调控。真核基因翻译水平和翻译后水平的调控机 制。非编码RNA在基因表达调控中的作用。 细胞内蕴藏着整套的遗传信息,它决定了生物个体的遗传和表型。人类基因组约有2万~2.5万个基 因。这些基因首先转录形成多种RNA,其中mRNA则进而又经翻译过程合成具有各种功能的蛋白质或者 多肽。基因表达主要涉及转录和翻译的过程,基因表达调控也是主要在这两个过程进行调节。基因表达 调控是在细胞生物学、分子生物学以及分子遗传学研究基础上逐步发展起来的领域。对基因表达调控的 深人研究可以认识人类如何从一个只有一套遗传信息的受精卵细胞逐步发育成为具有不同形态和功能的 多细胞、多组织和多器官的复杂个体。同样也是我们逐步认识同一个体中不同组织细胞虽然具有相同的 遗传信息却产生各自特异蛋白质的原因。此外,还可以阐明生物体怎样通过不断调控各种基因的表达来 适应不同生存环境的规律。基因表达调控的异常与各种疾病的发生发展存在着密切联系。 第一节基因与基因组 一、基因 (一)基因的概念 生物性状的遗传规律早在19世纪60年代已经被奥地利遗传学家Gregor Johann Mendel所认识 19O9年,丹麦生物学家Wilhelm Ludwig Johannsen根据希腊文“给予生命"之义,创造了基因(genc) 词,代替了G.Mendel的“遗传因子”,但是基因的本质和机制在20世纪后半叶的分子生物学时代才真 825
第三篇遗传信息传递及其调控 正得以认识。 基因的现代分子生物学概念是:基因是能够表达蛋白质或RNA等具有特定功能产物的遗传信息的 基本单位,是染色体或基因组的一段DNA序列。但对RNA作为遗传信息载体的RNA病毒而言则是 段RNA序列。 (二)基因的功能 DNA是基因的物质基础,所以基因的功能实际上是DNA的功能。基因的功能包括,①利用4种碱 基的不同排列荷载遗传信息:②通过复制将遗传信息稳定、忠实地遗传给子代细胞:同时为了适应环境 变化,生物体的遗传性和变异性同时存在。变异性即基因突变也是普遍存在的自然现象:③作为基因表 达的模板。基因表达(gene exp ession)是基因所携带的遗传信息表现出表型的过程,通过各种RNA和 蛋白质在细胞内有序合成实现。基因经过转录生成RNA,包括mRNA,RNA、rRNA等。其中RNA和 rRNA属于非编码RNA(non-coding RNA),不能作为模板合成蛋白质,而mRNA则属于编码RNA(coding RNA),可进一步作为模板指导合成蛋白质 (三)基因的结构 对一个基因的完整描述不仅应包括它的被转录区,同时也应包括它的调控区。因此,广义上讲,基 因的序列包括两部分:一是通常所说的基因自身的序列,即从转录起始位点开始到转录终止位点结束的 作为转录模板的被转录区域:二是其调控区序列,如启动子、增强子等。一般来讲,调控区序列位于基因 转录起始位点的上游 1.原核生物基因的结构原核生物中,绝大多数基因按功能相关性成簇地串联排列于染色体上, 共同组成一个转录单位一操纵子(operor)。操纵子也是原核生物基因表达的协调控制单位。其被转 录区包括功能上相关的几个结构基因前后相连成串,位于上游的调控区序列同时调控下游的多个结构 基因的表达(图141)。原核生物基因的转录调控序列中,最基本的是启动子和转录终止信号,在不同 的基因中尚有可被其他调节蛋白(阻遏蛋白或激活蛋白)所识别和结合的顺式作用元件。图141是 原核生物基因的典型结构组成及其序列特征。 编码阻退蛋白 启动序列操纵序列结构基因 -35 -10 S-TAGTGTATTGACATGATAGAAGCACTCTACTATAATCTCAATAGGTCCACG-3 3-ATCACATAACTCTACTATCTTCGTGACATGATATAAGACTTATCCAGGTCC-5 图14-1大肠杆菌基因及其调控序列 (1)启动序列:启动序列具有方向性,一般位于结构基因转录起始位点的上游。不同基因间的启动序 列上存在一定保守性。启动序列本身不在RNA产物中出现,仅提供转录起始信号。大肠杆菌启动序列的 长度为4O~6Obp,至少包括了三个功能区,一是RNA合成的起点,即+1位碱基:二是位于-1Obp区的RNA 聚合酶结合部位,有着“TATAAT"的共有序列,亦称为普里布诺盒(Pribnow box);三是转录起始识别部位, 位于-35bp区,共有序列是“TTGACA”。尽管存在者上述共有序列,但原核生物的启动序列间可存在较 大差异。启动序列越接近共有序列,起始转录的作用越强,称为强启动序列,反之为弱启动序列。例如 入噬菌体的PL,PR以及TT味菌体的P,是强启动子,而乳糖操纵子的P是弱启动子。 (2)终止序列:在结构基因下游近3'端的一段DNA序列中有GC富集区组成的具有回文特征的重 326
第十四章基因表达调控、 复序列,转录后在RNA分子中形成特殊的结构以终止RNA链的延伸。 (3)操纵序列:操纵序列(operator)是一些启动序列邻近部位的一小段特定序列,可被具有抑制转 录作用的阻遏蛋白识别并结合,通常与启动序列有部分重叠。 (4)正调控蛋白结合位点:在前已述及的原核基因的弱启动子附近常有一些特殊的DNA序列,某 些具有转录激活作用的正调控蛋白可以识别并结合这种DNA序列,加快转录的启动。 2.真核生物基因的结构与原核生物相比较,真核生物编码蛋白质的基因最突出的特点是其不连 续性,称为断裂基因。如图142所示,如果将成熟的mRNA分子序列与其基因编码序列比较,可以发现 并不是全部的基因序列都保留在成熟的mRNA分子中,有一些区段被剪接去除了。在基因序列中,与 成熟RNA分子相对应的序列称为外显子,即真核生物断裂基因中被转录的、在转录后加工剪接时被 保留并最终呈现于成熟RNA中的DNA片段。内含子位于外显子之间、与mRNA剪接过程中删除部分 相对应的序列,即真核生物断裂基因中被转录的、但在转录后加工剪接时被除去的DNA片段。外显子 与内含子相间排列,共同组成直核生物基因的被转录区。每个基因的内含子的数目比外显子要少1个 内含子和外显子同时出现在最初合成mRNA前体中,在合成后被剪接。如全长为7.5kb鸡卵清蛋白基 因有8个外显子和7个内含子,最初合成的RNA前体与相应的基因是等长的,内含子序列被切除后的 成熟mRNA分子的长度仅为1.8kb(见图1214)。在不同的基因中外显子的数量不同,少则数个,多则 数十个。外显子的数量是描述基因结构的重要特征之一 调控区 上密码子 成熟mRNA 图142真核生物断裂基因 高等真核生物中绝大部分编码蛋白质的基因都有内含子,只有组蛋白编码基因例外。此外,编码 RNA和个别RNA的基因也都有内含子。低等真核生物的内含子分布差别很大,有的酵母的基因较少 有内含子,有的则较常见。原核生物的结构基因基本没有内含子。病毒的基因常与宿主基因的结构特 征相似。感染细菌的病毒(噬菌体)的基因与细菌基因的结构特征相似,基因是连续的:而感染真核细 胞的病毒的基因具有某些真核生物基因结构特征,少量的基因也由于含有内含子而间断。病毒基因由 于基因组大小的限制,有的还存在着重叠编码,以便更为有效地利用基因序列。 真核生物基因的调控序列较原核生物更为复杂,迄今了解仍很有限,包括启动子、增强子和沉默子 等(图143)。 沉默 转录起始点 增强子 启动子 基因 位点控制区等 外显子 内含子 图143真核生物基因及其调控序列 327
第三篇遗传信息传递及其调控 (1)启动子:大部分直核生物基因的启动子(promoter)位于其基因序列转录起始位点的上游,启动 子本身通常不被转录:但有些启动子(如编码RNA基因的启动子)的DNA序列位于转录起始位点的下 游,这些DNA序列可以被转录 真核生物主要有三类启动子(图14-4),分别由细胞内三种不同的NA聚合酶识别启动。①I类启动 子:由RNA聚合酶I识别。I类启动子富含GC碱基对,包括核心元件(on element)和上游调控元件 (upstream control element,UCE)两部分,前者位于-45+20bp,转录起始的效率很低,后者位于-156 -107p,增强转录的起始。两个元件之间的距离非常重要,距离过远或过近都会降低转录起始效率, 具有I类启动子的基因主要是编码rRNA的基因;②Ⅱ类启动子:由RNA聚合酶Ⅱ识别。Ⅱ类启动 通常是由核心启动子、近端启动子和远端启动子组成。核心启动子常见有TFⅡB识别组件、TATA盒 起始序列/起始子和下游启动子等保守性序列组件。其中TATA盒位于转录起始位点上游-25bp处,其 核心序列是TATA(A/T)A(A/T),决定着RNA合成的起始位点。但有些基因并不含有TATA盒,如管 家基因(hou8 ekeeping gene)和同源盒基因(homeobox genes.一类与发有相关的基因)。具.有Ⅱ类启动 的基因主要是编码蛋白质(mRNA)的基因和一些小RNA基因:③Ⅲ类启动子:由RNA聚合酶Ⅲ识别。 Ⅲ类启动子的位置较独特,如RNA基因的启动子,包括A盒、B盒和C盒三部分,分别位于+10~+20bp 和+50~+6Obp两个区域。Ⅲ类启动子基因主要编码5SRNA,tRNA,U6 snRNA等RNA分子。 I类启动子 -156-107bg 45-+20p 上游调控元件 核心启动子 Ⅱ类启动子 -37p+32p 增强子沉默子 远端启动子近端启动子核心启动子 Ⅲ类启动子 +10p A盒 B盒 C盒 图144真核生物基因的三类启动子 (2)增强子:增强子(enhancer)是可以增强真核生物基因启动子转录的特异DNA序列,是真核生 物基因中最重要的调控序列,决定着每一个基因在细胞内的表达水平。增强子位置灵活,可位于启动子 的任何方向和任何位置,大部分位于上游,有的位于下游,距离所调控基因近者达几十个碱基对,远的则 可达几千个碱基对。不同的增强子序列结合不同的调节蛋白。 (3)沉歌子:沉默子(silencer)是对基因转录起阻遏作用的特异DNA序列,属于负性调控元件。当 一些调节蛋白结合到沉歌子时,能够抑制基因的转录。 (4)其他:其他的调控元件有绝缘子(insulator)、位点控制区(locus control region,LCR)、核基质结 合区(matrix attachment region,MAR)等。绝缘子也称为边界元件(boundary element),位于基因或基因 位点的两侧,它通过结合蛋白质阻断增强子对基因的激活作用,而且只对处于其边界另一侧的增强子有 抑制作用。当绝缘子置于增强子和启动子之间时,绝缘子将抑制增强子对基因的激活作用:绝缘子并不 抑制位于启动子下游的另一个增强子对同一基因的激活作用:同样也不能抑制增强子对另一基因的作 328
第十因章基因表达调控 用。LCR是真核细胞中能够远程调控相关基因表达的DNA序列,具有组织特异性和拷贝数依赖性。 LCR是由多序列元件组成,某些元件具有启动子,增强子、绝缘子等的特点,LCR很可能通过染色质重 塑,控制大量调节蛋白的结合而调控基因的表达。MAR是存在于真核细胞染色质中的一段与核基质或 核骨架特异结合的DNA序列,富含碱基A、T。MAR能使染色质形成独立的环状结构,通过调节蛋白将 启动子和增强子等锚定在核基质上,调节基因的表达,而且通过MAR形成的环状结构使得此功能区域 具有位置独立效应,能独立进行表达。此外,MAR还具有调节染色质的构象、参与DNA复制等功能。 二、基因组 基因组(genome)是指细胞或者生物体的一整套完整单倍体遗传物质的总和。1920年德国科学家 Hans Winkler首先使用基因组这一概念,用“gene"和“chromosome'"两个词组合来描述生物的全部基因 和染色体。人类基因组包含了细胞核染色体(常染色体和性染色体)DNA及线粒体DNA所携带的所有 遗传物质。不同的生物体基因组的大小和复杂程度各不相同。表14】列出了具有代表性的原核生物 和真核生物DNA分子的大小。不同生物基因组所携带的遗传信息量有着巨大差别,其结构和组织形式 也各有特点。 表141不同生物体DNA的比较 大小(kb)双螺旋线性长度(m)染色体数染色体(拷贝数) 形状 病毒 病毒SV40 5.2 0.0000017 环状 噬菌体X174 5.4 0.0000018 线性单链 噬菌体入 46 0.000015 线性 原核生物 细菌大肠杆菌 4600 0.00136 1 环状 真核生物 限酒酵母 12100 0.00034 17 1或2 线性 黑骏果蝇 180000 0.014 4 2 线性 人 3200000 1.2 22+X.Y 2 线性 (一)病毒基因组的结构特点 1.病毒基因组大小差异较大病毒的基因组很小,但不同病毒基因组相差较大。如乙肝病毒DNA 只有3kb大小,能编码4种蛋白质:痘病毒的基因组有300kb,可以编码几百种蛋白质,包括病毒复制所 需要的酶,以及核苷酸代谢相关的酶等,因此痘病毒对宿主的依赖性较乙肝病毒小得多。 2.有的病毒基因组是DNA,而有的病毒基因组是RNA每种病毒只含有一种核酸,DNA或RNA, 两者不共存于同一种病毒中。基因组为DNA的病毒称为DNA病毒,基因组为RNA的病毒称为RNA 病毒。病毒基因组DNA或RNA可以是单链结构,也可以是双链结构,可以是闭环分子,也可以是线性 分子。如乳头瘤病毒是一种闭环的双链DNA:腺病毒则是线性的双链DNA:脊髓灰质炎病毒是一种单 链RNA病毒:呼肠孤病毒是双链RNA病毒。大多数DNA病毒基因组是双链DNA分子,大多数RNA病 毒基因组是单链RNA分子。 3.多数RNA病毒的基因组是由连续的核糖核酸链组成,但有些RNA病毒基因组由数条不连续的 RNA链组成。RNA病毒基因组可以由不相连的几条RNA链组成,如流感病毒的基因组是由8条RNA 分子构成,每个NA分子都含有编码蛋白质分子的信息:呼肠孤病毒的基因组是由10条不相连的双链 RNA片段构成,同样每段RNA分子都编码一种蛋白质。截至目前,尚未在DNA病毒中发现类似情况。 829