第二章人类基因 基因(gene)是细胞内遗传物质的结构和功能单位,它以脱氧核 糖核酸( deoxyribonucleic acid,DNA)化学形式存在于染色体上。在 人类,基因通过生殖细胞从亲代向子代传递。早在1944年,Avey等 用实验的方法就直接证明了DNA是生物的遗传物质。1953年 Watson 和 Crick在前人的工作基础上,提出了著名的DNA分子双螺旋结构模 型,奠定了基因复杂功能的结构基础。从此,遗传学的研究在医学领 域取得突飞猛进的发展。 第一节基因的概念 人类对基因的认识经历了一个由浅入深的历史发展过程。早在19 世纪60年代,奥地利神甫孟德尔就采用豌豆作为实验材料,进行了8 年的杂交试验研究,提出生物的性状是由遗传因子( hereditary factor) 决定的,并总结出遗传因子传递的分离定律和自由组合定律。20世纪 初丹麦遗传学家 Johannsen将遗传因子更名为基因(gene),并一直沿 用至今。随后美国遗传学家摩尔根及其学生 Sturtevant、 Muller等通 过果蝇的杂交试验证实,基因在染色体上呈直线排列,并提出了基因 传递的连锁交换定律,发表了著名的《基因论》;1927年 Muller等人 证明用人为因素(如ⅹ线等)可使基因发生突变;在此之前 Garrod (1908)认为人类的黑尿酸症是一种遗传病,病因是患者缺乏某种相 关生化反应的酶。于是人们开始将基因与酶联系起来。1936年 Beadle 等对果蝇( Drosophila melanogaster)朱矽眼型、朱红眼型和野生型进 行研究,再次证实了基因与酶的关系。1941年他们又根据对粗糙链抱 霉( Neurospora crasso)的研究结果,提出了“一个基因决定一种酶” 的学说;然而,后来的研究揭示,基因除了决定酶之外,还决定其他 蛋白质,于是有人提出了“一个基因一种蛋白质”的假说。但人们又
第二章 人类基因 基因(gene)是细胞内遗传物质的结构和功能单位,它以脱氧核 糖核酸(deoxyribonucleic acid,DNA)化学形式存在于染色体上。在 人类,基因通过生殖细胞从亲代向子代传递。早在 1944 年,Avery 等 用实验的方法就直接证明了 DNA 是生物的遗传物质。1953 年 Watson 和 Crick 在前人的工作基础上,提出了著名的 DNA 分子双螺旋结构模 型,奠定了基因复杂功能的结构基础。从此,遗传学的研究在医学领 域取得突飞猛进的发展。 第一节 基因的概念 人类对基因的认识经历了一个由浅入深的历史发展过程。早在 19 世纪 60 年代,奥地利神甫孟德尔就采用豌豆作为实验材料,进行了 8 年的杂交试验研究,提出生物的性状是由遗传因子(hereditary factor) 决定的,并总结出遗传因子传递的分离定律和自由组合定律。20 世纪 初丹麦遗传学家 Johannsen 将遗传因子更名为基因(gene),并一直沿 用至今。随后美国遗传学家摩尔根及其学生 Sturtevent、Mü11er 等通 过果蝇的杂交试验证实,基因在染色体上呈直线排列,并提出了基因 传递的连锁交换定律,发表了著名的《基因论》;1927 年 Müller 等人 证明用人为因素(如 X 线等)可使基因发生突变;在此之前 Garrod (1908)认为人类的黑尿酸症是一种遗传病,病因是患者缺乏某种相 关生化反应的酶。于是人们开始将基因与酶联系起来。1936 年 Beadle 等对果蝇(Drosophila melanogaster)朱矽眼型、朱红眼型和野生型进 行研究,再次证实了基因与酶的关系。1941 年他们又根据对粗糙链抱 霉(Neurospora crassa)的研究结果,提出了“一个基因决定一种酶” 的学说;然而,后来的研究揭示,基因除了决定酶之外,还决定其他 蛋白质,于是有人提出了“—个基因一种蛋白质”的假说。但人们又
发现有的蛋白质可以由几条多肽链组成,因此又修正成“一个基因一 条多肽链”假说;经过100余年的研究,基因的概念逐渐清晰。但直 到20世纪50年代,人们对基因的认识还仅仅停留在逻辑概念阶段, 关于基因的物质基础和理化本质的认识,仍然是一个谜。首次揭开这 一谜底的是1944年Avey等人的工作,他们用实验方法直接证明了 DNA是生物的遗传物质。1953年 Watson和 Crick在前人的工作基础 上,应用现代物理学和化学的新技术,对DNA的分子结构进行了深 入研究,提出了著名的DNA分子双螺旋( double heliⅸ)结构模型。 这个模型显示DNA具有自我复制功能,正式揭示了遗传之谜。至此 人们认识到,基因是具有特定“遗传效应”的DNA片段、它决定细 胞内RNA和蛋白质(包括酶分子)等的合成,从而决定生物遗传性 状 现代遗传学认为,基因是决定一定功能产物的DNA序列。这种 功能产物主要是蛋白质和RNA。一个基因的结构除了编码特定功能产 物的DNA序列外,还包括对这个特定产物表达所需的邻接DNA序列 在对某些遗传病的家系研究中发现,虽然基因的编码部分结构完整未 发生改变,但它的邻接DNA序列发生了改变,如常见的邻接序列某 些区域单个碱基的替换可使此功能产物不能表达,从而引起遗传病。 第二节基因的化学本质 研究证明,DNA是生命体的遗传物质;但在某些仅含有RNA和 蛋白质的病毒,其RNA是遗传物质。例如,烟草花叶病毒不含DNA, 仅含有一条单链的RNA。实验证实,这条单链RNA能感染宿主细胞, 并繁殖后代。在整个生物界中,绝大部分生物(包括人类)基因的化 学本质是DNA。 、DNA分子组成
发现有的蛋白质可以由几条多肽链组成,因此又修正成“一个基因一 条多肽链”假说;经过 100 余年的研究,基因的概念逐渐清晰。但直 到 20 世纪 50 年代,人们对基因的认识还仅仅停留在逻辑概念阶段, 关于基因的物质基础和理化本质的认识,仍然是一个谜。首次揭开这 —谜底的是 1944 年 Avery 等人的工作,他们用实验方法直接证明了 DNA 是生物的遗传物质。1953 年 Watson 和 Crick 在前人的工作基础 上,应用现代物理学和化学的新技术,对 DNA 的分子结构进行了深 入研究,提出了著名的 DNA 分子双螺旋(double helix)结构模型。 这个模型显示 DNA 具有自我复制功能,正式揭示了遗传之谜。至此 人们认识到,基因是具有特定“遗传效应”的 DNA 片段、它决定细 胞内 RNA 和蛋白质(包括酶分子)等的合成,从而决定生物遗传性 状。 现代遗传学认为,基因是决定一定功能产物的 DNA 序列。这种 功能产物主要是蛋白质和 RNA。一个基因的结构除了编码特定功能产 物的DNA序列外,还包括对这个特定产物表达所需的邻接DNA 序列。 在对某些遗传病的家系研究中发现,虽然基因的编码部分结构完整未 发生改变,但它的邻接 DNA 序列发生了改变,如常见的邻接序列某 些区域单个碱基的替换可使此功能产物不能表达,从而引起遗传病。 第二节 基因的化学本质 研究证明,DNA 是生命体的遗传物质;但在某些仅含有 RNA 和 蛋白质的病毒,其 RNA 是遗传物质。例如,烟草花叶病毒不含 DNA, 仅含有一条单链的 RNA。实验证实,这条单链 RNA 能感染宿主细胞, 并繁殖后代。在整个生物界中,绝大部分生物(包括人类)基因的化 学本质是 DNA。 一、DNA 分子组成
组成DNA分子的基本单位是脱氧核苷酸。每个脱氧核苷酸由磷 酸、脱氧核糖和含氮碱基组成。碱基有4种:腺嘌吟(A)、鸟嘌岭(G)、 胞嘧啶(C)和胸腺嘧啶(T)。因碱基的不同,可以构成4种不同的 脱氧核苷酸:脱氧腺嘌呤核苷酸(AMP,A)、脱氧鸟嘌呤核苷酸 (GMP,G)、脱氧胞嘧啶核苷酸(dCM,C)和脱氧胸腺嘧啶核苷 酸(dIMP,T)。这4种脱氧核苷酸按一定顺序排列起来构成脱氧多 核苷酸长链(DNA单链),两个相邻的脱氧核苷酸之间通过磷酸二酯 键相连接。每条脱氧核苷酸单链都有3′端和5′端。生物的遗传性 状是以脱氧核苷酸的排列序列来储存遗传信息的。因此,脱氧核苷酸 的排列是DNA遗传的核心 、DNA分子结构 Watson和 Crick(1953)提出了DNA分子的双螺旋结构模型,阐 明了DNA空间结构的基本形式,要点如下:①DNA由两条碱基互补 的、反向平行排列的脱氧多核苷酸单链所组成,一条是5′→3′端, 另一条是3′-5′端,碱基互补的方式是A与T或T与A,C与G 或G与C相对应;②在自然情况下,绝大多数DNA分子的两条互补 链围绕·“主轴”向右盘旋形成双螺旋结构;③4种碱基(A、T、G、 C)的排列顺序在不同的DNA分子中各不相同,储存着各种生物性状 的遗传信息;④双螺旋的表面形成两条凹槽,一面宽而深,称之深沟 另一面狭而浅,称之浅沟。这两条沟,对于有特定功能的蛋白质(酶) 识别并调节DNA双螺旋结构上的遗传信息是非常重要的;⑤由于 DNA链通常很长,所包含的碱基数目很多,所以碱基排列顺序的组 合方式是无限的,可以形成多种不同的DNA分子。例如,某一DNA 分子有100个碱基对,因碱基排列组合的不同,就可以形成至少4100 种DNA分子。实际上,由于DNA分子量巨大,所以其碱基对的排列 方式可以说是多种多样,因而DNA分子也是种类繁多。在如此众多 结构复杂的DNA分子内蕴藏着生物界无穷无尽的遗传信息,决定了 形形色色、千姿百态的生命自然界
组成 DNA 分子的基本单位是脱氧核苷酸。每个脱氧核苷酸由磷 酸、脱氧核糖和含氮碱基组成。碱基有 4 种:腺嘌吟(A)、鸟嘌岭(G)、 胞嘧啶(C)和胸腺嘧啶(T)。因碱基的不同,可以构成 4 种不同的 脱氧核苷酸:脱氧腺嘌呤核苷酸(dAMP,A)、脱氧鸟嘌呤核苷酸 (dGMP,G)、脱氧胞嘧啶核苷酸(dCMP,C)和脱氧胸腺嘧啶核苷 酸(dTMP,T)。这 4 种脱氧核苷酸按一定顺序排列起来构成脱氧多 核苷酸长链(DNA 单链),两个相邻的脱氧核苷酸之间通过磷酸二酯 键相连接。每条脱氧核苷酸单链都有 3′端和 5′端。生物的遗传性 状是以脱氧核苷酸的排列序列来储存遗传信息的。因此,脱氧核苷酸 的排列是 DNA 遗传的核心。 二、DNA 分子结构 Watson 和 Crick(1953)提出了 DNA 分子的双螺旋结构模型,阐 明了 DNA 空间结构的基本形式,要点如下:①DNA 由两条碱基互补 的、反向平行排列的脱氧多核苷酸单链所组成,一条是 5′→3′端, 另一条是 3′→5′端,碱基互补的方式是 A 与 T 或 T 与 A,C 与 G 或 G 与 C 相对应;②在自然情况下,绝大多数 DNA 分子的两条互补 链围绕一“主轴”向右盘旋形成双螺旋结构;③4 种碱基(A、T、G、 C)的排列顺序在不同的 DNA 分子中各不相同,储存着各种生物性状 的遗传信息;④双螺旋的表面形成两条凹槽,一面宽而深,称之深沟; 另一面狭而浅,称之浅沟。这两条沟,对于有特定功能的蛋白质(酶) 识别并调节 DNA 双螺旋结构上的遗传信息是非常重要的;⑤由于 DNA 链通常很长,所包含的碱基数目很多,所以碱基排列顺序的组 合方式是无限的,可以形成多种不同的 DNA 分子。例如,某一 DNA 分子有 100 个碱基对,因碱基排列组合的不同,就可以形成至少 4 100 种 DNA 分子。实际上,由于 DNA 分子量巨大,所以其碱基对的排列 方式可以说是多种多样,因而 DNA 分子也是种类繁多。在如此众多 结构复杂的 DNA 分子内蕴藏着生物界无穷无尽的遗传信息,决定了 形形色色、千姿百态的生命自然界
第三节人类基因和基因组的结构特点 人类基因组( genome)是人的所有遗传信息的总和。人类基因组 包括两个相对独立而相互关联的基因组:核基因组与线粒体基因组。 如果不特别注明,人类基因组通常是指核基因组(图2-1) 图21人类基因组的组织结构 基因的结构 )基因的分类 随着人类基因组计划研究的深入和结构基因组学的基本完成,已 知人类基因组共有26383(≈3)万~39114(≈4)万个基因,比蚯 蚓仅多1万个,比果蝇多2万个。另外,科学家还发现与蛋白质合成 有关的基因序列只占整个基因组序列的2%。人类的基因或人类基因 组中的功能序列可分为4大类,即单一基因、基因家族、拟基因和串 联重复基因。 1.单一基因在人的基因中,25%~50%的蛋白质基因在单倍 体基因组中只有一份,称为单一基因( solitary gene)或单一序列( unique sequence 2.基因家族从已克隆的许多基因发现它们都不完全是单拷贝, 有的是重复的多拷贝,这一部分基因属于两个或更多个相似基因的家 族,称为基因家族( gene family),类同的蛋白质则组成蛋白质家族 ( protein family),其蛋白质成员由数个到数十个,个别的可达数百。 β珠蛋白基因家族包括5个功能基因:β、8、4y、qy和ε,它们分别 在生活史的不同阶段表达,具有不尽相同的功能。细胞骨架蛋白、肌 动蛋白、微管蛋白、中间纤丝等也形成不同的蛋白质家族,可能对同 一个体的不同细胞类型,呈现差别性表达,以合理搭配,发挥其生理
第三节 人类基因和基因组的结构特点 人类基因组(genome)是人的所有遗传信息的总和。人类基因组 包括两个相对独立而相互关联的基因组:核基因组与线粒体基因组。 如果不特别注明,人类基因组通常是指核基因组(图 2-1)。 图 2-1 人类基因组的组织结构 一、基因的结构 (一)基因的分类 随着人类基因组计划研究的深入和结构基因组学的基本完成,已 知人类基因组共有 2.6383(≈3)万~3.9114(≈4)万个基因,比蚯 蚓仅多 1 万个,比果蝇多 2 万个。另外,科学家还发现与蛋白质合成 有关的基因序列只占整个基因组序列的 2%。人类的基因或人类基因 组中的功能序列可分为 4 大类,即单一基因、基因家族、拟基因和串 联重复基因。 1.单一基因 在人的基因中,25%~50%的蛋白质基因在单倍 体基因组中只有一份,称为单一基因(solitary gene)或单一序列(unique sequence)。 2.基因家族 从已克隆的许多基因发现它们都不完全是单拷贝, 有的是重复的多拷贝,这一部分基因属于两个或更多个相似基因的家 族,称为基因家族(gene family),类同的蛋白质则组成蛋白质家族 (protein family),其蛋白质成员由数个到数十个,个别的可达数百。 β 珠蛋白基因家族包括 5 个功能基因:β、δ、Aγ、Gγ 和 ε,它们分别 在生活史的不同阶段表达,具有不尽相同的功能。细胞骨架蛋白、肌 动蛋白、微管蛋白、中间纤丝等也形成不同的蛋白质家族,可能对同 一个体的不同细胞类型,呈现差别性表达,以合理搭配,发挥其生理
作用。 拟基因在人的β珠蛋白基因家族中至少有两个区的序列w1 和ψ2与有功能的β珠蛋白基因相似,但是它没有相应的蛋白质产生, 为拟基因或假基因( pseudogene)。拟基因是一种畸变基因,即核苷酸 序列同有功能的正常基因有很大的同源性,但由于突变、缺失或插入 以致不能表达,所以没有功能。 4.串联重复基因45 SIrNa、5SRNA、各种tRNA基因以及蛋 白质家族中的组蛋白基因是呈串联重复排列的,这类基因叫做串联重 复基因( tandemly repeatd genes)。它们不同于成倍基因,编码了同一 种或近乎同一种的RNA或蛋白质,rRNA、tRNA基因的每个拷贝完 全或几乎完全相同,但在基因间的间隔DNA( linker dna)相差很大。 组蛋白基因家族较复杂,但每种组蛋白基因的拷贝完全相同 (二)断裂基因 真核生物的结构基因是断裂基因(图2-2),由编码的外显子和非 编码的内含子组成,二者相间排列。不同基因所含内含子数目和大小 也不同,例如,导致杜氏肌营养不良症( Duchenne muscular dystrophy, DMD)基因 dystrophin基因组全长25Mb,是目前已知人类最大的基 因,由大约由80个外显子和相应的内含子组成,cDNA全长为 l10bp,编码分子量为427000的蛋白质,从 dystrophin转录形成一 条完整的mRNA分子需要16小时 图2-2断裂基因的结构及其表达 断裂基因中的内含子和外显子的关系不完全是固定不变的,有时 会出现这样的情况,即在同一条DNA分子上的某一段DNA顺序,在 作为编码某一条多肽链的基因时是外显子,但是它作为编码另一条多 肽链的基因时是内含子,这是由于mRNA剪接加工的方式不同所致 结果使同一个基因(确切地说是同一段DNA顺序)产生两条或者两 条以上的mRNA链。这在真核生物基因的表达中,由于一个基因的内 含子成为另一个基因的外显子,产生基因的差别表达,构成断裂基因
作用。 3.拟基因 在人的 β 珠蛋白基因家族中至少有两个区的序列 ψβl 和 ψβ2与有功能的 β 珠蛋白基因相似,但是它没有相应的蛋白质产生, 为拟基因或假基因(pseudogene)。拟基因是一种畸变基因,即核苷酸 序列同有功能的正常基因有很大的同源性,但由于突变、缺失或插入 以致不能表达,所以没有功能。 4.串联重复基因 45SrRNA、5SrRNA、各种 tRNA 基因以及蛋 白质家族中的组蛋白基因是呈串联重复排列的,这类基因叫做串联重 复基因(tandemly repeatd genes)。它们不同于成倍基因,编码了同一 种或近乎同一种的 RNA 或蛋白质,rRNA、tRNA 基因的每个拷贝完 全或几乎完全相同,但在基因间的间隔 DNA(linker DNA)相差很大。 组蛋白基因家族较复杂,但每种组蛋白基因的拷贝完全相同。 (二)断裂基因 真核生物的结构基因是断裂基因(图 2-2),由编码的外显子和非 编码的内含子组成,二者相间排列。不同基因所含内含子数目和大小 也不同,例如,导致杜氏肌营养不良症(Duchenne muscular dystrophy, DMD)基因 dystrophin 基因组全长 2.5Mb,是目前已知人类最大的基 因,由大约由 80 个外显子和相应的内含子组成,cDNA 全长为 11000bp,编码分子量为 427000 的蛋白质,从 dystrophin 转录形成一 条完整的 mRNA 分子需要 16 小时。 图 2-2 断裂基因的结构及其表达 断裂基因中的内含子和外显子的关系不完全是固定不变的,有时 会出现这样的情况,即在同一条 DNA 分子上的某一段 DNA 顺序,在 作为编码某一条多肽链的基因时是外显子,但是它作为编码另一条多 肽链的基因时是内含子,这是由于 mRNA 剪接加工的方式不同所致。 结果使同一个基因(确切地说是同一段 DNA 顺序)产生两条或者两 条以上的 mRNA 链。这在真核生物基因的表达中,由于一个基因的内 含子成为另一个基因的外显子,产生基因的差别表达,构成断裂基因