第三节 基 因
基因(gene)是DNA表达遗传信息的功能单位,以一段或一组特定的核苷酸序列为载体,通过表达功能产物RNA和蛋白质,控制着各种生命活动,从而控制着生物的遗传性状。一个基因除了含有决定功能产物一级结构的编码序列外,还含有表达该编码序列所需的调控元件等非编码序列。
一、基因的基本概念
人类对基因的认识经历了一个漫长过程,在20世纪50年代之前,基本局限在逻辑概念阶段,对其化学本质一无所知。
1944年,Avery等通过肺炎链球菌转化实验证明DNA是细菌的遗传物质;1952年,Hershey和Chase通过大肠杆菌T2噬菌体感染实验进一步证明DNA也是DNA病毒的遗传物质。遗传物质有两个特点:一是能自我复制,从而维持生物体的基本性状;二是会发生突变,从而赋予生物体新的性状,使生命得以进化。
1.结构基因和调控基因 这两类基因的产物都可以是RNA和蛋白质,但有不同的功能:结构基因(structural gene)产物的功能是参与代谢活动或维持组织结构。调控基因(regulatory gene)产物的功能是调控其他基因的表达。
2.断裂基因 在20世纪70年代之前,人们一直以为基因的编码序列是连续的。1977年,Roberts和Sharp(1993年诺贝尔生理学或医学奖获得者)发现真核生物有些基因(如胰岛素基因,第九章,240页)的编码序列是不连续的,被一些称为内含子的非编码序列分割成称为外显子的片段,因此这些基因称为断裂基因(split gene)。断裂基因在分子生物学的基础研究和肿瘤等疾病的医学研究中具有重要意义。
不同真核生物基因组中断裂基因所占的比例不同:酿酒酵母的基因仅有3.5%~4%是断裂基因;果蝇的基因有83%是断裂基因;哺乳动物的基因有94%是断裂基因(组蛋白、α干扰素、β干扰素基因不是断裂基因)。叶绿体、植物和其他低等真核生物线粒体基因组存在断裂基因。原核生物和噬菌体基因组中也存在个别断裂基因。
3.重叠基因 如果两个或两个以上基因的DNA序列存在重叠,它们就是重叠基因(overlapping gene)。重叠基因之间有多种重叠方式,以ΦX174噬菌体为例:
(1)大基因序列完全包含小基因,例如A基因内包含B基因,D基因内包含E基因,被包含的基因称为基因内基因、嵌套基因、套叠基因(nested gene)。
(2)两个基因序列首尾重叠,有的甚至只重叠一个碱基,例如D基因终止密码子的第三碱基是J基因起始密码子的第一碱基,这一现象称为读框重叠(reading-frame overlapping)。
(3)多个基因存在重叠序列,例如A基因、A*基因、B基因、K基因。
(4)反向重叠。
此外,重叠序列中不仅有编码序列也有调控元件,说明基因重叠不只是为了利用有限的核苷酸序列携带更多的编码信息,还可能涉及基因表达调控(图1-11)。
图1-11 ΦX174噬菌体基因组
重叠基因的DNA序列虽然存在重叠,但是其转录产物mRNA的阅读框(第四章,92页)不同,因而翻译合成的蛋白质并无同源序列。
重叠基因存在于病毒(图9-5,248页)、原核生物、真核生物(包括人类)及线粒体DNA中。
4.转座子 1944年,McClintock(1983年诺贝尔生理学或医学奖获得者)在研究玉米基因时发现,有些DNA片段可以自主复制和在染色体DNA中移动位置。现已阐明:基因组DNA中存在一些非游离的、能自主复制或自我剪切并以相同或不同拷贝在基因组中或基因组间移动位置的功能性片段,称为转座子(transposon)、转座元件(transposable element)、转座因子。
5.顺反子 1955年,Benzer从遗传学角度提出了基因的顺反子概念:顺反子(cistron)是基因的基本功能单位,基因组序列中不同突变之间没有互补关系的功能区,也是基因表达的最小单位。一个顺反子编码一条肽链。真核生物的基因都是单顺反子,其转录产物称为单顺反子mRNA;原核生物的基因大多数是多顺反子,其转录产物称为多顺反子mRNA(第四章,90页)(表1-4)。国际纯粹与应用化学联合会(IUPAC)推荐基因与顺反子两个术语通用。
表1-4 原核生物和真核生物顺反子对比
6.基因家族 同一物种中,结构与功能相似、进化起源上密切相关的一组基因,被定义为一个基因家族(gene family),又称多基因家族(multigene family)。同一个基因家族的基因具有同源性,即它们来自同一个祖先基因,有相似的结构和功能。人类基因组中有1.5万个基因家族,例如rRNA基因及以下蛋白基因组成各自的基因家族:组蛋白、珠蛋白(分为α珠蛋白、β珠蛋白亚家族)、生长激素、肌动蛋白、丝氨酸蛋白酶、主要组织相容性抗原。基因家族中完全相同的基因成员称为重复基因、多拷贝基因。重复基因主要存在于真核生物基因组中,如人类rRNA基因有数百个拷贝。原核生物除了rRNA基因有1~7个拷贝(大肠杆菌有7个)之外,蛋白基因大多数只有一个拷贝。
(1)超基因家族(supergene family) 又称基因超家族(gene superfamily)是DNA序列相似、但功能不一定相关的若干个单拷贝基因或若干个基因家族的总称。例如以下蛋白基因组成各自的超基因家族:免疫球蛋白、细胞因子、细胞因子受体、G蛋白、G蛋白偶联受体。珠蛋白、肌红蛋白、豆血红蛋白组成珠蛋白超家族。
(2)假基因(ψ) 基因组中存在的一种DNA序列,与正常基因非常相似,但不表达有功能产物。假基因的祖先基因是有功能的,但由于发生突变导致序列异常,不能转录,或者转录产物不能翻译,所以假基因功能缺失。假基因在哺乳动物基因组中普遍存在,可以视为进化的遗迹。例如,小鼠有400多个3-磷酸甘油醛脱氢酶基因拷贝,但其中只有一个功能基因,其余都是假基因。
(3)基因簇(gene cluster) 多数基因家族成员分布在染色体的不同部位,甚至分布在不同染色体上。有些基因家族的成员在染色体上紧密连锁甚至串联排列,它们称为基因簇,例如人6号染色体上的主要组织相容性复合体(MHC)、16号染色体上的α珠蛋白基因簇(约30kb)、11号染色体上的β珠蛋白基因簇(约60kb,图1-12)。基因簇可用于研究物种的进化关系,甚至鉴定人类血统。
图1-12 人珠蛋白基因簇
二、基因的基本结构
前面提到基因序列中存在内含子、外显子等序列。为了方便学习,这里先介绍基因序列中的各种功能序列,包括它们的相互位置关系(图1-13)。
图1-13 真核蛋白基因结构
1.转录区(transcribed region) 是编码初级转录产物核苷酸序列的DNA序列,即RNA聚合酶转录的全部DNA序列,始于转录起始位点,终于终止子,占人类基因组序列的90%以上,其中mRNA前体(pre-mRNA)转录区占人类基因组序列的30%。转录区与含调控元件的其他序列组成转录单位(transcription unit)。
2.编码序列(coding sequence) 是基因组中编码成熟mRNA、tRNA、rRNA序列的DNA序列(请注意区别于mRNA编码区,第四章,90页),例如外显子。其中,成熟mRNA的编码序列称为编码DNA,占人类基因组的1.5%(其余98.5%称为非编码DNA)。人类基因组序列中只有不到2%是mRNA、tRNA、rRNA编码序列。
3.非编码序列(noncoding sequence) ①基因序列中除编码序列之外的所有序列,例如内含子、增强子。②基因组序列中除基因序列之外的所有序列。人类基因组序列中98%以上都是非编码序列(ENCODE计划研究表明人类基因组序列约80%都是有功能的,且大部分序列是被转录的,虽然转录效率很低)。
4.外显子(exon) 是构成断裂基因的两种序列之一,是指在RNA前体剪接时被保留的序列,因而是转录区、RNA前体、成熟RNA中都存在的序列,属于编码序列,在转录区及RNA前体中与内含子交替连接。
哺乳动物50%基因所含的外显子数超过10个(人类基因所含的外显子数为1~179个,平均为7~9个)。外显子长度较短,平均长度为145~150nt(50~10000nt),仅够编码一个结构域(约50AA。AA为氨基酸,肽链长度单位)。人类基因外显子序列的长度占转录区的5%~10%,占基因组序列的1%~1.5%。
5.内含子(intron) 又称间插序列(intervening sequence,IVS),是构成断裂基因的两种序列之一,是指在RNA前体剪接时被切除的序列及其对应的DNA序列,因而只存在于转录区和RNA前体中,属于非编码序列。研究发现假基因往往缺少正常的内含子,提示内含子可能参与基因表达调控。
外显子序列相对保守,而内含子序列变化较大,且其长度与生物进化程度呈正相关,是决定基因长度的主要因素。人类基因组中内含子序列的长度占转录区的90%~95%,占基因组序列的24%~25.9%,每个内含子平均长度约3365nt(50~10000nt,有的可达800000nt)。
6.启动子(promoter) 是指基因序列中能被RNA聚合酶识别、结合,从而形成转录起始复合物并启动转录的DNA序列,大多数位于基因(或操纵子)转录区的上游,具有方向性,属于调控元件(第五章,122页)。
7.转录起始位点(transcription start site,TSS) 是转录区的第一个核苷酸,在指导RNA合成时最先被转录(第三章,72页)。Suzuki等分析了人类基因组276种基因转录的5880 种mRNA的转录起始位点:A(47%)、G(28%)、C(14%)、T(12%)。
8.终止子(terminator) 全称转录终止子,是位于转录区下游的一段DNA序列,是转录的终止信号,其转录产物可通过形成发夹结构或其他二级结构使转录终止(第三章,73页)。