(一)DNA的一级结构
核酸是由很多单核苷酸聚合形成的多聚核苷酸(polynucleotide),DNA的一级结构即是指四种核苷酸(dAMP、dCMP、dGMP、dTMP)按照一定的排列顺序,通过磷酸二酯键连接形成的多核苷酸,由于核苷酸之间的差异仅仅是碱基的不同,故又可称为碱基顺序。核苷酸之间的连接方式是:一个核苷酸的5′位磷酸与下一位核苷酸的3′-OH形成3′,5′磷酸二酯键,构成不分支的线性大分子,其中磷酸基和戊糖基构成DNA链的骨架,可变部分是碱基排列顺序。核酸是有方向性的分子,即核苷酸的戊糖基的5′位不再与其它核苷酸相连的5′末端,以及核苷酸的戊糖基3′位不再连有其它核苷酸的3′末端,两个末端并不相同,生物学特性也有差异。
寡核苷酸(oligonucleotide)是指二至十个甚至更多个核苷酸残基以磷酸二酯键连接而成的线性多核苷酸片段。目前多由仪器自动合成而用作DNA合成的引物(Primer)、基因探针(probe)等,在现代分子生物学研究中具有广泛的用途。
表示一个核酸分子结构的方法由繁至简有许多种(图15-2)。由于核酸分子结构除了两端和碱基排列顺序不同外,其它的均相同。因此,在核酸分子结构的简式表示方法中,仅须注明一个核酸分子的哪一端是5′末端,哪一端是3′末端,末端有无磷酸基,以及核酸分子中的碱基顺序即可。如未特别注明5′和3′末端,一般约定,碱基序列的书写是由左向右书写,左侧是5′末端,右侧为3′末端。
图15-2 核酸分子结构的表示方式
(二)基因组DNA
自然界绝大多数生物体的遗传信息贮存在DNA的核苷酸排列顺序中。DNA是巨大的生物高分子,一般将细胞内遗传信息的携带者枣染色体所包含的DNA总体称为基因组(genome)。同一物种的基因组DNA含量总是恒定的,不同物种间基因组大小和复杂程度则差异极大,一般讲,进化程度越高的生物体其基因组构成越大、越复杂,见(表15-2)。
表15-2 某些有代表性的生物体内DNA大小
分子量 | 碱基对(bp) | 千碱基对(kb) | ||
最简单的微生物 | SV40病毒 | 3×106 | 5×103 | 5 |
λ噬菌体 | 3.4×107 | 5×104 | 50 | |
细菌 | 大肠杆菌 | 2.2×109 | 4.6×106 | 4600 |
哺乳动物 | 小鼠 | 1.5×1012 | 2.3×109 | 230万 |
人 | 1.8×1012 | 2.8×109 | 280万 |
DNA分子中不同排列顺序的DNA区段构成特定的功能单位,即基因(gene)。基因的功能取决于DNA的一级结构。一个DNA分子能携带多少基因呢?如果以1000~1500bp编码一个基因计算,猿猴病毒SV40基因组DNA有5000碱基对(base pair,bp),可编码5种基因,人类基因组含3×109bp DNA,理论上可编码200万以上的基因,然而,由于哺乳动物的基因含有内含子(intorn),因而每个基因可长达5000~8000bp,少数可达20,000bp。按这样大小的基因进行推算,人类基因组相当于40~60万个基因。这可能吗?虽然现在还不知道确切数字,但利用核酸杂交已测得哺乳类细胞含50,000~100,000种mRNA,由此推论整个基因组所含基因不会超过10万个,只占全部基因组的6%,另外5~10%为rRNA等重复基因,其余80~90%属于非编码区,没有直接的遗传学功能。DNA的复性动力学研究发现这些非编码区往往都是一些大量的重复序列,这些重复序列或集中成簇,或分散在基因之间,可能在DNA复制、调控中具有重要意义,并与生物进化、种族特异性有关。可见原核细胞由于DNA分子较小,必须充分利用有限的核苷酸序列,这是真核基因组与原核基因组显然不同之处。
真核基因组与原核基因组在结构上还有很多不同的特点,归纳如下:
1.真核生物基因组结构特点
①真核生物基因组DNA与蛋白质结合形成染色体,储存于细胞核内,除配子细胞外,体细胞内的基因组是双份的(即双倍体,diploid),即有两份同源的基因组。
②真核细胞基因转录产物为单顺反子(monocistron),即一个结构基因转录、翻译成一个mRNA分子,一条多肽链。
③存在大量重复序列,即在整个DNA中有许多重复出现的核苷酸顺序,重复序列长度可长可短,短的仅含两个核苷酸,长的多达数百、乃至上千。重复频率也不尽相同;高度重复序列重复频率可达106次,包括卫星DNA、反向重复序列和较复杂的重复单位组成的重复序列;中度重复序列可达103~104次,如为数众多的Alu家族序列,KpnI家族,Hinf家族序列,以及一些编码区序列如rRNA基因、tRNA基因、组蛋白基因等;单拷贝或低度重复序列,指在整个基因组中只出现一次或很少几次的核苷酸序列,主要是编码蛋白质的结构基因,在人基因组中占约60~65%,因此所含信息量最大。
④基因组中不编码的区域多于编码区域。
⑤基因是不连续的,在真核生物结构基因的内部存在许多不编码蛋白质的间隔序列(interveningsequences),称为内含子(intron),编码区则称为外显子(exon)。内含子与外显子相间排列,转录时一起被转录下来,然后RNA中的内含子被切掉,外显子连接在一起成为成熟的mRNA,作为指导蛋白质合成的模板。
⑥基因组远大于原核生物的基因组,具有许多复制起点,而每个复制子的长度较小。
2.原核生物基因组结构特点
①基因组较小,没有核膜包裹,且形式多样,如病毒基因组可能是DNA,也可能是RNA,可能是单链的,也可能是双链的,可能是闭环分子,也可能是线性分子;细菌染色体基因组则常为环状双链DNA分子,并与其中央的RNA和支架蛋白构成一致密的区域,称为类核(nucleoid)。
②功能相关的结构基因常常串连在一起,并转录在同一个mRNA分子中,称为多顺反子mRNA(polycistronic mRNA),然后再加工成各种蛋白质的模板mRNA。
③DNA分子绝大部分用于编码蛋白质,不编码部分(又称间隔区)通常包含控制基因表达的顺序。例如,噬菌体ψx 174中只有5%是非编码区。
④基因重叠是病毒基因组的结构特点,即同一段DNA片段能够编码两种甚至三种蛋白质分子。
⑤除真核细胞病毒外,基因是连续的,即不含内含子序列。
(三)限制性片段长度多态性
随着对基因认识的不断深入,发现在同种生物的不同个体之间,尽管其蛋白质产物的结构和功能完全相同或仅存在着细微的差异,但在DNA水平却存在着差异,尤其在不编码蛋白质的区域以及没有重要调节功能的区域表现更为突出。这种不影响生物体表型的DNA突变被称为中性突变。
分子生物学技术的不断发展已使得从DNA水平直接分析这类突变成为可能。
目前应用较多且成熟的方法是限制性片段长度多态性(Restriction fragment length polymorphism,RFLP)。即当DNA序列中某一个碱基发生突变,使突变所在部位的DNA序列获得或丢失某种限制性核酸内切酶位点;或当DNA分子内部发生较大的顺序突变如缺失、重复、插入,或DNA高变区内某串联重复顺序的拷贝数不同致使其两侧限制性核酸内切酶位点发生相对位移时,利用相应的限制性核酸内切酶消化此DNA,便会产生与正常不同的限制性片段。这样,在同种生物的不同个体中就会出现不同长度的限制性片段类型。
因为DNA的中性突变常以孟德尔显性遗传方式遗传给下一代,所以对这类突变检测已广泛用于遗传病的诊断、产前诊断、亲子鉴定以及法医学上对罪犯的确认等。
(四)DNA序列分析(DNa sequencing)
DNA的一级结构决定了基因的功能,欲想解释基因的生物学含义,首先必须知道其DNA顺序。因此DNA序列分析是分子遗传学中一项既重要又基本的课题。
1986年由美国学者提出的,目前正在实施的人类基因组计划(human genome project),则是要通过对人类基因组3×109bp全序列的序列分析和人类基因的染色体图谱制定达到了解其结构,认识其功能,即从分子遗传学水平来认识人类自身的结构和功能特征的目的。
核酸的核苷酸序列测定方法已经过近20年的发展,因而测序的具体方法五花八门、种类繁多。但是究其所依据的基本原理,不外乎Sanger的核酸链合成终止法及Maxam和Gilbert的化学降解法两大类。虽然原理不同,但这两种方法都同样生成互相独立的若干组带放射性标记的寡核苷酸,每组寡核苷酸都有固定的起点,但却随机终止于特定的一种或多种残基上。由于DNA链上每一个碱基出现在可变终止端的机会均等,因而上述每一组产物都是一些寡核苷酸的混合物,这些寡核苷酸的长度由某一种特定碱基在原DNA片段上的位置所决定。然后在可以区分长度仅相差一个核苷酸的不同DNA分子的条件下,对各组寡核苷酸进行电泳分析,只要把几组寡核苷酸加样于测序凝胶中若干个相邻的泳道之上,即可从凝胶的放射自显影片上直接读出DNA上的核苷酸顺序。以下分别介绍。
1.Sanger双脱氧链终止法
DNA的合成总是从5′端向3′端进行的。DNA的合成需要模板以及相应的引导核酸链。DNA的合成过程中,在合成的DNA链的3′末端,依据碱基配对的原则,通过生成新的3′,5′-磷酸二酯键,使DNA链合成终止,产生短的DNA链。具体测序工作中,平行进行四组反应,每组反应均使用相同的模板,相同的引物以及四种脱氧核苷酸;并在四组反应中各加入适量的四种之一的双脱氧核苷酸,使其随机地接入DNA链中,使链合成终止,产生相应的四组具有特定长度的、不同长短的DNA链。这四组DNA链再经过聚丙烯酸胺凝胶电泳按链的长短分离开,经过放射自显影显示区带,就可以直接读出被测DNA的核苷酸序列(图15-3)。
图15-3 双脱氧链终止法测定DNA序列原理示意
2.Maxam?Gilbert DNA化学降解法
这一方法的基本步骤为(1)先将DNA的末端之一进行标记(通常为放射性同位素32P;(2)在多组互相独立的化学反应中分别进行特定碱基的化学修饰;(3)在修饰碱基位置化学法断开DNA链;(4)聚丙烯酰胺凝胶电泳将DNA链按长短分开;(5)根据放射自显影显示区带,直接读出DNA的核苷酸序列(图15-4)。
图15-4 化学裂解法测定DNA的核苷酸序列