自然选择显然倾向于让线粒体的基因组尽可能小。与此相反,大多数真核生物的核基因组似乎在进化过程中不受限制地扩张。也许真核生物的生活方式本身使更大的基因组成为一种优势:例如,捕食性细胞通常需要比猎物更大;而细胞体积通常与基因组大小成正比。无论原因如何,大多数真核生物的基因组都比细菌和古细菌的基因组大数百倍。

图《Molecular Biology of the Cell》7E Figure 1–30 基因组大小的比较(数据来源:T.R. Gregory, 2021,《动物基因组大小数据库》(Animal Genome Size Database):www.genomesize.com)
基因组大小以每个单倍体基因组中的DNA 核苷酸(碱基)对数来衡量,即每个基因组单拷贝所包含的碱基对数。
(对于像人类这样的多细胞有性生殖生物,其体细胞通常为二倍体(diploid):包含两套基因组,一套来自母方,另一套来自父方。)
请注意,即使是亲缘关系很近的生物,它们基因组中 DNA 的总量(由绿色条的长度表示)也可能存在极大的差异,尽管它们所含的蛋白质编码基因数量相似。
这种对 DNA “奢侈使用”的自由带来了深远的影响。
真核生物不仅拥有比原核生物更多的基因,还拥有数量远超的非编码 DNA——这些 DNA 不会被翻译为蛋白质或 RNA。
例如,人类基因组所含的核苷酸对数约为典型细菌(如 E. coli)的 700 倍,但其蛋白质编码基因仅多出约 4.5 倍。
原因在于:人类基因组中约 98.5% 的 DNA 不编码蛋白质,而 E. coli 中仅约 11% 的 DNA 不参与编码。
表 1–2 比较了几个代表性真核生物与 E. coli 的基因组大小和基因数目。
生物 (Organism) | 近似基因组大小* (核苷酸对, nucleotide pairs) | 近似蛋白质编码基因数量** (Approximate number of protein-coding genes) |
Escherichia coli(大肠杆菌,bacterium) | 4.6 × 10⁶ | 4,300 |
Saccharomyces cerevisiae(酵母菌,yeast) | 12.5 × 10⁶ | 6,600 |
Caenorhabditis elegans(线虫,roundworm) | 100 × 10⁶ | 20,000 |
Arabidopsis thaliana(拟南芥,plant) | 135 × 10⁶ | 27,000 |
Drosophila melanogaster(果蝇,fruit fly) | 180 × 10⁶ | 14,000 |
Danio rerio(斑马鱼,zebrafish) | 1,400 × 10⁶ | 26,000 |
Mus musculus(小鼠,mouse) | 2,800 × 10⁶ | 20,000 |
Homo sapiens(人类,human) | 3,100 × 10⁶ | 20,000 |
* 基因组大小包括对高度重复、非编码 DNA 序列的估计,这些序列通常不会出现在基因组数据库中。
** 还包括一些编码功能性 RNA 分子的基因,这些 RNA 不会翻译为蛋白质。
【预备知识】
- 真核生物拥有混合型基因组 #30