新基因由已有基因产生
进化的原料是已存在的 DNA 序列:自然界中没有机制能够产生长片段的全新随机 DNA 序列。因此,从严格意义上讲,没有基因是完全全新的。然而,创新可以通过多种方式发生:
基因内突变(Intragenic mutation):已有基因可以通过 DNA 复制或修复过程中发生的各种错误,其 DNA 序列被随机修改。
基因重复(Gene duplication):已有基因可能被意外复制,在单个细胞内形成一对初始完全相同的基因;随后,这两个基因可以在进化过程中发生分化。
DNA 片段重组(DNA segment shuffling):两个或多个已有基因可以断裂并重新连接,形成由原本属于不同基因的 DNA 片段组成的杂交基因(hybrid gene)。
水平(细胞间)DNA 转移(Horizontal/intercellular DNA transfer):一段 DNA 可以从一个细胞的基因组转移到另一个细胞的基因组中——甚至跨物种发生。这一过程与通常的亲代到子代的垂直遗传(vertical transfer)形成对比。
这些类型的变化在生物的 DNA 序列中都会留下特征性痕迹,并有明确证据表明,这四种过程在进化中都曾频繁发生。
基因重复在单个基因组内产生相关基因家族
每当细胞分裂成两个子细胞时,整个基因组都会被复制一次。然而,有时会发生意外,只复制基因组的一部分,并在单个细胞内同时保留原始片段和复制片段。一旦基因通过这种方式被重复,两个基因副本可以在进化过程中获得突变并在同一细胞及其后代中分化为执行不同功能。经过数千万年的重复基因复制和分化,一个基因可以在单个基因组内形成一个相关基因家族。
- 以细菌 Bacillus subtilis 为例,其基因组分析显示 47% 的基因至少有一个明显的亲缘基因。
需要将上述进化过程与物种分化时的遗传分化区分开。当一种生物分化为两个独立谱系(如人类谱系与黑猩猩谱系分开)时,基因在进化过程中逐渐不同,但它们在两个姊妹物种中可能仍保有相应功能。这种通过共同祖先而存在关联的基因称为直系同源基因(orthologs)。在单个基因组内通过基因重复产生并可能分化功能的相关基因称为旁系同源基因(paralogs)。凡是通过以上任一方式相关的基因统称为同源基因(homologs)。

图《Molecular Biology of the Cell》7E Figure 1–20 直系同源基因(Orthologs)与旁系同源基因(Paralogs)
基因功能常可由其核苷酸序列推测
基因间的家族关系不仅在进化研究中重要,还简化了基因功能的解析。
一旦确定了新基因的核苷酸序列,科学家可以通过计算机检索大型基因数据库,寻找其相关基因。
许多同源基因的功能已通过实验确定——通常是在**模式生物(model organisms)**中。
由于基因序列决定基因功能,新基因的功能往往与已知同源基因相似,因此可以做出合理推测。
通过这种方法,仅通过分析基因组 DNA 序列,就可以获得大量关于生物体生物学的信息。
超过 200 个基因家族在生命的三大领域中均存在
通过分析来自生命三大领域——真核生物、细菌和古菌——的代表性生物的完整基因组序列,我们可以系统地寻找跨越这一巨大进化鸿沟的同源性(homologies)。通过这种方式,我们可以初步评估所有生命共同继承的遗传基础。
然而,这项工作存在不少困难:
由于进化过程的种种不确定性,要确定最初的祖先基因集合,并追溯其如何分化为现代生命的多样性,是困难甚至不可能的。
一种粗略的方法是统计在三大领域中多个(但不必全部)物种中都有代表的基因家族。
需要强调的是,这套高度保守的基因家族仅能代表现代生命共同遗传的粗略轮廓。

表 《Molecular Biology of the Cell》7E TABLE 1–1 生命三大领域共有基因家族按功能分类的数量。在本分析中,若一个基因家族在以下生物基因组中均有代表,则被定义为**“普遍基因家族(universal)”**:两种不同的古菌:Archaeoglobus fulgidus 和 Aeropyrum pernix;两种进化上相距较远的细菌:Escherichia coli 和 Bacillus subtilis;一种真核生物:酵母 (Saccharomyces cerevisiae)。