【预备知识】
- 蛋白质如何折叠? #56
- 蛋白质结构域是构建大型蛋白质的模块化单元 #57
- 新基因如何产生? #27
大多数蛋白质由一系列蛋白质结构域组成,其中多肽链的不同区域独立折叠形成紧凑的结构。这种多结构域蛋白质被认为起源于编码各个结构域的 DNA 序列偶然连接在一起,从而创造出一个新基因。在一个被称为结构域重排 (domain shuffling) 的进化过程中,许多大型蛋白质是通过以新组合方式连接预先存在的结构域而进化的。新的结合表面通常在结构域的交界处产生,并且许多蛋白质结合小分子的功能位点也发现位于那里。
图 《Molecular Biology of the Cell》7E Figure 3–15 结构域重排 (Domain shuffling)。相同形状和颜色表示的部分在进化上是相关的。例如,丝氨酸蛋白酶 (serine proteases),如胰凝乳蛋白酶 (chymotrypsin),由两个结构域组成(棕色)。在所示的其他三种高度调控且更专业化的蛋白酶中,这两个蛋白酶结构域连接到一个或多个与以下结构域相似的结构域:表皮生长因子 (EGF;绿色) 中发现的结构域,钙结合蛋白(黄色)中发现的结构域,或kringle 结构域(蓝色)。
在进化过程中,有一部分蛋白质结构域特别活跃;它们似乎拥有特别通用的结构,有时被称为蛋白质模块 (protein modules)。例如SH2 结构域,以及其他三种丰富的蛋白质结构域。
图 《Molecular Biology of the Cell》7E Figure 3–16 三种常用蛋白质结构域的三维结构。在这些彩带图中,β 折叠链显示为箭头,N 端和 C 端由红色球体标出。自然界中存在着更多此类“蛋白质模块”。(改编自 D.J. Leahy et al., Science 258:987–991, 1992)
这三种结构域的每一个都有一个由 β 折叠链形成的稳定核心结构,从核心中突伸出有序性较低的多肽链环。这些环处于形成其他分子结合位点的理想位置,这在免疫球蛋白折叠 (immunoglobulin fold) 中得到了最清晰的证明,它构成了抗体分子的基础。这种基于 β 折叠的结构域之所以能在进化上取得成功,可能是因为它们为配体 (ligands) 生成新的结合位点提供了一个方便的框架,只需要对其突出的环进行微小的改变。
解释这些蛋白质结构域实用性的第二个特征是它们可以很容易地整合到其他蛋白质中。图 3–16 中所示的三种结构域中的两种,它们的 N 端和 C 端位于结构域的两极。当编码此类结构域的 DNA 经历串联复制(这在基因组进化中并不少见)时,这种串联排列的复制结构域可以很容易地串联连接,形成延伸结构——无论是与它们自身还是与其他串联结构域连接。由一系列结构域组成的坚固延伸结构在细胞外基质分子和细胞表面受体蛋白的细胞外部分中特别常见。
其他常用的结构域,包括SH2 结构域和 kringle 结构域,属于插入类型,它们的 N 端和 C 端彼此靠近。在基因组重排之后,这类结构域通常作为插入物被容纳到第二种蛋白质的环状区域中。
对不同真核生物中结构域利用的相对频率进行比较后发现,对于许多常见结构域,例如蛋白激酶,它们在酵母、植物、蠕虫、果蝇和人类等多种生物体中的频率是相似的。但也有一些值得注意的例外,例如主要组织相容性复合体 (MHC) 抗原识别结构域,它在人类中有 57 个拷贝,但在刚才提到的其他四种生物体中却缺失。像这样的结构域具有与其他真核生物不共享的专业功能;它们被认为在近期的进化过程中受到了强烈的选择,从而产生了观察到的多拷贝。