【预备知识】
- 蛋白质如何折叠? #56
- 蛋白质结构域是构建大型蛋白质的模块化单元 #57
一旦一种蛋白质进化出能够折叠成具有有用特性的稳定构象,它的结构在进化过程中通常会经过修饰,使其能够执行新功能。这个过程通过基因意外复制的遗传机制而大大加速,这使得基因拷贝能够独立进化以执行新功能。由于这种事件在过去频繁发生,现今的蛋白质可以被归类为蛋白质家族 (protein families),每个家族成员的氨基酸序列和三维构象都与其他家族成员相似。
例如,考虑丝氨酸蛋白酶 (serine proteases) 家族,这是一个庞大的蛋白质切割(蛋白水解)酶家族,包括消化酶胰凝乳蛋白酶 (chymotrypsin)、胰蛋白酶 (trypsin) 和弹性蛋白酶 (elastase),以及几种参与血液凝固的蛋白酶。当比较这些酶中任意两种的蛋白酶部分时,会发现它们氨基酸序列的某些部分是匹配的。它们三维构象的相似性更加惊人:它们长度数百个氨基酸的多肽链中,大多数详细的扭曲和转折几乎是完全相同的。
图 《Molecular Biology of the Cell》7E Figure 3–14 比较一对来自两个进化上相隔超过十亿年的生物体的 DNA 结合结构域(称为同源异型结构域 homeodomains)。(改编自 C. Wolberger et al., Cell 67:517–528, 1991。)
(A) 两种蛋白质共有的结构的彩带模型。
(B) α 碳原子位置的追踪图。所示的三维结构是通过 X 射线晶体学测定的,分别为酵母 α2 蛋白(绿色)和果蝇 engrailed 蛋白(红色)。
(C) 图 A 和 B 中所示蛋白质区域的氨基酸序列比较。黑点标记了氨基酸相同的位点。绿色阴影标记了图 A 中显示三个 α 螺旋。橙点表示 α2 蛋白质中三氨基酸插入物的位置。
尽管如此,许多不同的丝氨酸蛋白酶仍具有独特的酶活性,每种酶切割不同的蛋白质或切割不同类型氨基酸之间的肽键。因此,它们在生物体内执行不同的功能。
总的来说,一个蛋白质家族中不同成员的结构比其氨基酸序列得到了更高程度的保守。在许多情况下,氨基酸序列的分歧已经如此之大,以至于在不确定其三维结构的情况下,我们无法确定两种蛋白质的家族关系。例如,酵母的 α2 蛋白质和果蝇的 engrailed 蛋白质都是同源异型结构域 (homeodomain) 家族的转录调控蛋白。由于它们的同源异型结构域的 60 个氨基酸中只有 17 个是相同的,它们的关系只有通过比较其三维结构才得以确定。许多类似的例子表明,两种氨基酸序列具有超过 25% 同源性的蛋白质通常具有相同的总体结构。
一个大型蛋白质家族的各个成员通常具有不同的功能。突变是一个随机过程。家族成员之所以不同,是因为其中一些氨基酸变化在进化过程中被选择了下来,因为它们带来了生物活性的有用变化;这些变化赋予了单个家族成员今天所具有的不同功能特性。而其他氨基酸变化实际上是“中性”的,对蛋白质的基本结构和功能既没有益处也没有损害。此外,由于突变是随机的,也必然存在许多有害的变化,它们足以改变这些蛋白质的三维结构使其变得无用。这些有缺陷的蛋白质在进化过程中会很容易地被淘汰。
当任何生物体的基因组被测序时,蛋白质家族很容易被识别;例如,人类整个基因组 DNA 序列的测定表明,我们拥有大约 20,000 个蛋白质编码基因。通过序列比较,我们可以将我们一半以上的蛋白质编码基因产物归入已知的蛋白质结构,这些结构属于 500 多个不同的蛋白质家族。每个家族中的大多数蛋白质都已进化到执行略有不同的功能,例如前面图 3–13 中所示的弹性蛋白酶和胰凝乳蛋白酶。这些家族成员有时被称为旁系同源物 (paralogs),以区别于直系同源物 (orthologs)——那些在不同生物体中具有相同功能的进化相关蛋白质(例如小鼠弹性蛋白酶和人类弹性蛋白酶)。
目前已知的蛋白质序列数据库包含超过 1 亿条目,并且随着越来越多的基因组被测序——揭示出大量的蛋白质编码新基因——它正在快速增长。编码的多肽大小差异很大,从 6 个氨基酸到巨大的 34,000 个氨基酸蛋白质(肌联蛋白 titin,一种肌肉中的结构蛋白)。
由于 X 射线晶体学、核磁共振 (NMR) 和低温电子显微镜等强大技术,我们现在已知超过 10 万种蛋白质的三维形状或构象。通过仔细比较这些蛋白质的构象,结构生物学家(即生物分子结构的专家)得出结论:蛋白质结构域在自然界中通常折叠的方式是有限的——如果我们考虑所有生物体,估计约为 2000 种。对于大多数这些所谓的蛋白质折叠类型 (protein folds),都已经确定了具有代表性的结构。
蛋白质比较非常重要,因为相关的结构通常意味着相关的功能。通过发现一种新蛋白质的氨基酸序列与已知功能的蛋白质相似,可以节省多年的实验时间。例如,正是这种序列关系,首次表明某些导致哺乳动物细胞癌变的基因编码蛋白激酶(protein kinases)。
【进阶】