Deciphering the determinants of recombinant protein expression across the human secretome
Helen O. Masson, Pablo Di Giusto, Chih-Chung Kuo, and Nathan E. Lewis
October 7, 2025. 122 (41) e2506036122
https://doi.org/10.1073/pnas.2506036122
中国仓鼠卵巢(CHO)细胞是治疗性蛋白生产的标准宿主系统,但仍有部分蛋白质难以在该系统中高效表达。
目前仍不清楚:哪些因素决定了蛋白在 CHO 系统中能否成功分泌表达(文献 8, 9)。
通过对一组在 CHO 细胞中表达的人类分泌组(human secretome)蛋白进行多样化谱系分析,作者发现:
重组蛋白的 mRNA 含量仅能解释分泌产量变异的 不到 1%。通过分析 218 个蛋白特征,作者识别出决定分泌变异约 15% 的蛋白内在特征,其中关键驱动因素包括 分子量、半胱氨酸含量 以及 N-连接糖基化。
这为理性设计难以表达的蛋白提供了可行路线图。
随后,作者分析了 95 个不同重组蛋白的 CHO 细胞培养体系的 RNA-Seq 数据,这些细胞的分泌水平跨度极大。
宿主细胞的转录组特征与产量表现出强相关性。
对宿主细胞转录组的分析揭示了分泌、代谢与应激响应信号的协同变化模式:
- 低产细胞表现出 内质网相关降解(ERAD) 与 网质自噬(reticulophagy) 的上调,
- 高产细胞则显示出增强的 脂质代谢活性 与 抗氧化应激能力。
结论
综上所述,CHO 细胞对人源分泌蛋白的表达差异主要由宿主细胞生理状态与整体代谢背景决定,而非蛋白序列或理化属性本身。
为解释剩余变异,未来工作应通过因果扰动实验直接验证机制。例如,可利用条形码分泌报告系统(FcBAR)与CRISPRi/a 或 ORF 过表达筛选,筛查能显著改变分泌量的调控因子。
最近的研究:
- 过表达 Agpat4、Ephx1 与 Nsdhl可提升抗体分泌,提示脂质重塑与 ER 活性调节是关键杠杆点(文献 91)。
- BAR-RNA-Seq 筛选鉴定并验证了宿主互作因子 Cul4a 与 Ywhah,其过表达提高了难以分泌的 HCV E1E2 疫苗蛋白产量(文献 92)。
- 通过调节 UPR/ERAD、伴侣蛋白、囊泡运输(COPII/COPI)与高尔基体加工节点可系统探索分泌通量极限(文献 93)。
- 工艺扰动(如温度变化、化学伴侣或营养补料)仍是诱导可解释性分泌变化的实用手段,结合多组学分析可揭示具体调控机制(文献 82)。
意义
本研究定量化地刻画了已知因素在产量变异中的贡献,并凸显了宿主细胞转录差异是影响蛋白表达的主要来源之一,为理性设计 CHO 细胞系与生物工艺优化提供了指导依据。
本研究为未来揭示限制重组蛋白分泌的分子机制并优化工业生产系统提供了宝贵资源。
Results
CHO 细胞中重组蛋白的表达差异极大
在前述研究中,共有 2,135 个来源于人类的蛋白 在 CHO 细胞中被表达。作者观察到这些蛋白在总体表达量上存在显著的变异性。
在全部人类分泌组蛋白中,仅有 59%(共 1,257 个蛋白) 能够在 CHO 细胞中达到既定的质量标准(参考文献 8)。此外,在那些符合质量标准的蛋白中,其表达滴度(titer)根据蛋白种类的不同,跨越了数个数量级的差异(图 1A)。
在这 1,257 个成功表达的人类蛋白中,作者筛选出一个具有代表性的 95 个蛋白的子集,用于后续的转染实验与 RNA-Seq 分析。
筛选标准确保该组样本在收获时的细胞数量与细胞活性覆盖了广泛的范围——包括两者的高值与低值。此外,为了捕捉不同的生长特性,作者同时选取了生长速度快与生长速度慢的细胞株所生产的蛋白,从而获得反映多样生理状态的样本。这种分层(stratified)筛选策略确保该子集能够代表细胞生长与蛋白生产过程中的多样条件。
作为对照,作者还纳入了野生型(WT)Icosagen QMCF CHO-S 宿主细胞系。最终,共有 96 个单次培养样本 进行了 RNA-Seq 测序(数据集 S1 与 S7)。
值得注意的是,这些重组基因(transgenes),按其外源序列定义,在所有样本的转录组中占据约 3% 的总转录量,
使其成为大多数样本中表达最为丰富的基因之一。
重组蛋白表达的差异无法由转基因 mRNA 丰度解释
转基因 mRNA 水平较低可能限制分泌型蛋白的滴度(文献 10, 11)。
为评估在本研究体系中,蛋白产量差异是否由转基因 mRNA 水平所驱动,作者利用线性回归模型分析了转基因 mRNA 含量与蛋白滴度之间的关系。
在这 95 个经过 RNA-Seq 的重组蛋白表达细胞培养样本中,作者发现:转基因 mRNA 丰度仅能解释蛋白滴度变异的不到 1%(R² < 0.01)(图 1B)。
这一结果显著低于以往在哺乳动物细胞中针对内源基因所报道的相关性(约 40%)(文献 5, 12–14)。
这种差异很可能源于 Icosagen QMCF CHO 瞬时表达体系中极高的转录水平,该体系的 mRNA 表达量可能已饱和翻译机制(translational machinery),从而降低了 mRNA 丰度对最终蛋白产量的影响。
作者推断:在该体系中,细胞已产生了足量的转基因 mRNA,mRNA 丰度并非产量限制因素。
这一结果提示,难以表达的蛋白产量瓶颈存在于转录层面以外的环节,如折叠、加工、分泌或细胞应激过程。
HSP 蛋白的 218 项特征集
鉴于转基因 mRNA 水平无法解释重组蛋白产量差异,作者进一步探究蛋白自身特征在表达变异中的作用。
为此,作者整理并计算了 218 个蛋白特征(features),用于预测 2,135 个 HSP 蛋白的丰度。这些特征分为三大类(表 1):
实验性丰度特征(Experimental abundance features):
衡量该蛋白在其他系统中的表达情况,包括
- 不同人类组织中的表达量、
- 其他物种的同源蛋白表达量、
- 以及在 CHO 细胞中的内源表达水平。
序列特征(Sequence features):
涵盖与核苷酸序列及氨基酸序列相关的属性,如
分子量(MW)、
氨基酸组成(AAC)、
翻译后修饰(PTMs)等。
生物物理特征(Biophysical features):
包括反映蛋白稳定性、可溶性、二级结构构成等的指标。
全部 218 项特征的详细定义与计算方法见数据集 S2。
随后,作者采用相关性分析(correlation analysis)与机器学习(ML)方法系统评估这些蛋白特征对表达丰度的影响。
蛋白特征可解释约 15% 的重组蛋白表达变异
相关性分析显示,分子量(MW) 是影响蛋白表达水平的最主要决定因素(见补充附录与数据集 S3)。
然而,由于每个细胞可利用的资源(如氨基酸、分泌通路装置等)有限,为剔除这类已知的“资源约束效应”对结果的干扰,作者进一步分析了蛋白特征如何影响 CHO 细胞中可生产的蛋白总质量(µg)。
作者运用机器学习(ML)方法,建立了用于描述 CHO 中重组蛋白生产的回归模型与通过/失败(pass/fail)分类模型(SI Materials and Methods)。
在各模型中,作者对预测变量(即蛋白特征)的重要性进行了排序,并评估了不同模型间前 10 个最重要特征的一致性(图 2A、2B)。结果显示:
所有八个回归模型均将 分子量(MW) 和 **半胱氨酸氨基酸组成(AAC of cysteine)**列为影响总蛋白表达量的前 10 个最重要特征之一。其中表现最佳的回归模型更是将这两项特征排在首位(图 2C)。
在“通过/失败”分类模型中,重要特征间的一致性进一步增强。在这些共识特征中,二硫键与N-连接型糖基化的存在尤为显著,它们对糖蛋白的正确折叠与质量控制至关重要,尤其涉及钙连蛋白/钙网蛋白循环(calnexin/calreticulin cycle)(文献 29, 30)。
进一步通过 Welch’s t 检验发现,未能成功表达的蛋白,其 N-连接糖基化水平显著较低(P < 2.2×10⁻¹⁶)。
综上:N-连接糖基化水平较高的蛋白通常更易成功表达。
SHAP 分析揭示主要预测驱动因素
基于 Shapley 加性解释分析(SHAP) 的结果(补充附录图 S1A)进一步支持上述结论。
SHAP分析识别出以下特征是预测蛋白能否被分泌的主要驱动因素:
二硫键的存在、
蛋白净电荷、
N-连接糖基化水平、
以及分子量(MW)。
SHAP 分析还揭示了与表达失败相关的特征:包括二硫键含量低、N-连接糖基化不足、信号肽数量不足、
以及净电荷或分子量过高(见补充附录图 S1B)。
蛋白特征可解释约 15% 的总表达变异
为了定量评估蛋白特征能够解释的总表达变异比例,作者按最佳回归模型中各特征的重要性依次将其加入线性模型中,并计算模型可解释的方差比例(图 2D)。
结果显示,当纳入 32 个蛋白特征 时,模型解释的方差达到峰值,约为 15%。
虽然这一数值显著高于转基因 mRNA 丰度所能解释的变异比例,但仍表明蛋白特征仅能解释蛋白滴度变异的一部分。
蛋白特征对细胞生长与活性的影响
鉴于工业化生物工艺的核心目标在于最大化总体产量,因此,评估蛋白特征对细胞生长与活性的潜在影响至关重要,
因为这些参数最终决定了细胞的生产能力。
作者分析了重组蛋白的特征与细胞活性及生长速率之间的相关性。结果发现与这两个指标呈正相关的有:
相反,
蛋白特征与单位活细胞产率的关系
为了进一步探讨蛋白特征与**单位活细胞比生产率(specific productivity)**的关系,作者将蛋白表达量分别按细胞生长与活性进行标准化。
结果表明,在这两种分析中,正向相关性最高的特征包括:
当按细胞活性标准化时,避免出现大体积或强电荷/芳香族区域有助于维持细胞健康;
而当按生长速率标准化时,增加 **O-连接糖基化位点(O-glycosylation sites)与平衡的疏水-中性结构基序(motifs)**与分泌负荷下稳定的细胞分裂速率相关(见补充附录图 S4)。
转录组特征可区分 CHO 细胞中产蛋白与不产蛋白的群体
接下来,作者旨在描绘不同宿主细胞克隆的转录组特征,并评估其与重组蛋白表达之间的关联。
对 96 个 RNA-Seq 样本进行的主成分分析(PCA)清楚地显示:不产蛋白的细胞(nonproducing cells)在转录水平上与产蛋白的细胞(producing cells)显著不同,表现为明显的转录组离群特征(图 3A)。
第一主成分(PC1)解释了约 19% 的转录组变异,其方向能够有效区分成功产蛋白的细胞与未能产生任何重组蛋白的细胞。
这些转录组特征反映了细胞对蛋白生产的生理响应,它们是生物系统的协同输出结果,而非直接驱动蛋白表达差异的因子。
在 PC1 上negative loading最强的基因之一为 LOC100754005(Prpf8)。该基因编码 剪接体复合物(spliceosome complex)的关键组成蛋白,在前体 mRNA 加工(pre-mRNA processing)中发挥重要作用。该基因的高表达是产蛋白细胞的显著特征。
既往研究在比较不同 CHO 宿主细胞的蛋白质组时,也观察到 Prpf8 在高产细胞系中上调表达,并推测其对 CHO 中生物药高产特性具有促进作用(文献 31)。
基因集富集分析(GSEA)揭示不产蛋白细胞的分子通路特征
为进一步洞察不产蛋白细胞的分子特征,作者对“失败产物”(failed producers)与“成功产物”(successful producers)进行了 基因集富集分析(GSEA)(文献 32, 33)(图 3B)。
结果显示,两类细胞均表现出细胞应激反应迹象,这可能源于外源蛋白过表达所带来的负担。
此外,不产蛋白的细胞中显著上调了与翻译(translation)和氧化磷酸化(oxidative phosphorylation)相关的基因,并显示出氨基酸匮乏(amino acid deficiency)的信号。
作者还观察到,在不产蛋白的细胞中,蛋白分泌过程早期阶段(如内质网靶向,ER targeting)的活性升高,而后期分泌通路(如高尔基体内运输、囊泡靶向、蛋白加工及分泌颗粒形成)的活性显著降低,相较于成功产蛋白的细胞呈现明显差异。
与此同时,成功产蛋白的细胞表现出**跨膜转运(transmembrane transport)**活性的增强,
这一特征可能有助于缓解氨基酸缺乏所引起的代谢压力。
未能产蛋白的细胞对内质网应激反应不足
分泌通路(secretory pathway)常被认为是重组蛋白生产过程中的关键瓶颈(文献 34–36)。
为了更深入理解不同细胞群体在分泌通路特征上的差异,
作者针对 13 个分泌通路相关功能计算了其活性评分(activity scores)
(详见“材料与方法”部分)。
对 95 个重组蛋白表达的 CHO 样本的活性评分进行标准化后,
以野生型宿主细胞(WT)为参照,
得出了各路径相对活性变化情况(图 4A)。
ER(内质网)钙稳态与重组蛋白生产的关联
在所有重组蛋白表达细胞中,ER 钙离子稳态(calcium homeostasis)均表现为上调,且这一趋势与产量高低无关。
这表明在 CHO 细胞中过度表达外源蛋白,普遍会引起 ER 钙稳态失衡,进而激活未折叠蛋白反应(UPR, unfolded protein response)(文献 37)。
进一步的应激响应分析显示,在整个细胞样本群中,多种 ER 应激响应基因被激活;但在未能成功产蛋白的细胞中,大部分此类基因的表达显著下调(图 4B)。
蛋白折叠作为重组蛋白生产的常见瓶颈
蛋白折叠过程被认为是重组蛋白生产中的关键限制环节之一(文献 38, 41, 42)。
错误折叠或未折叠蛋白在 ER 内的积累,可诱发 ER 应激与 UPR 激活(文献 43–45)。
多项研究已证实,上调蛋白折叠相关基因可增强蛋白生产能力(文献 46, 48, 49)。
作者观察到:在 91 个成功产蛋白的细胞中,蛋白折叠活性与总蛋白产量之间存在轻微但显著的正相关性
(r = 0.21,P = 0.05)。
此外,相较于失败样本,成功产蛋白的细胞中多种与折叠调控相关的基因均表现上调,包括:
Hyou1(hypoxia up-regulated 1) —— 一种由 ER 应激诱导的伴侣蛋白;
Pdia3(protein disulfide isomerase family A member 3) —— 参与二硫键重排与蛋白折叠;
Ero1a(endoplasmic reticulum oxidoreductase 1 alpha) —— 参与 ER 内氧化环境维持与二硫键形成。
这些基因的上调表明成功的生产细胞具备更强的折叠能力(图 4B)。
总体而言,这种中等程度的相关性提示,
蛋白折叠效率受多种机制的复杂交互作用影响,
包括糖蛋白正确折叠与质量控制过程中的动态需求差异。
N-连接糖基化与 ER 相关降解(ERAD)与蛋白分泌密切相关
作者基于 95 个重组蛋白表达细胞的 RNA-Seq 数据,按分泌通路活性进行了聚类分析,结果得到 四个明显的细胞亚群(Cluster 1–4)(图 4A)。
Cluster 4 仅包含一个样本 —— 失败产物 Ccl20,其在所有分泌通路功能上均表现为显著下调。其余各簇包含了不同产量水平的细胞,说明分泌通路的整体“活性指纹”并不能单独决定蛋白是否能成功分泌。
Cluster 3 中聚集了其余所有未能表达目标人源蛋白的样本。这一簇的样本在大多数分泌功能上表现出较低活性,但同时也包含了部分高产样本。这意味着:高分泌通路活性并非实现高蛋白产量的充分条件。因此,作者进一步探索 Cluster 3 中与高产相关的其他基因。
作者计算了 Cluster 3 内各分泌通路基因与蛋白丰度之间的相关性。结果识别出 43 个分泌机制相关基因,其表达与蛋白丰度显著相关(|r| ≥ 0.6;FDR ≤ 0.1)(图 4C,数据集 S8)。
这些特征仅在 Cluster 3 中出现,而其他两个簇未显示显著的分泌基因相关性。
其中一组基因与 N-连接糖基化(N-linked glycosylation)相关,包括 Alg12、Rpn1、Rpn2 和 Ddost,它们与蛋白表达均呈正相关。
由于 ER 内的 N-连接糖基化 对于蛋白的正确折叠、稳定性维持、聚集抑制以及通过伴侣蛋白实现的质量控制至关重要(文献 50),因此这类信号比单纯的折叠活性信号与蛋白产量呈现更强的相关性。
此外,仅有一个基因 Derlin2(Derl2) 与蛋白表达呈显著负相关。Derlin 基因家族编码 ER 相关降解(ERAD)系统的组成成分,参与将错误折叠或未折叠的蛋白从 ER 逆向转运(retrotranslocation)至胞质,以便蛋白酶体降解(文献 51, 52)。
为评估分泌机制基因表达变异与 Cluster 3 异质性的关系,作者建立了线性回归模型。初始纳入的候选基因为 Alg12、Rpn1、Rpn2、Ddost 与 Derl2。为减轻多重共线性影响,最终仅保留 Alg12 与 Derl2。Alg12 在众多 N-连接糖基化基因中尤为突出,因其在糖基化与 ER 内折叠过程中均发挥关键作用。在线性回归中,蛋白滴度对 Alg12 与 Derl2 的表达量回归得到 R² = 0.87(补充附录图 S2),表明两者与产量变异存在强相关性。
然而,作者注意到该高相关系数主要反映 RNA-Seq 数据中的共线性。
总体而言,N-连接糖基化基因(Alg12, Rpn1/2, Ddost) 与 **ERAD 基因(Derl2)**代表了 ER 质量控制系统中相互对立的两个分支:
糖基转移与成熟(正向途径)
与错误折叠蛋白的逆向转运与降解(负向途径)。
其中 Derl2 是唯一与产量负相关的基因,而 Alg12 与 Derl2 则被保留为回归模型中互不共线的代表性标记(图 4C,数据集 S8)。
高产细胞的特征:增强的脂质代谢活性
重组蛋白生产是一个能量需求极高的过程,伴随着原材料(如氨基酸、脂质等)消耗的大幅增加,因此往往引起宿主细胞代谢的显著重构。
许多细胞工程策略因此针对代谢通路进行了调控,以期提高重组蛋白产量(文献 53)。
为揭示本研究细胞群体中的代谢差异,作者应用 CellFie 工具(文献 54, 55),从多组学数据中定量推断代谢任务(metabolic tasks)的活性(数据集 S4)。结果鉴定出:
这些差异性任务主要涉及氨基酸、碳水化合物与脂质代谢。
在这 79 项差异性代谢任务中,
本研究使用的所有 CHO 细胞在转染前均为同源宿主,唯一实验变量为转入的外源基因。因此,产量与代谢反应的差异可直接归因于不同外源蛋白表达对细胞资源需求的差异性。
这些代谢变化代表了一种细胞适应性重编程,即细胞通过重新分配代谢资源以支持重组蛋白的高效生产。
类似的代谢重塑现象也曾在比较分泌型与胞内型蛋白生产的细胞中被观察到,表明分泌通路负荷增加会显著提升能量需求(文献 56)。
高低产细胞的代谢差异
为进一步理解高产与低产细胞之间的代谢差异,作者在高、低产细胞子集中计算了各代谢任务与蛋白表达量的相关性(图 5B)。结果显示,与蛋白表达最显著且相关性最强的代谢任务主要涉及脂肪酸(FA)代谢。
脂肪酸在细胞中具有多种重要功能,既是细胞膜的关键结构成分,也是细胞能量代谢的重要来源。作者观察到多种脂肪酸合成途径与蛋白表达呈显著正相关,包括:
棕榈酸(palmitate)合成(r = 0.62),
棕榈酰辅酶A(palmitoyl-CoA)合成(r = 0.59),
花生四烯酸(arachidonate)合成(r = 0.59),
丙二酰辅酶A(malonyl-CoA)合成(r = 0.51)。
相比之下,低产细胞表现出天冬氨酸向β-丙氨酸转化的更高活性(r = −0.43),该反应产物是 辅酶A(CoA) 与 酰基载体蛋白(ACP) 的前体,均参与脂肪酸代谢。这种负相关关系表明:低产细胞可能在这些关键前体物质上存在消耗或缺乏。
强烈而动态的氧化应激反应有助于提高重组蛋白产量
分析结果显示,半胱氨酸含量高的蛋白往往表达较差,这与已有研究相符:过量的半胱氨酸会导致二硫键过度形成、蛋白聚集、结构不稳定与产量下降(文献 57)。
此外,半胱氨酸补给不足会破坏细胞的氧化还原平衡,从而降低滴度、产率及产品质量(文献 58)。
为探究可能与半胱氨酸代谢失衡相关的邻近代谢途径,作者使用 CellFie 工具 进行了补充分析,发现经牛磺酸合成途径导致的半胱氨酸耗竭与蛋白表达呈负相关(r = −0.51)(图 5B)。
半胱氨酸被引入牛磺酸合成途径,可能通过激活氨基酸匮乏信号通路(文献 59)并削弱线粒体功能(文献 58),进一步加重蛋白生产负担,降低氧化磷酸化效率。
本研究未直接测量培养上清中的半胱氨酸水平,这是研究的一个局限性。直接测量该指标将有助于验证“外源半胱氨酸耗竭”假设。此外,在强化的(intensified)培养过程中,由于半胱氨酸溶解度低、溶液中易降解(文献 60),其补给本身即是一项挑战。这可能解释了低产细胞中氧化应激增加与随之而来的细胞损伤。
氧化应激反应与转运系统的关系
作者观察到全体细胞中普遍存在氧化应激现象。氧化应激通常发生于抗氧化防御机制失衡与活性氧(ROS)积累中,而后者在 CHO 细胞的重组蛋白生产过程中普遍产生(文献 61)。
成功产蛋白的细胞对氧化应激表现出更强烈的转录反应,其上调的氧化应激响应基因数量是未产蛋白细胞的1.6 倍(图 5C)。
值得注意的是,三种在失败细胞中下调的基因编码溶质载体(Slc)超家族成员。这一结果与前期 GSEA 分析中观察到的“Slc 介导的跨膜转运下调”现象一致(图 3B)。其中,**Slc7a11(溶质载体家族 7 成员 11)**在失败细胞中的下调最为显著(LFC = −1.85;FDR = 5.19E−07)。该基因参与 半胱氨酸与谷氨酸转运,其缺失或抑制可能削弱细胞应对半胱氨酸缺乏的能力(文献 63)。
Keap1 上调削弱了细胞的抗氧化应答能力
失败细胞中,氧化应激传感蛋白 Keap1(Kelch-like ECH-associated protein 1)的表达显著升高(LFC = 1.46;FDR = 2.46E−67)。
Keap1 是 E3 泛素连接酶复合体(BTB–CUL3–RBX1) 的底物特异性适配蛋白,该复合体介导转录因子 Nrf2(NFE2-like bZIP transcription factor 2) 的泛素化与降解。在氧化应激条件下,Keap1 中的反应性半胱氨酸残基被修饰,导致该复合体的泛素连接酶活性失活,从而允许 Nrf2 诱导的 II 期解毒酶表达(文献 64, 66, 67)。
值得注意的是,Nrf2/Keap1 通路不仅调控抗氧化反应相关基因,还控制脂质代谢(文献 68–70)以及半胱氨酸代谢与转运(文献 71–73)。
因此,Keap1 过度表达可能抑制细胞通过 Nrf2 通路激活充分的氧化应激防御反应。
半胱氨酸组成与氧化应激的相关性
氧化应激基因表达与蛋白产量及半胱氨酸含量的相关性分析(补充附录图 S5)结果显示:
这些结果表明:高半胱氨酸含量可能削弱细胞的抗氧化防御能力,促成低产表型的形成。
综上所述,在本研究的蛋白样本集中,细胞有效应对氧化应激的能力与重组蛋白产量呈正相关。