蛋白质从头测序 (de novo protein sequencing) #286
在抗体的质谱分析中,既可在抗体天然构象或复合状态下进行,也可在变性条件下将抗体分离成轻链和重链后测定。这些分析能提供关于抗体的重要信息,例如抗体库复杂性、特定克隆丰度变化等。当用于 de novo 序列解析时,母离子分子量信息还能提高轻链-重链配对及BU测序中序列预测的准确性。比较不同的分子量可以得出关于多种物种之间关系的结论,例如,如果它们之间的分子量差异是已知的突变、翻译后修饰(PTM)或信号肽的分子量。
变性和天然抗体也可以被碎裂以产生一些序列信息,这种方法称为自上而下质谱(TD-MS)。由于被分析物种的尺寸更大且电荷更高,这种完整蛋白质碎裂谱图比肽段谱图更复杂,更难以解释。为了缓解这种情况,可以使用特定的蛋白酶将蛋白质切割成较小的亚单位。这种做法称为middle-down(MD)质谱。对于抗体,通常通过在质谱分析前切割重链的铰链区域来执行。
从人体样本中发现抗体代表了开发新治疗途径的可行方法。然而,直接从临床样本中以功能成熟和活性形式在蛋白质水平上发现和表征成熟的抗体克隆可能更具优势。
基于质谱的重组单克隆抗体测序
用于高度纯化mAbs测序的Shotgun、自下而上策略
与大多数shotgun蛋白质组学实验不同,通过自下而上的质谱(BU MS)进行de novo测序需要高深度的序列覆盖率,即抗体中的每个序列位置理想情况下都由多个重叠的独特肽段支持。
典型的shotgun蛋白质组学实验使用胰蛋白酶,并且漏切次数很少,序列覆盖深度通常受到限制,因为只有少数生成的肽段在序列上重叠。
已有几种方法通过重叠肽段产生完整和深入的序列覆盖:
- 缩短蛋白酶孵化时间已成功用于增加携带漏切位点的肽段数量。
- 一些蛋白酶通过非特异性切割产生大量重叠肽段。
- 通过非酶处理实现非特异性切割,例如微波辅助水解。为了使这些方法有效,必须严格控制消化条件,以避免异常长或短的肽段,并确保可重复性。
- 另一个优雅的选择是使用具有协同序列特异性的多种蛋白酶。例如,Peng等人[10.1021/acs.jproteome.1c00169]最近使用了总共9种蛋白酶,包括特异性和非特异性蛋白酶,成功地de novo测序了一个全长的抗FLAG-M2小鼠mAb。大量蛋白酶的优势在于通过高得分肽段验证CDR序列,这些肽段覆盖了整个CDR。所选的6个肽段是由5种不同的蛋白酶(trypsin, chymotrypsin, lysC, thermolysin, and elastase;)消化的结果。
如今,大多数de novo序列解决方案,例如ALPS/PeaksAB、GenoMS、SuperNovo和Champs等,在获得高度纯化抗体的完整序列覆盖方面相当成功。
为了de novo确定抗体序列,所有这些软件工具都需要大量重叠的肽段,这些肽段跨越整个序列,并成功地被碎裂并转换成预测的肽段序列读取。这需要通过使用多种蛋白酶生成BU MS数据。虽然这使样品准备复杂化并增加了所需的量,但这种多蛋白酶方法对于de novo序列是有利的,因为它alleviating the sequence assembly problem减轻了序列组装问题。
互补肽段碎裂技术的益处

Figure 3. 单克隆抗FLAG M2抗体的测序。重链(a)和轻链(b)的可变区显示如下。由质谱(MS)派生的"去新"序列显示在顶部,旁边是用于Fab晶体结构的先前发表的序列(PDB ID: 2G60)和原始序列(IMGT-DomainGapAlign; IGHV1-04/IGHJ2; IGKV1-117/IGKJ1)。差异残基用星号(*)标出。支持分配序列的示例MS/MS谱图显示在对齐下方,带有蛋白酶、前体电荷状态和碎片类型的标签。每个谱图的右上角指示肽序列和片段覆盖率,"b/c"离子用蓝色/蓝绿色表示,"y/z"离子用红色/橙色表示。谱图中的峰值使用相同的颜色注释,其他峰值如完整/电荷减少的前体、中性损失和小分子离子用绿色表示。图表和标题改编自Peng等人的研究。(mAbs. 2022; 14(1). DOI:10.1080/19420862.2022.2079449. License; CC BY-NC 4.0.)
在基于质谱的测序中,广泛的肽离子碎裂对于生成一系列相邻的片段以揭示氨基酸序列至关重要,通常被称为ion ladders or sequence tags离子梯度或序列标签。通过比较两个相邻的片段离子峰之间的质量差与氨基酸及其组合的质量,可以推导出被碎裂肽段的氨基酸序列。产生的片段离子系列必须包含非常少的大于单个氨基酸残基的间隙,因为这样的间隙会导致适合质量差的氨基酸组合呈指数增长,特别是对于分辨率较低的谱图。
由于没有一种通用的碎裂方法可以为所有可能的肽段产生不间断的片段离子梯度,因此使用具有不同机制和特异性的各种碎裂方法相互补充是非常有利的。这些特异性来自于每种方法使用的独特离子激活机制。在基于碰撞的技术中,能量通过与惰性中性原子或气体分子的低能量碰撞传递给多质子化肽段离子。这些能量在整个肽骨架中以振动方式重新分配,碎裂最不稳定的键,并产生b/y型片段离子,如Roepstorff-Fohlmann-Biemann离子命名法所定义。尽管质子化的酰胺键通常是最容易碎裂的,但碰撞性解离通常也会导致不稳定的翻译后修饰(如磷酸化和唾液酸化)的丢失。
在基于电子的技术中,例如电子捕获诱导解离(ECD),带正电荷的肽段离子捕获电子,导致生成奇电子物种,这些物种在没有显著振动重分配的情况下迅速解离。与碰撞性解离不同,这个过程不是针对最不稳定的键,而是通过N-Cα键的解离产生独特的c和z型片段离子。同样,基于高能紫外光子激活和解离的技术(UVPD)也会引起键的解离而没有大量的能量重分配。这是通过沿着肽骨架的一系列色素实现的,并且根据使用的波长,会产生多种共存的片段离子类型(a/x, b/y, c/z)。高能碎裂方法也可能导致w型离子,这涉及到氨基酸侧链的解离。在de novo序列分析中,这可能是有利的,因为它允许区分亮氨酸和异亮氨酸,尽管它们具有相同的质量。
虽然在单个谱图中具有多种片段离子类型可能会使离子梯度检测复杂化,但它也可以提供片段离子系列方向的洞察,揭示肽段属于哪个末端(N或C)。这是由于来自同一肽键的连续a, b, c片段和连续x, y, z片段的特征性质量位移模式。Horn等人首次将这种方法用于de novo蛋白质序列分析,通过结合CID和ECD来区分N-末端和C-末端片段离子,简化了连续片段离子的检测。随后,许多其他人也采用了类似的策略。
Peng等人的报告也展示了多种碎裂技术的成功的使用。他们使用高能碰撞解离(HCD)和电子转移高能碰撞解离(EThcD)的双重碎裂方案记录了谱图,与使用单一碎裂方法相比,减少了测序错误的数量。被选为支持CDR预测的谱图也来源于两种碎裂技术,表明这种多功能的碎裂策略可以改善这些具有挑战性和重要区域的序列覆盖。
这种多重MS策略使得mAbs的de novo序列分析成为可能,至少当它们纯度足够时。然而,这个过程相当繁琐,因为它通常涉及使用多种蛋白酶生成重叠肽段和多种肽段碎裂技术来获得明确的序列读取,这需要更长的样品准备时间、更大的样品量和广泛的数据采集。
同源辅助de novo抗体序列分析

Figure 5 轻链(a)和糖基化重链(b)的断裂图谱展示了在Trastuzumab上通过ECD(电子捕获解离)和HCD(高能碰撞解离)组合产生的序列覆盖。二硫键以虚线表示,CDR3区域以黄色突出显示。相应的断裂谱图(c)显示了完整Trastuzumab的25+电荷状态,插图显示了包含轻链9+电荷状态和各种碎片离子的放大区域。红色和蓝色碎片离子标签分别对应轻链和重链。星号表示质量选择的前体离子。图表改编自Shaw等人[10.1021/ACS.ANALCHEM.9B03129]的研究。(mAbs. 2022; 14(1). DOI:10.1080/19420862.2022.2079449. License; CC BY-NC 4.0.)
这段描述涉及到抗体结构的特定部分,如轻链和重链,以及它们在质谱分析中的断裂模式。ECD和HCD是两种不同的质谱断裂技术,它们可以产生不同类型的碎片离子,有助于解析抗体的序列。CDR3(互补决定区3)是抗体可变区的一部分,对抗体的特异性识别至关重要。谱图的插图部分提供了对特定电荷状态下碎片离子的更详细视图。

Figure 6 针对血清抗体基于质谱的从头序列分析(mAbs. 2022; 14(1). DOI:10.1080/19420862.2022.2079449. License; CC BY-NC 4.0.)
(a) Ig-seq[90]使用由B细胞受体(BCR)序列生成的个性化数据库来识别特定克隆,使用覆盖CDR3区域的胰蛋白酶肽段。图表改编自Lavinder等人[90]。
(b) GenoMS[47]使用基因组数据生成模板序列。模板的具体构建可以由用户定义,可以是全基因组测序或BCR测序数据。图表改编自Castellana等人[47]。
(c) PolyExtend[32]有助于分析通过BU MS和完整质量测量测量的抗原特异性纯化抗体的多克隆混合物。使用用户辅助算法,将不同MS模式的数据结合起来,对最丰富的克隆进行序列分析。图表改编自Guthals等人[32]。
(d) Fab分析[31]测量和量化Fab的完整质量,提供IgG1克隆库的视图,使其能够量化和监测单个克隆。通过迭代使用BU和MD MS数据,识别丰富的血清克隆,以生成完整的IgG"去新"序列。图表改编自Bondt等人[31]。
这些方法展示了如何利用质谱技术结合不同的策略和数据,来识别和序列血清中的抗体克隆。每种方法都有其特定的应用和优势,从个性化数据库的构建到利用基因组数据,再到多克隆混合物的分析,以及Fab片段的完整质量测量,都是为了更好地理解和表征抗体的多样性和功能。
Shotgun质谱依赖于将观察到的碎片谱图与来自序列数据库的理论上的谱图进行匹配来鉴定肽段和蛋白质。然而,对于许多蛋白质,尤其是高度可变或经常突变的蛋白质,如抗体,通常没有完整和准确的成熟序列。相反,可以使用来自基因组或转录组实验的同源序列。对于抗体,编码每个区域(V、D、J和C)的基因可作为种系序列获得,并可以从国际免疫遗传学信息系统(IMGT)数据库检索。
虽然这种同源序列数据库可以促进de novo序列的验证或指导预测,但需要注意的是,即使在最广泛的数据库中,也可能不存在与目标序列完全匹配的序列。因此,传统的数据库搜索不适用,因为它们需要片段的精确质量匹配,而单个氨基酸突变可能会阻止鉴定。相反,基于序列比对或子序列(即序列标签)提取的容错片段匹配算法可以使用同源数据库对实验确定的序列进行评分。
同源辅助de novo序列分析的一个例子是将来自人类抗体样本的BU质谱数据与Swiss-Prot等蛋白质组数据库进行搜索,然后将鉴定出的肽段与IMGT数据库进行比对。进一步的报道适应包括使用专门的工具,如PEAKS,对初始搜索中未鉴定的特征进行de novo序列分析,以序列化和鉴定高变区域。同源辅助de novo序列算法也有利于通过与同源序列比较来鉴定错误的de novo肽段读取。此外,它们可以用作germline template种系模板,帮助组装de novo肽段读取。作为基于同源序列的支架的替代方案,抗体克隆及其组成部分(例如轻链或重链)的准确质量可以创建基于质量的支架mass-based scaffolds。然而,这些质量需要通过执行额外的以蛋白质为中心的MS实验来单独获得。
以蛋白质为中心的质谱方法
人们也尝试过对重组单克隆抗体(mAbs)进行完整分析或在大的蛋白质结构域层面进行分析,例如Fab片段。
这带来了一套新的挑战。
- 与肽段相比,完整的蛋白质有时离子化效率较低,
- 与肽段相比,通过液相色谱(LC)分离完整蛋白通常更加困难。尤其是抗体混合物样品,因为不同的抗体克隆在整体序列中只有很小部分的变化。
- 在质谱分析中,随着分子量的增加,质量精度和分辨率通常会降低,即使使用最新的高分辨率质谱仪也是如此。
- 对于质量超过20 kDa的完整蛋白质,通常无法获得完整的序列覆盖。
这些因素阻碍了以蛋白质为中心的质谱方法在抗体de novo序列分析中的应用。
在TD MS中结合多种碎裂技术有潜力提高序列覆盖率。此外,通过二硫键还原或使用特定蛋白酶(如IgdE,商业名称为FabALACTICA,它在IgG1的铰链区域以上切割,特别产生50 kDa的Fab片段,或IdeS,FabRICATOR,一种在铰链下方特定位点消化抗体的半胱氨酸蛋白酶,产生所有IgG亚类的F(ab’)2片段)消化抗体,可以简化完整抗体的测序,从而减少了分子的复杂性和大小。
Fornelli等人[10.1021/ac4036857],[10.1074/mcp.M112.019620][10.1016/j.jprot.2017.02.013][10.1021/acs.analchem.8b00984]展示了包括样品准备策略、碎裂条件以及仪器和实验设计的其他改进如何影响重组单克隆抗体蛋白质中心分析中的序列覆盖率。
最近,Shaw等人[10.1021/ACS.ANALCHEM.9B03129]展示了使用现代仪器成功在天然状态下碎裂完整mAbs的可能性。通过在单一串联MS实验中结合ECD和HCD,获得了曲妥珠单抗轻链的42%序列覆盖率和重链的20%序列覆盖率。产生的碎片谱图不仅包含了多次充电的主链碎片产物,还包括了由分子间二硫键碎裂而从抗体中弹出的完整轻链,提供了轻链和重链配对的信息。这些和其他许多研究最终汇集成了顶下蛋白质组学联盟的一次大型联合努力,他们全面描述了分析重组单克隆抗体的可用方法、技术和仪器。[10.1021/jasms.0c00036]
基于电子的完整蛋白离子碎裂技术在单克隆抗体(mAb)序列分析中具有巨大潜力。最近几项研究表明,这些方法能够持续产生几乎不间断的c离子梯度,覆盖了对抗原结合至关重要的互补决定区3(CDR3)。这些研究还证明了对于各种抗体亚型(IgG1-4和IgA1),基于电子的碎裂方法始终能够提供包含轻链和重链整个可变区的片段。值得注意的是,对于完整的mAb、F(ab’)2(由IdeS酶产生)和Fab分子(由IgdE或Operator酶产生),形成了非常相似的片段,这表明通过去除Fc部分来降低抗体复杂性对于以蛋白质为中心的mAb分析并非不利。
针对基于质谱的抗体序列分析的专业软件解决方案
上述各种样品准备方法和复杂的实验设计产生了扩展的数据集,这些数据集对于手动解释是不可行的。因此,开发用于数据解释的专业软件工具是必不可少的。
关于BU(自下而上)质谱数据,目前有两个流行的软件套件专门针对抗体的de novo序列分析,即SuperNovo和PeaksAB。这些套件可以利用使用多种酶、多种碎裂方法以及使用同源抗体种系序列数据库(如IMGT)生成的数据的优势,以BU质谱数据为基础进行完整的de novo序列预测。更具体地说,软件通过迭代筛选预测肽段与抗体的种系基因片段,以确定最终链构建上的位置。同源种系序列候选物代表支架,然后对其进行修改以适应得分最高的预测肽段。这允许预测轻重链序列,每个测序抗体的误差率仅为几个单个氨基酸。然而,一个缺点是,该软件目前仅用于高度纯化的单一抗体的测序。
随着实验设计和仪器改进的平行发展,新的de novo抗体序列分析软件解决方案正在出现并进步。新的de novo序列策略的快速发展鼓励了新软件解决方案的开发和已有工具的改进,并需要适应性软件以适应de novo序列方法中频繁和重大的变化,例如包括TD(自上而下)或MD(中间下)质谱数据、多种碎裂方法或分析多克隆样本而非单克隆抗体。
结合肽段中心和蛋白质中心质谱方法进行抗体序列分析
蛋白质中心质谱的最新进展催生了各种软件工具,这些工具要么独立使用这些数据,如Twister,要么将它们与BU质谱数据结合使用,如TBNovo。Twister应用了与BU质谱测序类似的方法,使用特定的de Bruijn图(T-Bruijn图)和序列标签卷积,将单个序列标签(而非肽段读取)重新组合成长序列。TBNovo使用来自TD质谱的序列标签和前体质量来为定位de novo预测的肽段读取提供支架以填补完整序列。它们的分析利用了外部BUde novo序列软件PEAKS,并已在蛋白质混合物上进行了测试。TBNovo尚未得到广泛采用,可能是因为软件的复杂性,以及在其首次发布时蛋白质中心质谱的实践还很少。
尽管在蛋白质层面上进行抗体序列分析仍然不简单,但它在学术界和工业界的应用规模正在稳步增加。然而,将抗体测序扩展到多克隆混合物的努力已经证明极具挑战性。第一个障碍是样品可用性。虽然重组单克隆抗体样品通常以毫克量级提供,但多克隆抗体样品通常来自临床样本,因此只有有限的数量可用。由于血浆中个别克隆的中位浓度约为1 µg/mL,每个个别克隆的可用蛋白质通常比单克隆抗体少几个数量级。此外,分离个别克隆极其具有挑战性,这进一步复杂化了测序过程,因为大多数软件工具专门设计用于组装单一抗体,因此在数据代表几个相似的Ig序列时失败。此外,在复杂的内源性多克隆抗体混合物中,由于稀释效应,关键的高变区序列证据通常未被检测到,其中来自保守区域的序列信息被放大(因为后者存在于每个克隆中),从而抑制了对所有克隆都是独特的CDR的信号。尽管为单克隆抗体测序开发的算法并不直接适用于多克隆抗体测序,但它们为开发新工具提供了一个很好的起点。
混合和多组学方法研究抗体库
为了进一步弥合单一纯化抗体测序与体内存在的抗体(例如血清中的抗体)之间的差距,使用混合或多组学策略是一种方法。例如,通过使用多组学方法,将来自同一供体的基因组学或转录组学数据补充到BU(自下而上)质谱数据中,可以绕过一些真正的de novo序列分析中具有挑战性的方面,尽管这需要更复杂、劳动密集和数据密集型的工作流程。虽然这些方法略偏离了本综述的核心主题,即基于质谱的de novo序列分析,但它们确实代表了关键的进展。目前,直接从复杂混合物中de novo序列分析抗体仍然是一个巨大的挑战。然而,整合来自多个来源的互补信息,使得即使在内源性抗体库上也能获得有价值的数据。
Ig-seq
由于抗体的互补决定区(CDR)在很大程度上决定了抗原特异性,因此,专门针对CDR衍生肽段的方法的出现并不令人意外。
值得注意的是,由Georgiou实验室的Lavinder等人[10.1016/j.cbpa.2014.11.007]开创的Ig-seq方法,应用了供体的B细胞测序来构建一个假定的CDR3重链肽段数据库。然后使用这个数据库来鉴定和量化抗体,使用CDR特异性的胰蛋白酶肽段,有效地绕过了完全de novo序列的需求。这种工作流程非常有效,因为发现胰蛋白酶靶向的残基(精氨酸和赖氨酸)特别位于CDR3之前,并且位于相对保守的重链FR4中,确保胰蛋白酶肽段在大多数(>92%)IgG克隆中包含重链CDR3。
BU质谱已经高度优化,用于测量和检测胰蛋白酶肽段,这使得这种方法非常有效,如当这种方法应用于多年流感抗体的纵向监测时所示。监测流感疫苗接种的效果表明,约60%的疫苗反应来自预先存在的克隆型,并突出了广泛保护性、非中和抗体的存在和相对丰富的存在。后续研究表明,持久性抗体在5年内占血清反应的>70%,进一步促进了Ig-seq方法的效率和强度。值得注意的是,仅依赖于从PBMCs获得的序列可能会提供一个不完整的数据库,因为只能获得一部分PBMCs进行分析。尽管如此,Ig-seq仍然是分析和鉴定Ig库中克隆并在生理变化(例如感染或疫苗接种)后(不)出现的一种最有效和成功的途径。
Alternative proteogenomics approaches
除了Ig-seq策略之外,Castellana等人[10.1074/mcp.M900504-MCP200]采用的蛋白质基因组学方法将个性化的基因组数据整合到抗体测序工作流程中,以鉴定完整的抗体序列。在他们的软件包GenoMS中,接受蛋白质组学和基因组学数据库作为输入,这些数据库用于从BU质谱数据重建抗体(亚)序列。数据库用于寻找同源模板序列,同时考虑缺失、突变和剪接的基因。该软件还允许通过用户定义的约束条件提供高度的灵活性。此外,用户可以定义如何使用模板数据库,排除特定基因,或使用多个基因片段(V、D、J或C)组成单一序列。
正如混合方法通常所发生的那样,这种蛋白质基因组学策略的力量是有代价的。虽然这种方法广泛适用且非常强大,但由于使用和结合了多种组学技术,所需的专业知识增加了。
然而,并非所有这些工具目前都公开可用,尽管一些底层协议是开源的。
内源性抗体的Protein-centric sequencing
仅基于质谱的测序,直接从血清样本或其他液体活检中发现新型抗体,绕过对基因组学/转录组学数据(多组学方法)的需求。
这些方法针对的是高度纯化的单克隆抗体样本,因此不直接适用于多克隆抗体混合物。然而,样品准备、仪器和生物信息学的进步使得通过结合不同的质谱技术,可以部分甚至完全获得内源性抗体克隆的de novo序列。
抗原特异性捕获
使用基于病原体的抗原,可以从血清中捕获对抗原具有高亲和力的特定抗体克隆。这通常大幅降低了抗体混合物的复杂性。尽管如此,由于对任何给定抗原通常有多个具有不同亲和力的抗体共存,因此几乎不可能将复杂性降低到单一克隆。
Guthals等人[10.1021/acs.jproteome.6b00608]报道了一种捕获方法,该方法使用额外的完整质量数据来推导de novo序列。在从暴露于巨细胞病毒的个体血清中亲和纯化抗体后,使用糖蛋白B抗原,进行了完整质量和BU质谱测量。他们的半自动化软件PolyExtend旨在使用完整质量测量来检索抗体混合物中最丰富物种的平均质量,这反过来被用作使用BU质谱数据推导序列的质量约束。PolyExtend进一步构建在最初设计用于通过将多个序列预测组装成更长子序列来扩展子序列的meta-SPS算法之上。然而,对于同一子序列的发散扩展被视为测序错误,并选择一个扩展用于输出。在抗体的情况下,这种发散可能表明存在两个相似的克隆。为了解决这个问题,软件将可能的扩展显示为排名列表,用户随后可以选择扩展。这种方法旨在扩展先前建立的meta-SPS算法的de novo测序能力,以处理多个克隆的同时存在,Guthals等人展示了一个明确的概念验证。
多克隆混合物中的抗体分析和测序
虽然目前还无法对整个血清抗体库进行de novo序列分析,但最近在完整蛋白质的LC-MS方面的进步已经使得从复杂的抗体混合物中检测和分析单个克隆成为可能。
例如,已经开发出专门用于分析血清中完整轻链并利用MD质谱提供部分序列信息的方法。这些研究令人印象深刻地展示了在不要求抗原特异性捕获的情况下在血清中的分析,尽管他们使用了掺入的mAb作为模型,或者研究了在血清中引起单克隆Ig过度表达(单克隆丙种球蛋白病)的疾病模型,如多发性骨髓瘤。尽管如此,这些研究表明检测和表征单个内源性轻链是可能的[10.1007/s13361-017-1602-6][10.1021/acs.analchem.8b03294][10.1016/j.ymeth.2015.04.020][10.1038/s41408-019-0180-1][10.1021/acs.analchem.1c01955]。
进一步地,Wang等人[10.1038/s41598-018-38380-y]开发了一种在血清中检测单个Fab片段的方法。他们能够鉴定数十种血清自身抗体的重链和轻链。尽管尝试在完整蛋白水平上对这些抗体进行de novo序列分析,但结果仅限于几个序列标签。
在SARS-CoV-2大流行期间,Melani等人[10.1021/acs.jproteome.1c00882]将他们的分析工作集中在疫苗靶向的刺突蛋白受体结合域上。这种方法被称为Ig-MS,具有两个新指标,用于捕捉抗体反应的强度和复杂性。简而言之,该方法使用亲和纯化来捕获抗原特异性克隆。掺入含有mAb的标准品以进行定量。二硫键还原后,使用单个离子质谱(MS)来测量样品的质量指纹。克隆峰的强度与标准品的强度比用来估计反应("Ion Titer"),反应的复杂性("Degree of Clonality")通过最强烈的轻链峰与所有轻链峰的总强度的比值来评估。最后,这些指标与基于ELISA的抗体滴度和中和效率相关联,以验证它们的准确性。
最近,Bondt等人[10.1016/j.cels.2021.08.008]专门从整个IgG1库中生成Fab片段。他们能够从健康和患有败血症的捐赠者的血清中纵向分析IgG1 Fab,无需对特定克隆进行富集。他们观察到每个捐赠者可以检测到50至500个不同的IgG1 Fab克隆,并显示大多数克隆在数月的采样期间持续存在。与普遍观点相反,他们表明IgG1库的丰度由仅有几百个克隆主导,并且每个捐赠者展示了一个独特的克隆库。
他们还设法在没有抗原特异性捕获帮助的情况下,直接de novo测序了一个捐赠者中的一个高度丰富的克隆。de novo测序是通过使用ETD的蛋白质中心序列分析和使用多种蛋白酶进行消化的BU质谱方法相结合实现的。首先,从IMGT数据库中选择了非常匹配的轻链和重链种系模板。随后,数据被用来迭代改进这些模板,产生最终的成熟序列。
这提供了一个概念验证,即直接从血清中de novo测序克隆是可行的,尽管仍然困难重重,仅限于特定情况。
值得注意的是,确定的序列比预期的(与种系序列相比)[10.3389/fimmu.2017.00389]含有更多的突变,这表明蛋白质水平和基因水平测序之间可能存在差异。
这项首次尝试专门关注IgG1,通过使用一种IgG1特异性蛋白酶来生成Fab片段。
在另一项工作中,Bondt等人[10.3389/fimmu.2021.789748]将他们的方法扩展到IgA1,通过使用一种特异性针对IgA1铰链区存在的O-糖蛋白的蛋白酶来生成Fab片段,尽管现在仅从IgA1中生成。总体而言,他们表明,与血清IgG1类似,少数克隆主导了人乳分泌型IgA1的轮廓。
使用一种有些类似的方法,Dupré等人[10.1021/acs.analchem.1c01955]分析了一位患有多发性骨髓瘤的患者的尿液中分离出的轻链。他们将肽段的de novo数据组装成全长序列,使用完整质量数据作为框架。随后,他们使用TD(自上而下)质谱来验证他们的发现,并进一步表征轻链的蛋白质形态,包括翻译后修饰(PTMs)。BU(自下而上)质谱数据进一步支持了得出的蛋白质形态,显示了通过迭代结合BU和TD质谱数据的相似增加的好处。
在蛋白质层面研究抗体的额外好处
已知抗体包含多个重要的PTMs,包括Fab和Fc的糖基化、去酰胺化和C末端截断。
此外,尽管IgG1中的二硫键已经得到了充分的描述,其他亚类,特别是IgG2,似乎以由不同的二硫键模式诱导的结构异构体形式出现。这些PTMs和二硫键在IgA和IgM中变得更加明显,它们可以通过连接链在血清和其他体液中形成高阶结构。
所有这些特征影响抗体的效力和稳定性。这些信息在核苷酸层面上不容易获得,需要蛋白质层面的分析。质谱允许对抗体进行超越氨基酸序列的表征。
整合各片段
通过依赖多种蛋白酶、多种碎裂技术、同源序列分析或这些方法的组合,现在已经可以进行基于质谱的抗体de novo序列分析。目前,这些技术还没有成熟到可以直接应用到血清中存在的内源性抗体混合物的分析。
尽管如此,Ig-seq和其他蛋白质基因组学策略已经从供体样本中为多个克隆产生了可靠的部分序列,尽管它们绕过了在蛋白质层面上对完整克隆的de novo序列分析。
尽管从抗体混合物中de novo组装序列仍然是一项艰巨的任务,但一些研究小组最近已经设法获得了激动人心的数据,无论是通过抗原特异性捕获还是通过针对最丰富的克隆。为了推导出de novo序列,完整质量测量与BU和TD质谱数据的结合似乎对确信序列预测非常有益。
有了这些可用方法的众多进步,很可能只是将各片段整合在一起,创建一种可以更常规地用于抗体发现的基于质谱的方法。
正如亚里士多德似乎已经说过的:“the whole is greater than the sum of the parts”(整体大于部分之和)。
当应用于de novo序列分析时,这意味着这里描述的不同方法的组合可能会产生协同效应,从而实现一个工作流程,实现最终目标。
虽然这些方法共享某些共同元素,如使用同源序列,但流程中仍然存在一些关键差距,阻碍了常规抗体序列分析和发现。
首先,这里讨论的几乎所有de novo方法在测序努力之前,仍然使用某种形式的抗体纯化从液体活检中存在的混合物。
其次,仍然需要高水平的专业知识,无论是从实验还是数据分析的角度,以推导出正确的de novo序列。
特别是,这些报告中提出的生物信息学工作流程仍然需要高度的manual curation来完善软件输出。然而,所有这些最近发布的概念验证为更高效的下一代方法铺平了道路。
通过基于质谱的de novo序列分析发现的首批治疗性抗体

图. 基于质谱的血清抗体 de novo 测序发展历程时间线。蓝色:基因组测序领域的关键进展;绿色:抗体研究领域的重要突破;橙色:质谱抗体测序领域的代表性里程碑论文。为展示治疗性抗体研发的影响,柱状图表示抗体类药物的累计注册数量,折线图则显示各年份的新增注册数。(mAbs. 2022; 14(1). DOI:10.1080/19420862.2022.2079449. License; CC BY-NC 4.0.)
自20世纪60年代以来,抗体的初步样品准备已经可用,但直到1993年Sanger测序首次应用于B细胞时,才出现了获得序列信息的实际方法。
第一个治疗性抗体于1986年注册,这一创举启动了单克隆抗体(mAbs)的大规模开发,到2008年已有一百个单克隆抗体处于高级开发阶段。那时,下一代测序技术导致了高通量测序工作流程,并进一步促进了治疗性抗体的开发。
这些技术的广泛采用不久后随之而来,自此以来,发布的抗体序列数量和注册的治疗性抗体数量呈指数级增长,到2021年,美国食品药品监督管理局批准了第100个治疗性单克隆抗体。
观察到这一趋势,基于质谱的蛋白质组学现在已经推动了支持质谱的抗体de novo序列分析平台的发展。
在过去20年中,基于基因组的测序技术的快速扩展通过允许大规模BCR测序启动了抗体发现。同样,我们预计,持续发展的基于质谱的de novo序列分析将通过蛋白质水平分析补充现有策略,甚至可能为未来的治疗性开发提供独立的解决方案。