Data analysis for glycoproteomics
从质谱数据中准确鉴定完整的糖肽仍然具有挑战性,并且其性能落后于肽段鉴定。 糖链和肽段的存在使得碎裂过程、质谱图及其注释变得更加复杂。
根据碎裂策略的不同,如共振激活碰撞诱导解离(CID)、高能碰撞解离(HCD)、电子转移解离(ETD)或它们的混合组合,可以在质谱图中观察到不同类型的碎片离子,包括肽段的b/y、c/z离子或糖链的B/Y离子。 即使使用现代质谱仪非常高的分辨率,碎片离子的注释也可能存在歧义。 最后但同样重要的是,必须解决异质性问题,即一个肽段上可能存在多个糖基化位点,以及具有相同糖链组成或质量的多种结构。
Byonic 被认为是糖蛋白组学分析的“金标准”(‘gold standard’)工具 [10.1002/0471250953.bi1320s40],但也有研究指出 Protein Prospector 在 O-糖链位点定位 方面可能更具优势 [10.1007/s13361-018-1945-7]。
在现阶段,仍然需要专家手动解读来准确确定糖链的组成及其连接位点。
糖蛋白组学当前亟需新的搜索算法与数据库,以克服这一耗时且通量低的分析步骤。为了解决这一问题,化学工具可能发挥关键作用,例如引入基于同位素标记的糖蛋白组学工作流程[29,112,113]。
Glycopeptide search
串联质谱(tandem MS)鉴定糖肽的核心思想是将糖肽的搜索过程分解为两个部分:肽段(peptide)和糖链(glycan)的独立搜索。先解决其中一个部分,然后利用该信息来限制另一个部分的搜索空间。
新的软件工具在灵敏度、准确性和速度方面相比以往方法有了显著提升。
在糖肽匹配结果的自动验证方面仍存在挑战。
Table 1. Summary of glycoproteomics software tools developed since 2019.
| Software Name | Search Type | Glycans | Glycan FDR? | Comments | Reference |
| pGlyco3 | Glycan 1st (2-step) | N & O | yes | Includes O-glycan multi-localization | 2021. Wen-Feng Zeng. Nat Methods |
| FragPipe/MSFragger-Glyco | Peptide 1st | N & O | Yes later added^ | | 2020. Alexey I. Nesvizhskii. Nat Methods |
| MetaMorpheus/O-Pair | Peptide 1st | N & O | no | Includes O-glycan multi-localization | 2020. Lloyd M. Smith. Nat Methods |
| StrucGP | Glycan 1st (3-step) | N | yes | Low energy HCD structure search | 2021. Shisheng Sun. Nat Methods. |
| Glyco-Decipher | Glycan 1st (3-step) | N | yes | Includes ID transfer to unannotated spectra | 2022. Mingming Dong & Mingliang Ye. Nat Commun |
| SugarPy | Glycan 1st (3-step) | N | no | Requires in-source CID | 2020. Nichollas E. Scott. MCP |
| GPSeeker | Glycan 1st (3-step) | N | yes | Dimethyl labeling for quantitation | 2019. Zhixin Tian. JPR |
| O-Search | Peptide 1st | O | no | | 2023. Mingliang Ye. AC |
| GlycoHybridSeq | Traditional | N | no | Sub-proteome scale; EThcD data required | 2021. Haixu Tang. JPR |
| GlycopeptideGraphMS | AMRT network | N | no | Purified protein analysis only. | 2019. Matthew S. Choo. AC |
| Byonic | Traditional | N & O | no | Commercial software | 2012. Marshall Bern. Curr Protoc Bioinformatics |
| Protein Prospector | Traditional | N & O | no | | 2008. Robert J. Chalkley. MCP |
| GlycReSoft | Glycan 1st or Traditional | N & O | yes | Several options for glycopeptide search methods and FDR available | 2012. Joseph Zaia. PLOS ONE. |
| GPQuest 2.0 | Peptide 1st [since v2.0] | N | no | | 2015. Hui Zhang. AC |
图1. 糖蛋白组学(glycoproteomics)搜索方法的比较。
a) 传统搜索方法会从所有可能的肽段与糖链组合中枚举候选糖肽,并匹配质谱图以找到最符合的糖肽候选。
b) “糖链优先”(glycan-first)搜索方法先利用一系列已知的糖链Y离子(glycan Y-ions)推断出肽段质量,然后仅在符合该质量的候选肽段中搜索肽段骨架离子(peptide backbone ions)。
c) “肽段优先”(peptide-first)搜索方法直接根据质谱图中的肽段骨架离子匹配肽段,并在确定肽段质量后反推出糖链质量。
以往的方法通常将糖肽作为一个整体进行搜索,也就是说,必须考虑所有可能肽段与所有可能糖链的组合(图1a)。由于这种搜索方式极其复杂,通常需要将搜索空间限制在部分蛋白质组或相对较少的糖链集合中,以在合理时间内完成分析。尽管如此,一些传统搜索工具仍在糖蛋白组学中广泛使用,最著名的包括 Byonic(可能是目前最常用的糖蛋白组学分析工具)、ProteinProspector 和 GlycReSoft。
由于糖链在碰撞活化(collisional activation)条件下极易碎裂,这些工具在分析碰撞活化数据时,会考虑由糖链碎裂产生的附加离子(fragment ions)。
除了糖链特异性的碎片离子外,传统方法在过去十年中也针对糖肽分析进行了多种优化改进 ^[2021. Marshall Bern. MCP. 10.1074mcp.RA120.002260],[2017. Robert J. Chalkley. Anal Bioanal Chem.10.1007s00216-016-9981-2]。
另一方面,这种糖链易碎的特性也可以用来将糖肽的识别过程分为两个部分,因为质谱图中常常能直接观察到仅来源于糖链或仅来源于肽段的碎片离子,从而可以分别识别糖链或肽段。
Glycan-first approach
“糖链优先”(glycan-first)方法最初由一些面向亚蛋白质组(sub-proteome scale)的工具开发,随后通过 MAGIC 和 pGlyco 软件工具的推广,成为应用于蛋白质组规模(proteome-scale)分析的主流方法之一。
糖链优先搜索的核心特征是利用 Y离子(Y-ions),即带有一系列糖链碎片的完整肽段,来推断肽段质量,并据此大幅缩小可能的肽段序列搜索空间(见图1b)。
在实际应用中,这种策略主要有两种通用实现方式:
pGlyco3 采用的是两步法(2-step method):首先通过 Y 离子和 氧鎓离子(oxonium ions)将完整糖链与糖链数据库进行匹配;然后通过从观测到的前体离子质量中减去已识别糖链质量,得到肽段质量,从而使肽段搜索限定在一个极小的空间内。
大多数其他工具(包括 MAGIC、GPSeeker, StrucGP 和 Glyco-Decipher)则采用三步法(3-step method):第一步从 Y 离子系列中直接推断肽段质量,利用 N-糖链(N-glycan)中已知的五糖核心结构(pentasaccharide core)来找到 Y₀ 离子,即完全去除糖链的肽段本体(见图1b);第二步利用肽段骨架离子在受限的前体质量范围内进行肽段匹配;最后第三步在确定肽段后对完整糖链的组成(composition)或结构进行深入表征。虽然这些工具在最终完整识别糖链之前就已确定了肽段,但由于它们是基于糖链碎片离子来限制肽段搜索空间的,因此仍被归类为“糖链优先”方法。
三步法要求事先已知糖链核心结构,以便推断肽段质量,因此目前主要用于 N-糖肽分析,因为 O-糖链(O-glycan)核心结构多样性较大,限制了此方法的应用范围。然而,该方法可以同时在缩小的搜索空间中识别肽段和糖链,从而实现对 N-糖肽的高灵敏度搜索。例如,利用该方法的Glyco-Decipher 在灵敏度方面超越了多个同类工具。
StrucGP 也利用此方法,通过低能量 HCD 碰撞裂解(HCD fragmentation)区分糖链结构[2022. Alexey I. Nesvizhskii. MCP. _10.1016j.mcpro.2022.100205]。相比之下,pGlyco3 的两步法不仅适用于 N-糖肽,还扩展至 O-糖肽(O-glycopeptides)分析,具有高的速度与灵敏度^[2016. Si-Min He. Sci Rep. _10.1038srep25102]。
Peptide-first approach
肽段优先(peptide-first)策略的代表性软件包括 MSFragger-Glyco、GPQuest 2.0 和 MetaMorpheus。
肽段优先方法直接在质谱图中匹配肽段的 b离子 和 y离子,几乎无需对前体肽段进行预筛选,从而可以匹配带有多种潜在糖链质量的肽段(见图1c)。
肽段优先方法的一个关键进展是碎片离子索引技术(fragment-ion indexing)[2020. Alexey I. Nesvizhskii. Nat Methods. MSFragger-Glyco_10.1038s41592-020-0967-9]。如果没有这项技术,在蛋白质组尺度上搜索不受限或较少受限的前体空间将耗时极长,难以实际应用。
一旦肽段序列被识别出来,就可以通过从观测到的前体离子质量中减去肽段质量来推断糖链质量,从而大幅缩小糖链的搜索空间。然而,仅凭糖链质量并不足以区分质量相近的糖链组成,特别是在复杂样本中,因此后续的糖链识别步骤对于肽段优先方法是至关重要的 [2022. Mingming Dong & Mingliang Ye. Nat Commun. Glyco-Decipher _10.1038s41467-022-29530-y],[2022. Alexey I. Nesvizhskii. MCP. _10.1016j.mcpro.2022.100205]。
与糖链优先方法不同,肽段优先方法不依赖于Y离子的观察来匹配糖肽质谱图,这种特点可提升灵敏度,尤其是在 O-糖肽(O-glycopeptides) 分析中,因为这类样本中 Y离子相对罕见。
以 MSFragger-Glyco 为例,配合其新增的糖链特异性**假阳性发现率控制(FDR, false discovery rate)**机制,在酵母糖肽的搜索中识别的糖肽质谱图数量比 pGlyco3 多出约60%,比 Glyco-Decipher 多出约15%。
不过,肽段优先方法可能会遗漏一些低丰度肽段,而这些肽段在糖链优先方法中有可能被识别出来,因为糖链碎片离子通常比肽段骨架碎片更强,甚至在缺乏明显肽段离子的情况下仍能被检测到。
总的来说,无论是糖链优先还是肽段优先方法,都通过将糖肽识别过程分解为两个独立组成部分并在各自缩小的搜索空间中进行匹配,显著提升了糖肽质谱匹配的速度与灵敏度。
De nono
2021. Michael Hippler. Bioinformatics.
SugarPy facilitates the universal, discovery-driven analysis of intact_10.1093bioinformaticsbtaa1042.pdf
O-linked glycopeptides
N-连接型糖链常常在碰撞激活(collisional activation)解离后在肽段的 b离子 和 y离子 上保留一个单糖。相对的,O-连接型糖链(O-linked glycans) 通常在碰撞激活过程中完全脱落,这使得难以通过碎片离子信息来直接定位糖链附着位点[2020. Bertozzi. AC. _10.1021acs.analchem.0c02950]。
O-糖肽(O-glycopeptides) 产生 Y离子(Y-ions) 的频率较低,且其核心结构种类多样,这对糖链优先(glycan-first)搜索方法尤其是依赖已知糖链核心结构以推断肽段质量的三步法(3-step methods)构成了挑战。
此外,O-连接型糖链常常在同一个肽段中修饰多个位点,因此在鉴定过程中需区分“一个大糖链”与“多个小糖链”的情况,这引入了一个关键的**去卷积(deconvolution)**步骤,以实现对 O-糖肽的准确解析。
传统搜索方法中,使用 EThcD 或 ETD 的方法(如 ProteinProspector)可以识别并定位 O-糖肽,但通常需要限制肽段或糖链的搜索空间,或限制每个肽段上的糖基化位点数量,以保证搜索效率。
也有若干工具(如 MSFragger-Glyco 和 O-Search)尝试使用 HCD(高能碰撞诱导解离) 单独完成 O-糖肽的鉴定,仅报告肽段序列和总糖链质量。这种方法无法提供位点特异性(site-specific)信息,但当只需获得糖肽水平信息时,能在大规模数据集中提供快速而灵敏的搜索能力。
一种名为 O-Pair 的方法结合了碰撞激活和电子激活两种扫描方式:先使用碰撞激活扫描识别肽段序列,再用成对的电子激活扫描结合基于图论的动态规划方法来去卷积并定位附着的糖链。O-Pair 在识别和定位 O-糖肽方面比 Byonic 和 ProteinProspector 的传统方法表现更优,尤其是在允许每个肽段带有多个糖基化位点的条件下,搜索速度显著提升。
类似的成对扫描图论方法也已在 pGlyco3 中实现,并结合多项计算优化,大幅提升了分析速度。此类“成对扫描方法(paired-scan methods)”结合了:
在碰撞激活扫描中分离肽段与糖链识别的显著优势;
在电子激活中定位 O-糖链所必需的信息,从而实现了对 O-糖肽的高灵敏度新一代分析策略。
对于所有 O-糖蛋白质组学方法而言,评估糖链定位的置信度(confidence)至关重要,特别是在糖链密集聚集(densely clustered)区域。
O-Pair 引入了一系列基于图论算法所得定位概率的置信度等级,用于区分全部、部分或完全无法定位的糖链修饰位点。这一进展为实现自动化高置信度筛选提供了重要工具,尽管不同软件工具间定位概率的标准尚不一致,比较仍存在挑战。
未来我们预计这一领域将持续发展,可能会引入类似于蛋白质组学其他分支中正在推进的**误定位率(false localization rate)**计算方法[2013. Alexey I. Nesvizhskii. MCP. LuciPHOr _10.1074mcp.M113.028928]。
Validation of identified glycans
对完整糖肽搜库结果的自动化验证需求正在显著增长。
虽然用于蛋白质组学中肽段序列识别的假发现率(False Discovery Rate, FDR)估算已建立起成熟的靶-诱饵竞争法(target-decoy competition methods)^[2010. Alexey I. Nesvizhskii. J Proteomics. _10.1016j.jprot.2010.08.009],但在糖链分配方面,专家手动注释谱图仍然是验证其有效性的金标准[Nat Methods 2021, 18:1304–1316]。
与可以通过反转氨基酸线性序列生成诱饵(decoy)的肽段不同,糖链(glycan)具有非线性结构,且仅由少量类型的单糖(monosaccharides)组成,这给target-decoy 靶-诱饵式的 FDR 估算带来了很大挑战。
多数早期糖蛋白质组学工具仅依赖于肽段级别的 FDR,即通过传统蛋白质组学搜索中的靶-诱饵策略获得的结果;但由于肽段打分并不能直接反映糖链分配的置信度,这就需要手动验证来确认糖链的准确性。
由于在大规模层面上实现糖链级别的 FDR 存在诸多挑战,这种只采用肽段 FDR、糖链靠人工验证的做法至今仍在实际中被广泛使用,例如在 Byonic 中,尽管已有研究指出该策略可能导致显著的糖链错误分配率[pGlyco3. Nat Methods 2021, 18:1515–1523]。
为了解决这一问题,有一些方法发展出了在生成诱饵糖肽(decoy glycopeptides)时,同时扰乱糖链和肽段组成的策略(见图2a)^[2014. Heather Desaire. AC. _10.1021ac502176n], [2019. Heather Desaire. JPR. DecoyDeveloper _10.1021acs.jproteome.9b00203], [2016. Jong Shin Yoo. Sci Rep. _10.1038srep21175]。这些方法主要应用于小到中等规模的分析,但由于在全蛋白质组范围内生成的“诱饵糖肽”有可能实际存在于样本中,导致真阳性与假阳性难以区分,因此目前尚未普遍应用于全蛋白质组规模的分析。
更关键的是,这些方法仅适用于传统搜索方法(traditional search methods)。因为在肽段优先(peptide-first)或糖链优先(glycan-first)方法中,任何与目标肽段或糖链质量不同的decoys都会在搜索前被排除,这将极大地偏向于 target matches。
图2. 生成诱饵糖肽(decoy glycopeptides)的方法。
A) 通过同时改变肽段和糖链的质量,使得组合后的糖肽前体质量保持不变,从而生成诱饵糖肽。上图为 GlycoPep Evaluator 中的诱饵生成方式,该方法将修改后的肽段序列与随机糖链质量组合。下图为替代法,使用由真实单糖构成的诱饵糖链,同时将肽段序列随机扰动,保持总体前体质量不变。
B) 光谱基础的诱饵生成方法,即使用相同的肽段和糖链,但在与实验谱图匹配之前,将糖链碎片离子的位置随机偏移。
C) 利用靶-诱饵糖肽打分的直方图来估算 FDR,确定在给定假阳性比例下所需的打分阈值。
目前,在蛋白质组规模工具中最先进的糖链 FDR 估算方法是基于谱图的诱饵生成(spectrum-based decoy generation)方法**。该方法通过对目标糖链的理论碎片离子(fragment ions)施加小范围的随机质量偏移,然后再与实验谱图进行匹配(图2b)[2017. Sriram Neelamegham. MCP. _10.1074mcp.M117.068239]。
此方法利用**带有真实糖链与诱饵糖链(质量偏移后的)肽段的打分,评估获得某一设定 FDR 所需的打分阈值(图2c)。
这一策略的不同变体被多个工具采用,包括:pGlyco3、MSFragger-Glyco、Glyco-Decipher 及 StrucGP。
通过统计谱图中命中随机离子的频率,该方法能够估算糖链在谱图中“随机匹配成功”的概率。然而,由于许多糖链(尤其是 N-糖)共享大量共同的碎片离子(如五糖核心结构),这导致该方法在区分相似糖链时会低估 FDR,且相似度越高,低估程度越严重 [2022. Alexey I. Nesvizhskii. MCP. _10.1016j.mcpro.2022.100205]。
StrucGP 针对这种结构特异性赋值的困难,引入了多项创新。例如:在碎片离子基础上,对前体离子也加入随机质量偏移;此外,还引入了基于贝叶斯概率估算的亚结构打分(sub-structure scores)策略,用于增强对相似结构的区分能力。
StrucGP、pGlyco3 与 Glyco-Decipher 在一个步骤中同时完成了肽段与糖链的 FDR 估算。而 MSFragger-Glyco 作为 FragPipe 工具包的一部分,先进行肽段 FDR 评估,糖链 FDR 则由后续的 PTM-Shepherd 后处理模块单独完成。
总体来看,这些方法在结果上差异不大,但一步完成的工具在处理肽段或糖链可能具有相似修饰的情况时具有优势。此外,一种用于评估 FDR 方法准确性的手段是“陷阱糖链搜索(entrapment searches)”,即故意引入样本中并不存在的糖链,以观察是否会被错误匹配。
例如,最近一项比较 MSFragger-Glyco/PTM-Shepherd 与 pGlyco3 的研究发现,两者都能避免将酵母糖肽光谱错误分配为含唾液酸的小鼠糖链,但在避免将其分配为高甘露糖型小鼠糖链(这些结构与酵母更相似)方面表现较差[2022. Alexey I. Nesvizhskii. MCP. _10.1016j.mcpro.2022.100205]。这表明,即使在自动赋值中,对于糖链的识别仍需谨慎,尤其是在糖基化模式尚未充分表征的系统中。
我们预计,糖链 FDR 方法将在未来几年持续优化,以支持糖肽谱图的全自动解析。
Modified glycans
已有软件尝试鉴定修饰糖链及区分异构的糖链结构。然而,这也带来了 FDR 控制方面的新挑战,因为在考虑修饰糖链后,搜索空间显著扩大,从而增加了错误赋值的风险。
一些传统的搜索工具,如 **GlycReSoft [2018. Joseph Zaia. Bioinformatics. _10.1093bioinformaticsbty397]**和 ProteinProspector[2020. Robert J. Chalkley. Mol Omics. _10.1039C9MO00178F],早已支持多种糖链修饰及加合物(尤其是金属阳离子的加合物)的分析。
而包括 Glyco-Decipher、pGlyco3 以及 MSFragger-Glyco/PTM-Shepherd 在内的新一代软件工具也已支持对多种常见修饰糖链和加合物的识别与分析。
值得注意的是,Glyco-Decipher 引入了“单糖步进(monosaccharide stepping)”方法,该方法通过检测 Y 离子系列中的间隔来发现未知或非预期的糖链修饰。
此外,MSFragger-Glyco 还支持“开放式糖肽搜索(open glycopeptide search)”,从而能够识别新型或未知糖链。该功能已被应用于细菌糖肽的表征研究[2020. Nichollas E. Scott. MCP. _10.1074mcp.TIR120.002100]。
Glycan structure
新的软件方法开始尝试区分其拓扑结构与空间构象。
StrucGP 利用低能量HCD碎裂生成大量的 B 离子和 Y 离子,以识别不同的糖链拓扑结构,已在区分具有生物学意义的糖链异构体方面显示出良好效果[2022. Shisheng Sun. Mol Oncol. _10.10021878-0261.13147]。
不过需要注意的是,在质谱碎裂过程中糖链会发生重排现象,特别是质子化糖肽的碎裂,这可能导致结构分析的歧义。
此外,进行结构分析还需要高质量的碎片信息。随着质谱采集方法的不断进步,这类聚焦于糖链结构的分析方法未来有望实现大规模应用。
糖肽定量方法
糖肽的定量分析对于下一代生物标志物发现与精准医学具有重要潜力,但对数据采集与分析的稳定性和可靠性提出了更高要求。
pGlycoQuant
目前已有多个软件专为某些特定定量实验开发,通常依赖特定标签或三级质谱(MS3)采集方法 [2019. Zhixin Tian. JPR. GPSeeker 10.1021acs.jproteome.9b00191],[Nat Commun 2020, 11:5268],[10.1021/acs.analchem.0c00014]。
DIA
DIA(数据非依赖采集) 与**谱图库匹配(spectral library matching)**等方法表现出巨大潜力,但面对DIA产生的复杂数据,仍有显著信息学挑战[2021. Sergey Y. Vakhrushev. MCP. _10.1074mcp.R120.002204]。
GproDIA 是最近发布的一个软件工具,它展示了DIA在糖蛋白质组学中的应用潜力,同时也反映出在无需前体选择情况下进行糖肽解析的挑战[2021. Liang Qiao. Nat Commun. GproDIA _10.1038s41467-021-26246-3].。
糖肽保留时间预测与碎片谱预测工具可以提高注释效率并降低错误匹配率。
Glycopeptide MS2 spectra visualization
Byonic在软件界面中提供糖肽谱图的查看与输出,然而由于其糖链数据库缺乏结构信息,Byonic仅匹配糖链核心结构的Y碎片离子,使得组成复杂的Y离子无法被注释。仅支持Byonic的鉴定结果。
pGlyco集成了一个名为gLabel的插件,用于提供谱图注释和图像输出,但是gLabel仅能生成固定参数的png格式谱图图片,在用户自定义和图片发表方面存在限制。仅支持pGlyco的鉴定结果。
GP-Plotter支持Glyco-Decipher、Byonic和pGlyco等软件糖肽鉴定结果的可视化^[10.1093/gpbjnl/qzae069]。
研究前沿
不同方法之间的比较仍面临挑战:
当前缺乏规模足够大且具有真实标注的标准数据集(ground-truth datasets)。
“Entrapment搜索”(即在分析中加入已知样本中不可能存在的糖链)为方法评估提供了重要手段,但其效果依赖于添加糖链的复杂性必须能与真实样本中的糖链复杂度相匹配。
跨工具比较时,务必确保所用的糖链数据库或列表保持一致。目前已有研究因不同工具使用了差异显著的糖链集合而得出误导性结果。
近年来,出现了几项有前景的信息学举措,旨在自动化糖肽鉴定过程、辅助定量和支持数据输出的解释。HUPO 的人类糖蛋白组学倡议最近进行的一项实验室间研究强调了不同软件搜索参数的重要性,以成功鉴定和表征糖肽,从而尝试处理假阳性并报告数千个未经验证的糖肽。在这个阶段,对于大多数可用的糖肽鉴定软件工具,强烈建议仍然进行糖肽分配的手动验证,以在报告的鉴定中产生足够的信心。因此,很明显,计算解决方案需要进一步改进,以推进糖蛋白组学领域,并最终实现与糖科学领域内其他学科的充分整合。
若要真正推动糖蛋白组学迈向新高度,我们亟需更简便的方法来验证质谱结果,以便更容易地研究糖基化在生物学中的功能意义。