用于解卷积谱图数据并将生成结果与数据库比对的软件。
自上而下蛋白质组学软件
解卷积(Deconvolution)
THRASH(2000)是第一个实现高分辨率质谱解卷积自动化的软件,并且至今仍被广泛使用。[10.1016/S1044-0305(99)00157-9]
THRASH 使用基于氨基酸平均元素组成(称为 averagine)的理论同位素峰包络[10.1016/1044-0305(95)00017-8],与实验峰包络进行比较。随后根据实验与理论拟合的重叠程度分配统计分数。
MS-Deconv(2010)生成大量候选同位素包络集,并对包络组而非单个拟合进行评分。[10.1074/mcp.M110.002766]
UniDec(2015)被开发用于处理高度异质的谱图,这对解析天然蛋白质质谱起到了关键作用。[10.1021/acs.analchem.5b00140]
FLASHDeconv 采用模式匹配方法,以比传统方法快数个数量级的速度快速完成质谱解卷积 [128]。
其他解卷积策略还包括 TopFD[10.1093/bioinformatics/btw398]、pParseTD[10.1002/pmic.201100081] 和厂商特定工具 SNAP。
鉴定(Identification)
在解卷积生成片段质量列表后,有多种软件工具可用于蛋白质鉴定。
ProSight PC(2001),由 Kelleher 研究组推出,自问世以来已有多个版本。[10.1038/nbt1001-952][10.1093/nar/gkm371][10.1093/nar/gkh447]
MS-Align(2012)[10.1074/mcp.M111.008524] 与 TopPIC[10.1093/bioinformatics/btw398] 是由刘等人开发的数据库搜索算法,被证明是自上而下蛋白质组学数据分析的有价值工具。
Informed Proteomics,由 Park 等人开发,是一个开源的自上而下蛋白质组学软件,包含 LC-MS 特征发现算法(ProMex)与数据库搜索算法(MSPathFinder)。[10.1038/nmeth.4388]
其他工具包括:
pTOP[10.1021/acs.analchem.5b03963]
Mascot Top Down[10.1074/mcp.M800099-MCP200]
MS-TopDown<ref>Frank AM, Bandeira N, Shen Z. Clustering millions of tandem mass spectra. J Proteome Res. 2008;7(1):113–122.</ref>
Proteoform Suite[10.1021/acs.jproteome.7b00685]
然而,大多数自上而下蛋白质组学数据分析工具仅专注于蛋白质鉴定、缺乏用户友好的界面,或是厂商专有软件,从而降低了用户可及性。
MASH 软件平台系列
为了整合多种算法的优势,Ge 研究组开发了 MASH Explorer,它将多种谱图解卷积和数据库搜索算法集成到一个统一的、免费可用的平台中,可处理来自不同厂商格式的自上而下蛋白质组学数据。[10.1021/acs.jproteome.0c00469]
为了解决上述挑战,Ge 等人还开发了 MASH Suite Pro,一个开源的自上而下蛋白质组学软件包,集成了蛋白质鉴定、定量和表征工具。[10.1007/s13361-013-0789-4][10.1074/mcp.O115.054387]
然而,该软件仅限于处理 Thermo 原始数据文件,并且仅使用一种解卷积与一种搜索算法。
随后,Ge 等人创建了 MASH Explorer,可处理针对性和探索性 MS 数据,以实现蛋白质形式(proteoform)的明确表征与鉴定。[10.1021/acs.jproteome.0c00469]
该软件集成了多种解卷积与数据库搜索算法,具备用户友好的环境,并支持多厂商数据格式。<ref name=r31/>
此外,它提供可视化工具以便简化计算结果的验证与校正,这是确保蛋白质组学数据可靠性的关键步骤。<ref name=r31/>
截至 2021 年 3 月 1 日,MASH Explorer 已拥有全球 2086 名用户(其中北美 64.5%,南美 0.6%,欧洲 17.6%,亚洲 7.8%)。
更重要的是,MASH Explorer 具备整合新算法与更新算法的灵活性。
McIlwain 等人开发了一种集成机器学习方法,可处理并合并来自多个解卷积算法的峰列表,从而提高数据库搜索的蛋白质鉴定准确性与置信度。[10.1021/jasms.0c00035]
Ge 等人将 FlashDeconv 解卷积算法[10.1016/j.cels.2020.01.003]整合到 MASH Explorer 中。
FlashDeconv 通过对质荷比(m/z)进行对数变换实现谱图模式匹配,使其解卷积速度远超其他工具。
Jeong 等人使用该方法检测到更多质量信号且产生更少伪影。随着 FlashDeconv 的加入,MASH Explorer 的通量得到了显著提升。
未来发展方向
作为一个通用且用户友好的自上而下蛋白质组学软件平台,未来版本的 MASH Explorer 将适配其他蛋白质组学应用,如天然自上而下蛋白质组学。
特别是集成 UniDec[10.1021/acs.analchem.5b00140] 将成为天然质谱领域的重要特性。
由 Marty 等人开发的 UniDec 是一种通用的解卷积算法,利用贝叶斯算法将复杂谱图的质量与电荷维度分离。<ref name=r164/>
该软件能够快速、稳健地对同位素分辨与非分辨质谱进行解卷积,并支持离子迁移-质谱数据。
将 UniDec 纳入 MASH Explorer 有望实现天然蛋白质的鉴定,并同时可视化蛋白质片段离子。
随着自上而下蛋白质组学社区的持续扩大,对通用、全面且全球可访问的软件需求将显著增长。
未来的软件还需应对大型蛋白质形式的鉴定与表征难题,因为获得足够的 MS/MS 序列覆盖仍具挑战。
结合多种 MS/MS 技术(包括但不限于):
活化离子电子捕获/转移解离[10.1021/ac000494i][10.1021/acs.jproteome.7b00249]
紫外光解离(UVPD)[10.1021/ja4029654]
电子电离解离(EID)[10.1021/ja8087407][10.1021/jasms.0c00160]
这些方法都有望显著提升蛋白质形式的表征能力,因此亟需开发相应的软件工具以支持数据分析。