蛋白质从头测序 (de novo protein sequencing) #286
多肽从头测序软件 (de novo peptide sequencing software)
人工进行从头测序费时费力,通常需要算法和软件解释谱图。
从头测序算法的开发
一种旧的方法是在质谱中列出母离子的所有可能肽,并将每个候选的质谱与实验质谱相匹配。具有最相似谱的可能肽最有可能成为正确序列。然而,可能的肽数量可能非常大。例如,分子量为 774 的前体肽有 21,909,046 种可能的肽。即使在计算机中完成,也需要很长时间 [10.1002/bms.1200110806][10.1093/bioinformatics/2.2.115]。
另一种方法称为“subsequencing”(子测序),它不是列出可能的肽的整个序列,而是匹配仅代表完整肽一部分的短序列。当找到与实验谱图中碎片离子高度匹配的序列时,这些序列会通过残基逐步延伸,以找到最佳匹配 [10.1021/ja00975a045][10.1002/bms.1200130709][10.1002/bms.1200150606][10.1002/bms.1200181102]。
第三种方法采用数据的图形显示,其中具有相同质量差(一个氨基酸残基的差异)的碎片离子用线连接。这样可以更清晰地看到同类型离子系列。这种方法可能有助于手动从头肽测序,但不适用于高通量条件 [10.1007/BF00469824]。
第四种方法被认为是成功的,是基于 图论 的方法。Bartels 首次提出将图论应用于从头肽测序 [10.1002/bms.1200190607]。谱图中的峰被转换为图中的顶点,如果两个顶点的质量差对应一个或多个氨基酸,则连接有向边。此类算法的示例包括 SeqMS [10.1093/bioinformatics/11.4.427]、Lutefisk [PMID 9204580]、Sherenga [10.1089/106652799318300]。
深度学习
近年来,深度学习技术被应用于从头肽测序问题。第一个突破是 DeepNovo,它采用卷积神经网络,在序列精度上取得显著提升,并在无需数据库辅助的情况下实现完整蛋白质序列组装 [10.1073/pnas.1705691114]。随后,附加网络结构如 PointNet(PointNovo [10.1038/s42256-021-00304-3])被用于从原始光谱中提取特征。
从头肽测序被定义为序列预测问题:给定先前预测的部分肽序列,基于神经网络的模型会生成最可能的下一个氨基酸,直到预测肽的质量与前体质量匹配。在推理时,可采用波束搜索等策略探索更大搜索空间,同时保持较低计算成本。与传统方法相比,基于神经网络的模型在准确性和灵敏度上表现更好 [10.1073/pnas.1705691114][10.1038/s42256-021-00304-3][10.1074/mcp.TIR119.001656]。
此外,通过优化模型设计,基于深度学习的从头肽测序算法可以实现实时肽测序。PEAKS 软件将神经网络学习纳入其从头测序算法 [10.1038/s42256-021-00304-3]。
软件包
Antilope
Andreotti 等人于 2012 年描述的 Antilope 是结合拉格朗日松弛和 Yen 的 k 最短路径算法的组合 [10.1109/tcbb.2011.59]。基于 spectrum graph 方法,包含不同评分函数,其运行时间和准确性可与 PepNovo 和 NovoHMM 相媲美。
AUDENS
Grossmann 等人在 2005 年提出 AUDENS,是一种自动化从头肽测序工具,包含可识别信号峰和噪声峰的预处理模块 [10.1021/pr050070a]。
Lutefisk & CIDentify
Lutefisk 用于 CID 质谱的从头测序,通过找到关键离子并确定 N 端和 C 端证据生成完整序列。然而,结果可能包含多个相似候选序列。CIDentify 是对 FASTA 算法的修改,可区分不确定的相似候选者。
MSNovo
Mo 等人于 2007 年提出 MSNovo,适用于 LCQ、LTQ 质谱仪及多种电荷状态 [10.1021/ac070039n]。其特点是使用新评分函数并采用 mass array 而非 spectrum graph。
NovoHMM
Fisher 等人提出 NovoHMM,基于隐马尔可夫模型(HMM)解决贝叶斯框架下的从头排序问题 [10.1021/ac0508853]。
PEAKS
PEAKS 是用于肽质谱解释的完整软件包,包含从头测序、数据库检索、PTM 鉴定、同源性检索和定量分析 [10.1002/rcm.1196]。
PepNovo / PepNovo+
高通量从头肽测序工具,采用概率网络评分,解析一张光谱通常不足 0.2 秒 [10.1021/ac048788h]。
pNovo+
Chi 等人于 2013 年提出,结合 HCD 和 ETD 串联质谱,提高肽段测序速度至平均 0.018 秒 [10.1021/pr3006843]。
UniNovo
Jeong 等人提出,适用于各种谱图类型(CID、ETD、HCD、CID/ETD),准确性优于 PepNovo+ 或 PEAKS [10.1093/bioinformatics/btt338]。
Novor
Ma 于 2015 年提出,实时从头肽测序引擎,速度提升一个数量级,保持与其他工具相似的精度 [10.1007/s13361-015-1204-0]。
佩夫佐夫等人比较了 AUDENS、Lutefisk、NovoHMM、PepNovo 和 PEAKS 的性能。分析使用 QSTAR 和 LCQ 质谱数据,通过相对序列距离(RSD)评估准确性。结果显示:PEAKS 在 QSTAR 数据上成功率最高(49.7%),NovoHMM 在 LCQ 数据上表现最佳(18.3%)。在各种谱图质量下,PEAKS 和 NovoHMM 表现最佳,但所有算法在两种数据集中的准确识别率均未超过 50% [10.1021/pr060222h]。
质谱仪精度的提升和数据量增加引发了将深度学习应用于从头肽测序的兴趣。Tran 等人于 2017 年提出 DeepNovo,这是首个基于深度学习的从头测序软件。DeepNovo 在 TensorFlow 框架下实现,将每个质谱离散化为长度 150,000 的向量。其单线程 CPU 使用率限制了实时执行。随后,Qiao 等人于 2020 年提出 PointNovo,使用 PyTorch 框架并直接将谱图表示为 m/z 与强度对,提高了精度和效率 [Adam et al., 2019]。