使用FOSS挖掘和/或可视化质谱数据要求这些数据采用非专有格式。然而,大多数仪器供应商将质谱数据打包成二进制文件,这些文件的内部格式未公开。 其中一个值得特别强调的例外是Bruker公司。Bruker向FOSS开发者提供其数据文件格式的详细信息,使开发者能够创建能够原生使用其数据文件的软件。 FOSS用户需要首先将质谱数据从专有格式转换为开放数据格式。
早期的质谱数据格式
在质谱技术初期,主要是以简单的基于文本的文件存储数据。每一行记录了检测到的离子的m/z(质荷比)及其相应的信号强度。当时,质谱数据分析主要依赖于人工检查谱图。
随着质谱技术不断发展,功能和复杂性不断提高,需要存储的数据种类也变得更加复杂。为此,质谱数据文件格式开始要求更加复杂,以容纳更多的元数据,例如用于全面表征工作流程和处理策略的相关信息,包括数据评分、排序或定量分析。由于基于质谱的蛋白质组学的快速发展,该领域成为目前大多数质谱数据文件格式开发的主要推动力。
最早期的蛋白质组学之前的格式
定义质谱专用文件格式的尝试可以追溯到20世纪90年代初,采用的是JCAMP-DX格式。该格式基于一种为红外光谱研究设计的先前格式,由联合原子与分子物理数据委员会(Joint Committee on Atomic and Molecular Physical Data)开发。当时,蛋白质组学尚未发展,格式设计未包含多维质谱的概念(例如记录MS/MS实验所需的数据)。JCAMP-DX格式在1991年左右被andi/MS格式取代,后者基于公共领域的netCDF格式。
由于andi/MS格式无法存储串联质谱(MS/MS)数据,且netCDF主要用于质谱学领域,andi/MS格式未能在蛋白质组学领域普及。 MS/MS(或MSn)数据需要存储更多元数据,例如记录前体离子的m/z及电荷,然后再列出气相碎裂步骤中生成的(m/z, count)对。
以下是一些简单文本文件格式的示例:
dta:来源于SEQUEST MS/MS搜索引擎;
pkl:来源于Micromass(现为Waters)的数据分析软件包;
pks:来源于Perseptive(现为ThermoFisher)的数据分析软件包,专注于源后解离序列分析;
mgf(“Mascot generic format”):来源于Mascot搜索引擎。
这些文件大致具备相同的特性:用一行记录前体离子数据(m/z, intensity),后接以(m/z, count)对的形式表示MS/MS谱图。这些格式的不足之处在于缺乏表达力。 **可扩展标记语言(XML)**的出现使得能够轻松定义灵活的“语法”来建立新数据格式,XML因此成为开放质谱数据格式的通用语言。
基于XML的格式
**可扩展标记语言(XML)**是国际标准化组织(ISO)定义的更通用的SGML2规范的应用。从20世纪90年代中期开始被开发,很快在开放文件格式规范领域取得成功(例如,LibreOffice等办公套件通过XML存储数据)。以下是来自massXpert软件包[10.1093/bioinformatics/btp504]的XML格式文件定义的一小段代码示例,用于指定两种化学修饰:
<mdf>
<name>Oxidation</name>
<formula>O</formula>
<targets>M;Y;</targets>
<maxcount>1</maxcount>
</mdf>
<mdf>
<name>Phosphorylation</name>
<formula>HO3P</formula>
<targets>S;T;Y;</targets>
<maxcount>1</maxcount>
</mdf>
mzXML
XML首次被用于定义新质谱数据格式的尝试之一由Pedrioli等人完成[10.1038/nbt1031],他们在美国西雅图的系统生物学研究所(Institute for Systems Biology)进行合作研究。该文件格式命名为mzXML,是十二个国际科学机构广泛合作的成果。设计目标是支持多种质谱实验的数据存储,如MS、MS/MS或MSn实验。
该文件格式具有以下特点:
适应常见的质谱蛋白质组学实验,例如数据库查询、基于稳定同位素标记的定量分析以及de novo测序;
XML格式存储大规模数值数据会导致文件尺寸过大,因为将双精度数值转换为文本会产生巨大的尺寸开销(因此读写文件速度会变慢)。为解决此问题,作者使用base64编码将谱图数据(m/z, count)对存储于mzXML文件中。
此外,作者还发布了一些开源软件,用于读取或写入mzXML格式的数据。http://sourceforge.net/projects/sashimi
mzData
另一种基于XML的格式是mzData数据文件格式。该格式是在人类蛋白质组组织(HUPO)的蛋白质组学标准倡议(Proteomics Standards Initiative, PSI)框架内开发的。正如http://www.psidev.info/ 所述:“HUPO蛋白质组学标准倡议为蛋白质组学中的数据表示定义了社区标准,以便于数据比较、交换和验证”。mzData格式的设计目的是在存储峰列表信息的同时,还存储大量与质谱用户相关的元数据。
与mzXML类似,mzData通过base64编码存储质谱数据(m/z, count对),在文件读写速度方面与mzXML相当。尽管mzData主要针对质谱数据的交换和存档设计,而mzXML则是为了满足实验室中长期数据处理和挖掘工作流程的需求,二者的功能能力对于最终用户来说是等效的。然而,对于学术界和工业界的软件开发者而言,支持两种等效格式的负担过于沉重。最终,mzData和mzXML两种格式的设计者在HUPO/PSI的支持下,共同定义了一种新文件格式,结合了两种现有格式的优点。
mzML
mzML格式的开发过程汇集了mzData和mzXML两种格式设计者以及质谱仪厂商的参与。新文件格式的第一个版本(1.0.0)于2008年6月发布[10.1002/pmic.200890049][10.1074/mcp.R110.000133]。开发过程中达成的目标包括:
保持格式简单;
确保格式在较长时间内保持稳定(这是仪器厂商的特别需求);
在文件格式中集成对**选择反应监测(SRM)**数据的特定支持;
与数据文件格式规范一起发布免费开源软件,用于读取/写入mzML文件(这些软件被统称为文件格式的“参考实现”)。
值得注意的是,mzML格式的大部分设计旨在帮助仪器制造商和供应商开发基于稳定数据文件格式的软件。这需要通过多个文件和受控词汇表来实现,增加了使用的复杂性。
特定领域的XML格式
质谱在蛋白质和肽研究中的应用范围非常广泛,单一文件格式无法覆盖所有实验设置或数据记录方案的多样性。以下是由HUPO/PSI开发的三个特定领域的蛋白质组学文件格式:
mzIdentML:该格式用于记录支持蛋白质鉴定的质谱数据[10.1074/mcp.M111.014381]。特别是,它可以存储用于数据库搜索的相关方法和参数,这些数据提供了蛋白质鉴定信息。文件包含蛋白质检测列表(即通过肽鉴定确定的一组蛋白质身份)和肽鉴定列表(即通过数据库搜索鉴定的肽列表),这些肽鉴定列表用于进行蛋白质鉴定。
mzQuantML:该格式专为记录定量实验的数据和元数据而设计,提供了精细的细节[10.1002/pmic.201090075][10.1074/mcp.O113.028506]。它支持保持原始质谱数据(如mzML格式文件)与定量数据文件之间的逻辑链接,同时允许存储中间数据处理步骤(例如,存储SRM参数文件或蛋白质鉴定文件的文件名)。它适用于所有类型的定量方法,包括SILAC、iTRAQ或无标记策略。
TraML:该格式旨在解决供应商或软件项目在设计、验证和存储用于SRM/MRM实验的过渡时使用的文件格式严重分裂的问题[10.1074/mcp.R111.015040]。TraML提供了一个通用平台,用于传播和广泛应用有用的过渡方案,其XML架构包括十个主要数据元素,并可以引用外部数据,例如包含过渡的出版物或管理过渡的软件程序。
除了上述介绍的文件格式外,还有许多开放数据格式专注于生物学质谱的其他领域,例如用于记录质谱成像数据的imzML格式[10.1016/j.jprot.2012.07.026],以及专注于代谢组学的PeakML/mzMatch格式[10.1021/ac2000994]。
格式转换软件
| Name | Type | Description | Link |
| ProteoWizard | open source | converts from Thermo .raw data to mzXML, mgf, etc. | Official site |
ProteoWizard 项目[10.1093/bioinformatics/btn323]最为人知的工具是 msConvert 程序,它可以将质谱数据文件从专有的供应商格式转换为开放格式(使用每个供应商的基于 Microsoft Windows 的专有动态链接库)。该程序可以将数据文件从封闭的专有格式转换为开放数据归档格式,例如 mzXML 或 mzML。由于这种转换能力,该程序几乎成为任何基于自由和开源软件 (FOSS) 的质谱数据分析和挖掘流程中的第一步。