MaxQuant output analysis
MSstats
Link: MSstats
DEP
10.1038/nprot.2017.147
plain
TMT or iTRAQ
RforProteomics
10.1002/pmic.201400392
其他
DIA数据分析
iq
10.1093/bioinformatics/btz961
iq 包 实现了用于DIA数据的MaxLFQ maximal peptide ratio extraction algorithm。该包还提供其他定量方法的选项,包括 topN(使用 N 个最强的碎片离子)、MeanInt(使用所有碎片离子)和 median polish 方法(Tukey, 1977)。此外,还可以使用 iq 对 DDA 数据的 MaxQuant 实验输出进行定量分析。
检测丰度差异蛋白的统计方法
这些方法大致分为两类:两步法和基于特征的方法。
MSqRob[10.1074/mcp.M115.055897][10.1074/mcp.RA119.001624]支持基于特征的工作流,同时也提供两步法汇总功能。该软件包利用线性混合效应模型检测差异蛋白,并包含应用经验贝叶斯方差估计的功能[10.1021/acs.analchem.9b04375]。
DEqMS[10.1074/mcp.TIR119.001646]以MaxQuant等数据处理工具提供的蛋白质水平汇总为输入,结合Limma R包[10.2202/1544-6115.1027][10.1093/nar/gkv007]的方法,通过按特征数量分组蛋白质来调整蛋白方差,从而识别差异丰度蛋白。
MSstats v4.0采用两步建模方法,首先汇总特征强度,然后对汇总数据拟合线性混合效应模型。该工具会自动调整线性混合效应模型以匹配具体实验设计,大幅降低实现复杂性。
其他值得注意的软件包:
proDA,一种两步法,专注于缺失数据,并通过概率失活模型结合观测值和缺失值;
pmartR[10.1021/acs.jproteome.8b00760],另一种两步法,重点在质谱数据的质量控制、预处理和方差分析(ANOVA);以及提供图形用户界面的DAPAR[10.1093/bioinformatics/btw580]。
QFeatures 和msImpute,聚焦于两步法的第一步,提供缺失值插补和数据预处理功能。
Normalization
10.1038/nbt.1592
10.1021/pr401264n
缺失值处理
缺失值(missing values)
鲁宾 (1976) [16]将缺失数据问题分为三类。在他的理论中,每个数据点都有一定概率会缺失。控制这些概率的过程被称为缺失数据机制或响应机制,而描述该过程的模型被称为缺失数据模型或响应模型。
如果所有情况的缺失概率相同,则称这些数据为完全随机缺失(MCAR,Missing Completely At Random)。这意味着缺失数据的原因与数据本身无关。因此,除了信息丢失带来的直接影响外,我们可以忽略因数据缺失而产生的许多复杂性。例如,使用电池的称重设备因电量耗尽导致部分数据缺失。这种情况下的数据缺失完全是偶然的。再如,在从总体中随机抽样时,每个个体被抽中的概率相同,未被抽中的个体的(未观察到的)数据即为完全随机缺失。尽管这种假设很方便,但在实际数据中通常不太现实。
如果缺失的概率仅在由观测数据定义的组内相同,则称数据为随机缺失(MAR,Missing At Random)。MAR 是比 MCAR 更广泛的类别。例如,放在软表面的称重设备比放在硬表面时更容易产生缺失数据。这种情况下的数据显然不是 MCAR。但如果我们知道表面类型,并且可以假设在每种表面类型内满足 MCAR,则数据为 MAR。另一个例子是从总体中抽样时,被选中的概率依赖于某个已知属性。MAR 比 MCAR 更普遍也更现实,现代缺失数据方法通常基于 MAR 假设。
如果既不满足 MCAR 也不满足 MAR,则称为非随机缺失(MNAR,Missing Not At Random)。文献中也有将其称为 NMAR(Not Missing At Random)的。MNAR 意味着缺失概率因未知原因而变化。例如,称重设备可能随着时间的推移而磨损,导致缺失数据随时间增加,但我们未能注意到这一点。如果较重的物体较晚被测量,这将导致测量结果的分布发生偏差。MNAR 的一种可能性是称重设备对较重物体更容易产生缺失数据(如上述情况),这种情况可能很难识别和处理。在民意调查研究中,持有较弱观点的受访者可能更少响应,这也是 MNAR 的一个例子。MNAR 是最复杂的情况。处理 MNAR 的策略包括收集更多关于缺失原因的数据,或进行假设分析以测试在不同情景下结果的敏感性。
鲁宾的分类对理解为什么某些方法有效而其他方法无效至关重要。他的理论明确了缺失数据方法能够提供有效统计推断的条件。大多数简单的修正方法仅在 MCAR 假设下有效,而这一假设通常不切实际。如果 MCAR 不成立,这些方法可能会提供有偏估计。
10.1021/acs.jproteome.5b00981
https://stefvanbuuren.name/fimd/