蛋白质相互作用组数据分析有两个重要的目标。
- 试图阐明相互作用组的系统属性,例如其相互作用的拓扑结构。
- 个别蛋白质及其在网络中的作用。
验证(Validation)
首先,必须评估相互作用组的覆盖范围和质量。由于实验方法的局限性,相互作用组永远不会完整。
例如,据估计,典型的 [Y2H] 筛选只能检测到相互作用组中大约 25% 的所有相互作用 [10.1038/nmeth0910-667]。可以通过将其与已知的、通过独立实验找到并验证的相互作用的基准进行比较来评估相互作用组的覆盖范围。
预测 PPI(Predicting PPIs)
以实验数据为起点,“同源转移”(homology transfer)是预测相互作用组的一种方式。在这里,一个生物体的 PPI 被用来预测另一个生物体中同源蛋白之间的相互作用(“同源互作蛋白”)。
这种方法有一定的局限性,主要是因为源数据可能不可靠(例如包含假阳性和假阴性)。此外,蛋白质及其相互作用在进化过程中会发生变化,因此可能已经丢失或获得 [10.1371/journal.pcbi.0020079]。
文本挖掘 PPI(Text mining of PPIs)
已经有一些努力从科学文献中系统地提取相互作用网络。这些方法在复杂性上从简单的共现统计(例如,在同一上下文中提到的实体,如句子)到复杂的自然语言处理和机器学习方法来检测相互作用关系 [10.1126/stke.2832005pe21]。
蛋白质功能预测(Protein function prediction)
蛋白质相互作用网络已被用来预测未知功能的蛋白质的功能 [10.1038/82360]。
这通常基于一个假设,即未表征的蛋白质与其相互作用的蛋白质具有相似的功能(guilt by association,“连坐”)。
尽管这样的预测可能基于单一的相互作用,但通常发现多个相互作用。因此,整个相互作用网络可以用来预测蛋白质功能,前提是某些功能通常在相互作用蛋白中富集。
扰动与疾病(Perturbations and disease)
相互作用组的“拓扑结构”(topology)可以预测网络对节点(蛋白质)或边(相互作用)的“扰动”(perturbation,例如移除)的反应 [10.1038/nrg1272]。
这种扰动可能是由基因突变引起的,而网络反应可能表现为一种“疾病” [10.1093/bfgp/els032]。
网络分析可以识别疾病的药物靶标和生物标志物 [10.1038/nrg2918]。
网络结构和拓扑(Network structure and topology)
可以使用 [图论] 的工具分析相互作用网络。
网络属性包括 [度 (Degree)] 分布、[聚类系数 (clustering coefficient)]、[介数中心性 (betweenness centrality)] 等。在相互作用组的蛋白质中分布的属性揭示了相互作用组网络通常具有 [无标度拓扑结构 (Scale-free network)] [10.1038/nrg1272],其中网络内的功能模块(functional modules)表示专门的子网络。
这些模块可以是功能性的,如信号通路,或者是结构性的,如蛋白质复合体。
实际上,鉴于网络本身并不直接揭示稳定复合体的存在,因此在相互作用组中识别蛋白质复合体是一个艰巨的任务。