蛋白质基因组学是结合蛋白质组学、基因组学和转录组学的研究方法。 蛋白质基因组学通常指的是使用蛋白质组学信息(通常来源于质谱)来改进基因注释的研究。 蛋白质基因组学通过结合多个领域的数据集来生产蛋白质或遗传标记的数据库,有助于消除对现有有限基因模型的依赖。此外,由于突变而产生的新蛋白质序列通常不能在传统的蛋白质组数据库中计算在内,但可以使用基因组和转录组数据的综合预测和研究。
由此产生的研究应用于改进基因注释、研究突变和理解基因操作的效果。
最近,通过如CITE-Seq和ESCAPE等方法联合分析来自单个细胞的表面蛋白和mRNA转录本被称为单细胞蛋白质基因组学,尽管这些研究的目标与肽鉴定无关。自2019年以来,这些方法更常被称为多模态组学或多组学。
历史
蛋白质基因组学作为一门独立的学科出现在 2004 年,它基于下一代测序基因组学和质谱蛋白质组学的技术进步。
“Proteogenomics” 这个词最早由 George Church 研究小组在 2004 年开始使用,他们发表了一篇论文,描述了利用蛋白质组学数据更好地注释细菌 Mycoplasma pneumoniae 的基因组 [10.1002/pmic.200300511]。
通过使用现代蛋白质数据库,实验室将整个细胞中检测到的肽段映射到遗传脚手架(Scaffolding (bioinformatics)) 上,使用串联质谱,然后使用生成的“命中”来创建基于传统遗传信号的“蛋白质基因组图谱”。生成的图谱非常准确,超过 81% 的预测开放阅读框在研究的细菌细胞中被检测到。此外,实验室还发现了几种通过纯遗传方法未能预测到的新框架,以及一些支持基于遗传模型的预测可能是错误的观点的证据,证明了这种混合技术的准确性和成本效益。
方法
蛋白质基因组学方法背后的主要思想是通过将 MS/MS 数据与包含预测蛋白质序列的蛋白质数据库进行比较来识别肽段 [10.1038/nmeth.3144]。蛋白质数据库是通过对基因组和转录组数据的利用而产生的。以下是一些生成蛋白质数据库的方法:
六框架翻译
六框架翻译 可以用来生成预测蛋白质序列的数据库。这种方法的局限性在于,由于生成的序列数量众多,其中一些在自然界中并不存在,因此数据库会非常大 [10.1038/nmeth.3144]。
从头基因预测
在这种方法中,通过基因预测算法生成蛋白质基础,这些算法能够识别蛋白质编码区域。数据库与通过六框架翻译生成的数据库相似,因为数据库可能会非常大 [10.1038/nmeth.3144]。
表达序列标签数据
六框架翻译可以利用表达序列标签(EST)来生成蛋白质数据库。EST 数据提供了转录信息,可以帮助创建数据库。数据库可能会非常大,并且存在具有多个给定序列副本的缺点;然而,这个问题可以通过计算策略压缩生成的蛋白质序列来解决 [10.1038/nmeth.3144]。
其他方法
蛋白质数据库也可以通过使用 RNA 测序数据、注释的 RNA 转录本和变体蛋白质序列来创建。此外,还有其他更专业的蛋白质数据库可以制作,以适当地识别感兴趣的肽段 [10.1038/nmeth.3144]。
通过蛋白质基因组学识别蛋白质的另一种方法是比较蛋白质基因组学。比较蛋白质基因组学同时比较多个相关物种的蛋白质组数据,并利用它们蛋白质之间的同源性来提高注释的统计置信度 [10.1101/gr.074344.107][10.1101/gr.081901.108]。