西湖大学郭天南团队《自然·通讯》:开发首个预训练DIA蛋白质谱AI模型,显著提升蛋白质组鉴定深度

2025-04-16 BioMed科技 BioMed科技

西湖大学郭天南团队等推出预训练 DIA 蛋白质谱 AI 模型 DIA-BERT,提升 DIA 蛋白组鉴定深度,优于 DIA-NN,定量准,对低丰度蛋白效果好,软件开源。

4月14日,西湖大学医学院郭天南团队联合西湖欧米团队在Nature Communications发表了最新AI蛋白质组研究成果,推出首个预训练DIA蛋白质谱AI模型DIA-BERT,显著提升DIA蛋白质组鉴定深度。

WX20250414-230311@2x

图1 论文截图

提纲挈领

近年来,DIA质谱已成为定量蛋白质组研究的主要方法,但是其复杂的数据分析一直是领域难点。如何从DIA质谱数据中对尽可能多的蛋白质进行鉴定和准确定量,是蛋白质组领域的研究热点,对临床蛋白质组转化具有重要价值。本研究首次将一种基于预训练变换器(Transformer)模型BERT引入DIA蛋白质谱数据分析,开发出全新的分析软件DIA-BERT。该工具先使用已有的DIA数据进行预训练,然后通过模型微调,显著提升了蛋白质组的鉴定深度,尤其在低丰度蛋白质的识别和定量分析上表现出色,为DIA蛋白质组数据分析设定了新的标杆。

近年来,数据非依赖性采集(DIA)质谱技术已成为高通量定量蛋白质组的最重要的手段。然而,DIA数据的复杂性和大规模数据的处理需求使得其分析面临诸多挑战。

DIA蛋白质组产生的质谱数据高度复杂,数以千百计的蛋白质片段的谱图数据交织在一起,人类无法识别,只有通过AI去卷积才能能够实现数据分析。既有的DIA数据分析软件层出不穷,极大的推动了定量蛋白质组领域的发展,但是它们仍存在多个技术限制,例如依赖独立的文件的特征提取、缺乏跨样本数据共享的能力、以及相对简单的机器学习模型,导致蛋白质组鉴定深度有限。

因此,如何进一步提升DIA数据分析的深度,是蛋白质组领域亟待解决的问题,成为领域热点。

本研究以Google开发的基于Transformer的BERT语言模型为基础,针对DIA蛋白质组,构建了一套全新的“端到端”预训练模型,包括一个蛋白质鉴定的模型和一个蛋白质定量的模型。

图片

图2 DIA-BERT的数据处理流程。DIA-BERT训练了初筛和重排两个模型来完成鉴定任务,并通过在合成数据上预训练、真实数据上微调的方式构建了定量模型。在推理阶段,首先用初筛模型对谱峰组与肽段的匹配结果进行评分,并过滤掉低质量的匹配。然后使用筛选后的数据微调预训练好的重排模型,再用微调后的模型重新打分并计算FDR,从肽段推断到蛋白质。最后,利用定量模型对肽段和蛋白质进行定量分析。

在研究结果部分,本文对DIA-BERT的性能进行了全面评估,并将其与现有的DIA-MS分析工具DIA-NN进行了比较。该比较使用了五种不同癌症的DIA蛋白质组数据集,包括宫颈癌、胰腺腺癌、肌肉肉瘤、胆囊癌和胃癌。

以下是具体分析的几个要点:

1.蛋白质组鉴定深度的比较

在使用两物种谱库方法的条件下,DIA-BERT在所有测试的DIA文件中均优于DIA-NN,且保持了低于0.01的保守假发现率(FDR)。

在上述五种癌症样本中,DIA-BERT在肽段母离子的识别数量上比DIA-NN平均高出22%,在蛋白质的识别数量上高出51%。

同时,DIA-BERT能够回溯识别DIA-NN已识别的80%肽段母离子和98%蛋白质,证明其对DIA数据有较强的捕捉能力。

图片

图3

2.蛋白质组鉴定的稳定性比较

研究进一步评估了DIA-BERT在五种癌症DIA蛋白质组数据中分析的稳定性。 研究将在至少三分之二的样品中鉴定到的多肽母离子和蛋白质设定为能够被稳定检测的分析物。结果显示,DIA-BERT在多肽母离子和蛋白质的识别上,平均分别为62%和86%,而DIA-NN为62%和78%,表明DIA-BERT在蛋白质鉴定的稳定上具有一定优势。

3.低丰度蛋白质的鉴定

研究进一步分析了含有多个多肽母离子的蛋白和只含有单个多肽母离子的蛋白质,发现在这两类蛋白质中,DIA-BERT都比DIA-NN识别更多的蛋白质,平均提高了150%。即使去除“单肽蛋白”,DIA-BERT仍能识别29%更多的蛋白质,且这一结果在统计上显著。

图片

图4

4.DIA-BERT对低丰度蛋白质的识别能力

研究发现DIA-BERT能够更好地识别低丰度的蛋白质。与DIA-NN相比,DIA-BERT能够鉴定出更多低丰度的蛋白质。

A screenshot of a graph

AI-generated content may be incorrect.

图5

5.进一步增加预训练数据的量有望进一步提升DIA-BERT的分析能力

由于DIA-BERT是首个基于预训练的DIA蛋白质组模型,研究团队还探讨了训练数据量对其性能的影响。数据显示,逐渐增加训练数据的数量,DIA-BERT的表现直线提升,并且直到我们使用952个DIA文件进行训练,也没有达到平台期,表明今后我们仍可以通过增加DIA预训练数据的数量进一步提升DIA-BERT的分析能力。

图片

图6

6.从分析人的蛋白质组延伸到分析其他物种的蛋白质组

研究表明,虽然DIA-BERT的模型使用来源于人组织的DIA预训练数据集,但是具有较强的泛化性。数据显示,除了可以分析人的蛋白质组数据,DIA-BERT还可以分析来自于酵母和秀丽隐杆线虫的蛋白质组,并且优于DIA-NN。其对低丰度蛋白质具有良好鉴定和定量能力,也适用于多种物种的蛋白质组数据分析。

图片

图7

7.定量分析:DIA-BERT的定量精度

本研究还开发了一种基于Transformer模型的峰面积估计算法,用以提升DIA-MS数据的定量精度。

通过使用合成数据生成的训练集,DIA-BERT能够更准确地估计峰面积,从而提高定量分析的精度。与传统方法相比,DIA-BERT在定量分析中的表现具有更高的可靠性和准确性。

对于三物种数据集,DIA-BERT的肽段母离子和蛋白质定量精度与DIA-NN相当,Spearman相关系数分别为0.94和0.92,表明其在定量任务中的稳定性和准确性。此外,DIA-BERT在低丰度和高丰度肽段母离子及蛋白质的定量精度方面表现出了较强的能力,尤其在低丰度情况下,DIA-BERT的变异系数(CV)比DIA-NN低,显示了其在处理低丰度数据时的优势。

图片

图8

8.用户界面与功能

最后,DIA-BERT具有用户友好的图形界面(GUI),通过该界面,用户可以轻松进行数据输入、配置分析参数、监控分析进度并查看运行日志。此外,DIA-BERT还支持独立执行质谱库预处理、单文件分析和跨运行定量操作,从而有效减少计算资源的消耗。

图片

图9

【总结】

DIA-BERT显著提高了DIA-MS数据中肽段母离子和蛋白质的识别准确性和灵敏度,并在定量分析中展现了强大的能力。

通过预训练Transformer模型的创新应用,DIA-BERT为蛋白质组学领域提供了一种新的端到端预训练AI模型,其鉴定深度高,定量准确度高,特别是在低丰度蛋白质的识别和定量分析方面具有明显的优势。此外,这个软件针对学术用户开源,其良好的可扩展性使其成为一个极具潜力的工具。更多信息可以访问:https://guomics.com/DIA-BERT/

西湖大学医学院助理研究员刘志伟为论文第一作者,西湖欧米AI工程师刘谱和西湖大学医学院助理研究员孙莹莹为共同第一作者,西湖实验室AI科学家陈义为共同通讯作者。

原文链接:

https://www.nature.com/articles/s41467-025-58866-4

评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2260651, encodeId=26da226065158, content=<a href='/topic/show?id=0a1688e33b3' target=_blank style='color:#2F92EE;'>#蛋白质组#</a> <a href='/topic/show?id=233e1260e5c8' target=_blank style='color:#2F92EE;'>#DIA-BERT#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=12, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=126075, encryptionId=233e1260e5c8, topicName=DIA-BERT), TopicDto(id=88733, encryptionId=0a1688e33b3, topicName=蛋白质组)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Wed Apr 16 00:21:44 CST 2025, time=2025-04-16, status=1, ipAttribution=)]

相关资讯

PLoS One:角膜内皮细胞-基底膜组织的蛋白质组学分析

美国爱荷华大学卡弗医学院眼科和视觉科学的Skeie JM近日在PLoS One发表一项重要工作,他们研究了患各种II型糖尿病患者和健康对照组中角膜内皮细胞层及其基底膜(Descemet膜)的蛋白质组,并通过比较,鉴定了一系列随糖尿病疾病严重程度不同而差异表达的蛋白质,而这些蛋白可能会影响角膜内皮细胞的健康。

Clin Oral Invest: 表皮链球菌的诱导表面蛋白粘附于钛种植体基质

表皮葡萄球菌(Staphylococcus epidermidis)作为主要的定植物,与(牙)种植体的感染(即种植体周围炎)密切相关,但对该细菌的表面蛋白质组知之甚少。为了鉴定细菌粘附素,本研究调查了直接粘附于钛种植体基质上的表皮葡萄球菌的表面蛋白质组。

Nat Commun:肾脏转录组、蛋白质组和多组学的遗传估算阐明了新的血压和高血压目标

本研究通过肾脏层面的遗传调控机制揭示了血压调节的新理解,为未来个性化治疗和药物研发提供了重要的指导。

Eur Heart J:血浆蛋白质组和心肌梗死的性别特异性差异

这项研究发现了循环蛋白与心肌梗死之间新的和已证实的关联,并首次提出了多种蛋白-心肌梗死关联的性别特异性模式。

Nat Med: 完成迄今为止很大的阿尔兹海默症相关蛋白研究

这一研究揭示了蛋白质网络的变化,大规模分析将葡萄糖代谢蛋白与阿兹海默症生物学联系起来。

仅数μL血液或可同时识别12种常见癌症!基于Olink技术的泛癌血液蛋白质组分析初步结果发布

这项新技术可以用于很多研究,我认为这是血液分析的一个范式转变。”

Nat Commun:鉴定出人胃黏膜的蛋白质组

胃粘膜是胃壁最活跃的一层,参与食物的消化、代谢过程和胃癌的发生。从解剖学上讲,人的胃分为七个区域,但基于胞内特异性的蛋白质尚不清楚。2019年1月3日,解放军总医院第五医学中心徐建明团队在国际权威期刊Nature Communications上发表题为“region-resolved mucosa proteome ofthe human stomach”的文章,该文章以人胃黏膜样本作为研究对象,

Adv Clin Chem:白内障相关特异蛋白质组

复旦大学上海医学院眼科与耳鼻喉医院眼科研究所的Zhang K、Zhu X等近日在Adv Clin Chem杂志上发表了一篇综述,详细讨论了人类白内障晶状体中主要与翻译后修饰功能相关性的蛋白质组学研究。

盘点:眼科组学研究

PeerJ:20例高度近视患者的外显子组测序研究 四川大学华西医院眼科的Wan L等近日在PeerJ杂志上发表了一项重要的工作。高度近视是全世界常见的眼部疾病。为了扩展人们对高度近视遗传基础的理解,他们进行了一项完整的外显子组测序(WES)研究,以确定潜在的突变基因。 他们对高度近视的总共20个个体进行了外显子组测序。结合表型和突变体的功能障碍,采用新型过滤策略,进行多步生物信息学分析

A&R:通过血清蛋白质组分析鉴定全身性幼年特发性关节炎和相关肺病的不同炎症程序和生物标志物

选择的生物标志物,例如 ICAM-5,可以帮助SJIA-LD的早期检测和管理。