Nat. Methods | 一种用于质谱数据特征检索的通用语言

  • A+

分享一篇发表在Nature Methods上的文章,文章标题为“ A universal language for finding mass spectrometry data patterns”,文章通讯作者是来自于加州大学河滨分校的Wang Mingxun老师,也是Ometa Labs的创始人。其课题组的主要研究方向是质谱数据的深度处理并将其应用于新型化合物的发现以及质谱数据可视化分析。

1

质谱由于能够多功能的捕获化学结构中的众多的独特特征(同位素模式、碎裂离子诊断、中性丢失等)而成为一种强大的分析工具,但是庞大的信息量和极高的复杂度也为如何有效解释或充分利用质谱数据带来了挑战。虽然目前已经有各种方法对质谱结果中的同位素特征、特征质量数差异(MS1)、串联MS数据(MS2)中的相关碎裂模式、色谱保留时间、碰撞截面以及他们的组合作为特征进行检索。但是通常这些方法要么依赖缓慢且容易出错的手动检查,要么依赖为特定化合物或特定类别的MS模式而开发的专业软件。这些定制化的脚本和数据检索方法虽然能够提供质谱数据处理时的灵活性;但是需要编程语言和计算工具的开发,大大限制了研究人员在质谱数据集中进行数据检索的能力。因此本文介绍一种质谱查询语言(Mass Spectrometry Query Language,MassQL)——这一开源语言通过简洁而富有表现力的语法,可以在几乎所有质谱数据中对任意具有特定特征的化学分子进行检索;为缺乏软件开发和计算编程背景的用户提供了查询复杂MS的工具,降低了MS数据查询的门槛。

2

MassQL的第一个应用实例是Fe载体的发现。作者通过在天然代谢组中外加Fe,再通过Fe结合化合物特征的质量偏差作为特征在代谢组数据中进行检索和鉴定,最终发现了离子同一性分子网络(IIMN)鉴定得到8个假定铁载体中的7个。

进一步,作者将数据库范围扩展到GSNP/MassIVE上提供的所有公开高分辨Thermo Fisher Q Exactive数据,并对检索得到的MS2使用MS-Cluster去冗余。最终产生7,504张一致性MS2谱图。通过创建了分子网络和与GNPS中的已知谱库搜索,最终鉴定出441个(5%)的共有谱图。作者指出,分子网络中的绝大部分(>95%)分析物无法注释到已知物质,因此这个分子网络可能是发现新铁载体的丰富资源。

5

另一个应用是环境中有机磷酸酯(Organophosphateesters,OPE)的鉴定,作者利用特征的磷酸盐子离子制定了一个MassQL查询流程,搜索m/z 98.9847处的MS2峰,要求该峰具有50 ppm的质量数容差且峰强度 > 基峰的50%。为了识别公共数据中的OPE,作者将MassQL查询扩展到GNPS/MassIVE中的所有QExactive数据,最终发现338,439个MS2谱图与查询条件匹配。研究人员通过使用Falcon-MS创建了一致性MS2谱图并利用这些一致性MS2谱图创建了分子网络,最终找到了2,777潜在的OPE。作者强调MassQL在搜索实际上并非专门寻找OPE,而是更普遍地寻找含有输入特征的分子。利用分子网络的策略将大大补充MassQL结果对于特定分子类别的分析能力,能够帮助研究人员更专注于特定的OPE分子家族。

作者团队提供了MassQL文档手册(https://mwang87.github.io/MassQueryLanguage_Documentation/)、教学视频(https://www.youtube.com/playlist?list=PLkDps_-pcYZ5D3rhas208dsMg66lCGmcs)、交互式MassQL沙盒(https://massql.gnps2.org/)、大型语言模型驱动的对话助手(https://massql-analysis.gnps2.org/MassQL_Chatbot)、社区Wiki纲要(https://massql.gnps2.org/compendium/),用于帮助研究人员使用这一工具。

总的来说,本文介绍了一种质谱查询语言(Mass Spectrometry Query Language,MassQL),可以在几乎所有质谱数据中对任意具有特定特征的化学分子进行检索,其利用简洁而富有表现力的语言降低了MS数据查询的门槛。


本文作者:YSB

责任编辑:TZS

DOI:10.1038/s41592-025-02660-z

原文链接:https://doi.org/10.1038/s41592-025-02660-z


weinxin
我的微信
关注我了解更多内容

发表评论

目前评论: