受欢迎的常州做网站,网络技术培训机构,网站在线建设方案,网站网页基本情况 网页栏目设置编辑 | 绿萝数以千计的不同小分子#xff08;称为代谢物#xff09;在整个人体中传输能量和传递细胞信息。由于它们非常小#xff0c;因此很难在血液样本分析中将代谢物彼此区分开来——但识别这些分子对于了解运动、营养、饮酒和代谢紊乱如何影响健康非常重要。尽管在过去十…编辑 | 绿萝数以千计的不同小分子称为代谢物在整个人体中传输能量和传递细胞信息。由于它们非常小因此很难在血液样本分析中将代谢物彼此区分开来——但识别这些分子对于了解运动、营养、饮酒和代谢紊乱如何影响健康非常重要。尽管在过去十年中预测方法和工具取得了快速进展但生物样本中小分子的结构注释仍然是非靶向代谢组学的关键瓶颈。液相色谱-串联质谱法LC-MS是使用最广泛的分析平台之一可以检测样品中的数千个分子即使使用一流的方法其中绝大多数仍未被识别。近日来自阿尔托大学和卢森堡大学的研究人员开发了一种机器学习框架LC-MS^2Struct用于对 LC-MS 测量产生的小分子数据进行结构注释。经过数十个实验室的数据训练成为识别小分子最准确的工具之一。LC-MS^2Struct 获得了比早期方法显著更高的注释精度并将最先进的 MS^2 评分器的注释精度提高了高达 106%。使用立体化学感知分子指纹可提高预测性能这突出了现有方法的局限性并对未来的计算 LC-MS 发展具有重要意义。该研究以「Joint structural annotation of small molecules using liquid chromatography retention order and tandem mass spectrometry data」为题于 2022 年 12 月 19 日发布在《Nature Machine Intelligence》上。论文链接https://www.nature.com/articles/s42256-022-00577-2生物样品中小分子的结构注释是生物医学、生物技术、药物发现和环境科学等各个研究领域的关键瓶颈。非靶向代谢组学研究中的样本通常包含数千种不同的分子其中绝大多数仍未被识别。LC-MS 是使用最广泛的分析平台之一因为它可以进行高通量筛选、高度灵敏并且适用于范围广泛的分子。对于每个离子记录的碎片及其强度构成 MS^2 谱图其中包含有关分子中子结构的信息并作为注释工作的基础。在典型的非靶向 LC-MS^2 工作流程中数千个 MS 特征MS^1、MS^2、RT来自单个样本。结构注释的目标是将每个特征与候选分子结构相关联以供进一步的下游解释。近年来已经开发了许多预测 MS^2 质谱图结构注释的强大方法。有趣的是RT 信息在基于 MS^2 的结构注释自动化方法中仍未得到充分利用。自动注释管道中另一个有点被忽视的方面是立体化学的处理即分子的不同三维 (3D) 变体。在此研究人员着手为联合使用 MS^2 和 retention order (RO) 结合立体化学感知分子特征来提供 LC-MS^2 数据结构注释的新视角。提出了一种名为 LC-MS^2Struct 的新型机器学习框架它学习如何以最佳方式组合 MS^2 和 RO 信息以准确注释一系列 MS 特征。LC-MS^2Struct 依赖于结构化支持向量机 (SSVM) 和最大间隔马尔可夫网络max-margin Markov network框架。框架不需要单独学习的 RO 预测模型。相反它优化了 SSVM 参数使得正确和任何其他注释序列之间的分数差最大化。通过这种方式LC-MS^2Struct 学习如何以最佳方式使用来自一组 LC-MS^2 实验的 RO 信息。根据 MassBank 提供的所有可用反相 LC 数据对LC-MS^2Struct 进行了训练和评估包括来自 18 种不同 LC 配置的总共 4,327 个分子因此在模型评估中达到了高水平的测量多样性。图示LC-MS^2Struct 工作流程概览。来源论文LC-MS^2Struct 与其他三种方法RT 过滤、logP 预测和 RO 预测进行了比较。LC-MS^2Struct 可以与任何 MS^2 评分器结合使用并使用 CFM-ID、MetFrag 和 SIRIUS 工具进行了演示。图示组合 MS^2 和 RT 信息的不同方法。来源论文实验表明LC-MS^2Struct 注释小分子的准确性远远优于更传统的 RT 过滤和基于 logP 的方法也明显优于以前依赖 RO 的方法。所有三个研究的 MS^2 评分器都可以通过LC-MS^2Struct 进行改进包括同类最佳的 SIRIUS由于其已经很高的基线准确性通常很难对其进行改进。对于 CFM-ID 和 MetFragLC-MS^2Struct 比 only-MS^2 的 top-1 准确度提高了 4.7 和 7.3% 单位分别对应于 80.8% 和 106% 的性能增益。研究结果显示了立体化学感知分子特征对于 LC-MS^2 数据结构注释的优越性。值得注意的是这不仅适用于立体异构体的注释也适用于仅通过其二维结构区分的候选物。接下来研究了LC-MS^2Struct 是否可以比单独使用 MS^2 更准确地注释立体异构体考虑到双键方向不同的立体异构体之间的差异例如顺反异构或 E-Z 异构这可能会导致其 LC 行为的差异。候选分子使用两种不同的分子指纹表示一种包括立体化学信息 (3D)和一个省略它的 (2D)方法。这使我们能够评估立体化学感知特征对于结构注释的重要性。图示使用LC-MS^2Struct 识别立体异构体。来源论文在查看LC-MS^2Struct (3D) 的单个 MS^2 评分器的 top-1 性能时观察到 CFM-ID、MetFrag 和 SIRIUS 分别提高了 2.6、3.8 和 3.2 个百分比单位。这分别转化为 87.3%、95.9% 和 44.3% 的性能提升。一般来说LC-MS^2Struct 提高了所有三个 MS^2 评分者的排名。然而当使用立体化学感知 (3D) 候选特征时改进明显更大。有趣的是在 ALLDATA 设置中可以观察到类似的行为尽管绝对性能改进较小。该实验表明LC-MS^2Struct 可以使用 RO 信息来改进立体异构体的注释。「我们的研究表明虽然绝对保留时间可能会有所不同但保留顺序在不同实验室的测量中是稳定的」阿尔托大学的博士生 Eric Bach 解释道。「这使我们能够有史以来第一次合并所有公开可用的代谢物数据并将其输入到我们的机器学习模型中。」卢森堡大学卢森堡系统生物医学中心 (LCSB) 副教授 Emma Schymanski 说「使用立体化学提高了鉴定性能这一事实对所有代谢物鉴定方法的开发人员来说都是一个启示。这种方法也可以用来帮助识别和追踪环境中的微污染物或表征植物细胞中的新代谢物。」参考内容https://phys.org/news/2022-12-scientists-machine-unprecedented-view-small.html人工智能 × [ 生物 神经科学 数学 物理 材料 ]「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。欢迎关注标星并点击右下角点赞和在看。点击阅读原文加入专业从业者社区以获得更多交流合作机会及服务。