1. 图灵的新篇章网首页
  2. AI食品

利用PredRet中的数据准确预测保留时间并应用于食品生物活性成分分析

今天介绍一篇法国克莱蒙费朗大学前段时间发表在food chemistry上的一篇文章。该研究在24个色谱系统分析的467种化合物种测试了PredRet预测植物食品生物活性成分在色谱柱中保留时间的表现。

摘要 

今天介绍一篇法国克莱蒙费朗大学前段时间发表在food chemistry上的一篇文章。该研究在24个色谱系统分析的467种化合物种测试了PredRet预测植物食品生物活性成分在色谱柱中保留时间的表现。

介绍

食品代谢组学中有大量经非靶向分析检测到但未被识别的分子信号。植物食品生物活性成分(也称为膳食植物生化素)及其I,-II期和肠道微生物代谢物涵盖了从高极性化合物到亲脂性化合物的广阔化学空间,是食品代谢组学中的重要部分。因其对健康的保护性作用,以及近期作为食物摄入生物标志物的有用性而受到广泛关注。非靶向代谢组学中未知物质的鉴定的可用性有限和成本高。在植物食品生物活性成分及其代谢产物的鉴定中,由于缺乏可获取的标样和许多同分异构体之间高度的结构相似性, MS/MS难以区分。在非靶向代谢组学中,越来越多地考虑保留时间Retention Times(RTs)的预测,以补充MS/MS matching以注释未知峰。现有的保留时间RT预测模型大多特定于一个色谱系统(CS),并且这些模型不能在训练条件之外提供准确的预测。由于分析方法不统一,并且大多数实验室倾向于使用自己的常规半靶向或非靶向液相色谱方法来分析各种类型的基质(血清,血浆,尿液,消化液,食品原料)中的植物食品生物活性成分,因此需要可跨CS定制的RT预测模型。

50利用PredRet中的数据准确预测保留时间并应用于食品生物活性成分分析

2. 结果与讨论

2.1  分析的植物食物代谢物种类多

在24个色谱系统(CS)中共收集了467种植物食物成分或相关人体代谢物的1583个RT实验值。467种化合物属于30多个族,涵盖了从高极性到亲脂性的较大化学空间,预测logP值为–3.48-10.40,单一同位素质量为95.0371-934.0712 Da(图1)。PredRet数据库随着用户添加的新化合物和相关的RT数据不断发展。本研究进行时,PredRet中的植物性食物成分有限,该数据集代表了此类化合物的重大更新。

利用PredRet中的数据准确预测保留时间并应用于食品生物活性成分分析

图1. PredRet中输入的467种植物食品代谢物所覆盖的化学空间

467种的化合物中,有212种化合物仅在一个CS中进行了分析,而4′-羟基-3′-甲氧基肉桂酸(阿魏酸),4-羟基3-甲氧基苯甲酸(香草酸),3,4-二羟基苯甲酸(原儿茶酸),5O-咖啡酰奎尼丁和4′-羟基肉桂酸(对香豆酸)在20个CS中都有测量,是最常见的化合物。数据集的大小从29到103个RT实验值不等。(图2)CS 18-19和4-5共享>90%的化合物相似性,对应于来自同一平台的两种分析方法。

利用PredRet中的数据准确预测保留时间并应用于食品生物活性成分分析

图2. 网络图说明了化合物覆盖范围的重叠。节点的大小表示数据集中存在的化合物的数量,而线粗细和颜色表示配对的数据集之间常见化合物的数量。线越粗,常见化合物的数量越多。线的颜色分别表示化合物的低(<10)和高(>60)相似度。E:输入PredRet的RT值的数量;P:作出的RT预测数。

2.2  RT预测覆盖率和速率

对于24个CS,总共获得了6382个新的RT预测,其中一个CS多达667个预测。此前PredRet中的化合物(1783种唯一化合物,约10%是植物性食物生物活性成分)有助于预测除本研究未涵盖的其它化合物。随着在PredRet中输入更多的RT实验数据,对从未分析过的化合物会生成更多的RT预测。(表2)。RT预测还取决于LC梯度的形状和类型(即UHPLC或HPLC)以及与其它CS共有的常见化合物的数量。例如,不常使用的流动相可能会限制CS的可预测性。CS9的29种化合物的输入不足以获得RT预测。然而,尽管CS 11、15和16输入的 RT数据集相对较小(35-46种),但它们具有较高的预测率,这是由于通用CS和/或化合物的良好组合所致。

表2. 具有467种植物化合物的输入数据集的24种液相色谱系统(CS)的PredRet保留时间预测的统计数据

利用PredRet中的数据准确预测保留时间并应用于食品生物活性成分分析

2.3  RT预测准确度

PredRet为CS中从未分析过的化合物提供了RT预测,而且还为输入数据集中的化合物提供了RT预测。RT预测在24个CS中非常准确,中位预测误差在0.03到0.76min之间(表2)。由于各个CS的运行时间差异很大(5-135min),中值预测误差也以相对于总运行时间的百分比表示(0.3%-1.8%)(不包括CS9)。

利用PredRet中的数据准确预测保留时间并应用于食品生物活性成分分析

图 3. RT的预测准确性和CS1中已知的RT 98种化合物的覆盖范围。

图3中给出了比较CS1输入数据集化合物的实验RT和预测RT的曲线图。CS1中,大多数化合物在RT为6.6-14.2 min时,可以获得精确的窄PI预测。总的来说,PredRet对CS1表现良好,中位预测误差为0.07min(运行时间的0.27%),中位PI宽度为0.83min。CS 7、8、9、14、17、20、24的一个共同特征是独占的稀有植物成分比例高,这间接导致与其它CS共有的化合物数量少。

为了进一步验证GAM在PredRet中的预测性能,对8个CS的子集进行了外部验证测试。将数据集分成80%的训练集和20%的测试集。训练集用于在PredRet数据库中的CSs之间建立GAMs,以获得测试集中化合物的PI预测。将预测与实验数据进行比较,以获得每种化合物的预测误差。获得了准确的预测结果,8个CSs测试集的预测误差中值在0.04到0.41min之间。最大绝对预测误差为3.55min α-生育酚(CS2),其次是儿茶酚(2.45min,CS5)。

PredRet存在一些局限性:首先,用户没有关于提供预测的标准的信息;其次,PredRet算法只基于主InChI层识别输入的化合物,忽略了立体化学信息。

2.4  PredRet预测在植物性食物成分鉴定中的应用

利用PredRet进行RT预测的有效性可以区分异构体。在图4A中,预测RT为8.3 min(PI:8.1-8.5 min)的二氢咖啡酸可与其异构体高香草酸(PI:8.5-9.0 min)和藜芦酸(PI:9.3至9.6 min)区分。在图4B中,除了木犀草素和非甾体素(10.6-10.7 min)的PIs有窄重叠外,还清楚地区分了非甾体素(PIs:9.8-10.7 min)、山奈酚(PIs:11.4-12 min)和木犀草素(PIs:10.6-11.3 min)的预测RTs。在非靶向代谢组学研究中,当识别具有相同m/z的未知特征时,RT可以有效进行筛选。此外,由于类黄酮结合物(糖苷、葡萄糖醛酸苷)的RT与其苷配基的RT不同,预测RT可能有助于区分样品中真正存在的苷配基和分析过程中产生的苷配基。

利用PredRet中的数据准确预测保留时间并应用于食品生物活性成分分析

图4. CS1中异构体A)3,4-二甲氧基苯甲酸(藜芦酸)、4′-羟基-3′-甲氧基苯乙酸(高香草酸)和3-(3′,4′-二羟基苯基)丙酸(二氢咖啡酸)以及B)山柰酚、木犀草素和非西汀的保留时间(RT)预测。彩色区域表示PI宽度。

PredRet的另一个应用是,当标样无法获取时,在非靶向代谢组学研究中帮助注释稀有植物食物成分。一旦用户在CSs中输入稀有植物食物成分的实验数据,PredRet就会为CSs中该化合物提供PI。例如,来自CS1的番茄碱RT实验值(11.8min)的贡献可以预测其它15个CSs中的RTs,而刺芒柄花素(CS1)、8-羟基尿石素-3-硫酸盐(CS14)和8-脱氧山莴苣素(CS7)可以预测其它13个CSs中的RTs。为了优化这一过程,为稀有化合物输入实验RTs的用户也输入常见化合物RT实验值是至关重要的。

3 结论

基于GAM的PredRet被证明是一种有用的工具,可用于获得有关植物性食物生物活性成分及其代谢产物的大量准确的RT预测,将其用于非靶向代谢组学研究无疑可以帮助进行初步鉴定。PredRet预测足够精确,可以区分结构异构体。该数据共享计划和多实验室研究为PredRet数据库的扩展做出了贡献,在24个CS中对>467种植物食品生物活性成分及其代谢产物进行了1500次以上的实验RT。重要的是,随着输入更多的实验已知的RT,将生成更多的RT预测,并且预测的准确性将会提高。自推出以来,PredRet数据库已经有了长足的发展,现在包含68个CS中的15,000个RT条目。总体而言,该数据库涵盖了除植物食品生物活性成分以外的4000种独特化合物。相比之下,诸如北美MassBank(MoNa)之类的谱库包含>200,000种化合物的质谱图,因此RT仍有很大的共享空间。如果足够完善以允许在任何CS中进行准确的RT预测,则PredRet将会促进研究之间的比较,并最大程度地减少针对植物性食物化合物开发一致的LC-MS方法的需求。

参考文献

  • Low D Y ,  Micheau P ,  Koistinen V M , et al. Data sharing in PredRet for accurate prediction of retention time: application to plant food bioactive compounds[J]. Food Chemistry, 2021:129757.

利用PredRet中的数据准确预测保留时间并应用于食品生物活性成分分析

利用PredRet中的数据准确预测保留时间并应用于食品生物活性成分分析

微信号|FoodAI

原创文章,作者:ifyoung,如若转载,请注明出处:https://www.drugfoodai.com/predret-rt-predict.html

发表评论

邮箱地址不会被公开。 必填项已用*标注