1. AI新视界首页
  2. AI食品

中国农业大学周欣团队基于宏基因组学和机器学习的蜂蜜产品溯源

今天介绍一篇来自中国农业大学昆虫学系周欣教授课题组于2022年3月发表在Food Chemistry上的文章。该文为了查询蜂蜜的地理来源,收集蜂蜜样本产生的宏基因组数据,应用机器学习方法来推断蜂蜜的地理来源。

今天介绍一篇来自中国农业大学昆虫学系周欣教授课题组于2022年3月发表在Food Chemistry上的文章。该文为了查询蜂蜜的地理来源,收集蜂蜜样本产生的宏基因组数据,应用机器学习方法来推断蜂蜜的地理来源。

1、介绍

蜂蜜中的花粉特征提供了一种区分蜂蜜来源的方法。花粉成分自然地反映了当地的植物区系。基于高通量测序的DNA宏条形码技术已成功应用于花粉/蜂蜜鉴定,该方法利用花粉 DNA 作为采样手段来检测花卉成分。采用弹性反向传播算法(人工神经网络中监督学习的一种学习启发式算法)通过对局部蜂蜜样本的迭代训练来学习给定位置的花卉成分特征。

中国农业大学周欣团队基于宏基因组学和机器学习的蜂蜜产品溯源

图 1. 基于机器学习的蜜源追踪方法流程示意图

2、材料与方法

样品收集和制备:本研究中检测的28个蜂蜜样品。在这些样本中,有9个来自中国四川省老河沟自然保护区(LHG)。为了检验此方法是否能够区分LHG地点的随机样本,包括了来自两个相邻地点(关坝自然保护区、王朗自然保护区)和中国不同地区的五个地点(阿坝、北京、吉林、陕西和青海)的蜂蜜样本。每个地点的样本数量分别为9、2、1、3、4、3、3和3。

DNA 提取和测序:每个蜂蜜样品的总共 0.5 g 沉淀物(混合花粉粒)用于 DNA 提取。从每个蜂蜜样品中提取200 ng DNA,从每个蜂蜜样品中提取200 ng DNA,用PE150 高通量测序。

组装和注释:作者应用 MitoZ中的组装模块来获得每个样本的支架序列,使用BLASTN根据NCBI核苷酸数据库(nt)搜索组装序列之后,提取了每个装配序列的相似性分数和分类信息。

数据矩阵:使用reciprocal BLAST 方法比较蜂蜜样本。比对覆盖率≥80%,被认为是来自同一物种的片段化组装。为了提高计算效率,将序列限制为仅包含50个最丰富的植物衍生序列来代表给定的蜂蜜样本。之后,根据reciprocal BLAST结果记录每个蜂蜜样本的存在/不存在信息。

距离矩阵:为了根据蜂蜜样本的整体序列相似性来区分蜂蜜样本,作者计算了上述数据矩阵的距离矩阵,使用的样本之间的成对距离计算如下: ,其中 M 是代表序列的总数,1 – I ab 是指示函数,当两个样本 a 和 b 具有相同的存在/不存在状态时等于 1,否则等于 0。然后使用多维缩放 (MDS) 方法可视化距离矩阵,该方法也称为主成分分析 (PCA)。

基于机器学习的蜂蜜样本地理分配:应用了弹性反向传播算法,留一法交叉验证(LOOCV)方法应用该方法对机器学习算法的性能进行了评估。训练模型将根据其特征变量计算每个测试样本的位置分配概率。 概率最高的地理分配被认为是最终分配。

LOOCV 测试随机选择一个蜂蜜样本,并将其余样本作为训练数据集来拟合神经网络。然后,选择的一个作为测试集来估计训练模型的可靠性和准确性。例如,从总数据集中选择一个 LHG 样本,然后神经网络有一个训练数据集,其中包括剩余的8个LHG样本和来自其他地点的所有样本。最后,可以使用经过训练的神经网络计算所选 LHG

3、结果

蜂蜜样本的一般分类组成:比对测试表明,来自青海和吉林的样本含有明显更高比例的源自蜜蜂的 DNA。作者进一步将重叠群装配体的分类来源分为五类:真菌、细菌、病毒、绿色植物和后生动物。结果显示,不同样本的物种组成存在差异,与比对结果一致,来自青海和吉林的样品显示出明显更高比例的后生动物DNA。正如所料,蜜蜂构成了后生动物DNA的大部分(约90%)。

从机器学习推断的地理来源 :1,000 次 LOOCV 重复产生了总共 848 个经过验证的测试,其中 845 个(99.65%)正确地将样本分配到其相应的来源,并具有高概率分数。尽管三个测试失败,LOOCV测试结果表明,当来自相同地点的样本被先验地包括在训练数据集中时,随机蜂蜜样本可以被识别到准确的地理来源。

中国农业大学周欣团队基于宏基因组学和机器学习的蜂蜜产品溯源

图 4 . 地理位置的 LOOCV 概率分数分布。 箱线图表示对给定位置的蜂蜜样本重复 LOOCV 测试的总结,其中每个测试的概率分数由指定位置的相应颜色表示。

4、讨论

在所有 LOOCV 模拟测试中,的测试结果显示了正确的地理来源,并获得了高概率分数。这些结果表明,如果来自该位置的蜂蜜样本已经存在于参考数据集中,则几乎总是可以将随机蜂蜜样本识别为其真正的地理来源。新方法区分了从相邻位置生产的蜂蜜。

限制:

(1)蜂蜜样本代表了集体的季节性花卉特征,蜂蜜中的花成分预计会表现出季节性变化。

(2)未包含在训练数据集中的位置的样本无法获得可靠的地理分配结果。

(3)蜂蜜参考品的质量至关重要。特别是,该方法无法检测用于错误标记的样本。

(4)概率分数给出了地理出处的可能性。不能排除查询中的蜂蜜是从具有相似花卉多样性的位置产生的可能性。

参考文献

Liu S, Lang D, Meng G, Hu J, Tang M, Zhou X. Tracing the origin of honey products based on metagenomics and machine learning. Food Chem. 2022;371:131066. doi:10.1016/j.foodchem.2021.131066中国农业大学周欣团队基于宏基因组学和机器学习的蜂蜜产品溯源

微信号|FoodAI

原创文章,作者:ifyoung,如若转载,请注明出处:https://www.drugfoodai.com/honey-ml.html

注意:本站原创指的是原创编译,并不主张对所介绍的工作的版权,如有侵权,请联系删除!

发表评论

邮箱地址不会被公开。 必填项已用*标注