1. AI新视界首页
  2. AI食品

基于多元素筛选的化学计量学和创新多维数据分析的意大利牛肝菌产地溯源

“食品原产地认证”和“食品欺诈”一直以来都是令人感兴趣的话题。今天介绍一篇由Antonio Francesco Mottese等人发表于Food Control 的文章。该研究基于来自意大利、中国和波兰采集的牛肝菌样品的元素特征,结合主成分分析(PCA)、逐步典型判别分析(stepwise-CDA)、分类回归树(CART)、偏最小二乘判别分析(PLS-DA)和创新多维分析(MDA)建立统计模型,通过标准化学计量学技术和创新化学计量学技术的结合为预测食用牛肝菌(Boletussect.Boletus)的地理来源建立了一套可靠的系统。

摘要

“食品原产地认证”和“食品欺诈”一直以来都是令人感兴趣的话题。今天介绍一篇由Antonio Francesco Mottese等人发表于Food Control 的文章。该研究基于来自意大利、中国和波兰采集的牛肝菌样品的元素特征,结合主成分分析(PCA)、逐步典型判别分析(stepwise-CDA)、分类回归树(CART)、偏最小二乘判别分析(PLS-DA)和创新多维分析(MDA)建立统计模型,通过标准化学计量学技术和创新化学计量学技术的结合为预测食用牛肝菌(Boletussect.Boletus)的地理来源建立了一套可靠的系统。PCA显示了意大利产品与中国和波兰牛肝菌的显著差异。基于PCA和HCA的融合,MDA将Na、Mn、Fe、Cu和Cd等元素识别为强有力的判别变量。最后,高度准确的stepwise-CDA、CART和PLS-DA模型能够通过少量元素特征(Mg、Mn和Fe)预测商业牛肝菌的地理来源。

1. 介绍

“牛肝菌及其近缘种”是指在世界各地,特别是欧洲、北美和中国采集或生产的顶级食用菌,通常称为“porcini”。由于强烈的文化和烹饪意义,牛肝菌蘑菇在意大利美食和市场中占据了卓越的地位。在过去的70年里,消费者对意大利牛肝菌的需求不断增长,加上当地产品价格不断上涨,导致意大利牛肝菌市场转向成本更低、价值更高的来源。利益驱使下使得一些不法商家利用中国和波兰牛肝菌进行非法交易,并贴上“意大利产品”的错误标签。因此,为了保护消费者免受欺诈,维护意大利牛肝菌市场声誉,开发能够确定牛肝菌原产地的可靠方法是非常重要的。

无机元素的特征组成受到土壤组成和当地环境的影响,某些地区可能有特定的元素指纹,因此元素组成可能是一个有用的地理分类标记。本研究采用电感耦合等离子体四级杆质谱(ICP-qMS)测定牛肝菌中的常量和微量元素,并进行了初步的描述性分析。为了建立检测系统,首先通过主成分分析(PCA)和多维数据分析(MDA)探索了不同产地的牛肝菌(包括受保护的地理标志产品(PGI) Borgotar 牛肝菌以及中国和波兰牛肝菌)的元素数据集,以了解样本之间的相似性和差异性以及与所调查变量的相关性。MDA基本上依赖于PCA和HCA(层次聚类分析)技术的融合,MDA工具恢复了一个输出,该输出来自于HCA和PCA图形阐述的重叠,描述了与鉴别变量相关的样本分离。具体来说,输出具有不同的色区对应于不同的样本相似度,也可以通过椭圆、圆形或矢量模型等图形界面来解释多维空间中的样本差异,从而更容易解释。样本集将根据它们对特定无机元素浓度的相似度,位于多维空间的特定颜色区域。然后,使用元素数据集建立stepwise-CDA、CART和PLS-DA分类模型,随后在对意大利市场上可购得的牛肝菌样本对这些模型进行计算,用以评估欺诈的潜在发生。

2.材料及方法

2.1 样品采集

本研究共选取180个牛肝菌样品,包括意大利的四个产地:Parco dei Nebrodi、Altipiano Silano、Sassello和Borgo Val di Taro(PGI),以及中国和波兰地区,每个产地采集了30个样品,每个样品以20 g左右的干子实体为代表。Fig.1为牛肝菌的产地地图。

基于多元素筛选的化学计量学和创新多维数据分析的意大利牛肝菌产地溯源

Fig.1 牛肝菌样品产地地理图。包括意大利四个产区以及中国和波兰地区。

2.2 ICP-qMS分析

本研究共选取180个牛肝菌样品,包括意大利的四个产地:Parco dei Nebrodi、Altipiano Silano、Sassello和Borgo Val di Taro(PGI),以及中国和波兰地区,每个产地采集了30个样品,每个样品以20 g左右的干子实体为代表。Fig.1为牛肝菌的产地地图。

2.3 数据处理

首先,对牛肝菌样品元素数据进行描述统计是必要的,包括平均值和标准差(sd)、最小值(min)和最大值(max)等。随后,无监督的PCA被用于初步探索原始变量之间的关系,帮助降低数据维数,并用于观察数据本身的自然分组。无监督的MDA用于评估聚类样本之间的相似度,相似度越低则无机元素的鉴别能力就越强。然后利用多元监督模式的stepwise-CDA、CART等识别方法建立相关分类模型。最后采用了第三种监督技术,即PLS-DA,通过确认stepwise-CDA和CART已经获得的结果,进一步提高意大利牛肝菌追溯系统的可靠性。样品在建模之前被分为了训练集(70%)和验证集(30%)。

3. 结果

3.1 PCA分析

主成分分析概述了PCs解释的累积方差的几种模式。样本可变性主要由前四个PCs描述,即PC1、PC2、PC3和PC4,这些PCs根据Kaiser标准(特征值> 1)进行提取,代表87.97%的总方差。特别考虑了特征值为5.25和3.00的前两个PCs构建PCA双标图,分别解释了43.78%和25.00%的总方差(图2)。可以看出,中国和波兰样本在PC1上与所有意大利样本明显分离,来自意大利的样本在PC2上部分重叠,但又相互区分。基于多元素筛选的化学计量学和创新多维数据分析的意大利牛肝菌产地溯源

Fig.2 描述成分空间中牛肝菌样本分化的二维PCA得分图。

3.2 MDA分析

MDA被证明是一个强大的无监督工具,它与标准的探索性PCA结合用于可追溯性研究。Table 1报告了MDA方法的统计参数。其中,相关系数(R2)表示模型的适应度,F值是由180个观测值(样本)计算出的平均浓度值与6个生产区的平均浓度值的方差得到的, F> 1表示样本属于同一总体的假设被拒绝。Na、Mn、Fe、Cd和Cu等元素的相关系数最高(分别为0.90、0.91、0.92、0.97和0.96),F值最高(分别为6.60、16.85、21.24、49.83和43.71)。

Table 1 MDA分析的统计参数。

基于多元素筛选的化学计量学和创新多维数据分析的意大利牛肝菌产地溯源

Fig.3显示了MDA的图形输出。从图中看出,含有Na、Mn、Fe、Cu和Cd浓度相似的样本的聚类的方差差异最大。相反,以Zn、Cr、Ni和As浓度分别相似的样本为特征的聚类的方差差异最小,所述结果与表5中报告的统计数据一致。因此,根据MDA可以得出结论: Na、Mn、Fe、Cu、Cd等微量元素有助于牛肝菌样品按产地区分。

基于多元素筛选的化学计量学和创新多维数据分析的意大利牛肝菌产地溯源

Fig.3 从MDA获得的二维多色图。

3.3 Stepwise-CDA 分析

Stepwise-CDA分析提取一套能够最大限度地扩大牛肝菌样品差异的判别函数。此外,“逐步”标准允许选择具有最高区分能力的最小变量数量,从而降低了数据过拟合的风险。Fig.4中stepwise-CDA分析实现了牛肝菌样品100%的正确分类。Na、 Fe、 Mn 和 Mg提供了最高的标准化系数(分别为1.154、1.076、0.835和0.791),可作为最佳的判别变量。中国和波兰牛肝菌在F1轴上与所有意大利牛肝菌区分开,解释了54.56%的总方差。此外,来自不同意大利地区的样本在F2轴上部分分离,占总方差的32.70%。基于交叉验证的模型判别正确率为100%。

基于多元素筛选的化学计量学和创新多维数据分析的意大利牛肝菌产地溯源

Fig.4 在训练集上进行的stepwise-CDA的二维散点图。椭圆和重心突出了根据生产区域对牛肝菌样本的区分。鉴别空间中的验证样本聚类证明了交叉验证程序的成功结果。

3.4 CRAT分析

CART分析是一种非参数工具,能够提供一个决策树,指示在区分样本类别时哪个变量最重要,以及应该考虑哪个阈值水平。CART分析得到的模型树如Fig.5所示。该树由14个节点组成,其中9个是纯节点(即只包含来自同一生产区域的样本的节点)。Mn、Mg、Na、Ca、Fe等元素在样品鉴别中起关键作用。特别是,它们的预测能力的顺序为Mn > Mg > Na > Ca > Fe。由于只有两个训练集的样本被误分类,交叉验证过程提供的模型准确率为96.65%。因此,类似于stepwise-CDA, CART显示了高映射能力,有助于建立可靠的跟踪系统。

基于多元素筛选的化学计量学和创新多维数据分析的意大利牛肝菌产地溯源

Fig.5 对训练样本集进行的CART分析中获得的模型树。

3.5 PLS-DA分析

对样本训练集进行PLS-DA得到的2D散点图如Fig.6所示。总的来说,100%的样本可通过前四个lV正确分离。意大利样本彼此聚在一起,但中国和波兰牛肝菌除外,这与PCA和stepwise-CDA的二维散点图显示的结果一致。交叉验证表明PLS-DA模型具有100%的分类能力。分类过程中对模型贡献最高的变量(VIP> 1)为Mg、Ca、Mn和Fe。

基于多元素筛选的化学计量学和创新多维数据分析的意大利牛肝菌产地溯源

Fig.6 不同产地牛肝菌样品的PLS-DA二维散点图以及VIP得分图。

3.6 模型验证

在仅包含商业样本的外部预测集上,计算了stepwise-CDA、CART和PLS-DA模型的预测能力,结果总结于Table 2。几乎所有商业样品的标签上所报道的地理来源都得到了确认。然而所有的模型显示,来自Sassello (Liguria, Italy)的一个商业样品被错误的归类为中国牛肝菌。基于多元素筛选的化学计量学和创新多维数据分析的意大利牛肝菌产地溯源

Table 2 stepwise-CDA、CART和PLS-DA模型对商业牛肝菌样品的预测能力。

4. 结论

本研究共选取180个牛肝菌样品,包括意大利的四个产地:Parco dei Nebrodi、Altipiano Silano、Sassello和Borgo Val di Taro(PGI),以及中国和波兰地区,每个产地采集了30个样品,每个样品以20 g左右的干子实体为代表。Fig.1为牛肝菌的产地地图。

参考文献

  • Mottese, A. F., Fede, M. R., Caridi, F., Sabatino, G., Marcianò, G., Calabrese, G., Albergamo, A., & Dugo, G. (2020). Chemometrics and innovative multidimensional data analysis (MDA) based on multi-element screening to protect the Italian porcino (Boletus sect. Boletus) from fraud. Food Control, 110, 107004.

基于多元素筛选的化学计量学和创新多维数据分析的意大利牛肝菌产地溯源

原创文章,作者:FoodAI01,如若转载,请注明出处:https://www.drugfoodai.com/porcini-ml.html

注意:本站原创指的是原创编译,并不主张对所介绍的工作的版权,如有侵权,请联系删除!

发表评论

邮箱地址不会被公开。 必填项已用*标注