1. AI新视界首页
  2. AI食品

结合光谱学和机器学习改进食品分类

今天介绍一篇最近由布鲁塞尔自由大学的I. Magnus等人前段时间发表在Food Control上的一篇文章。旨在用于无损产品鉴定的传统数据分析处理技术基础上进行新型算法开发,通过结合紫外线、可见光、近红外反射光谱和荧光光谱的信息和产品流中的食品安全和质量评价,实现识别外来物体。

今天介绍一篇最近由布鲁塞尔自由大学的I. Magnus等人前段时间发表在Food Control上的一篇文章。旨在用于无损产品鉴定的传统数据分析处理技术基础上进行新型算法开发,通过结合紫外线、可见光、近红外反射光谱和荧光光谱的信息和产品流中的食品安全和质量评价,实现识别外来物体。

1. 绪论

光学光谱已被证明是食品质量和安全评估的有力工具,它提供了一个快速,无损的测量,不需要任何样品制备或使用化学品。反射光谱和荧光光谱法均可进行良好应用实践。一般说来,利用光谱学进行产品分类的原理是,当样品被辐照时有机物中不同化学键会吸收或发射不同波长的光。

光谱数据纷杂多样,在现代化大环境下广泛的食品产品中,产生了一个具有挑战性的后处理问题。解决的典型方法采用主成分分析(PCA)和偏最小二乘(PLS)等技术。最近,机器学习技术已经被应用于食品质量的预测和评估等多种食品加工需求,本文演示了一种新的机器学习级联,通过结合紫外-可见-近红外反射和荧光光谱信息,能够同时识别大量不需要的产品。

2. 材料和方法

本文研究了光学特性,特别是反射和荧光光谱,种类繁多,有国内外核桃样品对象。光谱数据被用作机器学习的输入处理,处理特征选择和级联分类。

2.1.材料及装置应用

  本文使用的核桃样品同时考虑土耳其(占比70%)和美国产地的混合核桃,研究样本包括大量不需要的核桃部件。对于每个样本考虑一个单一的平均荧光光谱,其对应7个荧光测量的平均光谱,而对于反射测量是考虑一个单一的光谱。对各种样品的反射光谱进行了研究。

本文使用反射积分球(Avantes avassphere -30)进行了反射光谱测量,捕获了 与反射角度或表面散射无关的所有反射光(图 1)。

结合光谱学和机器学习改进食品分类

Fig. 1. 反射测量装置的原理图概述

荧光光谱测量装置考虑了研究了405 nm和660 nm光激发的荧光光谱(图 2)。因为405 nm光被认为能激发蛋白质、维生素、氨基酸和霉菌,而660 nm光被认为能激发叶绿素分子。利用可折叠反射镜分别选择激发波长405nm和660 nm,然后利用反射镜引导到样品。样品激发后,荧光信号由准直透镜(Avantes colv /VIS,直径 6 mm)捕获,耦合到宽带光纤(Avantes UVIR600 光纤),并引导到频谱分析仪。

结合光谱学和机器学习改进食品分类

Fig. 2. 荧光光谱测量装置

2.2机器学习方法

机器学习分析的目的是设计一个二值分类器,能够从所有类型的不需要的样本中区分优质核桃,使用可用的光谱数据。对于每种测量类型有三个不同的训练集:(1)共 736 个样品的反射测量,每个样品包含 2046 个波长(特征);(2)405 nm 激发后的荧光光谱;(3)660 nm 激发后的荧光光谱,共 560 个样品,分别包含 681 和 401 波长。研究中未对光谱数据进行传统的预处理。引入了级联分类器将三个训练集的光谱信息结合起来,获得基于单个决策输出的高效分类。在选择光谱测量类型和不同样本类型对应的分布后,分 4 步进行数据处理和分类。处理方法的一般概述由以下流程图(图3)提出。

结合光谱学和机器学习改进食品分类

Fig. 3. 展示处理方法的流程图

为了确定光谱数据中最显著的特征,采用序列前向搜索(Sequential Forward Search, SFS)算法,目标是将数据集的维数限制在 8 个照明光源(考虑反射和荧 光之和)和 8 个检测波长内,每一个都符合商业上可用的激光线。为了避免激光功率波动或样品定位变化等环境效应的潜在影响,需要考虑不同波长的反射率值 的比值,以及不同中心波长的积分荧光强度值的比值。SFS 的一般思想是分别选择每个特征,为每个特征训练一个分类器,并通过交叉验证评估其性能,保留性能准则最大化特性,进行特性最大数量的迭代。在适应化SFS的每一个迭代步骤中,每个步骤都对分类器进行训练和评估。

级联分类器被认为是有效地组合3个不同的单独分类器,每个分类器基于单一类型的度量,同时产生单一的输出决策。本文基于大多数投票分类器开发了自己的通用级联分类器算法。

与单一分类器相比,本文设计的级联分类器降低了误报率,从而显著提高了食品质量和安全。这种级联分类器自然更重视去除不需要的样品,而不是浪费好的样品的数量。且为了得到最优分类,不同的训练集应该部分互补。

3. 结果与讨论

本文的目标是将良好的核桃和其他不需要的产品(异物,坚果壳,模具等)之间进行最佳区别,基于使用反射的机器学习处理和样本的荧光光谱。首先对光谱数据 进行可视化分析,然后将该方法与机器学习相结合,给出分类结果。在紫外-可见-近红外波长范围内,优质核桃和不需要的核桃的反射光谱显示出 明显的吸收特性(图 4)。

结合光谱学和机器学习改进食品分类

Fig. 4. a)平均反射光谱:所有核桃样品的比较;b)平均反射光谱:优质核桃与异物的比较;c) 1200 nm 处的反射率箱形图,由于自然变化较大,好核桃与其他样品有明显的重叠

用 405 nm 光激发后的荧光光谱在 490 nm 和 678 nm 处有明显的最大值,诱导 分别呈现蛋白质和叶绿素(图 5)。结合光谱学和机器学习改进食品分类

Fig. 5. 使用 405 nm 激发光:a)平均荧光光谱:所有核桃样品 的比较;b)平均荧光光谱:优质核桃与异物的比较;c)荧光在 678 nm 处的箱形图 显示,由于自然变异较大,优质核桃和大多数其他样品之间存在明显的重叠

 利用 660 nm 激光激发后的荧光光谱是叶绿素含量的测量(图 6)。

结合光谱学和机器学习改进食品分类

Fig. 6. 在 660 nm 激发光下:a)平均荧光光谱:所有核桃样品 的比较;b)平均荧光光谱:优质核桃与异物的比较;c)荧光在 725 nm 处的箱形图, 显示优质核桃和所有其他样品之间有有限的重叠。

为了获得不同分类方法的性能的初步比较,本文在考虑包括所有样本类型在内 的完整训练集的同时,更先进的,非线性分类器是非常重要的。就单个分类器而言,更先进的机器学习算法(SVM、ELM、QDA)的性能明显优于经典的化学计量学技术(LDA、PLS)。

一般来说,本文的研究的结果证实,越先进分类算法优于标准的化学计量学技术,当原始数据中有大量的自然变化造成的重叠时,分类算法是至关重要的。通过重复交叉验证计算单个分类器的假阴性和假阳性率以及由此产生的级联分类器率。

当考虑级联结果时,可以对大量不同的不需要的样品进行分类,并 具有令人满意的性能。为了验证重复的“标准”交叉验证的结果——在交叉验证之前对整个数据集进 行了特征选择——是否给出了完整模型构建过程的无偏估计,在 ELM 和 SVM 分类 器上应用了重复嵌套交叉验证——现在在交叉验证过程中进行了特征选择。表 3 的结果给出了包括特征选择在内的模型建立过程的准无偏估计。

4. 结论

本文已经演示了在使用级联分类的反射光谱和荧光光谱结合的基础上,在食品 质量和安全评估中使用光谱和机器学习,同时利用特征选择搜索来最小化所需 的波长数量。以对核桃样品的质量检测分类问题为案例分析研究,用先进的机器学习技术和在级联分类方案中的处理算法应用使结合反射和荧光数据中最显著的光谱特征。与基于主成分分析或偏最小二乘 负载的经典自动化选择技术相比,本文的性能指标可提高高达 80%。

本文的处理算法对多种特定污染物的分类效率超过了目前食品加工业的水平,可以有效使食品质量和安全评估能够同时进行。因此,这表明结合光谱学和机器学习的食品分类改进在食品加工应用方面有很好的表现,为改善食品安全铺平了道路。

4. 参考文献

  • Magnus I., et al.”Combining optical spectroscopy and machine learning to improve food classification.” Food Control 130.{4}(2021): doi:10.1016/J.FOODCONT.2021.108342.结合光谱学和机器学习改进食品分类

原创文章,作者:ifyoung,如若转载,请注明出处:https://www.drugfoodai.com/spectrum-ml.html

注意:本站原创指的是原创编译,并不主张对所介绍的工作的版权,如有侵权,请联系删除!

发表评论

邮箱地址不会被公开。 必填项已用*标注