该研究将静态顶空-气相色谱-离子迁移谱(SHS-GC-IMS)技术首次应用于葡萄酒香气分析,通过预测模型将香气化学与葡萄酒感官质量分级联系起来。对6种机器学习模型进行了比较,结果表明人工神经网络(ANN)的预测精度最高,达到95.4%。
摘要
今天介绍一篇来自奥克兰大学的Wenyao Zhu,Paul A.Kilmartin和Frank Benkwitz等人于2021年3月发表在Journal of Agricultural and food chemistry上的一篇论文。该研究将静态顶空-气相色谱-离子迁移谱(SHS-GC-IMS)技术首次应用于葡萄酒香气分析,通过预测模型将香气化学与葡萄酒感官质量分级联系起来。对6种机器学习模型进行了比较,结果表明人工神经网络(ANN)的预测精度最高,达到95.4%。
1. 介绍
新西兰长相思葡萄酒通常被描述为草本、植物、青草、醋栗、葡萄柚和百香果的味道,同时通过其充满活力的酸度可进行微妙的平衡。对于酿酒师来说,判断葡萄酒的质量等级是一项至关重要的工作。但不是所有的这些准则都被可测量的参数所支持,因此葡萄酒行业将受益于可以建立可测量的葡萄酒属性和他们的感知质量之间的关系的分析方法。此外,那些表征葡萄品种特征的挥发性化合物,也可以用来表示葡萄酒的品质。然而,昂贵的仪器使得它们不适用于商业酿酒厂实验室环境。一种具有成本效益、易于使用的替代方案,可以快速可靠地生成有关葡萄酒质量的信息,将更有助于帮助酿酒师并补充他们在分配适当等级的葡萄酒方面的经验见解。
由于葡萄酒香气的内在复杂性,适合采用非靶向的方法,最大限度地利用所捕获的挥发性信息。此外,非靶向搜索将产生大量数据,这需要先进的统计工具来识别数据中包含的显性或隐性模式,构建质量预测模型,以协助酿酒师分配葡萄酒等级。一项有望为葡萄酒行业提供长期需要的解决方案的有前途的技术是用于挥发性化合物分析的离子迁移谱(IMS)。在IMS之前附加气相色谱(GC)柱也已广泛用于研究复杂的食品样品。GC和IMS的结合不仅提高了整体的选择性,而且这两个分析维度还可以相互补充,以实现更好的分离结果。
尽管GC-IMS仪器具有上述优点,但在葡萄酒的香气分析中使用这种技术的研究仍是零星报告。因此,本研究的第一个目标是将静态顶空GC-IMS(SHS−GC-IMS)应用于采用全局指纹图谱方法的长相思葡萄酒香气分析。第二个目标是应用机器学习技术生成基于香气分析的葡萄酒分级预测模型,而不需要香气成分的先验知识。最后,通过对模型的解释,提取出香气物质在质量分级中有贡献的结论。
2.材料及方法
2.1 长相思葡萄酒样品
采用2014年和2020年的两种商业长相思葡萄酒。为了进行精度研究,使用了一瓶2018年的商用长相思葡萄酒。共有143个长相思末端发酵葡萄酒样品,考察了许多感官方面,不仅限于香气。样品被分为三个等级:
•A级:13-18分,共36个;
•B级:总分10-12分,共74个;
•C级:6-9分,共33个。
2.2 多变量数据分析和机器学习
总共65个峰相应地定义了它们的保留时间和漂移时间,然后整理到区域设置文件中,作为未来分析的模板。在随后的葡萄酒样品中,通过自动计算峰的体积-形状下,得到了预定义的峰。
采用机器学习的方法,利用先进的分类算法来构建预测模型。总共有6个机器学习模型适合于SHS-GC-IMS数据。其中包括PCA-LDA、PLS-DA、kNN、SVM、XGBoost和ANN。此外,利用SHAP解释训练模型的结构,探索潜在的标记挥发性成分,预测葡萄酒的分级。随后,85/15%的训练/测试数据分割(243/43个样本)用于训练在k-fold交叉验证研究中获得最高预测精度的模型。在人工神经网络模型中具体传递了一组超参数,以优化其训练。
3. 结果与讨论
3.1 SHS−GC−IMS的精度研究
通过分析一种中度陈酿(2018年)长相思葡萄酒,对重复性和再现性进行了分析,测试5天,每天重复4次。监测保留时间、漂移时间和信号强度的变化。当仪器长时间未进行热清洗时,会观察到严重的保留时间偏移,这可能会导致不准确的结果。因此,该仪器应至少每24小时热清洗一次,至少4小时,以确保分析输出的一致性。
Table 1 使用SHS-GC-IMS检测葡萄酒样品的精度研究(RSD,%)
3.2 长相思葡萄酒的指纹图谱及峰区鉴定
大部分挥发物从保留时间3−21分钟和1.21RIP rel。漂移时间2.12rel。比较色谱图显示了新酿和陈酿长相思葡萄酒的当前识别峰,如Fig.1所示。乙醇峰(峰22)的右侧出现多种挥发物,在第3.5分钟和第5分钟之间作为较小峰的宽谱带洗脱。共流出化合物包括丙酸乙酯、乙酸丙酯、异丁酸乙酯和乙酸异丁酯,它们显然是在IMS维度上分离。
Fig.1 使用SHS-GC-IMS分析的两种新西兰长相思葡萄酒的色谱图
在65个可识别信号中,使用参考标准共识别了33个峰,对应于23个已识别化合物。大多数确定的香气化合物是酯类,还有一些醇类。其中一些已鉴定的化合物以前很少在长相思葡萄和葡萄酒中报道,包括乙酸甲酯、甲酸乙酯、乙酸丙酯和乙酸戊酯。通过创新性地将SHS-GC-IMS应用于葡萄酒分析,这些化合物得到了清晰的鉴定。它们明确的峰形也将使未来的进一步定量分析成为可能。
3.3 化学计量学方法预测长相思葡萄酒的分级
3.3.1 SHS-GC-IMS数据的PCA分析
如Fig.2所示,PCA无法识别出清晰的聚类,前两个主成分(PC)仅解释了数据中所有方差的36.48%。此外,PC1和PC2都不能明确地将某个葡萄酒分级与其他分级分开。因此,测试了可以识别非线性变量关系的先进方法。
Fig.2 从2020年份获得的所有发酵结束罐样本的PCA得分图
3.3.2 葡萄酒分级的高级化学计量学方法应用
如Table 2所示,简单的统计模型如PCA-LDA和PLS-DA,线型输入和输出之间的相关性被推断出来,表现出不理想的性能。随着模型结构的复杂化,接受者操作特征曲线(ROC)的精度和ROC曲线下面的面积(AUC)也相应提高。最复杂的模型人工神经网络(ANN)也达到了最高的平均分类准确率89.5%具有最高的AUC (0.983)。因此,该模型被选择用于后续模型预测测试,该测试基于原始数据集的85/15%训练/测试划分。
Table 2 基于10倍交叉验证的SHS – GC – IMS数据不同化学计量算法的稳定性
在完整的286个葡萄酒样本中,共243个样本首先用于训练ANN模型。在训练过程中,激活两个隐藏层的神经元来研究数据中的模式,并尝试使用随机梯度下降法来最小化预测误差。训练过程结束后,将43个葡萄酒样本(11个A级,22个B级,10个C级)传递到训练模型中,预测其评分。该模型表现良好,预测精度为95.4%。只有2个样本标错,都是A级被模型误判为C级。因此,尽管涉及大量挥发性化合物,SHS-GC-IMS和强大的分类工具的结合可以提供非常满意的结果。
3.3.3 葡萄酒分级的高级化学计量学方法分类:解释
SHAP值显示的一个直接趋势是,尽管相关性方向相反,并且两个等级的顺序略有不同,但对于等级A和C,影响最大的波动峰值几乎相同。乙酸异戊酯、乙醇、癸酸乙酯和辛酸乙酯均与A级正相关,与C级负相关,而乙酸己酯与C级呈正相关,与A级呈负相关。SHAP值表明,这些化合物包含区分A/C样品等级的关键信息。
Fig.3 (A)为等级A的样品的SHAP值和(B)为等级C的样品的SHAP值
需要说明的是,本研究中建立的ANN模型是为了帮助酿酒师对葡萄酒进行分级,基于SHAP值的模型解释为模型的决策过程提供了有价值的见解,使预测结果更具说服力。然而,这些解释是特定于模型的,不应立即转化为改进酿酒程序的指南。尽管如此,这些知识可以谨慎地用作小规模试验的起点。
参考文献
- Zhu W , Benkwitz F , Kilmartin P A . Volatile-Based Prediction of Sauvignon Blanc Quality Gradings with Static Headspace–Gas Chromatography–Ion Mobility Spectrometry (SHS–GC–IMS) and Interpretable Machine Learning Techniques[J]. Journal of Agricultural and Food Chemistry, 2021, 69(10):3255-3265.
原创文章,作者:FoodAI01,如若转载,请注明出处:https://www.drugfoodai.com/grape-wine-ann.html
注意:本站原创指的是原创编译,并不主张对所介绍的工作的版权,如有侵权,请联系删除!