今天给大家介绍一篇由Shuaishuai Yan等人,于2021年5月1日上发表在Talanta(IF=6.057)的一篇研究性文章。该文章表明拉曼光谱结合基于指纹的机器学习是快速诊断病原菌的一种前瞻性策略。在这项研究中,在单细胞水平上获得了常见菌株单细胞拉曼光谱(SCRS)。然后,利用核主成分分析(KPCA)提取原始数据的非线性特征,并利用决策树(DT)算法在血清型水平上对单个细菌细胞进行评价和识别。
摘要
今天给大家介绍一篇由Shuaishuai Yan等人,于2021年5月1日上发表在Talanta(IF=6.057)的一篇研究性文章。该文章表明拉曼光谱结合基于指纹的机器学习是快速诊断病原菌的一种前瞻性策略。在这项研究中,在单细胞水平上获得了常见菌株单细胞拉曼光谱(SCRS)。然后,利用核主成分分析(KPCA)提取原始数据的非线性特征,并利用决策树(DT)算法在血清型水平上对单个细菌细胞进行评价和识别。
1. 背景介绍
由食源性病原体通过食物或水引起的食源性疾病是引发全球公共卫生问题和食品安全事件的主要原因之一。尽管已建立的病原体检测方法表现出极好的可靠性,包括传统的生化检测、免疫学分析(如酶联免疫吸附试验)、基因组分析等,但并不能快速获得检测结果。因此,迫切需要一种快速、准确和具有成本效益的方案来探索食品供应中的潜在病原体。
近年来,利用红外和拉曼光谱等显微光谱技术,可以获得生物体生化成分的独特指纹。此外,利用拉曼光谱检测食品中的致病菌时,具有不需前处理和预培养,以及所需生物样本少等快速区分物种的优势。然而,因为SCRS峰值易受影响,多变量分析困难,细菌异质性等问题,所以根据SCRS对不同的细菌种群进行分类不是一件容易的事情。因此,采用合适的化学计量学方法对不同菌株进行SCRS分类是解决上述障碍的有效途径之一。对于类似的和复杂的多变量SCRS,机器学习通过识别它们的特征提供了前所未有的分类能力。核主成分分析(KPCA)可以提取线性以及非线性特征。该算法不仅消除了原始信息冗余的障碍,而且保持了原始数据的完整性。
本研究收集了7个常见属23株食源性致病菌的SCRS图谱。利用核主成分分析决策树(KPCA-DT)对每个菌株的特征进行识别,对未知细菌进行分类,并与PCA-SVM的分类性能进行比较。结果表明,化学计量学方法通过对数千条SCRS谱带的分析,在快速鉴别食品安全相关细菌方面具有很大的应用前景。
2. 研究结果
2.1单细胞拉曼光谱(SCRS)采集条件的优化
SCRS的信号非常微弱,这与极少的入射光子可以产生非弹性散射密切相关。在不破坏单个细胞的情况下提前获得可接受的拉曼信号是后续分类和测序的关键。图1评估了不同属的单个细胞在不同拉曼采集参数条件下可能的“破坏阈值”。如图1A所示,SCRS的强度随着照射时间的延长而增加。此外,还评价了不同种类的单细胞在不同激光照射时间下的损伤情况 (图1B)。
图1.多种细菌SCRS采集条件的优化。(A)不同照射诱导时间下单细胞1002cm-1 SCRS强度的变化和(B)单个细菌细胞的完整性评价。
2.2 单个细菌细胞的拉曼光谱表征
基于光谱特征代表某一菌株整个生物体指纹的SCRS被用于分类和鉴定。为了通过拉曼光谱实时监测从农场到餐桌过程中食源性致病菌的污染情况,建立了一个详细的典型食源性致病菌拉曼光谱参考数据库。考虑到数据库的广泛适用性,该文库对来自不同属、种和血清型的7种不同病原菌的23株菌株进行了研究。为了最大限度地减少细胞异质性和同一物种的生理状态造成的偏差,作者获得了大量的SCRS。
2.3 一个分类模型中的所有菌株
采用合适的机器学习方法能够准确地解析海量数据,对于消除基于复杂多变的拉曼光谱的分类障碍具有重要意义。作者使用了KPCA从冗余的原始光谱数据中提取特征,并通过DT对每个菌株的生化特征进行判断,从而达到对菌株进行分类的目的。如图2B所示KPCA的特征提取过程。KPCA在捕捉多变量中的非线性关系方面表现出比线性PCA更好的性能,因为它不涉及非线性优化,并且不需要在建模之前指定特征的数量。在此基础上,通过DT的熵准则,找出最优的分支策略,实现更精细的识别。
图2.核主成分分析-决策树模型(KPCA-DT)的建立。(A)10折交叉验证过程中的数据集分布示意图。(B)KPCA-DT的结构示意图。(C)通过混淆矩阵(confusion matrix)和受试者工作特征(ROC)曲线对所建立的模型进行了评估。
2.4 多层次分类模型
为了在单细胞水平上实现对菌株的精细分类,推荐了四级分类模型,该模型根据生物分类的范围来确定鉴定关系。通过10折交叉验证评估了每个KPCA-DT模型在层次结构中的识别性能,并与PCA-SVM进行比较。首先,将数据集分为G+和G-细菌组。KPCA-DT和PCA-SVM的识别结果令人满意,这可能与G+和G-细菌细胞壁结构的显著差异有关。在第二级分类程序(属水平)中,正确地预测了分配给各自属的独立测试集。在第三级分类中,鉴定出李斯特菌和沙门氏菌的种类繁多(种水平)。最后,进一步尝试在血清型水平上识别多株单核细胞增生李斯特氏菌。
图3.通过4级KPCA-DT分类模型对独立测试集的预测结果
KPCA-DT和PCA-SVM的区分策略能够准确地预测未知样本进行类属分类。在菌种甚至血清型水平上进行菌株识别时,KPCA-DT识别方法表现出较好的分类性能。
基于KPCA从原始数据中提取的非线性特征,不同的传统机器学习算法分别用于细菌组、属和种水平的食源性病原体识别。在图S1中,为识别不同水平的菌株而引入的不同算法的分类性能差异很大,但KPCA-DT的识别精度总是令人满意的。同时,KPCA-SVM的交叉验证精度与PCA-SVM 相比较低。这可能是由于KPCA从原始数据中提取的非线性特征过于复杂和细化,不利于SVM的识别和归纳。
图S1.在采用KPCA对原始数据进行预处理的前提下,通过不同的分类模型比较了不同水平下菌株的预测精度。
结果与结论
拉曼光谱结合机器学习方法的分类方案可以根据单个细胞的拉曼光谱成功匹配相应的菌株。无论是通过整体分类模型还是多层分类模型对所研究菌株进行识别,KPCA-DT的综合判别性能都优于PCA-SVM。因此,对于具有多变量的海量数据集的识别和分析,KPCA-DT可能是一个很好的替代CNN的方法。结果表明,该技术可以通过探索单个细胞来快速识别受污染食品中的食源性病原体。此外,进一步的研究将扩大光谱数据库的深度和广度,并尝试分析食品样品中的混合细菌。
参考文献
Yan S , Wang S , Qiu J , et al. Raman spectroscopy combined with machine learning for rapid detection of food-borne pathogens at the single-cell level[J]. Talanta, 2021:122195.
长按关注我们
微信号|FoodAI
原创文章,作者:ifyoung,如若转载,请注明出处:https://www.drugfoodai.com/raman-ml.html
注意:本站原创指的是原创编译,并不主张对所介绍的工作的版权,如有侵权,请联系删除!