导读
2023年8月,中国农业科学院农业信息研究所樊景超研究员课题组在农业科学领域Top期刊Computers and Electronics in Agriculture(Q1,园艺类第1)上发表了题为“ITF-WPI: Image and text based cross-modal feature fusion model for wolfberry pest recognition”的研究论文。中国农业科学院农业信息研究所代国威为该论文第一作者,樊景超研究员为通讯作者,印度尼西亚基督教高等院校萨蒂亚-瓦卡纳基督教大学的Christine Dewi教授参与了本论文的研究工作。该文获国家农业科学数据中心(NASDC2023XM00-05)项目资助,同时申请国家发明专利。
摘要
枸杞作为中国和其他许多国家重要的经济作物之一,被多种虫害寄生且产量极易受到影响。另一方面,农业虫害背景复杂,当涉及到识别它们时,单一模态模型无法跨模态利用多元化类型的数据,导致识别准确性与数据利用率低下,传统单模态识别模型已不能满足农业多模态数据发展的需求。为了克服这些挑战,提出ITF-WPI跨模态特征融合模型,该模型由CoTN与ODLS构成,分别用于图像与文本的并行处理。我们将关注上下文特征提取的Transformer结构(CoT)融入CoTN,充分利用相邻键之间丰富的静态和动态线性融合上下文,并使用金字塔挤压注意力(PSA)改进CoTN的4个阶段网络,提高多尺度特征结构信息的提取能力,有效促进深层特征与多尺度空间信息的交互。引入1D卷积与双向LSTM堆叠构建的ODLS网络,从实验结果来看,已经证明比其他先进卷积神经网络-长短期记忆(CNN-LSTM)模型更强的文本特征获取能力,MACCs相比最优模型降低了30%。结果表明,与经典state-of-the-art(SOTA)模型、轻量级SOTA模型和先进Transformer神经网络综合相比,ITF-WPI在准确率、F1得分、模型大小和MACCs方面表现良好,分别为97.98%、93.19%、52.20 MB和7.828 G。该模型对促进跨模态模型在农业领域的发展和枸杞虫害防治研究、提高枸杞产量具有重要的实际应用价值。
研究亮点
1. 提出图像与文本跨模态特征融合ITF-WPI模型,用于对枸杞常见的17类害虫进行识别。
2. 在模型中引入用于视觉识别的上下文Transformer网络和金字塔挤压注意力(PSA)机制。
3. 堆叠1D卷积与双向长短期记忆(BiLSTM)网络构建的类卷积神经网络-长短期记忆(CNN-LSTM)模型取得了具有竞争力的性能。
4. 构建了应用于枸杞害虫识别场景的图像与文本数据集,文本解释害虫图像,描述含学名简介、来源分布、生活习性、防治方法。
图文赏析
图 1 枸杞害虫WPIT9K跨模态数据集两类样本示例
图 2枸杞害虫WPIT9K数据集部分类别图像及对应文本示例,枸杞害虫图片(a),枸杞害虫图片对应文本(B)
图 3 ITF-WPI模型架构的技术路线图,图片特征提取编码器(CoTN),文本特征提取编码器(ODLS)
图 4 Contextual Transformer(CoT)结构
图 5具有4个阶段的CoTN网络主要结构,CoT与PSA被嵌入四个阶段块
图 6卷积与记忆层组成ODLS网络,分别由1D卷积层与BiLSTM层堆叠构成
图 7 WPIT9K文本向量的二维空间可视化
图 8 正常训练对比迁移训练在ITF-WPI的精度和损失。(a)训练与验证损失;(b)训练与验证准确性。
图 9 SE, ESE, ECA, CBAM, PSA, ParNet注意力机制在ITF-WPI的性能表现
图 10 ITF-WPI模型的卷积学习行为过程,B图对应于A图中包含的卷积特征。
图 11 比较融合CBAM的ITF-WPI,融合PSA的ITF-WPI与未使用注意力机制ITF-WPI模型在不同枸杞害虫识别的热图
总结
在这项研究中,针对虫害识别相关研究较少,识别背景环境复杂多变,以及农业领域的病虫害信息识别模态单一的问题。本研究以枸杞虫害为研究对象,提出了一种基于图像与文本编码器跨模态特征融合的深度学习ITF-WPI模型,实现在同时利用图像与文本场景中对枸杞的17类虫害进行识别。实验证明,引入的余弦退火热重启调整策略算法、SGDR优化器与早停法帮助模型获得了更好的分类性能并缩短训练时间,所提出的虫害识别模型ITF-WPI在图像与文本并行输入下的识别准确率为97.98%。因此,所提出的跨模态ITF-WPI在复杂背景枸杞虫害识别中展现出了巨大的潜力。研究的目的是开发一个有效整合图像和文本数据的模型,以改善枸杞害虫的识别。通过利用两种模式的互补信息,旨在提高害虫识别的准确性和适用性,并为枸杞种植中的害虫管理提供有价值的见解。在未来的工作中,我们计划对农业领域基于深度学习模型多元化的模态信息进一步开展研究。
参考文献:Dai, G., Fan, J., & Dewi, C. (2023). ITF-WPI: Image and text based cross-modal feature fusion model for wolfberry pest recognition. Computers and Electronics in Agriculture, 212, 108129. https://doi.org/10.1016/j.compag.2023.108129.
樊景超(通讯作者),男,1980年03月出生,农学博士,副研究员,硕士生导师。现为中国农业科学院农业信息研究所科学数据研究室部门副职、副研究员。长期从事农业信息技术、果树模型构建、农业科学数据管理等科研工作。主持和参与国家重点研发计划2项、国家“863”计划、“948”项目、科技部基础性项目、农科院创新工程、基本科研业务费以及横向合作课题等10多项。曾获得科技成果奖励3项,其中中国农科院科技成果奖2项、中国仿真学会科技进步一等奖1项。获计算机软件著作权登记16项,发表 SCI/EI 学术论文 5/2篇,累计SCI影响因子30,近三年以第二发明人获得发明专利 3项,第一主笔团体标准1项,参编专著3部。2022年度第十届“共享杯”科技资源共享服务创新大赛,优秀指导教师奖。
长按关注我们
微信号|FoodAI
原创文章,作者:ifyoung,如若转载,请注明出处:https://www.drugfoodai.com/dl-wolfberry.html
注意:本站原创指的是原创编译,并不主张对所介绍的工作的版权,如有侵权,请联系删除!