1. AI新视界首页
  2. AI食品

食品命名实体识别的BERT模型:算法开发与验证

今天介绍一篇最近由斯科普里大学计算机科学与工程学院Riste Stojanov等人发表在医学互联网研究杂志上的文章。文章研究了最近发布的基于Transformer的双向编码表示(BERT)模型,该模型在信息提取方面提供了最先进的结果,可以对食品信息提取进行微调。

摘要

今天介绍一篇最近由斯科普里大学计算机科学与工程学院Riste Stojanov等人发表在医学互联网研究杂志上的文章。文章研究了最近发布的基于Transformer的双向编码表示(BERT)模型,该模型在信息提取方面提供了最先进的结果,可以对食品信息提取进行微调。

1. 介绍

食物是影响人类健康的最重要的环境因素之一。综合各方面考虑,我们需要进行全面的饮食评估,以了解食物是如何影响人们的健康。相应食品实体的自动化检测对于食品相关的食品药物相互作用和健康问题等应用也非常重要。

计算机科学可以为这一研究课题做出巨大贡献,特别是在机器学习、自然语言处理(NLP)和数据分析领域。在研究中从各方来源收集的数据包含了重要的信息,对这些数据通过使用命名实体识别(NER)方法进行信息提取,该方法自动检测和识别代表领域实体的文本中的短语。

与生物医学领域相比,食品领域的资源相对不足。有一些语义模型(即本体),每一个都是为非常特定的应用程序开发的。Hanisch等人提出了一个基于规则的NER,称为drNER,用于从基于证据的饮食建议中提取信息。食品实体是被提取的感兴趣的领域实体之一。然而,drNER将几种食物实体作为一个整体进行提取。通过开发基于规则的NER食品信息提取,该规则将计算语言学信息与Hansard语料库的食品语义注释结合在一起。但上述NER依赖于其他外部资源,如分类法、本体或以前开发的注释器,如果某些资源变得不可访问,这就会成为一个问题。

2019年底,一个被称为FoodBase的带注释的食品语料库发布了。ground truth语料库由1000个食谱组成,对于每个食谱,首先提取其中提到的食物实体,然后使用层次式Hansard食品语义标签 (如,AG.01 [食物], AG.01.h.02 [蔬菜],AG.01.h.02.i [药草],AG.01.n.15[糕点] ,AE.10 [鱼])进行注释。FoodBase语料库的可用性使得第一个基于食品语料库的NER得以发展,即食品命名实体识别(BuTTER)。

由于2019年底发布的几种食物资源的可用性,我们引入了一个可用于食物信息提取的微调BERT模型,称为FoodNER。它是使用预定义的BERT模型开发的,该模型可以是原始BERT或BioBERT的某些变体。使用它们,对FoodBase语料库进行微调,以解决几个不同的任务:食品或非食品实体和4种可区分的食品实体,取决于获取语义标签的语义资源。FoodNER的流程图如图1所示。食品命名实体识别的BERT模型:算法开发与验证

Figure 1. 食品命名实体识别流程图。

在本研究中,我们使用FoodBase ground truth语料库建立和评估FoodNER模型,用于区分食品与非食品实体,以及区分与Hansard语义标签相关的食品实体。

2.方法

FoodBase语料库的数据

FoodBase数据语料库是一个最近发布的语料库,包含食品标注。它包括两个版本:策划和非策划。这是第一个有注释食品实体的语料库。

食物语义资源

①Hansard语料库是SAMUELS(用于增强词汇搜索的语义注释和标记)项目的一部分。

②FoodOn是一个关于食品的从农场到餐桌的本体论,支持食品可追溯。它包括关于食品的信息、来源、保存过程和包装等信息。

②SNOMED CT是最全面的多语种临床医疗术语。它是一个机器可读的医学术语集合,其中每个代码都有同义词和临床定义。

④FoodOntoMap是一个最近发布的资源,它是使用FoodBase语料库开发的。它根据不同的语义资源提供食品实体的数据规范化。

⑤BERT是一个词表示模型,在许多NLP(自然语言处理)任务中实现了最先进的结果。BERT的主要思想是对变压器进行双向训练,BERT使用掩码模型,它预测按随机顺序掩码的单词,它用于双向表示学习。

⑥预先训练的BETR,BioBERT被用于改进包含大量生物医学领域专有名词和术语的任务模型。

⑦为了执行食物NER,我们对原始BERT和BioBERT模型的两个版本进行了微调。在所有情况下,对于每个类,我们都使用IOB(内部、外部和开始)标记预测,在这个过程中,我们使用FoodBase语料库作为ground truth。

⑧比较基线BuTTER,比较结果双向长期短期记忆(LSTM)模型与CRF层序列标签(BiLSTM-CRF)被用作基线,已达到先进的结果显示在几个NLP任务,如词性标注,分块,NER任务。

3. 结果

实验

我们进行了2个实验:(1)比较了BERT模型和基于语料库的BuTTER模型,该模型在之前的研究中提出了食物和非食物实体任务;(2)给出BERT模型的结果,可以区分不同的食品语义标签。

实验设计

  实验采用Colab平台进行。在微调训练期间,使用AdamW优化器的weight_decay_rate为0.01。对模型进行训练,直到其验证损失在连续5个周期内没有改善为止,最大值为100个周期,并在整个周期内使用调度程序线性降低学习率。图2显示了Hansard父数据集上大BioBERT模型每次微调时期的训练和验证损失。

食品命名实体识别的BERT模型:算法开发与验证

Figure 2.Hansard父数据集上的大BERT模型在每个微调时期的训练和验证损失

用于培训和测试的数据集来自FoodBase的策划版本,转换为IOB标签格式。列车部分包含81,347个令牌,而我们用剩余的25,828个令牌报告结果,即: 大约75%的数据用于训练,其余的用于模型测试。表1显示了不同数据集中关于令牌数量及其类的统计信息,该表中的“不同的内部、外部和开始注释的数量”行描述了我们的模型试图预测的类。采用分层五倍交叉验证对提出的模型进行评价。

Table 1. 数据集的统计数据食品命名实体识别的BERT模型:算法开发与验证

实验结果

图3展示了通过在Methods中描述的食品与非食品任务中使用原始预训练BERT模型和2个BioBERT模型来评估微调BERT(即FoodNER)所获得的结果,并将它们与相同任务中获得的BuTTER结果进行比较,所有FoodNER模型通过使用分层5倍交叉验证有更好的宏观F1分数。为了探索模型的稳健性,图4展示了通过分别评估每个模型的每个折叠得到的宏观F1分数分布的箱线图。由此可见,FoodNER模型(经过微调的BERT、BioBERT标准和大型BioBERT模型)提供了非常可靠的结果,这些结果也表明,使用BERT技术可以获得食品分类的最新结果。

食品命名实体识别的BERT模型:算法开发与验证

Figure 3.宏观F1得分为所有考虑的模型的食品与非食品实体任务食品命名实体识别的BERT模型:算法开发与验证

Figure 4. 对二元食物分类任务的所有考虑模型使用分层五重交叉验证获得宏观F1分数的箱形图

4. 结论

文中提出了一种基于语料库的食品信息提取方法FoodNER。在未来,FoodNER方法可能应用于该领域的任何其他注释语料库。它是通过使用3个先前发布的预定义BERT来表示语言模型(即原始BERT和2个BioBERTs; standard and large)。该模型提供了非常有前景的结果,在食品与非食品实体任务中,宏观F1得分约为93.30%-94.31%,在识别更多语义标签的任务中,宏观F1得分约为73.39%-78.96%。拥有像FoodNER这样强大的、最先进的食品信息提取方法,将允许进一步研究食品-药物和食品-疾病的相互作用,从而提供一个开始构建食品知识图的机会,包括与健康相关实体的关系。

参考文献

  • Stojanov Riste, et al.”A Fine-Tuned Bidirectional Encoder Representations From Transformers Model for Food Named-Entity Recognition: Algorithm Development and Validation..” Journal of medical Internet research 23.8(2021): doi:10.2196/28229.

原创文章,作者:ifyoung,如若转载,请注明出处:https://www.drugfoodai.com/bert1.html

注意:本站原创指的是原创编译,并不主张对所介绍的工作的版权,如有侵权,请联系删除!

发表评论

邮箱地址不会被公开。 必填项已用*标注