1. AI新视界首页
  2. AI食品

人工智能从科学文献和媒体报道中检测未知兴奋剂推文

今天介绍一篇由Anand K. Gavai等人于2021年在Food Control上发表的文章。文中提出了一种方法用机器学习来检测在保健品中未知的兴奋剂。从两个不同的数据来源中确定了20种新的兴奋剂,分别是用单词嵌入模型从科学文献中自动发现未知兴奋剂,以及基于文本挖掘在万维网上搜索新闻报道来收集新的兴奋剂。

摘要

今天介绍一篇由Anand K. Gavai等人于2021年在Food Control上发表的文章。文中提出了一种方法用机器学习来检测在保健品中未知的兴奋剂。从两个不同的数据来源中确定了20种新的兴奋剂,分别是用单词嵌入模型从科学文献中自动发现未知兴奋剂,以及基于文本挖掘在万维网上搜索新闻报道来收集新的兴奋剂。

1. 介绍

日益增加的健康问题以及生活方式和饮食习惯的改变等因素推动了保健品需求的增长。消费者发现保健品可以弥补他们饮食中的营养失衡或不健康的生活方式,以及预防慢性病等。保健品包括维生素、能量饮料、蛋白质饮料、减肥补充剂和外来食物等产品。保健品的一部分是刺激剂, 刺激剂是能暂时提高机体功能活性或效率的药剂。尽管这些化合物受到法律管制,但非法化合物也作为食品兴奋剂出售。定期监测市场样本对保护公众健康很重要,但由于可使用的潜在化合物很多,以及与这些非法行为相关的犯罪方面,这一挑战越来越大。Biesterbos等人研究中用于筛选样本的数据库包含超过1500种化合物。在这项研究中,提出了一种新的方法来发现可以在保健品中非法使用的新化合物,并且应该将其添加到用于筛选的数据库中。

2. 材料及方法

为识别保健品中未知的刺激性化合物而开发的方法包括:

1)  相关科学文献的“单词嵌入”。

2)  使用MedISys基础设施对万维网进行文本挖掘。

2.1 从科学文献中检测未知兴奋剂的单词嵌入

收集了包含一个或多个搜索词的标题和摘要,总共产生了210万篇科学文章。本研究中使用的单词嵌入模型是Tshitoyan等人创建的Word2Vec神经网络变体。Word2Vec模型包含三层(输入层、隐藏层和输出层),通过预测词汇表中每个单词出现在特定目标单词上下文中的概率来训练。210 万个标题和摘要被用来作为嵌入模型的训练数据,以寻找科学文献中428种兴奋剂中没有的相关兴奋剂。由于这项研究的重点是寻找兴奋剂,因此通过对照PubChem数据库检查单词,将所有非化合物的单词从收集的单词集中删除。最后,现有参考数据库中的兴奋剂及其同义词也从集合中删除,只留下可能的新兴奋剂。

2.2 用于检测万维网上未知兴奋剂的MedISys文本挖掘模型

MedISys基础设施不会专门收集在万维网上关于保健品中兴奋剂的出版物,因此必须为此目的进行训练。这包括开发专用过滤器以查找感兴趣的出版物,然后进行验证步骤以减少无关出版物。根据中定义的步骤在MedISys中构建兴奋剂过滤器,包括以下3个步骤:

(1)开发一组关键字。

(2)根据定义的关键字集在MedISys中创建一个新的兴奋剂过滤器。

(3)评估和改进新开发过滤器的性能。

第一步:WFSR数据库中存在的所有兴奋剂(即428个化学名称)均加上或不加上“类似”、“替代”、“兴奋剂”、“补充剂”、“保健品”和“新兴奋剂”字样。

第二步:在MedISys中创建了一个新的过滤器,其中集成了开发的关键字集。

第三步:该过滤器经过6个月的测试,由专家检查性能(即收集的相关文章的百分比),并调整关键词以提高其性能。

MedISys上每个报告的可用数据包括原产地、日期、MedISys收集的时间、文章中的关键词、文章来源、原始网站链接以及自动生成的总结。

3. 结果与讨论

3.1 利用单词嵌入技术检测科学文献中的未知兴奋剂

在图1中,显示出了经过训练的单词嵌入空间的三维表示。显示的投影集中了“兴奋剂”的单词嵌入,并以彩色显示了前1000个最近邻。相邻单词的示例在其相应的空间点旁边绘制。

人工智能从科学文献和媒体报道中检测未知兴奋剂推文

Fig.1 在三维空间中投影的训练模型中的单词嵌入集中了“兴奋剂”的单词嵌入。

在图2中,显示了“兴奋剂”及其最近50个邻居的单词嵌入的二维投影。分析这些数字表明,单词嵌入模型已经成功地学习了哪些单词出现在与单词“兴奋剂”相似的上下文中。

人工智能从科学文献和媒体报道中检测未知兴奋剂推文

Fig.2 单词“兴奋剂”及其最近50个邻居的单词嵌入,取自二维空间投影的训练单词嵌入模型

除去排除的化合物后,留下了14种新兴奋剂的清单。在这一清单中,有两种兴奋剂与清单中的其他兴奋剂合并,因为它们是彼此的同义词。剩下的12种兴奋剂被判定是否有可能添加到保健品中。

3.2 使用MedISys从正式和社交媒体检测未知兴奋剂

在MedISys内部,建立了一个过滤器,收集世界各地关于保健品中未知兴奋剂的出版物。该过滤器在2018年7月至2019年6月期间应用。收集的文章从MedISys传输到云端基础设施,并在那里存储以供进一步分析。收集到的文章的信息显示在带有互连面板的仪表板中(图3)。

人工智能从科学文献和媒体报道中检测未知兴奋剂推文

Fig.3 在各种面板中显示所收集文章的信息的仪表板。

一位保健品专家对收集到的所有文章进行了分析,重点是寻找参考数据库中所列以外的其他兴奋剂。这项评估共产生27种可能的未知兴奋剂。经过仔细检查,最终得出了十种未知兴奋剂的最终清单。

值得注意的是,这两种方法产生了完全不同的新兴奋剂,表明这些方法是互补的。

4. 结论

在这项研究中,研究表明,利用科学文献的单词嵌入和在线媒体的文本挖掘,都可以用来检测保健品中未知的兴奋剂的新化合物。总共发现了20种新化合物,其中许多在食用时可能会对健康造成不良影响。值得注意的是,数据来源和相关方法都产生了不同的化合物,因此显示了两组数据的互补性以及分析科学文献和在线媒体的必要性。

参考文献

  • Gavai A K ,  Bouzembrak Y ,  Bulk L , et al. Artificial intelligence to detect unknown stimulants from scientific literature and media reports[J]. Food Control, 2021(1):108360.

原创文章,作者:ifyoung,如若转载,请注明出处:https://www.drugfoodai.com/ml-analeptic.html

发表评论

邮箱地址不会被公开。 必填项已用*标注