1. AI新视界首页
  2. AI食品

重磅干货:食品科学数据库资源汇总(国内篇)

近些年,随着各行业的数据呈现爆炸式增长,越来越多的数专业据库不断涌现,这些数据库为业内研究者提供了广泛的数据基础。在药物和食品研究领域,除了Pubchem, ChEMBL等综合性的数据库之外,也有DrugBank, Foodb等专业性的数据库。近年来,食品科学领域与人工智能的交叉越来越广泛和深入,在食品安全和食品营养等领域涌现了大量的优秀成果。但目前,食品科学领域相对于药物研发领域,数据库的类别和数量仍然还有很大差距。而获取优质的大量的数据是人工智能方法的前提,因此专业数据库的发展就显得尤为重要。

介绍

近些年,随着各行业的数据呈现爆炸式增长,越来越多的数专业据库不断涌现,这些数据库为业内研究者提供了广泛的数据基础。在药物和食品研究领域,除了Pubchem, ChEMBL等综合性的数据库之外,也有DrugBank, Foodb等专业性的数据库。近年来,食品科学领域与人工智能的交叉越来越广泛和深入,在食品安全和食品营养等领域涌现了大量的优秀成果。但目前,食品科学领域相对于药物研发领域,数据库的类别和数量仍然还有很大差距。而获取优质的大量的数据是人工智能方法的前提,因此专业数据库的发展就显得尤为重要。

近期,为了全面了解食品领域数据库的发展现状。中南林业科技大学董界课题组Zhengfei Yang和Ran Xiao等人通过文献调研,收集了165个食品数据库,重点聚焦食品小分子活性数据库,总结了89个食品小分子活性数据库。并且,根据其特点划分为5个大类,分析总结了各数据库的数据形式,内容和特点,并以附件的形式提供了所有数据库的基本信息和网址重磅干货:食品科学数据库资源汇总(国内篇)

图1. 食品小分子活性数据库概览图

通过对食品活性小分子数据库分析发现,食品小分子数据相比于其他的化学数据、生物数据仍然缺乏,用户能直接利用的数据形式不多,比如许多数据库数据没有量化。同时食品活性小分子数据库还存在大量数据重复和冗余的现象,比如食品组成类和各类添加剂数据库中重复的活性小分子数据。并且,数据库中的活性数据仍然缺乏整合和共享。随着计算机技术的发展,部分食品活性小分子数据库之间已经实现了数据的交换和共享,在未来有望实现深层的信息整合与共享。在未来,数据库先进的数据存储形式,合理的数据结构,便捷的融合分享策略是食品小分子活性数据库的技术发展方向。特定内容和特定功能的小分子活性数据库是研究者们重要的着力点和内容方向。

参考文献:Yang Z F ,  Xiao R ,  Luo F J , et al. Food Bioactive Small Molecule Databases: Deep Boosting for the Study of Food Molecular Behaviors[J]. Innovative Food Science & Emerging Technologies, 2020, 66(Database issue):102499.

除了上述论文总结的数据库之外,近期也有一些国内发表的专业数据库,其中多个数据库由中国科学院计算生物学重点实验室胡黔楠教授课题组等人发表的。这些数据库主要提供食品添加剂的安全、生物毒素和生物合成等方面进的数据信息,提供了友好的可视化查询界面。下面对它们依次进行介绍。

AdditiveChem:食品添加剂化学品的综合生物信息学知识库

本篇论文是由中国科学院计算生物学重点实验室胡黔楠的研究组等人于2020年3月发表在Food Chemistry上的文章。食品添加剂被认为是现代食品工业的催化剂和基石,影响着食品生产、加工和储存的每一个环节。迫切需要全面了解食品添加剂,包括其分子结构、生物活性和精确的毒理学评估,促使创建了 AdditiveChem 数据库 (http://www.rxnfinder.org/additivechem/)该数据库收录了超过 9064 种食品添加剂,以及它们的分子结构、化学和物理特性、吸收、分布、代谢、排泄和毒性特性、生物合成和生物降解方法、使用规范、毒理学和风险评估数据以及目标人体从 16 个数据库中构建一个高效的计算机初步评估搜索平台。 AdditiveChem 数据库将有助于探索食品添加剂的结构和功能之间的关系。

图2. AdditiveChem首页界面。

参考文献:Zhang D, Cheng X, Sun D, et al. AdditiveChem: A comprehensive bioinformatics knowledge-base for food additive chemicals. Food Chem. 2020;308:125519.

FRCD:具有分子支架、化学多样性、毒性和生物降解性分析的综合食品风险成分数据库

这篇是由中国科学院计算生物学重点实验室胡黔楠的研究组等人于2020年7月在Food Chemistry上发表的文章。食品中存在的天然毒素、农药残留和非法添加剂与一系列潜在的健康危害有关。作者使用自然语言处理技术,从 152,737 份文献报告、12 个权威数据库和众多相关法规文件中精选了 12,018 个食品风险成分。整合有关分子结构、理化性质、化学分类、吸收、分布、代谢、排泄、毒性性质和人体内生理目标的数据,以提供全面的食品风险成分数据库FRCD, http://www.rxnfinder.org/frcd/。除了评估食品风险成分的毒性和生物降解性外,我们还分析了分子支架和化学多样性。 FRCD 可以被认为是未来食品安全研究的一个非常有前景的工具。

重磅干货:食品科学数据库资源汇总(国内篇)

图 3. (A) FRCD 数据库界面; (B) 以化合物为中心的文献网络; (C) 食品风险成分详细数据; (D) 视觉化学分类法。

参考文献:Zhang D, Gong L, Ding S, et al. FRCD: A comprehensive food risk component database with molecular scaffold, chemical diversity, toxicity, and biodegradability analysis. Food Chem. 2020;318:126470. 

FADB-China:基于分子指纹和相似性算法的中国食品掺假分子级数据库

这篇是由中国科学院计算生物学重点实验室胡黔楠的研究组等人于2020年10月发表在Food Chemistry上的文章。根据食品化学家的测定,对食品掺假物质中的关键分子进行人工标注,以建立中国第一个食品掺假数据库(http://www.rxnfinder.org/FADB-China/)该数据库也是全球第一个分子级食品掺假数据库。此外,在此提出了一种基于分子指纹和相似性算法预测潜在非法食品添加剂的方法。使用该算法,作者预测了 1919 种可能被非法添加到食品中的化学物质;这些预测可以有效地帮助发现和预防新出现的食品掺假。以金胺为例,FADB China的数据接口如图2所示。

图4. FADB-China 主界面

参考文献:Zhang D, Ouyang S, Cai M, et al. FADB-China: A molecular-level food adulteration database in China based on molecular fingerprints and similarity algorithms prediction expansion. Food Chem. 2020;327:127010.

中国食源性副溶血性弧菌风险评估及基因组比较分析数据库

这篇是由Rui Pang等人于2020年10月在Scientific Data上发表的文章。副溶血性弧菌是全球主要的食源性病原体。中国副溶血性弧菌感染病例的增加表明迫切需要评估这种病原菌的流行率和遗传多样性。在本文中,我们介绍了中国首个食源性副溶血性弧菌分布和基因组数据的科学数据库——食源性副溶血性弧菌基因组数据库(FVPGD),这是基于作者之前对中国不同种类食品样品中副溶血性弧菌污染的调查。从2011年到2016年。数据集包括来自中国39个城市的超市和市场的2499个食品样本和643个副溶血性弧菌菌株的记录; 268 个全基因组序列已保存在该数据库中。提供了不同食物类型中副溶血性弧菌污染风险情况的空间视图。此外,该数据库还提供了序列 BLAST、核心基因组多位点序列分型和系统发育分析的功能界面。该数据库将成为中国食源性病原体风险评估和暴发调查的有力工具。数据库网站:http://210.77.86.67/VP.html

重磅干货:食品科学数据库资源汇总(国内篇)

图5.食源性副溶血性弧菌基因组数据库(FVPGD)主界面

参考文献:Pang, R., Li, Y., Chen, M. et al. A database for risk assessment and comparative genomic analysis of foodborne Vibrio parahaemolyticus in China. Sci Data 7, 321 (2020). 

ToxinDB:整合的数据平台用于计算预测毒素生物转化

这篇是由中国科学院计算生物学重点实验室胡黔楠的研究组等人于2021年4月在Journal of Hazardous Materials上发表的文章。构建了一个整合的毒素生物转化相关的数据新平台。首先,建立了一个名为 ToxinDB (http://www.rxnfinder.org/toxindb/) 的生物毒素数据库,其中包含超过 4836 种毒素的多方面数据。接下来,从过去十年文献报告中提取的 300,000 多个生化反应中提取了 8000 多个生物转化反应规则。基于这些反应规律,构建了毒素生物转化预测模型。最后,构建了生物毒素的全球化学空间,包括约 550,000 种毒素和推定的毒素代谢物,其中 94.7% 的代谢物以前没有报道过。此外,作者进行了一个案例研究来调查木霉中的桔霉素代谢,并在 ToxinDB 的生物转化预测工具的帮助下确定了一种新的代谢物。重磅干货:食品科学数据库资源汇总(国内篇)

图6. ToxinDB 界面。 (A) ToxinDB 主页。 (B) β-鹅膏菌素的文献网络。 (C) “黄曲霉毒素”的相似度查询结果。 (D) 生物转化预测界面。 (E) 黄曲霉毒素 B1 的预测代谢物。用户可以点击“下载”按钮下载预测代谢物的详细数据,包括 SMILES、分子式、分子量和化合物名称。

参考文献:Zhang D, Tian Y, Tian Y, et al. A data-driven integrative platform for computational prediction of toxin biotransformation with a case study. J Hazard Mater. 2021;408:124810. 

构建物联网和大数据下人民健康食品安全追溯体系

这篇是由Zheng, Miaomiao等人于2021年4月在IEEE ACCESS上发表的文章。初步完成了食品产品全过程的追溯要求,也为食品相关行业提供了网络数据信息。本研究以大米为例,提出了一种基于RFID二维码技术和物联网大数据存储技术的食品安全追溯系统。利用物联网技术、无线传感器技术、RFID技术、爬虫技术、数据库技术等相关技术设计并实现食品追溯系统。本文通过分析系统需求,设计系统数据库和数据库表,对二维码进行编码,生成信息录入设计,将RFID技术应用于整个系统。利用RFID射频技术和大数据中的数据存储功能,获取食品生产过程中的信息。最后,通过动态查询平台和移动端的设计,可以追溯食品生产信息的全过程。本研究基于大数据和物联网的食品安全追溯系统从技术层面保障了追溯信息的完整性、可靠性和安全性。这是提高溯源信息可信度、保证信息完整性、优化数据存储结构的有效解决方案。重磅干货:食品科学数据库资源汇总(国内篇)

图7. 大米产品包装上的二维码与移动端信息查询页面示意图

参考文献:M. Zheng, S. Zhang, Y. Zhang and B. Hu, “Construct Food Safety Traceability System for People’s Health Under the Internet of Things and Big Data,” in IEEE Access, vol. 9, pp. 70571-70583, 2021.

总结

如今,食品数据库在各个方向快速发展,国内也已经有越来越多的食品相关数据库出现,解决的问题也越来越全面和多元化。本文仅根据个人阅读经历归纳了近期国内的部分专业数据库,期望为食品数据库今后的发展提供一些参考。

重磅干货:食品科学数据库资源汇总(国内篇)

微信号|FoodAI

合作/投稿|jiedong@csu.edu.cn

yunyonghuan@hainanu.edu.cn

原创文章,作者:ifyoung,如若转载,请注明出处:https://www.drugfoodai.com/food-database-part1.html

注意:本站原创指的是原创编译,并不主张对所介绍的工作的版权,如有侵权,请联系删除!

发表评论

邮箱地址不会被公开。 必填项已用*标注