在食物蛋白质衍生肽数据库中对胆汁酸结合肽进行机器学习筛选

ifyoung • 2021年9月5日 pm11:09 • AI食品 • 阅读 3168

今天介绍一篇近期由日本名古屋大学生物分子工程系的Kento Imai等人发表于Nature scientific reports的文章。文中使用BIOPEP-UWM和机器学习开发了一种新的生物活性肽筛选方法，有助于识别胆汁酸结合肽以及其他生物活性肽。

1. 背景

生物活性肽（BPs）是具有多种物理、化学性质的蛋白质片段，具有与多种生物分子相互作用的潜力，被认为是新一代生物活性调节剂，是化妆品和保健食品行业有希望的候选产品。近来从可食用蛋白质中筛选出了一些对人类有积极益处的BPs，如血管紧张素转换酶（ACE）抑制活性和杀菌活性等。当前肽筛选的方法中，定向进化是一种很有前途的方法。

然而，尚未发现来自可食用蛋白质的新BP片段。由于绝大多数BPs的分离、纯化和鉴定难度大，从可食用蛋白质中筛选肽仍然是一项困难的任务。新兴的用于识别新BPs的计算机模拟方法利用包含来自感兴趣蛋白质的序列，并使用生物信息学工具预测生物活性。最近的研究表明，将数据库与先进的基于机器学习的生物信息学工具相结合，是筛选和开发新型BPs的一种有希望的方法。

在本研究中，使用BIOPEP-UWM数据库（存储BPs以及可食用蛋白质、过敏性蛋白质及其表位和感觉肽以及氨基酸）和机器学习开发了一种新的策略来筛选来自可食用蛋白质的BPs。如果获得的模型具有较高的预测精度，则可以在不进行任何湿实验的情况下预测衍生的BP片段。该策略允许通过使用BIOPEP-UWM等数据库进行计算机模拟筛选，从可食用蛋白质中探索所有BPs。实验工作流程如Fig. 1所示。

Fig. 1演示实验工作流程的示意图。

阳性和阴性数据集由训练数据生成。随后，用氨基酸特征（位点特异性特征）和肽特征（全局特征）生成解释变量。使用训练数据和解释变量的组合构建预测模型。使用可食用蛋白质数据库BIOPEP-UWM创建了一个包含可食用蛋白质中发现的肽的新数据库。最后，将构建的模型应用于可食用蛋白质数据库，并对每种肽的生物活性进行了预测。

本研究通过寻找胆汁酸结合肽来测试该肽筛选工具。在人体中，胆固醇吸收发生在小肠的近端空肠中，其中膳食胆固醇和胆汁胆固醇可通过胆汁酸胶束从肠腔摄取。胆汁酸结合肽与形成胶束的胆汁酸相互作用，随后破坏胶束，有助于抑制肠道胆固醇吸收。在之前的研究中，尝试使用信息学方法设计了胆汁酸结合肽。然而，所设计的肽在贮藏蛋白质或蛋白质来源中未发现，并且主观选择了蛋白酶。利用该新方法，可以建立一个快速且成本效益高的BPs筛查框架，该框架可用于开发新的健康促进产品。

2. 结果与讨论

2.1合成肽阵列中胆汁酸结合的测量

为了生成训练数据，在肽阵列中化学合成了460个4-、5-、6-和7-mer肽并通过质谱分析鉴定部分合成的多肽。使用抗胆汁酸的第一抗体和荧光标记的第二抗体评估胆汁酸和肽之间的结合能力。根据相同肽序列的三倍荧光强度确定平均荧光强度作为多肽的结合活性。在训练数据中观察到4-mer的荧光强度低于较长肽的荧光强度，可能是由于其疏水性相对较低。460个多肽中，荧光强度最高的150个多肽为胆汁酸结合活性“阳性”数据集，荧光强度最低的150个多肽为“阴性”数据集，阳性和阴性数据集的平均荧光强度如表1所示。Fig. 2中显示了所有肽的荧光强度的频率分布。5-mer的分布比其他的略宽。当肽的长度变长时，肽的疏水性逐渐增加。如表 2所示，这可能是5-mer获得高性能的原因。两个数据集之间存在显著差异（P<0.001），表明随机设计的肽库包含有不同胆汁酸结合生物活性的肽。

表1 基于荧光强度等级的前150个阳性和后150个阴性训练数据集的荧光强度平均值

表2 识别具有酸性胆汁结合活性的肽的每个预测算法的预测分数。SVF：支持向量机，RF：随机森林，LR：逻辑回归。

Fig. 2 所有肽荧光强度的频率分布。150个阳性（斜线条）、150个阴性（虚线条）和其他（空白条）（A）4-mer（B）5-mer（C）6-mer（D）7-mer

2.2 预测模型构建及模型性能评估

为了构建预测模型，选择了等电点（IP）、极性（PL）、亲水指数（HI）、分子量（MW）、螺旋指数（Ph）和转动指数（Pt）等7种氨基酸特征（AAF）用作位点特异性特征。为了解释肽的特征，AAF的偏差、最大值和最小值被生成为全局特征（GF）。计算了300个肽（阳性=150，阴性=150）的AAF和GFs等肽特征用作解释变量。使用三种算法（SVM、RF和LR）构建预测模型，并通过比较准确度、精确度和召回率来评估模型性能。概率>0.5的肽被指定为阳性，概率<0.5的肽被指定为胆汁酸结合阴性。除了5-mers和7-mers的精度分数外，所有RF分数在三种测试算法中都是最高的（表 2）。因此，选择RF作为预测算法。

4-mer肽的得分低于较长肽的得分（表 2）。将阳性数据集和阴性数据集的平均荧光强度之比定义为P/N强度比。在表 1中，4-mers的P/N强度比（2.67）低于较长肽（5-mers为3.63，6-mers为4.11，7-mers为3.87）。这是由于4-mer训练数据的整体荧光强度相对较低所致。模型性能与P/N强度比大致相关。性能差的原因是当P/N强度比较低时，所获得的模型预测的FPs和FNs数量相对较多。

为了预测肽的生物活性，定量分析肽的结构与生物活性之间的关系引起了许多物理生物化学家的兴趣。据报道，位于N端的氨基酸比位于中间端和C端的相同氨基酸更具亲水性。因此，4-肽可能比较长的肽（如5-、6-和7-肽）更具亲水性。疏水性是肽与胆汁酸强结合所必需的，而4-mer 肽与胆汁酸之间的疏水相互作用较低，其与胆汁酸结合力较低的原因也很重要。在之前的研究中，鉴定了胆汁酸结合4-mer肽，如NGLK、YEAR等。与6-mer结合肽相比，这些肽显示出类似或更高的结合活性。与长肽相比，4-mer结合肽可能表现出不同的物理化学特征。

在输入变量的重要性分析中发现，前10个选定特征中的大多数涉及肽的GFs，但两个特定特征除外：4-mers的residue2_Molecular_weight和7-mers的residue1_Isoelectric_point。此外，4-7 mers的前10个选定特征中分别有两个、四个、四个和五个特征与肽等电点有关；有五个、三个、两个和两个特征与分子量有关。这表明GFs比4-7 mers中胆汁酸结合活性的位点特异性特征更重要。胆汁酸分子是两亲性的，具有疏水性类固醇核和亲水性羟基，因此具有较强的表面活性剂作用。由于肽与胆汁酸的结合可以发生在两个方向上，因此位点特异性肽特征可能不那么重要。在输入变量中与等电点和分子量有关的的特征最重要，表明具有高等电点或高分子量的肽与胆汁酸结合强烈。因此，碱性或芳香肽对胆汁酸具有较高的结合活性。一些研究调查了胆汁酸与其他化合物之间的结合机制，并揭示了疏水性氨基酸，尤其是芳香族氨基酸，与胆汁酸胶束相互作用。这些发现与分析的前10个特征一致。

分析了多肽阵列的氨基酸残基出现频率，以验证学习数据的再现性。在阳性肽的氨基酸出现频率中，F、K、R、W和Y这五个氨基酸的出现频率较高。在阴性肽中，C、D和E这三种氨基酸相对较高，与特征重要性分析的结果一致。然而4-mers略有不同：A和G在阳性肽中相对较低，而D和E在阴性肽中相对较低。

2.3 食用肽数据库构建及胆汁酸结合活性预测

从BIOPEP-UWM中获得一组710种可食用蛋白质，并使用所有可用的预测蛋白酶结合位点进行消化（表 3），删除重复序列后，数据集包含56171个4-mers、89663个5-mers、98387个6-mers和102805个7-mers。因此，产生了大约350000个肽序列的总数据集。

所有由可食用蛋白质产生的肽序列均应用于建立的RF模型。预测结果按概率顺序排列，提取前50个阳性预测肽和后50个阴性预测肽进行化学合成并测定其胆汁酸结合活性。Fig. 3所示。测定的阳性肽的平均荧光强度高于阴性肽（P<0.001），表明RF模型可以成功预测胆汁酸结合活性。

分析测定的多肽中氨基酸残基的出现频率，以验证预测模型结果的准确性。发现3种氨基酸F、L和Y在阳性预测肽中的频率较高，W在4-mer预测肽中的频率较高， R在5-、6-和7-mer预测肽中的频率较高。阳性预测肽的不同频率可能是由于阳性肽和阴性肽之间的差异相对较小（Fig. 3）。

Fig. 3最高和最低50个肽的胆汁酸结合活性。为了评估4-mer（A）、5-mer（B）、6-mer（C）和7-mer（D）模型，合成了预测具有最高和最低胆汁酸结合活性的50个肽，并使用肽阵列评估其胆汁酸结合活性。在每组中，选择50个肽。预测活性最高的50个肽指定为“阳性”，预测活性最低的50个肽指定为“阴性”。

2.4 来自可食用蛋白质的新型胆汁酸结合肽

在数据库中贮藏蛋白质对应的胆汁酸结合活性得分最高的七种肽：豆素A（Pisum sativum）的VFWM，高分子量麦谷蛋白（Triticum aestivum）的QRIFW，来自profilin-1（Hordeum vulgare）的RVWVQ，来自血清白蛋白（Gallus gallus）的LIRYTK，来自豆素链B片段（Vicia faba）的NGDEPL，来自鸡结缔组织(titin)片段（Gallus gallus）的PTFTRKL，以及来自α-S2-酪蛋白（Bos taurus）的KISQRYQ。预测NGDEPL对胆汁酸的亲和力较低；然而，根据肽阵列测定，它具有高胆汁酸结合活性。这种明显矛盾的机制尚不清楚，但这种肽可能与胆汁酸立体特异性结合。由于贮藏蛋白质有利于制造保健食品和化妆品，因此这些蛋白质来源有望含有新的生物活性成分。

目前数据集中的大多数预测BPs是通过植物或微生物酶的蛋白水解和胃肠酶的蛋白水解获得的。因此，为了评估这些肽在工业规模上的效用，研究了从贮藏蛋白中得到的七种肽是否可以用肽酶或蛋白酶生成。因此，预计KISQRYQ由α-S2-酪蛋白（Bos taurus）和肽基赖氨酸金属内肽酶（Armillaria mellea neutral proteinase）生成。Gutiez等人先前研究了乳酸菌引起的自溶与血管紧张素转换酶（ACE）抑制肽产生之间的关系，并报告了Lactococcus lactis subsp. lactis IL1403从脱脂牛奶（(alpha-S2-casein）中产生KISQRYQ。综上所述，这些结果表明KISQRYQ可能是健康食品的候选BP。

3. 结论

在本研究中，利用人工合成的胆酸结合肽库和机器学习技术，建立了一种新的BP筛选方法。开发了一个包含来自可食用蛋白质的肽序列的数据库，以识别具有与胆汁酸结合相关特征的肽。结合这两种工具发现了新的胆汁酸结合候选肽。在胆汁酸结合活性预测得分最高的肽中，有七种（VFWM、QRIFW、RVWVQ、LIRYTK、NGDEPL、PTFTRKL和KISQRYQ）来自贮藏蛋白。其中，KISQRYQ预计是由α-S2-酪蛋白（Bos taurus）和肽基赖氨酸金属内肽酶（Armillaria mellea neutral proteinase）或脱脂牛奶和Lactococcus lactis subsp. lactis IL1403产生的。该方法可以成功地筛选BPs，并且可以很容易地应用于基于全可食蛋白质的工业应用。如果可以获得大量的训练数据，所提出的方法将对胆汁酸结合肽以及其他BPs有用。

参考文献

Imai, K., Shimizu, K. & Honda, H. Machine learning screening of bile acid-binding peptides in a peptide database derived from food proteins. Sci Rep 11, 16123 (2021).

原创文章，作者：ifyoung，如若转载，请注明出处：https://www.drugfoodai.com/peptide-machine-learning.html

注意：本站原创指的是原创编译，并不主张对所介绍的工作的版权，如有侵权，请联系删除！

机器学习胆汁酸食物多肽

ifyoung

0 0

微信扫一扫

支付宝扫一扫

ADMETlab 2.0：全面的药代动力学和毒性在线预测平台

« 上一篇 2021年8月30日 pm5:48

人工智能和机器学习在食品行业的机遇

下一篇 » 2021年9月12日 pm10:33

AI健康

预测下一场革命：食品技术对消费者接受度和满意度的影响

撰文和翻译：王雪洁编辑：肖冉今天介绍一篇由Nuria Recuero-Virto等人于2022年1月在线发表在British Food Journal上的文章。本文是通过收集和…

ifyoung
2022年12月23日 0 0 511 0
AI食品

基于多种智能传感技术的数据融合策略及其在金华火腿品质评价中的应用

该研究针对多种智能感知技术，包括电子鼻、电子舌和计算机视觉的模式识别，提出了一种新的距离-概率分类（distance-probability classification，DPC）方法，并应用于不同老化时间下金华干腌火腿的分类评价，准确率可达到100%。同时进一步利用融合数据，建立了反向传播神经网络(BPNN)模型来预测老化时间并同时预测12种感官属性。BPNN模型在预测老化时间(R2 > 0.972)和感官属性(R2 > 0.935)方面表现出令人满意的性能。

FoodAI01
2021年10月27日 0 0 2.0K 0
AI食品

色谱与化学计量学相结合在食品鉴定中的应用

食品掺假并非我们这个时代的现象，其历史可以追溯到食品制造的开始。关注食品欺诈问题是一个迅速发展的领域，这是由于公众对经济动机驱动的掺假的认识不断提高，而这可能会给人类带来严重的公共健康风险。化学计量学为光谱和色谱数据的校准分析提供了强大的工具，可用于有明确终点和无明确终点的方法中，以识别各种食品欺诈情况或验证其地理或生物学起源。

ifyoung
2020年8月12日 0 2 1.8K 0
机器学习揭示食品-药品和辅料-药品相互作用

今天介绍一篇由麻省理工David H. Koch整合癌症研究所、MIT-IBM Watson AI实验室、机械工程学院和哈佛医学院附属布莱根妇女医院数据，于2020年3月发表在Cell Reports上的一篇实验型文章。文章应用了机器学习的方法对GRAS和IIG化合物的未知生物活性进行了研究。研究发现维生素A棕榈酸酯和松香酸分别是P-糖蛋白和UGT2B7的抑制剂，并通过一系列的实验进行了验证确认。他们的模型可以预测常见食用化学物质的生物学效应，并对食品-药品和辅料-药品相互作用以及功能性药物制剂的开发产生了新的影响。

ifyoung
AI食品 2020年12月8日 0 1 1.9K 0
AI食品

如何科学地挑选西洋参 / 机器学习预测西洋参生长年限

疫情反复，想买点西洋参提高下免疫力，又怕买到假货？今天这篇发表在Chinese Medicine (IF=5.4)的文章教你如何科学地剁手鉴定西洋参生长年限。这篇文章由中国食品药品检定研究院胡笑文、严华等人于2021年10月发表，通讯是魏锋和马双成研究员。这项研究基于106批西洋参样本和4种机器学习算法，建立了西洋参年限预测模型。为了进一步适应不同来源的西洋参样本，又基于相似性构建了模型的应用域，最终实现了对西洋参生长年限的准确预测。该方法为西洋参年限造假的鉴别提供了技术支持，论文也提供了完整的模型代码。

ifyoung
2021年11月2日 0 0 2.1K 0
AI食品

FOOD CHEM| 安徽农业大学宛晓春团队：基于GC-MS和GC-IMS表征三种茶制成的乌龙茶的香气特征

该研究基于采用GC-IMS、GC-IMS、感官评价和OAV测定等方法，对水仙、黄玫瑰和紫玫瑰的新鲜茶叶和乌龙茶的香气特征进行了综合分析。其中，苯乙醛和3,5-二乙基-2-甲基吡嗪是黄牡丹茶的香气活性成分。与水仙相比，黄玫瑰和紫牡丹的挥发物和花香味明显更多。此外，使用GC-IMS鉴定出27种挥发物，表明该联合方法有助于更好地了解品种对茶树香气的影响。

FoodAI01
2023年8月15日 0 0 991 0
AI食品

李培武院士团队张兆威：通过Z型Cu2O/Cu3SnS4的智能手机驱动的光电化学POCT，用于检测邻苯二甲酸二丁酯

今天介绍一篇由中国农业科学科院油料作物研究所李培武院士团队于2023年8月发表在国际学术期刊Journal of Hazardous Materials（IF=13.6）上的题为“A smartphone-powered photoelectrochemical POCT via Z-scheme Cu2O / Cu3SnS4 for dibutyl phthalate in the environmental and food”的文章。中国农业科学院油料作物研究所张兆威研究员为论文通讯作者。

ifyoung
2023年12月20日 0 0 324 0
AI食品

天津工业大学卞希慧课题组：变分模态分解加权多尺度支持向量回归用于植物油和中药掺伪的光谱定量分析

天津工业大学化学工程与技术学院的复杂体系智能分析与计算实验室采用紫外可见光谱和近红外光谱结合基于变分模态分解的集成建模方法实现了掺伪植物油和中药的定量分析。相关研究成果在2022年8月1日以题为“Variational Mode Decomposition Weighted Multiscale Support Vector Regression for Spectral Determination of Rapeseed Oil and Rhizoma Alpiniae Offcinarum Adulterants”发表在国际学术期刊Biosensors（IF=5.743）上。

FoodAI01
2022年9月20日 0 0 1.4K 0
FoodTracker：一种由AI驱动的食品检测移动应用程序

本次介绍的是来自加拿大麦吉尔（McGill）大学电气与计算机工程系，于2019年9月发表在arXiv.org上的文章。文中，作者介绍了一个可利用智能手机内置摄像头，仅使用手机有限的计算资源就可识别餐食中多个食物种类及其营养信息的移动应用程序——FoodTracker。该程序将深度卷积神经网络与YOLOv2结合，实现多对象同时识别和定位，得到的mAP接近80%，同时神经网络结构小巧且计算成本低廉。

ifyoung
AI食品 2020年11月13日 0 1 2.3K 0
AI食品

TRENDS FOOD SCI TECH|光谱技术结合深度学习方法在食品品质检测中的应用

浙江大学生物系统工程与食品科学学院应义斌教授课题组在食品顶级期刊《Trends in Food Science & Technology》发表综述《Food and agro-product quality evaluation based on spectroscopy and deep learning: A review》。该文讨论了传统化学计量学方法在提高模型性能、处理复杂结构的光谱噪声以及全局回归、局部回归和模型传递上的一些局限性。

ifyoung
2021年4月28日 0 5 2.7K 0