1. AI新视界首页
  2. AI食品

在食物蛋白质衍生肽数据库中对胆汁酸结合肽进行机器学习筛选

今天介绍一篇近期由日本名古屋大学生物分子工程系的Kento Imai等人发表于Nature scientific reports的文章。文中使用BIOPEP-UWM和机器学习开发了一种新的生物活性肽筛选方法,有助于识别胆汁酸结合肽以及其他生物活性肽。

今天介绍一篇近期由日本名古屋大学生物分子工程系的Kento Imai等人发表于Nature scientific reports的文章。文中使用BIOPEP-UWM和机器学习开发了一种新的生物活性肽筛选方法,有助于识别胆汁酸结合肽以及其他生物活性肽。

1. 背景

生物活性肽(BPs)是具有多种物理、化学性质的蛋白质片段,具有与多种生物分子相互作用的潜力,被认为是新一代生物活性调节剂,是化妆品和保健食品行业有希望的候选产品。近来从可食用蛋白质中筛选出了一些对人类有积极益处的BPs,如血管紧张素转换酶(ACE)抑制活性和杀菌活性等。当前肽筛选的方法中,定向进化是一种很有前途的方法。

然而,尚未发现来自可食用蛋白质的新BP片段。由于绝大多数BPs的分离、纯化和鉴定难度大,从可食用蛋白质中筛选肽仍然是一项困难的任务。新兴的用于识别新BPs的计算机模拟方法利用包含来自感兴趣蛋白质的序列,并使用生物信息学工具预测生物活性。最近的研究表明,将数据库与先进的基于机器学习的生物信息学工具相结合,是筛选和开发新型BPs的一种有希望的方法。

在本研究中,使用BIOPEP-UWM数据库(存储BPs以及可食用蛋白质、过敏性蛋白质及其表位和感觉肽以及氨基酸)和机器学习开发了一种新的策略来筛选来自可食用蛋白质的BPs。如果获得的模型具有较高的预测精度,则可以在不进行任何湿实验的情况下预测衍生的BP片段。该策略允许通过使用BIOPEP-UWM等数据库进行计算机模拟筛选,从可食用蛋白质中探索所有BPs。实验工作流程如Fig. 1所示。

在食物蛋白质衍生肽数据库中对胆汁酸结合肽进行机器学习筛选

Fig. 1演示实验工作流程的示意图。

阳性和阴性数据集由训练数据生成。随后,用氨基酸特征(位点特异性特征)和肽特征(全局特征)生成解释变量。使用训练数据和解释变量的组合构建预测模型。使用可食用蛋白质数据库BIOPEP-UWM创建了一个包含可食用蛋白质中发现的肽的新数据库。最后,将构建的模型应用于可食用蛋白质数据库,并对每种肽的生物活性进行了预测。

本研究通过寻找胆汁酸结合肽来测试该肽筛选工具。在人体中,胆固醇吸收发生在小肠的近端空肠中,其中膳食胆固醇和胆汁胆固醇可通过胆汁酸胶束从肠腔摄取。胆汁酸结合肽与形成胶束的胆汁酸相互作用,随后破坏胶束,有助于抑制肠道胆固醇吸收。在之前的研究中,尝试使用信息学方法设计了胆汁酸结合肽。然而,所设计的肽在贮藏蛋白质或蛋白质来源中未发现,并且主观选择了蛋白酶。利用该新方法,可以建立一个快速且成本效益高的BPs筛查框架,该框架可用于开发新的健康促进产品。

2. 结果与讨论

2.1合成肽阵列中胆汁酸结合的测量

为了生成训练数据,在肽阵列中化学合成了460个4-、5-、6-和7-mer肽并通过质谱分析鉴定部分合成的多肽。使用抗胆汁酸的第一抗体和荧光标记的第二抗体评估胆汁酸和肽之间的结合能力。根据相同肽序列的三倍荧光强度确定平均荧光强度作为多肽的结合活性。在训练数据中观察到4-mer的荧光强度低于较长肽的荧光强度,可能是由于其疏水性相对较低。460个多肽中,荧光强度最高的150个多肽为胆汁酸结合活性“阳性”数据集,荧光强度最低的150个多肽为“阴性”数据集,阳性和阴性数据集的平均荧光强度如表1所示。Fig. 2中显示了所有肽的荧光强度的频率分布。5-mer的分布比其他的略宽。当肽的长度变长时,肽的疏水性逐渐增加。如表 2所示,这可能是5-mer获得高性能的原因。两个数据集之间存在显著差异(P<0.001),表明随机设计的肽库包含有不同胆汁酸结合生物活性的肽。

表1 基于荧光强度等级的前150个阳性和后150个阴性训练数据集的荧光强度平均值在食物蛋白质衍生肽数据库中对胆汁酸结合肽进行机器学习筛选

表2 识别具有酸性胆汁结合活性的肽的每个预测算法的预测分数。SVF:支持向量机,RF:随机森林,LR:逻辑回归。

在食物蛋白质衍生肽数据库中对胆汁酸结合肽进行机器学习筛选在食物蛋白质衍生肽数据库中对胆汁酸结合肽进行机器学习筛选

Fig. 2 所有肽荧光强度的频率分布。150个阳性(斜线条)、150个阴性(虚线条)和其他(空白条)(A)4-mer(B)5-mer(C)6-mer(D)7-mer

2.2  预测模型构建及模型性能评估

为了构建预测模型,选择了等电点(IP)、极性(PL)、亲水指数(HI)、分子量(MW)、螺旋指数(Ph)和转动指数(Pt)等7种氨基酸特征(AAF)用作位点特异性特征。为了解释肽的特征,AAF的偏差、最大值和最小值被生成为全局特征(GF)。计算了300个肽(阳性=150,阴性=150)的AAF和GFs等肽特征用作解释变量。使用三种算法(SVM、RF和LR)构建预测模型,并通过比较准确度、精确度和召回率来评估模型性能。概率>0.5的肽被指定为阳性,概率<0.5的肽被指定为胆汁酸结合阴性。除了5-mers和7-mers的精度分数外,所有RF分数在三种测试算法中都是最高的(表 2)。因此,选择RF作为预测算法。

4-mer肽的得分低于较长肽的得分(表 2)。将阳性数据集和阴性数据集的平均荧光强度之比定义为P/N强度比。在表 1中,4-mers的P/N强度比(2.67)低于较长肽(5-mers为3.63,6-mers为4.11,7-mers为3.87)。这是由于4-mer训练数据的整体荧光强度相对较低所致。模型性能与P/N强度比大致相关。性能差的原因是当P/N强度比较低时,所获得的模型预测的FPs和FNs数量相对较多。

为了预测肽的生物活性,定量分析肽的结构与生物活性之间的关系引起了许多物理生物化学家的兴趣。据报道,位于N端的氨基酸比位于中间端和C端的相同氨基酸更具亲水性。因此,4-肽可能比较长的肽(如5-、6-和7-肽)更具亲水性。疏水性是肽与胆汁酸强结合所必需的,而4-mer 肽与胆汁酸之间的疏水相互作用较低,其与胆汁酸结合力较低的原因也很重要。在之前的研究中,鉴定了胆汁酸结合4-mer肽,如NGLK、YEAR等。与6-mer结合肽相比,这些肽显示出类似或更高的结合活性。与长肽相比,4-mer结合肽可能表现出不同的物理化学特征。

在输入变量的重要性分析中发现,前10个选定特征中的大多数涉及肽的GFs,但两个特定特征除外:4-mers的residue2_Molecular_weight和7-mers的residue1_Isoelectric_point。此外,4-7 mers的前10个选定特征中分别有两个、四个、四个和五个特征与肽等电点有关;有五个、三个、两个和两个特征与分子量有关。这表明GFs比4-7 mers中胆汁酸结合活性的位点特异性特征更重要。胆汁酸分子是两亲性的,具有疏水性类固醇核和亲水性羟基,因此具有较强的表面活性剂作用。由于肽与胆汁酸的结合可以发生在两个方向上,因此位点特异性肽特征可能不那么重要。在输入变量中与等电点和分子量有关的的特征最重要,表明具有高等电点或高分子量的肽与胆汁酸结合强烈。因此,碱性或芳香肽对胆汁酸具有较高的结合活性。一些研究调查了胆汁酸与其他化合物之间的结合机制,并揭示了疏水性氨基酸,尤其是芳香族氨基酸,与胆汁酸胶束相互作用。这些发现与分析的前10个特征一致。

分析了多肽阵列的氨基酸残基出现频率,以验证学习数据的再现性。在阳性肽的氨基酸出现频率中,F、K、R、W和Y这五个氨基酸的出现频率较高。在阴性肽中,C、D和E这三种氨基酸相对较高,与特征重要性分析的结果一致。然而4-mers略有不同:A和G在阳性肽中相对较低,而D和E在阴性肽中相对较低。

2.3  食用肽数据库构建及胆汁酸结合活性预测

从BIOPEP-UWM中获得一组710种可食用蛋白质,并使用所有可用的预测蛋白酶结合位点进行消化(表 3),删除重复序列后,数据集包含56171个4-mers、89663个5-mers、98387个6-mers和102805个7-mers。因此,产生了大约350000个肽序列的总数据集。

所有由可食用蛋白质产生的肽序列均应用于建立的RF模型。预测结果按概率顺序排列,提取前50个阳性预测肽和后50个阴性预测肽进行化学合成并测定其胆汁酸结合活性。Fig. 3所示。测定的阳性肽的平均荧光强度高于阴性肽(P<0.001),表明RF模型可以成功预测胆汁酸结合活性。

分析测定的多肽中氨基酸残基的出现频率,以验证预测模型结果的准确性。发现3种氨基酸F、L和Y在阳性预测肽中的频率较高,W在4-mer预测肽中的频率较高, R在5-、6-和7-mer预测肽中的频率较高。阳性预测肽的不同频率可能是由于阳性肽和阴性肽之间的差异相对较小(Fig. 3)。

在食物蛋白质衍生肽数据库中对胆汁酸结合肽进行机器学习筛选

Fig. 3最高和最低50个肽的胆汁酸结合活性。为了评估4-mer(A)、5-mer(B)、6-mer(C)和7-mer(D)模型,合成了预测具有最高和最低胆汁酸结合活性的50个肽,并使用肽阵列评估其胆汁酸结合活性。在每组中,选择50个肽。预测活性最高的50个肽指定为“阳性”,预测活性最低的50个肽指定为“阴性”。

2.4  来自可食用蛋白质的新型胆汁酸结合肽

在数据库中贮藏蛋白质对应的胆汁酸结合活性得分最高的七种肽:豆素A(Pisum sativum)的VFWM,高分子量麦谷蛋白(Triticum aestivum)的QRIFW,来自profilin-1(Hordeum vulgare)的RVWVQ,来自血清白蛋白(Gallus gallus)的LIRYTK,来自豆素链B片段(Vicia faba)的NGDEPL,来自鸡结缔组织(titin)片段(Gallus gallus)的PTFTRKL,以及来自α-S2-酪蛋白(Bos taurus)的KISQRYQ。预测NGDEPL对胆汁酸的亲和力较低;然而,根据肽阵列测定,它具有高胆汁酸结合活性。这种明显矛盾的机制尚不清楚,但这种肽可能与胆汁酸立体特异性结合。由于贮藏蛋白质有利于制造保健食品和化妆品,因此这些蛋白质来源有望含有新的生物活性成分。

目前数据集中的大多数预测BPs是通过植物或微生物酶的蛋白水解和胃肠酶的蛋白水解获得的。因此,为了评估这些肽在工业规模上的效用,研究了从贮藏蛋白中得到的七种肽是否可以用肽酶或蛋白酶生成。因此,预计KISQRYQ由α-S2-酪蛋白(Bos taurus)和肽基赖氨酸金属内肽酶(Armillaria mellea neutral proteinase)生成。Gutiez等人先前研究了乳酸菌引起的自溶与血管紧张素转换酶(ACE)抑制肽产生之间的关系,并报告了Lactococcus lactis subsp. lactis IL1403从脱脂牛奶((alpha-S2-casein)中产生KISQRYQ。综上所述,这些结果表明KISQRYQ可能是健康食品的候选BP。

3. 结论

在本研究中,利用人工合成的胆酸结合肽库和机器学习技术,建立了一种新的BP筛选方法。开发了一个包含来自可食用蛋白质的肽序列的数据库,以识别具有与胆汁酸结合相关特征的肽。结合这两种工具发现了新的胆汁酸结合候选肽。在胆汁酸结合活性预测得分最高的肽中,有七种(VFWM、QRIFW、RVWVQ、LIRYTK、NGDEPL、PTFTRKL和KISQRYQ)来自贮藏蛋白。其中,KISQRYQ预计是由α-S2-酪蛋白(Bos taurus)和肽基赖氨酸金属内肽酶(Armillaria mellea neutral proteinase)或脱脂牛奶和Lactococcus lactis subsp. lactis IL1403产生的。该方法可以成功地筛选BPs,并且可以很容易地应用于基于全可食蛋白质的工业应用。如果可以获得大量的训练数据,所提出的方法将对胆汁酸结合肽以及其他BPs有用。

参考文献

  • Imai, K., Shimizu, K. & Honda, H. Machine learning screening of bile acid-binding peptides in a peptide database derived from food proteins. Sci Rep 11, 16123 (2021).
foodai
foodai

原创文章,作者:ifyoung,如若转载,请注明出处:https://www.drugfoodai.com/peptide-machine-learning.html

注意:本站原创指的是原创编译,并不主张对所介绍的工作的版权,如有侵权,请联系删除!

发表评论

邮箱地址不会被公开。 必填项已用*标注