1. AI新视界首页
  2. AI药物

药物开发中基于深度学习的不平衡数据分类

利用机器学习开发药物设计相关的预测模型,经常会遇到数据不平衡的现象。数据的不平衡会导致模型过偏而失去较好的预测性能。为了解决这个问题,很多学者做出了努力。下面介绍Selçuk Korkmaz等人的一项新工作,尝试利用不同的策略处理PubChem数据集,为不平衡数据提供方法参考。

介绍

利用机器学习开发药物设计相关的预测模型,经常会遇到数据不平衡的现象。数据的不平衡会导致模型过偏而失去较好的预测性能。为了解决这个问题,很多学者做出了努力。下面介绍Selçuk Korkmaz等人的一项新工作,尝试利用不同的策略处理PubChem数据集,为不平衡数据提供方法参考。

药物开发中基于深度学习的不平衡数据分类

在药物发现研究的早期阶段,有大量的小化学分子需要筛选,以检测出具有某种活性的化合物。高通量筛选(HTS)是测试大量小化合物针对特定生物目标(例如受体或酶)的活性的流行方法。通过HTS方法获得的数据集已由几个美国政府组织,学术研究小组和单个研究实验室作为生物学测定(生物测定)上传到PubChem数据库。PubChem(https://pubchem.ncbi.nlm.nih.gov/)是化学化合物及其生物活性的公共存储库由国家生物技术信息中心(NCBI)托管。截至2019年7月,该数据库包含约9600万种独特的化合物和130万种生物测定,并且化合物的数量每年呈指数增长。HTS是识别铅化合物的最广泛使用的方法。然而,由于其高成本和时间消耗,诸如虚拟筛选(VS)的计算方法已经变得流行。在VS中,针对已知的生物学靶标筛选了大的小分子文库,然后通过实验测试了预测能很好结合的化合物。PubChem知识库中的大量实验数据为药物发现研究中基于计算机的方法提供了重要资源。这些数据集可用于检索有关药物发现和开发研究早期阶段的有用信息。

广泛的机器学习(ML)算法已成功用于化合物的分类或活性预测,以从生物测定数据集中提取有意义的信息。神经网络(NN),支持向量机(SVM),朴素贝叶斯(NB),k-最近邻居(k-NN),和随机森林(RF)是药物发现研究中用于分类目的的最常见的ML算法。深度学习(DL)也称为深度神经网络(DNN),它是机器学习的一个新子领域,并在包括语音识别, 图像分类和语言翻译等等。DL也已用于药物发现研究中,并且相对于其他知名的ML算法(包括SVM和RF),其性能得到了显着改善。使用ChEMBL生物活性数据集比较了DNN模型与NB,RF,SVM和逻辑回归的性能。在另一项研究中,有学者探索了DNN对从PubChem储存库中获得的药物化合物进行分类的性能,并发现批次大小,学习率和不平衡程度会影响DNN的性能。

尽管PubChem是进行药物发现研究的极好资源,但是HTS所获得的生物测定数据集通常不平衡,这意味着非活性化合物的数量明显大于活性化合物的数量。在那种情况下,由于ML / DL算法中的少数类通常只有有限的数据,因此学习问题变得更加困难。一种替代方法是使用欠采样和过采样方法创建平衡的数据集。但是,PubChem存储库的文献中并未很好地解决此问题。因此,在这项研究中,作者旨在探讨使用不平衡的PubChem生物测定法对DNN进行数据平衡的影响。作者使用了四种不同类型的数据平衡方法:一种欠采样和三种过采样。此外,在训练过程中采用了少数群体加权方法作为第五种数据平衡方法。首先,作者从PubChem数据库中检索了五种生物测定。然后,为了创建数据集,作者在每个生物测定中为每种化合物生成了分子描述符。接下来,作者将数据平衡方法应用于每个数据集。最后,作者训练了DNN模型,并使用各种性能指标比较了它们的性能。

数据集

生物测定数据集存储在PubChem储存库下的生物测定数据库中,并使用特定的测定识别(AID)编号进行访问。作者使用了来自PubChem储存库的五种确认性定量高通量筛选(qHTS)生物测定:AID485314,AID485341,AID504466,AID624202和AID651820

作者使用了不同的数据平衡策略,并研究了它们对QSAR模型性能的影响。使用PADEL软件在每次生物测定中计算每种化合物的分子描述符。作者使用此工具为每个生物测定中的每种化合物计算了2757个分子描述符(1D-2D-3D描述符和PubChem指纹)。作者应用了预处理步骤。首先,在为每个生物测定创建数据集之后,从每个数据集中删除不确定的化合物。此外,还删除了空列,缺失值和零方差变量。最后,使用z分数转换对数据集进行居中和缩放。表1汇总了每种生物测定数据集的化合物数量(即,预处理之前和之后,活性物质和非活性物质),活性物质与非活性物质的比率以及预处理后的剩余变量数。

数据平衡方法

欠采样方法减少了多数类中的样本数量,以在少数类和多数类之间找到平衡。随机欠采样(RUS)是通过从多数类中随机删除样本来平衡少数和多数类的一种快速简便的方法。此方法将随机减少多数类样本的数量,直至减少少数类样本的大小,以创建一个平衡的数据集。文献中还提供了其他欠采样方法的替代方法,例如Tomek的链接和已编辑的最近邻居(ENN)。Tomek的链接可以检测到不同类的两个样本之间的Tomek的链接。使用样本之间的欧几里得距离确定相似性的k近邻是一个简单的非参数决策规则。威尔逊提出的ENN方法,使用此规则执行欠采样。尽管Tomek的链接和ENN比RUS更复杂的欠采样方法,但是由于其数据平衡方法,它们并不总是创建平衡的数据集。这些方法还具有较高的计算成本,从而延长了数据平衡过程。尽管已将这些方法用于平衡数据集,但由于计算成本高,平衡过程长且性能差,因此作者从本研究中减去了Tomek的链接和ENN结果。

与欠采样不同,过采样方法会尝试增加少数类中的样本数量以创建平衡的数据集。平衡数据集最简单,最简单的方法之一是通过随机采样替换现有的样本来生成少数群体的新样本。这种称为随机过采样(ROS)的方法将把少数类样本增加到多数类样本的大小,并创建一个平衡的数据集。此外,文献中有更复杂的方法来解决过采样问题。SMOTE(合成少数族裔过采样技术)是使用最广泛的过采样方法之一,它可以为少数族裔创建合成样本,而不是通过替换进行过采样。ADASYN的主要目的是减少偏差并进行自适应学习。ADASYN可以生成少数类样本,这些样本比易于学习的样本难学习。这就是这种方法可以减少学习偏差的方法,还可以自适应地移动决策边界以集中于那些难以学习的样本。已开发出结合了欠采样和过采样的混合采样方法,以进一步提高分类性能。为此,将Tomek的链接和ENN方法与SMOTE结合使用即SMOTETomek和SOMOTEENN。混合方法背后的主要思想是避免SMOTE可能产生的噪声样本并获得更干净的空间。尽管作者应用了这些混合采样方法,但作者从研究中减去了SMOTETOMEK和SMOTEENN结果,因为它们并没有进一步改善SMOTE性能。

深度神经网络

最近,出现了一个新的ML方法,称为DNN。DNN在输入层和输出层之间包括多个非线性隐藏层。DNN可以学习输入和输出之间的复杂关系,因为它包含大量的图层和可调整的参数(称为权重)。

模型构建

对于模型构建,首先,作者将每个数据集随机分为两部分,分别是80%训练集和20%测试集。此外,随机选择了10%的训练集,并在训练过程中用作验证集。训练集用于训练和创建DNN模型,测试集用于评估预测模型的性能。验证集用于优化网络的超参数,并通过DNN模型确定预测概率的最佳阈值。要选择最佳阈值,作者采用一种简单的方法,如下所示:首先,根据验证集绘制平衡精度曲线作为预测概率的函数,最后,将DNN达到最高平衡精度的点确定为最佳点。阈。然后, ReLU(整流线性单位)函数用作输入层和隐藏层的激活函数,S型激活函数用于输出层。批量归一化应用于每一层,以提高网络的性能和稳定性。作者使用二进制损失函数和Adam方法进行随机优化。 DNN模型的超参数使用验证集的丢失进行了调整。基于每个原始数据集中活性物质与非活性物质的比率(即,对于AID485314为1:70)来增加少数族裔样本的权重,以在训练原始数据集合期间对损失函数进行加权。这种少数加权(MW)方法也被视为数据平衡方法。对不同的体系结构集进行了评估,并根据验证损失的最小化确定了最佳配置。由于大量的层不会显着减少验证损失,因此作者为网络使用了两个隐藏层。作者尝试了不同数量,例如16、32、64、128、256和512,并确定256为最佳选择。作者尝试了各种纪元大小,并确定了RUS方法的纪元数为60,其他方法的纪元数为20。最后,在尝试了不同大小的学习率后,作者根据验证损失将学习率确定为0.0001。

性能指标

为了比较数据平衡方法的性能,作者计算了几种性能指标,包括准确性,精度,召回率,F1得分,马修斯相关系数(MCC)和ROC曲线下面积(AUC)。当数据集高度不平衡时,总体准确性不是适当的指标。在这种情况下,可以使用平衡精度来评估算法的总体性能。平衡的准确性计算为敏感性和特异性之间的平均值。

结果

从图1可以看出,不平衡程度对DNN模型的平衡精度结果有负面影响。AID485341是这项研究中最不平衡的生物测定,与原始数据集,MW和RUS相比,该生物测定的过采样方法表现不佳。此外,与原始数据集相比,所有数据平衡方法都略微提高了AID624202(研究中第二大失衡数据集)的平衡精度。RUS在该生物测定中获得了最高的平衡精度。尽管如此,对于较低程度的不平衡而言,过采样方法产生的平衡精度结果要比原始数据集MW和RUS更好。

药物开发中基于深度学习的不平衡数据分类
图1.数据平衡方法和生物测定的原始数据集的平衡精度比较(括号中的值表示有活性与无活性之比)。

此外,从图2和图3可以看出不平衡程度对DNN模型性能的负面影响。不出所料,对于最不平衡的数据集(AID485341),在F1得分和MCC方面均表现不佳。当作者使用较少不平衡的数据集时,包括原始数据集在内的所有方法的网络性能都得到了改善。

药物开发中基于深度学习的不平衡数据分类
图2.数据平衡方法和生物测定的原始数据集的F1得分比较(括号中的值表示有活性与无活性之比)。
药物开发中基于深度学习的不平衡数据分类
图3.数据平衡方法与生物测定的原始数据集的马修斯相关系数(MCC)比较(括号中的值表示有活性与无活性之比)。

对于AID504466,AID485314和AID651820,过采样方法的性能优于原始数据集MW和RUS。根据F1评分和MCC,这三种生物测定法中ROS是表现最佳的方法。对于AID624202,SMOTE获得了最佳的F1得分和MCC。而且,ADASYN产生的A1624202的F1得分和MCC比ROS更好。

讨论和结论

在这项研究中,作者使用了五个具有不同程度不平衡的数据集。为了提高分类性能,作者同时使用了欠采样和过采样方法以及一种简单的加权方法。在执行DNN算法之后,使用验证集结果通过最大化平衡精度来调整预测概率的最佳阈值。原始数据集的最佳阈值在0.004到0.020之间,过采样方法的最佳阈值小于0.10,而MW和RUS的最佳阈值在0.45到0.65之间。当作者使用最小不平衡数据集AID651820(比率为1:25)时,所有方法在所有性能指标方面都优于原始数据集。对于AID485314(比率为1:70)和AID504466(比率为1:73)获得了相似的结果,其中过采样方法提高了MW和RUS的平衡精度。但是,当使用极不平衡的数据集(AID485341)时,所有方法均未显示出良好的性能,其中有效成分与无效成分之比为1:217。当排除这种极不平衡的生物测定法时,就平衡精度而言,与其他方法相比,过采样方法改善了网络性能。对于AID624202(比率为1:90),SMOTE产生了最佳的F1得分和MCC,这表明在极端失衡的情况下,过采样仍然有用。

此外,ROC分析表明,与其他AID504466和AID651820方法相比,过采样方法显着改善了网络的整体性能。此外,过采样方法明显优于原始数据集和RUS,但对于AID485314而言,其表现却不如MW。另一方面,对于AID485341和AID624202,这些方法的总体判别性能之间没有显着差异。 当前研究中的ROC分析结果表明,与欠采样相比,过采样方法显着提高了网络性能。该结果是合理的,因为DL方法需要大量的训练数据。但是,应该注意,此结果可能仅对本研究中使用的数据,方法和描述符有效。当前的研究还强调了不平衡程度对网络性能的负面影响。这种负面影响尤其可以从F1分数和MCC结果中看出。此外,作者的研究结果表明,与原始数据集相比,训练过程中对少数群体的简单加权可以改善网络性能,即使差异在统计上不显着。另一个区别是分子描述符的生成。作者使用了PaDEL软件。其他分子描述符计算软件也可以使用,例如Mordred, BlueDesc,PyDPI,和Rcpi。可以通过结合使用这些计算软件来增加分子描述符的数量。为此可以使用集成的基于Web的平台ChemDes。

参考来源:

  • Korkmaz S. Deep Learning-Based Imbalanced Data Classification for Drug Discovery[J]. Journal of Chemical Information and Modeling, 2020.

原创文章,作者:abu,如若转载,请注明出处:https://www.drugfoodai.com/imbalanced-data.html

注意:本站原创指的是原创编译,并不主张对所介绍的工作的版权,如有侵权,请联系删除!

发表评论

邮箱地址不会被公开。 必填项已用*标注