2024年3月15日,德国慕尼黑工业大学Davide Boldini等人,在ACS Central Science上发表文章Machine Learning Assisted Hit Prioritization for High Throughput Screening in Drug Discovery。
作者提出了一种最小方差采样分析(Minimum variance sampling analysis,MVS-A)方法,可以有效分析机器学习模型在高噪声的药物高通量筛选数据上训练期间的学习动态,从而确定筛选得到的各种化合物的优先级。结果表明,所提出的方法超越了现有的方法,可用于指导药物高通量筛选后的进一步优化。
背景
高通量筛选为合成具有适当药理特性的小分子提供了关键的起点,从而显著加速了药物发现的进程。然而,高通量筛选的一个基本问题是,它倾向于提供假阳性的输出,也就是筛选出的分子并不具有预期的生物活性。因此,在高通量筛选之后,选择哪些由筛选得到的化合物优先用于进一步的药理开发,仍然依赖于进一步的实验分析,从而增加了确定真正的有效药物并将其推向市场所需的时间和资源。
方法
分析有监督的神经网络模型训练过程中的样本梯度动态,可在噪声数据集上实现准确建模。一旦模型开始训练,这些方法可以量化每个样本对神经网络权重的影响。在对噪声数据(如高通量筛选数据)进行训练时,样本梯度的影响与假阳性或者假阴性标记的可能性相关。然而,基于神经网络的方法计算成本高,对超参数敏感,特别是对于大型、不平衡的分子数据集,这使得它们在高通量筛选中的应用特别具有挑战性。
因此,作者提出了一种最小方差采样分析(MVS-A)来估计梯度增强机(GBM)中的样本影响。GBM是一种集成学习算法,它将决策树的集合拟合到一个序列中。使用GBM代替神经网络计算样本影响的优点是:重要性得分的计算速度更快、鲁棒性更强,以及对不平衡的高通量筛选数据的分类性能。LightGBM是GBM模型的一个常用的实现框架。作者使用LightGBM对高通量筛选数据进行学习,将分子的Morgan指纹作为特征。
如图1所示,MVS-A的工作方式是根据GBM模型,量化某种活性化合物的“不寻常”程度。如果一种化合物在训练集中被标记为具有活性,但GBM模型学习到的信息与此相矛盾,也就是GBM模型认为其不具有活性,那么它将具有较高的MVS-A分数,这也意味着这个分子在GBM中难以被识别。反之,如果一个生物活性分子很容易被分类器识别出来,那么它的MVS-A评分就会很低。这些分数可以相应地用于对化合物进行进一步测试的优先级,或者可以根据这个分数设置阈值来标记真阳性和假阳性。在本研究中,将所有数据集的MVS-A分数最低的10%的样本视为真阳性,最高的10%的样本为假阳性。
图1 MVS-A结构图
作者在补充材料中详细说明了MVS-A的计算过程。在GBM中,梯度提升对决策树的叶节点权值的梯度进行优化。如果一种化合物在训练集中被标记为具有活性,但GBM模型认为其不具有活性,也就是“不寻常”的化合物,那么在该样本所在的决策树子树采样过程中,该样本的叶节点梯度与周围样本叶节点的梯度的方差就会较大。因此,梯度方差可作为量化某种活性化合物的“不寻常”程度的分数。同时,作者认为,只通过一阶梯度进行量化是不全面的,因此,作者将GBM每次采样过程中,一阶梯度方差与二阶梯度方差加权平均的平方根定义为最小方差采样分析(Minimum variance sampling analysis,MVS-A)得分。当平方根的值大于1时,直接令MVS-A分数为1,从而将MVS-A分数限制在[0,1]区间。因此,MVS-A分数可以刻画样本为假阳性的概率,更高的MVS-A得分意味着样本更可能为假阳性,反之则意味着样本更可能为真阳性。
结果
作者将MVS-A与一些具有代表性的方法进行了比较。如图2所示,将相对精确度(k=10%)、富集因子(EF,k=10%)和玻尔兹曼增强判别的ROC(BEDROC,α=20)作为评估指标,更高的值说明性能更好。精确度(k=10%)表示在将10%的样本作为预测阳性样本(在MVS-A中是指MVS-A分数最低的10%的样本)时,真阳性样本占预测阳性样本的比例。相对精确度表示模型预测的精确度与随机选择的精确度的差值。当相对精确度大于0,表明模型比随机选择更好,当相对精确度小于0,表明模型比随机选择更差。EF是精确度与整个数据集中阳性样本比例的乘积。BEDROC(α=20)表示在计算ROC-AUC的过程中进行加权,使得20%的样本(在MVS-A中是指MVS-A分数最低的20%的样本)具有80%的权重。
图2 与其他方法对比
图2展示了不同方法在多个数据集上预测结果的箱线图,其中圆圈表示离群点,星号表示ANOVA分析的结果。箱线图表明MVS-A在多个数据集的相对精确度、EF和BEDROC指标上均优于其他方法,且没有出现离群点,表明其具有较强的鲁棒性。ANOVA分析显示MVS-A的性能提升与其他方法相比是显著的。
作者设计了消融实验。将未使用MVS-A的原始GBM模型预测得分(primary score)加入比较。如图3所示,在未加入MVS-A评分机制时,GBM模型表现与现有方法没有显著差异。结果证明了MVS-A对于GBM的重要性。
图3 消融实验
作者还进行了案例分析。通过MVS-A确定突触前胆碱转运蛋白(CHT)的新抑制剂。CHT是阿尔茨海默病和精神分裂症的潜在治疗靶点。MVS-A在11轮筛选后,得到了6种推荐化合物,如图4a所示,其中只有一种化合物CHT4为假阳性,而其余化合物均可作为CHT的有效抑制剂。如图4b所示,在MVS-A得分从高到低排序时,这六种化合物的排位均接近于100%,而在不采用MVS-A评分时,其排位却具有较大差异。值得注意的是,在这5个化合物中也有ML352,这被认为是目前最好的CHT抑制剂,也显示出合适的ADME特性。
图4 案例分析
能够正确区分真阳性和排除假阳性是对筛选过后的化合物进行分类的基本要求,同时,检索多样化的化合物集合也至关重要。为了评估这一点,作者测量了多个数据集中真阳性(TP)和假阳性(FP)预测的分子的Murcko骨架的多样性(diversity)分数,如图5所示。分子集合中的Murcko骨架的多样性(diversity)分数越高,表明不同分子的结构差异越大。在假阳性预测中,MVS-A预测的多样性分数高于其他方法,在真阳性预测中,MVS-A预测的多样性分数低于其他方法。
在假阳性多样性方面,MVS-A选择了最多样化的假阳性分子,对于不同的数据集,支架多样性普遍达到95%左右。由于MVS-A是基于数据梯度的方差进行定义的,因此其自然倾向于识别更多不同的假阳性分子,识别任何偏离均值过多的“不寻常”化合物。这种更灵活的假阳性定义可以识别更多结构不同的干扰。
对于真阳性多样性,这一趋势是相反的,也就是MVS-A预测的多样性分数低于其他方法。在这种情况下,MVS-A识别的真阳性是那些很好地符合数据中活性和非活性之间的边界的阳性。在这种情况下,边界往往只包括化学空间的有限区域,从而,MVS-A可识别更多的结构相似的真阳性分子。
图5 骨架多样性分析
总结
本文提出了最小方差抽样分析(MVS-A),可以有效确定高通量筛选得到的各种化合物的优先级。结果表明,所提出的方法超越了现有的方法,体现了在高通量筛选中识别出最具生物活性的化合物的潜力。目前,MVS-A在实验中取得了出色的性能,但MVS-A也存在一些不足,可以进行改进。
首先,MVS-A的性能可能会在数据集之间波动,并且很难预测它对给定高通量筛选数据集的有效性。因此,尽管在实验中,MVS-A的表现从来没有比随机选择更差,但由于MVS-A所表征的样本差异,实际上是样本中特定结构骨架的差异,而如果所需药物分子的特定的生物活性与MVS-A所关注到的结构差异没有显著关联,那么在真正的优先级识别方面,就可能会产生问题。
其次,影响性能的另一个因素是选择用于分析的分子表示。基于图神经网络的分子表示学习模型已在分子性质预测得到广泛应用,通过在大规模分子数据集上进行预训练,并迁移到下游任务中,图神经网络表示模型可以兼顾分子学习任务中的效率和准确性,体现出超越了现有的分子指纹算法的性能。另一方面,MVS-A提出的结合一阶梯度和二阶梯度的度量方法,也可以推广到神经网络中。未来可将预训练图神经网络的分子表示学习与MVS-A相融合。
最后,MVS-A的应用不是作为一个独立的工具,而是与其他的高通量筛选模型结合使用。提升高通量筛选模型的性能对于MVS-A的表现也十分重要。未来可以开发将高通量筛选与MVS-A结合的端到端模型,以加速药物发现的进程。
参考文献
[1] Boldini et al. Machine Learning Assisted Hit Prioritization for High Throughput Screening in Drug Discovery. ACS Cent Sci. 2024
——— End ———