Nat. Commun. | 使用机器学习发现抗衰老药物

706次阅读
没有评论

编译 | 曾全晨

审稿 | 王建民

今天为大家介绍的是来自Vanessa Smer-Barreto,Juan Carlos Acosta和Diego A. Oyarzún的一篇机器学习药物应用的论文。细胞衰老是与衰老和多种疾病过程有关的反应,包括癌症、2型糖尿病等。尽管对靶向消除老化细胞的兴趣不断增加,但由于缺乏良好表征的分子靶点,我们目前仅知道少数几种抗衰老药物。在这里,作者报告了使用机器学习算法在仅使用已发表的数据进行训练的情况下,发现了三种抗衰老药物。作者通过计算筛选了各种化学库,并在多种衰老模式下验证了银杏素、北风茶素和夹竹桃甙在人类细胞系中的抗衰老作用。

Nat. Commun. | 使用机器学习发现抗衰老药物

细胞衰老是一种特征性的细胞状态,其特点是永久性的细胞周期停滞、大分子损伤和代谢改变。细胞衰老现象可以由多种细胞和环境应激因素触发,包括复制耗竭、致癌基因激活、化疗和辐射,并已知对组织微环境具有有益和有害效应。衰老细胞也通过分泌一组复杂的蛋白质(称为衰老相关分泌表型,SASP)促进肿瘤发生以及各种与年龄相关的恶性疾病。目前抗衰老药物已在改善小鼠中多种疾病症状方面表现出显著的潜力。尽管结果令人鼓舞,但迄今为止,已知的具有明确抗衰老作用的化合物很少,仅有两种化合物在临床试验中显示出疗效(达西那滨和槲皮素的联合治疗)。一些受到最密切关注的抗衰老药物是通过靶向在衰老中上调的抗凋亡蛋白。此外,部分抗衰老药物是通过面板筛选发现的。抗衰老疗法取得成功的一个关键挑战是许多这类化合物显示出细胞类型特异性作用。对于某些细胞类型,某些抗衰老药物在表现良好的同时也对其他非衰老细胞类型具有高毒性。在癌症治疗的情况下,大多数已知的抗衰老药物靶向的是在癌症中突变的通路,这限制了它们作为治疗药物的适用性,并强调了发现新的抗衰老药物的必要性,以便在疗法中使用。

在过去的十年中,基于人工智能AI)的计算筛选在工业和学术实验室中得到了广泛采用,因为它们能够在大量化学数据中发现隐藏的模式。这些由AI驱动的筛选可以缩小化学搜索空间,并在生物活性预测、靶标识别、虚拟药物筛选和药物重用等一系列任务中得到了应用。最近,生成模型已被用于生成具有预定属性的新型化学结构。这种方法通常结合分子动力学模拟和复杂的计算流程,以在药物候选体的空间中进行导航。近年来,已经采用了在分子指纹或学习的化学结构表示上训练的机器学习模型,其中几种方法不再采用传统的面向目标的药物发现方法,而是采用了目标无关的策略,利用表型测定来进行模型训练。这种目标无关的方法为药物发现流程的早期阶段扩展了化学起点的范围,特别适用于抗衰老药物的发现。

数据构成

Nat. Commun. | 使用机器学习发现抗衰老药物

图 1

作者首先构建了一个用于模型训练的抗衰老药物(阳性)和非抗衰老药物(阴性)的数据集(图1a)。为此挖掘了文献中报道的58种抗衰老药物,包括来自不同化学家族的化合物,如黄酮类化合物、心脏甙类化合物和具有抗衰老作用的抗生素。这些化合物的选择是基于它们在正常细胞中可以维持至少60%的存活率,并且可以在至少一个细胞系、一个浓度和一个诱导衰老策略下消除老化细胞。所选的阳性药物面板包括在各种细胞类型中靶向老化表型的化合物(图1b)。其中一些化合物,如ouabain,具有广谱的抗衰老作用。作者将这些阳性化合物与商业专利中报道的另一个含19种抗衰老药物的数据合并。然后,将阳性化合物的完整列表与假定缺乏抗衰老作用的大量背景化合物合并。由于机器学习模型可能会偏向于它们所接触过的训练数据进行预测,因此作者选择了两个不同的化学库,LOPAC-1280和Prestwick FDA-approved-1280,作为阴性化合物来源,这些化合物库包含了广泛的FDA批准或临床阶段的化合物。用于模型训练的完整数据集包含2523种化合物,其中阳性化合物58种(2.3%)。为了将化学结构转化为数字格式以进行模型训练,作者将训练库中的每个化合物二值化为0(阴性)或1(阳性),并使用RDKit软件包计算了200个物理化学描述符。这些描述符包括基本的分子性质,如最大部分电荷、分子量和价电子数,以及结构性质等。

阳性化合物来自使用不同细胞系、筛选方法和诱导老化表型方法的高度异质性来源(图1b)。这会带来引入模型中的偏差的风险,并且如果特定化学家族在训练数据中过多表示,可能会限制其预测能力。这在训练数据中阳性和阴性的数量之间的重大不平衡进一步恶化。因此,作者试图使用RDKit描述符作为与每个化合物相关联的特征向量,来精确量化这58个阳性的多样性。为了评估训练数据的多样性,使用三种不同的方法(图1c–e)检查了阳性化合物的聚类结构。首先使用k-means算法和特征向量之间的余弦距离对阳性化合物进行了聚类;这个分析显示了k-means分数随聚类数目的减少几乎呈线性下降趋势(图1c)。k-means分数表明数据聚类不佳,因此表明了训练数据中多样性。为了确定这些聚类的质量和一致性,作者计算了所有化合物和聚类数(k)的轮廓系数,发现所有化合物的轮廓系数平均值始终较低,进一步表明所选用于训练的抗衰老化合物之间几乎没有相似性。作为训练数据多样性的另一个检查,作者建立了所有用于训练的抗衰老化合物的Tanimoto距离图,并根据它们所获取的来源进行了标记(图1d)。Tanimoto距离图中的节点代表化合物,如果两个化合物在化学描述符空间中足够接近,则它们之间通过边相连。所得距离图的结构证实了大多数抗衰老化合物在描述符空间中距离较远(图1d插图),因此它们往往彼此高度不相似。最后,作者使用社区检测对Tanimoto距离图进行了聚类。作者采用了流行的Louvain算法,因为它在计算效率和包括用于调整所得聚类的粒度的分辨率参数(γ)方面具有优势;较大的γ值会导致更多的聚类,从而在图的分割上获得更精细的划分。可以发现在由γ参数描述的所有聚类分辨率中都有低的ARI分数(图1e);而且,ARI分数在Louvain方法检测到的高原处显示出明显的低谷(用于100次聚类方法运行的平均ARI < 0.05),由此认为这足以证明化合物不会根据其来源进行聚类。

用机器学习计算筛选预测抗衰老化合物

Nat. Commun. | 使用机器学习发现抗衰老药物

图 2

接下来,作者数据集上训练机器学习模型,目的是使用模型在计算机中筛选化学库,并识别需要进行实验验证的化合物(图2a)。为此首先对完整数据集进行特征选择过程,以减少用于训练的特征数量。作者确定了一组165个标准化特征。然后,选择的165个特征与数据集中的所有实例一起用于训练各种用于抗衰老药的二元分类模型(图2b)。为了进行模型选择,作者在整个数据集上进行了5倍的交叉验证,以便在模型之间进行公平比较,并充分利用有限数量的正样本。由于抗衰老化合物和非抗衰老化合物之间严重的不平衡性,使用了三个性能指标来评估模型:精度(所有正确的正样本识别占所有正样本识别的比例),召回率(正确识别的真正正样本的比例)和F1分数(精度和召回率的调和平均值)。可以注意到,模型准确性通常不适用于不平衡问题,因为即使在少数类别得到错误分类的情况下,它往往会由于正确分类多数类别而产生过于乐观的结果。

作者主要关注了两种常见的二元分类模型:支持向量机(SVM)和随机森林(RF)。作者发现,SVM和RF模型的性能都很差(图2b),并且在产生的错误分类类型上有明显的差异。性能指标(图2b)表明RF模型倾向于返回较少的假阳性(高精度)和较多的假阴性(低召回率),而SVM则返回相反的结果。在早期药物发现中,假阳性比假阴性更具有破坏性,因为假阳性会人为地增加预测命中数,从而增加下游实验验证的成本。因此以RF模型的性能为基准,并通过集成模型(XGBoost)来提高其预测能力。XGBoost模型提高了精确度、召回率和F1分数,在所有考虑的模型中总体表现最佳(图2b)。在整个数据集分析中,作者观察到XGBoost模型在5-fold交叉验证中的平均精确度分数为0.7±0.16。作者对SVM、RF和XGBoost模型进行了分层拆分的重新训练(165个特征,70%用于训练,30%用于测试),以生成测试集上的混淆矩阵(图2c)。随后使用在70%的数据上训练的最终XGBoost模型来筛选一个基于多样性设计的化学结构库,组成了一个包含4340个结构的数据集。筛选库中的化合物在训练库中均不存在。XGBoost模型被证明是非常有选择性的,并产生了一个长尾预测分数分布(图2d);大多数化合物被分配了极低的预测分数,因此被认为具有低概率成为抗老化药物。在尾部的远端,分数分布显示了一个小组由21个化合物(占全部库的0.4%)具有较高的抗老化概率(图2d,橙色),作者选择了这些化合物进行进一步的实验验证。所选化合物是极端的异常值,其预测分数与筛选化合物的大部分相差至少8个标准偏差(图2e)。所选化合物中的大多数是结构多样的天然产物,包括类固醇皂苷、黄酮衍生物和大环化合物。

通过对前预测化合物进行实验筛选来鉴定抗老化药物

Nat. Commun. | 使用机器学习发现抗衰老药物

图 3

作者对前预测的分子(图2e)在两种模型细胞系中进行了实验筛选,以验证其对由癌基因诱导的细胞衰老和治疗诱导的细胞衰老的活性。首先,在人二倍体成纤维细胞IMR90中评估了由融合蛋白ER:RAS诱导的细胞衰老(OIS),该融合蛋白通过向培养基中加入4-羟基他莫昔芬(4-OHT)诱导致癌基因RasG12V介导的应激响应。作为阳性对照,作者使用了奥巴因(ouabain),一种已经得到良好特征化的抗老化药物。在添加46.4nM奥巴因(IC50对照= 231nM;IC50衰老= 28nM)到4-OHT诱导的IMR90 ER:RAS细胞中时,达到了最佳的抗老化效果。这个浓度杀死了大部分培养的衰老细胞,但对非衰老对照细胞数量的减少只是微小的(图3b)。随后,对这21个候选化合物进行了测试,并发现了三种具有明显抗老化作用的化合物:periplocin和oleandrin,这是两种心脏苷类化合物,之前没有被确认为抗老化药物,以及ginkgetin,一种天然的无毒双黄酮类化合物;这相当于14.28%的命中确认率(图3c,d)。将衰老的IMR90 ER:RAS细胞与这三种化合物处理相比,核数量有所减少,与增殖的非衰老IMR90对照相比,效果与阳性对照相当(图3c,d)。为了确认,作者对细胞进行了荧光染色,使用Hoechst标记细胞核,显示了在21.5nM oleandrin(IC50对照= 85 nM;IC50衰老= 14 nM),46.4nM periplocin(IC50对照= 300 nM;IC50衰老= 24 nM)和4.6 μM ginkgetin(IC50对照= 26 μΜ;IC50衰老= 2.6μΜ)的剂量下,有最清晰的效果。这些浓度对正常细胞的核数量影响微小,但在衰老细胞中核数量显著减少(图3c,d)。剂量-响应曲线显示,与正常细胞核相比,这三种化合物在衰老细胞核中的IC50较低(图3d)。尤其是periplocin(由模型预测的前几个候选化合物,图2d)显示出一种与阳性对照ouabain相似的抗老化效应(图3b,d)。

结论

由于能够解析和检测大量数据中的模式,人工智能已经在药物发现流程的每个阶段都找到了应用。作者描述了一个成功的机器学习方法,旨在在药物发现过程的早期阶段识别新的药物候选化合物。作者关注的是针对老化细胞的有针对性消除,这是一种吸引了广泛关注的现象,适用于辅助癌症治疗,但其分子靶标却很少被鉴定出来。作者的策略揭示了三种化合物(periplocin, oleandrin, ginkgetin),可以选择性地消除显示出癌基因和治疗诱导老化的细胞。作者展示了这些化合物的效力与文献中先前描述的抗衰老药物相当甚至更高,至关重要的是,作者的方法通过将实验筛选化合物的数量减少了超过200倍,从而大大提高了效率。

参考资料

Smer-Barreto, V., Quintanilla, A., Elliott, R.J.R. et al. Discovery of senolytics using machine learning. Nat Commun 14, 3445 (2023). 

https://doi.org/10.1038/s41467-023-39120-1

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy