近日,宇耀生物与湖南大学DrugAI团队在国际生物信息学期刊《Briefings in Bioinformatics》上发表的研究论文“Chemical structure-aware molecular image representation learning”。当前基于分子图像的药物发现方法面临两个主要挑战:(1)怎样解决分子数据标签不足的问题,以及(2)如何从隐式编码图像中捕获化学结构信息。考虑到化学结构可由分子图明确编码(例如氮、苯环和双键),作者提出了一种用于分子表示学习的对比图-图像(Graph-Image)预训练框架(CGIP),该框架利用自监督对比学习将化学知识从图转移到图像中。通过精心设计的模态内和模态间对比学习,CGIP可以从大规模未标记分子中学习图中的显式信息和图像中的隐式信息。作者在多个实验设置(分子性质预测、跨模态检索和分布相似性)上评估了 CGIP的性能,结果表明 CGIP 在 12 个基准数据集上实现最先进的性能,并证明了CGIP 能够将图中的化学知识迁移到分子图像中,使图像编码器能够感知图像中的化学结构信息。
背景
基于图的表示学习方法能够学习分子图中的二维结构信息。然而,这些方法主要受到图神经网络(GNN)的两个限制:(1)浅层GNN不足以捕获化合物的全局结构,例如,两层GNN无法知道分子中是否有环,(2)深度GNN容易出现过度平滑问题。难以捕捉结构信息。分子图像是一种更好的选择,因为随着感受野逐层扩展,卷积神经网络可以轻松捕获图像中的全局结构信息。不幸的是,CNN对图像中结构的感知是基于像素的,没有任何语义信息,因此无法理解图像中细粒度的化学知识。该问题可以通过显式引入外部知识作为监督信息来解决。因此,作者提出了一种自监督对比Graph-Image预训练(CGIP)框架将图模态和图像模态集成到统一的对比学习框架中,并进行预训练。
方法
CGIP 框架如图1所示。在预训练阶段,利用图像和图编码器将分子图像和图以及相应的增强视图嵌入到统一的公共特征空间中。然后,使用对比学习更新图像和图编码器的参数,以优化公共特征空间中的特征。在微调阶段,使用预训练模型进行分子性质预测的分类和回归任务。作者选择分子的图像或图表示进行预测,并在预训练模型的图像和图编码器之后添加 MLP,以进行下游任务的微调。
具体而言,作者首先将分子的 SMILES符号转换为两种不同的模式,分子图像 和分子图 ,其中是分子总数。分子图可以表示为(Vg,Eg),其中顶点和边分别表示原子和边界的集合。在预训练中,作者对分子图像和图应用多种增强策略,以获得相应的增强视图且 。接下来,通过具有平均池化的图像编码器 和图形编码器 ,同时将 和映射到公共特征空间以获得潜在表示且。最后,作者使用模态内对比学习(图像 与图像 以及图 与图 )来增强编码器的鲁棒性,并使用模态间对比学习(图像 与图 )来对齐之间的语义信息。不同的方式。在微调中,作者直接将分子图像和分子图分别输入到预训练的图像和图编码器中,以提取特征并进一步将其前向传播到 MLP 进行下游任务预测。
图 1. CGIP 框架概述。
实验结果
表1和表2分别展示了 CGIP 在 8 个分类数据集和 4 个回归数据集上的性能,结果表明CGIP具有良好的性能和较低的标准差。其中,CD和CR分别表示CGIP的图编码器和CGIP的图像编码器。
表1 CGIP 在 8 个性质预测数据集上的 ROC-AUC 性能
表2 CGIP 在 4 个回归数据集上的 RMSE (FreeSolv、ESOL、Lipo) 和 MAE (QM7) 性能
跨模态检索
为了综合评价CGIP在image-to-graph和graph-to-image检索方面的性能,作者从预训练数据集中随机抽取多组样本(100、1K、10K、50K和100K)作为检索数据集,并对这些数据集上的两种检索策略计算 top-k 召回率 (R@k)。如图2所示,结果表明分子图像不仅可以学习分子图中包含的化学结构知识,还可以隐式地编码分子图中不存在的信息。
图2 不同数据大小和不同k的graph-image和image- graph检索的top-k召回率(R@k)
分布相似性
为了比较不同模型之间的分布相似性,作者随机采样 30 个分子作为锚点,每个锚点随机采样 1000 个分子,得到 30,000 个样本对。对于每个分子对,作者使用预训练的图像编码器或图编码器进行特征提取并计算每对特征的余弦相似度。如图3所示,模态内和模态间的相似度分布存在大量重叠,特别是模态间的相似度分布,表明CGIP可以有效地对齐图像编码器和图编码器提取的特征。
图 3. 模态内和模态间的分布相似性
可视化研究
作者通过分子骨架的可视化来评估 CGIP 框架学习到的结构信息的质量。如图4(a)和图4(b)所示,作者发现 CGIP-ResNet18 的聚类质量优于 CGIP-DeeperGCN,这表明该模型更容易从分子图像中捕获结构信息。此外,与图4(c)中的 MACCS 密钥指纹(最常用的分子指纹之一)相比,作者发现CGIP具有更好的聚类结果和更低的DB指数,这表明CGIP可以作为一种新的分子指纹来提取化学结构信息。
图4 t-SNE可视化结果
可解释性研究
作者使用激活映射(GradCAM)来可视化模型在推理过程中关注的区域。如图5所示,作者发现CGIP-ResNet18可以同时关注局部(图5(a)中的第二行)和全局(图5(b)中的第二行)分子结构,表明CGIP-ResNet18在推理过程中可以提取到基于化学结构的有意义的特征。
图 5. 局部和全局关注分子图像的几个例子
总结
与最先进的深度学习方法相比,CGIP 有两个显着的改进:首先,它通过平衡图像中的隐式信息和图中的显式信息来增强分子图像和图的表示;其次,它利用无监督的多模式预训练学习框架来捕获来自约 1000 万种在人类蛋白质组中具有不同生物活性的药物化合物的分子图像的细粒度结构信息。
作者证明了 CGIP 在评估各种药物发现任务的分子特性方面具有很高的准确性,优于各种最先进的深度学习方法。
据悉,宇耀生物正将该框架用于超级分子胶药物的研发中:https://mp.weixin.qq.com/s/FeIbLLc37pvQrtQaW1P8Kw
参考资料
Hongxin Xiang, Shuting Jin, Xiangrong Liu, Xiangxiang Zeng, Li Zeng, Chemical structure-aware molecular image representation learning, Briefings in Bioinformatics, Volume 24, Issue 6, November 2023, bbad404, https://doi.org/10.1093/bib/bbad404
代码
https://github.com/HongxinXiang/CGIP