npj Comput. Mater. | 基于自动量子计算的深度学习和优化用于分子设计

718次阅读
没有评论

编译 | 曾全晨

审稿 | 王建民

今天为大家介绍的是来自Fengqi You团队的一篇论文。计算机辅助的新型分子和化合物设计是一项具有挑战性的任务,可以通过量子计算(QC)来解决。在这里,作者使用了量子计算辅助学习和优化技术,用于分子性质预测和生成任务。所提出的概率能量基深度学习模型是在QC的支持下以生成式训练方式进行训练,生成了分子的稳健潜在表示。同时,所提出的基于数据驱动的QC优化框架通过利用基于能量的模型捕获的结构-性质关系,在目标化学空间中进行有导向性的导航。

npj Comput. Mater. | 基于自动量子计算的深度学习和优化用于分子设计

新化合物和材料的发展在各个科学领域的进步中起着关键作用。从治疗疾病的药物设计到用于应对气候问题的高效能量存储装置,发现新分子可以进一步推动技术和社会进步。合成新分子化合物的潜力仍然巨大;例如,估计具有药理特性的分子数量可能高达10^60。计算机辅助分子设计可以通过各种手段促进生成具有所需化学性质的分子候选物。化学系统的模拟可以通过量子化学计算估计分子性质。然而,这些技术无法通过第一原理计算处理大规模系统,并需要采用以精度为代价的近似方法,这可能会抑制对化学空间的高效探索。计算优化技术在有用分子的生成方面也取得了一定的成功。此外,机器学习,特别是深度学习,通过学习分子数据集中的模式,加速了分子设计的进展,并为新化合物的开发提供了有前途的途径。在更大规模的分子设计问题中,由于非线性的复杂性,优化技术的问题变得棘手,而机器学习技术可能不具备数据效率,尽管消耗了巨大的计算能力来处理大量分子数据,却可能产生不准确的预测。因此,利用高效的计算技术来引导化学空间的探索,以便深入了解新分子的合成是至关重要的。

量子计算(QC)在各个领域都拥有巨大的潜力,包括为特定目的设计新分子。由于其利用量子力学现象进行计算的能力,QC技术已经在多个应用领域取得了显著的成果。QC所提供的性能增强也吸引了研究界的广泛关注,用于在计算化学、优化和机器学习等领域开发基于QC的方法。量子计算机提供了一种方法来进行量子化学模拟,有助于克服在经典计算机上模拟化学系统所面临的挑战。量子算法还促进了量子增强的优化和机器学习技术的发展,针对特定问题类型和学习任务进行了定制。最近,QC算法还被用于搜索蛋白链中分子的最优构型,这些算法在直接枚举方法上展现出了量子加速。尽管具有诸多优势,但当前量子设备上实施的QC技术在性能和可扩展性方面存在限制,这是由于硬件噪声和有限数量的量子比特(qubits)的存在。因此,重要的是开发可以充分利用高性能量子和经典计算的互补优势,通过克服各自的局限性,以便在复杂的化学空间中进行有效和高效的分子设计。

基于量子计算辅助的分子生成框架

npj Comput. Mater. | 基于自动量子计算的深度学习和优化用于分子设计

图 1

研究采用了基于量子退火的策略,用于分子生成所需的学习和优化。首先构建了一个基于能量的模型,以学习在相应指纹条件下的分子性质分布。作者使用具有固定权重的GraphConv网络来生成固定长度的神经指纹,如图1a所示。该模型的唯一输入是描述分子的结构信息,包括原子类型和它们之间的连接。构建的基于能量的模型使用生成的分子描述符f和分子性质范围y作为输入数据。通过从量子退火中抽取样本来估计所需的梯度,用于参数更新规则,训练该基于能量的模型。训练完成后,构建的基于能量的模型学习了概率分布,如图1b所示。条件能量模型还利用潜在变量表示h,可以将其视为分子及其性质所覆盖的压缩化学空间。这些潜在表示还可以通过将它们作为输入传递给单独的前馈网络,用于执行分子性质估计任务。对于分子生成,采用迭代优化过程,利用量子退火来解决所制定的二次无约束二进制优化(QUBO)问题。如图1c所示,作者构建了一个替代模型,用于估计经过训练的条件能量模型的分子-性质对的自由能。在制定了将线性替代模型与结构约束相集成的QUBO问题后,通过量子退火来解决问题,以生成潜在的分子候选。在所提出的优化过程的指导下,替代模型被依次优化,以探索化学空间,以识别满足所需属性要求和结构约束的分子。

分子性质预测

npj Comput. Mater. | 基于自动量子计算的深度学习和优化用于分子设计

表 1

构建一个能够为结构-性质关系提供洞察的高效分子性质预测模型,是引导生成具有所需性质分子的重要第一步。所提出的条件能量模型生成的分子的潜在表示在预测分子性质方面扮演着重要角色。使用不同方法获取的各种输入的前馈模型的预测性能在表1中展示。对于利用基于能量模型的潜在表示作为输入的预测模型,作者通过训练多个条件能量模型,结合CD(contrastive divergence)学习和QC辅助学习,获得了几组这些表示。通过使用相应能量模型获得的每个潜在表示,使用前馈网络进行重复实验,测量相关指标以及它们的统计度量。在将基于规则的分子描述符作为输入的基准预测模型中,较大的ECFP指纹往往更适合于预测QED和LogP,而具有MACCS的预测模型对于可及性分数的预测更准确。基线模型使用由Graph-Conv模型生成的指纹,在预测分子的药物样性时产生了显著更高的误差,但在其余分子性质方面的结果与合成可及性评分的最低误差相比只增加了13.6%。另一方面,使用经典和QC辅助学习技术训练的条件能量模型获得的潜在变量表示,尽管维度较低,但对所有属性目标的预测性能都非常准确。使用QC辅助生成训练获得的潜在表示的预测模型,不仅产生了与其他基线模型相媲美的预测误差,而且在预测分子的药物样性时观察到的错误最少。获得的计算结果表明,通过QC辅助学习训练的条件能量模型获得的潜在表示在分子性质预测方面的有效性。

分子生成

npj Comput. Mater. | 基于自动量子计算的深度学习和优化用于分子设计

表 2

作者利用训练过的基于能量的模型,并在所提出的量子计算辅助优化技术中对分子性质施加限制,以进行有针对性的分子生成。对分子的药物样性以及它们的分配系数施加了几个目标条件。表2呈现了使用QC辅助优化技术生成的分子的生成统计数据,以及它们的计算性质。该表还包括了满足相应目标要求的训练集中分子的相同统计数据。对于所选的属性目标,对选择的基线进行基准测试,并报告使用这些分子设计技术获得的分子相应的性质。在描述每个属性目标范围以及测试集中参考分子的原子身份的化学空间中,生成的分子数量在此表中得以报告。从表2中的计算结果可以看出,对于每个条件的属性范围,使用基于QC的方法生成的分子满足相应的限制。对于某些属性目标,深度学习方法CVAE和MGM能够生成符合要求的分子。另一方面,遗传算法GBGA无法实现高效的有针对性的分子生成,可能需要为每个属性目标手动调整适应性函数。作者还在图3c、d中绘制了所有生成分子以及不同目标属性的SAS分数分布,以便了解它们的合成难度。从这些小提琴图中可以看出,具有较低QED和LogP值的分子在可及性分数的变异性更大,尽管它们的平均SAS分数相对较高。对于具有更高药物样性效用和较高LogP值的分子,观察到了相反的趋势。作者还使用t-SNE嵌入来研究使用训练过的条件能量模型生成的分子的潜在表示。将这些潜在表示映射到2D中,可以帮助确定分子与其对应性质之间的亲近程度。图2显示了使用t-SNE获得的训练集中分子的2D嵌入,以及根据QED属性值着色的生成分子。作者还在这个图中包括了不同属性目标的分子结构的几个示例。可以观察到不同属性范围的潜在表示之间的区别,具有相似QED值的分子彼此相邻。这说明构建的基于能量的模型学会了捕捉分子与其属性之间的关系,因为具有相似性质的分子具有紧密的嵌入。

npj Comput. Mater. | 基于自动量子计算的深度学习和优化用于分子设计

图 2

npj Comput. Mater. | 基于自动量子计算的深度学习和优化用于分子设计

图 3

为了评估捕捉结构-性质关系的数据对化学空间探索的影响,作者使用核密度估计(KDE)图以及分子在训练集和所有生成分子中的边际分布来可视化分配系数和QED值的密度,如图3a、b所示。在分子性质的大致相似范围内,无论是训练集中的分子还是生成的分子,观察到的分子浓度都最高。图3a、b显示,当分子的分配系数较低且QED值较高,或分配系数较高且QED值较低时,生成的分子密度水平较高。然而,对于训练集中的样本,这种趋势是缺失的。在图3e、f中还提供了针对各种原子身份和目标属性进行采样的生成分子结构示例。尽管与直接从深度生成模型中采样相比,所提出的分子生成的近似技术需要额外的步骤,但QC辅助技术通过目标化学空间内的高效引导优化,产生了满足结构约束的多样性分子集。

参考资料

Ajagekar, A., You, F. Molecular design with automated quantum computing-based deep learning and optimization. npj Comput Mater 9, 143 (2023). 

https://doi.org/10.1038/s41524-023-01099-0

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy