作者 | 王郅巍
审核 | 付海涛
今天给大家分享的是浙江大学陈华钧教授团队和张强老师团队发表在IJCAI 2023上的论文:“Graph Sampling-based Meta-Learning for Molecular Property Prediction”。由于标签数据较少,分子属性预测任务通常面临小样本(few-shot)问题,已有研究人员利用元学习来解决小样本的分子属性预测问题。但作者认为,现有的许多分子属性预测任务忽略了一个重要事实,即一个分子可以同时具有多种属性。因此,为了有效地利用分子与属性之间的多对多关联,本文提出了一个基于图采样的元学习框架GS-Meta,以解决小样本的问题。首先,作者构造一个分子-属性关系图(MPG),其中分子和属性为节点,两者之间的标签为边;接着,利用MPG的拓扑信息,作者将元学习中的一个episode重新表述为MPG的一个子图(包含目标属性节点、分子节点和辅助属性节点);最后,由于在MPG中的子图相互关联,作者提出一种可学习的子图采样调度器,来帮助进行最终的分子属性预测。
Part1摘要
分子属性通常是在有限的样本中观察到的,研究人员认为分子属性预测任务是一个小样本问题。以往的工作忽略了一个重要的事实,即每个分子可以同时对应几个不同的属性。为了有效地利用分子和属性之间的多对多关联,本文提出了一种基于图采样的元学习框架GS-Meta,用于小样本的分子属性预测。首先,作者构造了一个分子-属性关系图(MPG):分子和属性是节点,而属性标签决定边;然后,为了利用MPG的拓扑信息,作者将元学习中的一个Episode重新表述为MPG的子图,包含目标属性节点、分子节点和辅助属性节点;另外,由于由子图代表的Episode不再独立(而因为分子之间的关联而相互依赖),作者提出一个考虑了子图一致性和区别性的对比损失函数来调度子图采样过程。实验表明:作者提出的GS-Meta在ROC-AUC方面始终优于最先进方法的5.71%-6.93%;此外作者还验证了模型中每个模块的有效性。
Part2模型介绍
GS-Mata的模型框架如下:
2.1 分子-属性关联图
将分子、分子属性作为节点,分子与属性之间构成边,从而构成分子-属性关联图MPG:.边的标签对应分子节点和属性节点之间的关联。
2.2 重构Episode为子图
一个Episode对应一个训练任务𝒯,其中包含一个Support Set和Query Set;对于本文的分子属性预测任务,每个任务𝒯即为预测某个属性𝑝,对于目标属性𝒯_𝑡,其数据构造如下:
1. Supprt set:以目标属性为中心节点,获取其2K个邻居分子,与该属性节点构成子图,即对应Episode中的Support set;
2. Query set:以目标属性为中心节点,获取一个与该节点无连接关系的分子节点,与该属性节点构成子图,即对应Episode中的Query set;
3. Episode:因此,上述子图构成元学习框架中的一个Episode:
4. 本文中,作者提出,还可在子图中加入其他的属性作为辅助属性节点,以丰富子图信息,辅助属性节点和其他分子构成的子图为辅助子图
因此,重构Episode为子图
2.3 子图采样调度器
以往的分子属性预测方法是以统一概率随机采样Episode。然而,以不同目标属性为中心的子图在构建的 MPG 中可能相互连接。这里,作者提出子图的依赖性:
- 对于同一目标属性,包含不同分子的子图可视为描述同一任务的不同视图,它们应相互一致;
- 以不同目标属性节点为中心的子图是不同任务的Episode,它们的语义差异应该被表达。
因此,为了更好学习到每个Episode的信息,作者提出了子图采样调度器:
-
对于针对目标属性一个Episode ,作者选择一对子图作为该Episode的不同视图;每个子图的候选概率计算方法如下:
-
利用对比损失函数,作者拉近同一 的子图之间的距离,拉远不同之间的距离:
2.4 子图编码预测
对于每个采样子图 ,应用图神经网络对其进行编码,通过串联最终的属性和分子表示进行标签预测,然后通过分类器进行分类。
其中,作者还考虑到两两相连分子之间的关联:
子图编码预测的损失函数为:
本文的GS-Meta的损失函数为:
Part3实验
作者使用来自MoleculeNet的五个常见的小样本分子属性预测数据集,设计实验以回答以下四个问题:
3.1 本文提出的GS-Meta是否优于SOTA基线?
结果表明,在小样本分子属性预测任务上,GS-Meta性能优于现有先进模型。
3.2 辅助属性如何影响性能?
作者通过在训练和测试阶段改变采样辅助属性的数量来探索辅助属性的影响。结果表明,无论是训练还是测试阶段,随着辅助属性数量的增加,模型性能都会提高。
3.3 Episode重构子图和子图采样调度器对模型的影响?
作者进行消融实验,结果表明,Episode重构子图模块和子图采样调度器对GS-Meta的性能提升均有帮助。
3.4 子图采样调度器的解释?
通过可视化不同属性之间的相似度、同一采样中不同属性的组合数,说明对于相似度较大的分子属性,其出现在同一采样中的频率也会较高。
Part4总结
针对小样本的分子属性预测问题,作者提出了一个基于图采样的元学习框架GS-Meta。作者首先为节点构成一个分子-属性关联图,再用图采样调度器对每个Episode采样子图进行学习,以更新元学习框架。其中,在子图采样阶段,作者考虑了子图的一致性和区分性,通过对比损失来控制子图采样的过程。实验证明,GS-Meta 的性能优于其他方法。
文章地址
https://www.ijcai.org/proceedings/2023/0526.pdf
代码地址
https://github.com/HICAI-ZJU/GS-Meta