编译 | 曾全晨
审稿 | 王建民
今天为大家介绍的是来自Stan Z. Li团队的一篇论文。最近关于在寻找可以折叠成期望结构的氨基酸序列的蛋白质设计工作成果颇丰。但是,很多研究都忽视了预测置信度的重要性,没有涵盖广泛的蛋白质空间,也没有融入常见的蛋白质知识。考虑到预训练模型在多种蛋白质相关任务上的巨大成功,作者想知道这种知识是否可以进一步推动蛋白质设计的极限。
蛋白质序列,即氨基酸的线性链条,在决定细胞和生物体的结构和功能中起着至关重要的作用。近年来,人们对设计能够折叠成期望结构的蛋白质序列表现出了浓厚的兴趣。深度学习模型在这一领域取得了显著的进展。然而,这些方法中的很多要么忽视了预测置信度的重要性,要么没有覆盖广泛的蛋白质空间,要么缺乏对常见蛋白质知识的考虑。作者认为,缺乏常见的蛋白质知识限制了蛋白质设计模型的普适性,而预测置信度可以帮助识别低质量的残基。因此,作者提出了一个以置信度为中心的模块,该模块使用从预训练模型中提取的结构和顺序嵌入来优化低质量的残基,从而生成更合理的蛋白质序列。以前的蛋白质设计方法并没有充分利用预测置信度,即残基的最大概率。以PiFold为基准,作者观察到在正残基和负残基之间的置信度分布存在显著差异,如图1所示。
图 1
为了提升蛋白质设计,作者提出了一个能够利用多模态知识的、以置信度为中心的优化模型。方法面临着几个挑战:(1)如何根据预测置信度适应性地融合多模态的预训练知识,(2)如何开发更有效的优化技术,以及(3)如何有效地调整大规模的预训练参数模型。首先,作者提出了一个多模态融合模块,它结合了结构预训练、序列预训练和历史预测的知识。预测置信度用于通过门控注意力控制组合,使模型能够适应性地融合多模态知识。其次,作者建议使用虚拟的MSA和回收技术来提高恢复率。第三,作者引入了一个内存检索机制,该机制缓存模块的中间结果。这种机制使得模型可以检索历史的嵌入信息,而无需进行前向传播,从而节省了超过50%的训练时间。
问题定义
基于结构的蛋白质设计旨在找到氨基酸序列X折叠成所需结构S,自然蛋白质由20种类型的氨基酸组成。正式地说,即是要学习一个函数 F:X → S。因为同源蛋白质总是共享相似的结构,所以这个问题本身是不确定的,即折叠成所需结构的有效的氨基酸序列可能不是唯一的。
方法部分
图 2
图2为模型的基本结构。它包括一个初始设计模型,表示为, 和L个知识调优模块,表示为。对于知识调整模块,作者将蛋白质结构表示为x,残基嵌入表示为,预测概率表示为。模型的目标是优化以下函数:,其中s代表蛋白质参考序列。递归前进过程:给定初始残基嵌入,作者的模型应用一系列的知识调整模块来更新残基嵌入,L是总共所需的优化模块。残基预测的概率为。
虚拟多序列匹配:为了捕获多样的蛋白质知识,作者从预测的概率 p(l) 中采样一组蛋白质序列集。这组序列被称为虚拟多序列比对(MSA)。这些序列被输入到预训练的模型中以获得残基嵌入:
其中x为3d坐标,Fseq和F3d都是预先训练好的特征提取模型。Seq模块用来提取序列知识,3d模块用来提取结构知识。最后将所有知识融汇在一起进行下一步处理:
基于信心的特征更新:作者定义序列s的置信度向量为相应的预测概率,写为:
p表示氨基酸的预测概率,而预测的残基类型是s 。因为有些残基比其他残基更难设计,它们可能会从迭代过程中受益更多。考虑到这一点,作者引入了一个基于每个残基的预测置信度的置信度感知门控注意机制,该机制根据每个残基的预测置信度更新前后精修的嵌入。这使精修过程中更加关注难以处理的残基,并提高整体设计性能:
精修模块:精修模块是一个可学习的图神经网络(GNN),它以 z(l) 作为输入节点特征,以 e(l) 作为输入边特征。初始边特征是从预训练的PiFold模型中提取的。作者使用PiGNNs作为精修模块,该模块考虑多尺度残基交互,并包括节点更新、局部更新和全局更新。
算法 1
内存检索机制:在优化l+1层精修模块时,前l层都是固定的参数。因此可以使用一个记忆库 M(l) 来存储和检索第 l 个设计模型的中间嵌入,以加速优化 。如算法1所示,蛋白质嵌入 ℎ可以从记忆库 M(l) 中检索,而无需进行前向传播,只要满足以下条件:(1) 嵌入
ℎ已经存储在 M(l) 中;(2) 保存的嵌入始终来自最优模型 Fθ(l)。
实验部分
表 1
作者在广泛使用的CATH数据集上展示了Knowledge-Design的有效性。为了提供全面的比较,在CATH4.2和CATH4.3上进行了实验。CATH4.2数据集包含了18,024个用于训练的蛋白质,608个用于验证的蛋白质和1,120个用于测试的蛋白质,其数据划分与GraphTrans、GVP和PiFold相同。CATH4.3数据集包括16,153个结构作为训练集,1,457个作为验证集,1,797个作为测试集,其数据划分与ESMIF相同。为了评估生成质量,报告了短链、单链和全链设置上的perplexity和中位数恢复分数。根据表1中的结果,可以看到Knowledge-Design在不同的设置中始终实现了最先进的性能,并且与之前的模型相比有了显著的改进。可以观察到以下几点:(1) Knowledge-Design是首个在CATH4.2和CATH4.3上都超过60%恢复率的模型,展现了其在生成蛋白质结构方面的卓越能力。(2) 在完整的CATH4.2数据集上,Knowledge-Design达到了3.46的perplexity和60.77%的恢复率,分别超越了之前的最先进模型PiFold的23.95%和9.11%。此外,Knowledge-Design在短链和单链设置上分别实现了4.82%和6.92%的恢复率提高。(3) 当扩展到CATH4.3数据集时,Knowledge-Design也实现了类似的改进,进一步验证了其有效性和泛化能力。
表 2
为了提供更全面的评估并展示Knowledge-Design的泛化能力,作者还在两个标准的蛋白质基准上对其进行了评估,即TS50和TS500。这些数据集分别包含50和500种蛋白质,并广泛用于评估。除了基于图的模型外,还包括了基于MLP和CNN的方法作为基线,以提供更全面的比较。实验结果显示在表2中,其中Knowledge-Design在所有基准上都明显优于之前的基线。可以观察到以下几点:(1) 在TS50数据集上,Knowledge-Design达到了3.10的perplexity和62.79%的恢复率,分别超越了之前的最先进模型PiFold的19.69%和4.07%。(2) 在TS500数据集上,Knowledge-Design达到了2.86的perplexity和69.19%的恢复率,分别超越了PiFold的16.86%和8.77%。(3) 值得注意的是,Knowledge-Design是首个在TS50和TS500基准上分别超过60%和65%恢复率的模型。
结论
作者提出了Knowledge-Design,这是一种新颖的方法,它使用从预训练模型中提取的常见蛋白质知识迭代地优化低置信度的残基。Knowledge-Design是第一个在CATH4.2、CATH4.3、TS50和TS500上实现60%以上恢复率的模型,展现了其有效性和通用性。
参考资料
Gao, Z., Tan, C., & Li, S. Z. (2023). Knowledge-Design: Pushing the Limit of Protein Deign via Knowledge Refinement. arXiv preprint arXiv:2305.15151.