
model, PLM)作为 MSA 的替代,以学习无MSA搜索的共同进化知识,而后通过结合预先训练的蛋白质语言模型和AlphaFold2的基本模块得到最终端到端的可微模型,该模型可以仅从一级序列预测蛋白质的三维坐标。近日,该项研究工作发表在Nature Machine Intelligence期刊上。(Nat
Mach Intell 2023, 5 (10), 1087–1096)1 HelixFold-Single的基本架构如图1所示。模型由三个部分组成:PLM Base、Adapter 和 Geometric Modelling。作者首先采用大规模PLM Base对蛋白质序列中的协同进化信息进行编码,作为MSA的替代方案。然后,作者采用适配层从 PLM中提取协同进化信息,以有效生成几何建模输入所需的单序列特征和残基对特征。在几何建模中,作者参考Alphafold2的基本架构,使用修改后的Evoformer(名为EvoformerS)和结构模块来充分交换单个序列特征表示和残基对特征表示之间的信息,以捕获几何信息并恢复原子的3D坐标。HelixFold-Single的训练由两个阶段组成,在第一阶段,通过掩码语言预测任务,使用数百万个未标记的蛋白质序列训练大规模PLM base。随后在第二阶段,使用带标签的蛋白三维实验结构以及Alphafold2生成结构来训练整个模型。



Xiang, Y.; Zhu, K.; Zhang, X.; Wu, H.; Li, H.; Song, L. A Method for
Multiple-Sequence-Alignment-Free Protein Structure Prediction Using a Protein
Language Model. Nat Mach Intell 2023, 5 (10), 1087–1096.
https://doi.org/10.1038/s42256-023-00721-6.
正文完
可以使用微信扫码关注公众号(ID:xzluomor)
