蛋白质的演化扩散生成

745次阅读
没有评论

Protein generation with evolutionary diffusion: sequence is all you need

S Alamdari,  N Thakkar,  R v d Berg…
[Microsoft Research & Brown University]

蛋白质的演化扩散生成

要点:

  • 提出EvoDiff,一种基于离散扩散模型的蛋白质序列生成框架,可以无条件生成高质量、多样性的新蛋白质序列,也可以根据序列约束条件进行生成。
  • EvoDiff训练了两个模型:EvoDiff-Seq使用单个蛋白质序列,EvoDiff-MSA使用多重序列比对作为训练数据。这两种模型都可以生成个体上可靠、结构上合理的蛋白质序列。
  • EvoDiff-Seq生成的序列更好地覆盖了天然蛋白质的序列、结构和功能分布,EvoDiff-MSA可以基于多重序列比对进行定向的蛋白质序列设计
  • 通过根据周围结构区域对无定形区进行生成,EvoDiff可以可靠地生成具有无定形区的蛋白质,这是结构为本方法的关键限制。
  • 通过仅使用序列信息,EvoDiff也可以为结构模体成功生成辅助框架,表明EvoDiff可以突破结构-功能范式的限制,直接在序列空间中进行蛋白设计。
  • EvoDiff为直接在蛋白质序列语言中阅读和写入功能提供了基础,拓展了蛋白质设计的能力。

动机:传统的蛋白质生成模型受限于结构信息,无法生成具有无序区域的蛋白质。本文旨在引入一种通用的扩散模型框架,结合演化规模数据和扩散模型的条件能力,实现在序列空间中可控的蛋白质生成。
方法:使用一种名为EvoDiff的扩散框架,通过正向和反向过程对蛋白质序列进行扰动和恢复,使用神经网络预测每个迭代步骤的变化。同时,利用多序列比对(MSA)的进化信息训练离散扩散模型,以生成新的单一序列。
优势:EvoDiff能生成高质量、多样性和结构合理的蛋白质,覆盖自然序列和功能空间。与基于结构的模型相比,EvoDiff能生成具有无定形区的蛋白质,并且能在没有明确结构信息的情况下生成功能性结构基元的支架。EvoDiff是一种基于序列的通用扩散模型框架,结合演化数据和条件能力,能生成具有无定形区的多样性和结构合理的蛋白质,拓展了蛋白质工程的能力。

https://www.biorxiv.org/content/10.1101/2023.09.11.556673v1 

蛋白质的演化扩散生成

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy