稿件来源
雅克
近日,华盛顿大学baker组在Nature发表文章,探索利用多种AI及Rosetta计算技术的通用螺旋肽设计方法。文章提及多种螺旋肽设计案例,例如甲状旁腺激素和胰高血糖素等,在计算设计基础上,通过虚拟筛选和实验验证识别具有高亲和力和特异性的binder,该成果后续可用于生物传感、诊断和治疗性药物开发。
01
背景
螺旋肽是一类具有螺旋二级结构的多肽。它们存在于许多蛋白质中,在蛋白质与蛋白质相互作用、信号传导和酶催化等各种生物过程中发挥着至关重要的作用。
螺旋肽可设计成与蛋白质或其他分子等特定目标结合,具有高亲和力和特异性。因此,螺旋肽是开发新药物和生物材料的理想候选分子。
但螺旋肽开发往往会遇到以下难点:
-
亲和力:螺旋肽与其靶点的结合亲和力通常较低。
-
缺乏结构信息:螺旋肽的结构通常没有明确定义,很难设计出能与之有效相互作用的binder。
-
熵:使螺旋肽形成为特定的构象可能会产生熵成本,从而影响结合自由能。
-
有限的相互作用残基:螺旋肽的相互作用表面有限,因此要设计出能产生足够接触以达到高亲和力的binder具有挑战性。
-
自聚集:螺旋肽很容易自聚集形成coiled coil,从而降低有效的靶点结合亲和力。
02
方法
1、参数化设计
本文第一种方法通过随机采样构建参数化groove-shaped scaffold库。
通过Crick参数化方程,对不同的超螺旋和螺旋-螺旋间距进行采样,生成一个20万的理想化五螺旋scaffold库,然后对这个库进行Rosetta虚拟筛选,得到约1.8万的scaffold,随后再进行不同螺旋肽靶点的设计。
2、RFjoint Inpainting
本方法结合使用RFjoint Inpainting和 ProteinMPNN来提高参数采样设计的亲和力。
模型输入Rosetta设计的binders,利用RFjoint Inpainting 提升设计多样性,ProteinMPNN 用于重新设计序列,Alphafold用于虚拟筛选,并最后通过实验验证。
3、序列threading
这种方法是将目标多肽序列穿插到预先设计好的理想scaffold上,通过筛选使其可与螺旋肽在相互界面上形成较强疏水作用。
然后用 ProteinMPNN 在目标多肽序列存在的情况下重新设计,并用 AlphaFold2 预测复合物,且重复该设计过程,最后根据AF和Rosetta指标进行最终筛选。
4、Alphafold幻想
本方法来自“Hallucinating symmetric protein assemblies”中的AF-MCMC方法。
在给定目标序列的情况下,设计蛋白从一条随机序列初始化,用BLOSUM62矩阵作为氨基酸转移概率,在plddt最低的区域进行突变,根据幻想损失函数对不同长度进行5000步的退火设计。
虽然这样设计的序列一般会由于对抗导致实验效果差,但是ProteinMPNN可以对其结果进行改善。本文对其骨架进行了2次设计及过滤,并进行了新实验测定。
5、RFdiffusion扩散
RFdiffusion作为目前的SOTA蛋白质设计模型,可以进行以多样性为目标的partial diffusion,即输入目标结构,进行少时间步数的加噪和去噪,也可以进行完整扩散,即进行完整时间步数的彻底去噪。
本文首先对RFdiffusion进行了二次训练,原版的RFdiffusion中是不包含序列信息的,但是在binder设计中需要模型理解目标序列信息。新模型以80%的概率进行给定motif的条件生成训练,与原版模型不同,这里会以50%的概率只提供motif的序列信息。
本文在模型上同时进行了partial和denovo两种扩散设计,在partial扩散中使用AF-MCMC设计的最高亲和力样本作为输入,只加噪40步并在回旋半径势能的指引下进行去噪,在denovo 扩散中,使用晶体或者AF-MCMC设计的最高亲和力样本作为输入,完整加噪200步并在回旋半径势能的指引下进行去噪。两者均生成了2000个样本,并通过ProteinMPNN和AF2进行重设计和过滤,最终每个靶点得到96个设计进行实验测定。
03
结果
本文的螺旋肽靶点包括凋亡相关BH3结构域的Bid和Bim、胰高血糖素(GCG)、胃抑制肽(GIP)、胰泌素(SCT)、胰高血糖素样肽-1 (GLP1)、甲状旁腺激素 (PTH)、肽 YY(PYY)和神经肽 Y(NPY)。
参数采样方法成功地设计出了PTH、GCG、NPY螺旋肽的binder,通过nanoBiT分裂荧光素酶结合测定,其中许多设计与目标结合,但亲和力只有微摩尔,这表明groove-shaped scaffolding可以进行有效设计,但是需要更多方法提升亲和力。
对于上述设计中亲和力最好的骨架,本文使用RFjoint进行继续设计。在对PTH的192个设计中发现了亲和力6.1nM的蛋白,并且具备很强的特异性,作者将其归因为与目标蛋白的接触面积的增大,rfjoint(右)亲和力与参数采样(左)的对比如上图所示。另外在对GCG、NPY螺旋肽的设计中,分别获得了231nM和3.5μM的binder。
本文对这里得到的亲和力高的binder进行了继续扩散设计,在partial扩散的设计中,GCG设计中的的25/96个,NPY的20/96个通过了10nM的酵母表面展示,其中亲和力最高的设计在NPY中为5.6nM,GCG已经达到了皮摩尔级别。
本文解出了GCG案例中RFjoint和RFdiffusion设计的亲和力最高蛋白的结构,如上图所示。可以发现binder骨架向目标肽移动了2.7Å,使得异亮氨酸能够进入之前由苯丙氨酸侧链占据的13号位置的口袋。同样,在第16位,骨架发生了3.6Å的移动,使酪氨酸的残基可以出现在肽的下面,并与肽骨架形成氢键,而以前丝氨酸无法与肽骨架形成任何接触。这些骨架和伴随的序列变化增加了相互作用的形状互补性、界面接触面积以及Rosetta结合能。
在完整扩散的设计中,PTH设计中的的56/96个通过了10nM的酵母表面展示,其中亲和力最高的设计为皮摩尔级别;Bim设计中的的25/96个通过了10nM的酵母表面展示,其中亲和力最高的设计也为皮摩尔级别。本文将这两种binder作为捕获试剂应用在了LC-MS中,结果表明设计的PTH binder可以有效地从缓冲液和血浆中捕获PTH,GCG binder的过筛效率与mAb相当,但是却不会因为使用过而失去结合能力,具备更好的重复使用能力,结果对比如下图所示。
本文也是用了序列threading方法对SCT、GIP、GLP1、GCG进行了设计,结果表明4个案例的设计均达到了亚微摩尔级。
在Alphafold 幻想设计中,本文对其针对Bid肽设计的46个蛋白进行了实验测定,结果表明设计肽不仅可以很好进行可溶性单体表达、更具有比天然partner Mcl-1更高的亲和力。
另外本文使用带序列信息的扩散模型进行了PYY的设计,这个case中的目标结构是不完全的,只有序列信息。最终实验得到了24.5nM的binder设计。
这些结果均展示了深度学习方法在螺旋肽设计上的可信度。它可以在不预先指定scaffold几何形状的情况下,能够生成比传统Rosetta方法亲和力更高的设计。本文认为这种能力和Rosetta设计方法的思路很相似,来自于更好的形状互补以及空腔填充。
04
力评
继RFdiffusion见刊一年之后,本文再一次证明了该方法的优越性。
通过Rosetta、ProteinMPNN、Alphafold、Rosettafold、RFdiffusion等模型的联合使用,系统进行了对生物活性螺旋肽的高亲和力binder的从头设计,并成功展示了设计蛋白在临床疾病诊断和生物传感系统上的实际应用,向着通用蛋白设计流程迈出了更远一步。
另外我们在测试中发现,这些计算方法本身对于螺旋的倾向是很强的,并且对于长度敏感。螺旋肽设计流程不一定会适用于其他蛋白质设计,我们需要在共进化上挖掘更多有效信息,将人类经验、进化经验与计算方法结合,才能够走的更远,这也是力文所研究人员目前在做的事情。
2023丨力文所
EXPLORE EVOLUTION
DECIPHER LIFE
©️ 力文所原创内容,未经许可转载必究。
欢迎给力文所LEVINTHAL公众号 标星
在文末右下角点击 在看
给本文作者 点赞