字节Seed发布PXDesign:蛋白设计效率提升十倍,进入实用新阶段

9次阅读
没有评论

字节Seed发布PXDesign:蛋白设计效率提升十倍,进入实用新阶段

24小时内即可生成数百个高质量的候选蛋白

字节Seed团队 投稿

量子位 | 公众号 QbitAI

AI蛋白设计进入新阶段!

最近,字节跳动Seed团队多模态生物分子结构大模型(Protenix)项目组提出了一种可扩展的蛋白设计方法,叫做PXDesign

字节Seed发布PXDesign:蛋白设计效率提升十倍,进入实用新阶段

在实际测试中,PXDesign展现出极高的效率,24小时内即可生成数百个高质量的候选蛋白,生成效率较业界主流方法提升约10倍,并在多个靶点上实现了20%–73%的湿实验成功率,达到了当前领域的领先水平。

要知道,蛋白设计一直是个成功率很低的任务,即便是DeepMind推出的AlphaProteo,凭借其AlphaFold系列模型,在相同靶点上的成功率也仅为 9%-33%。

此外,Protenix团队还推出了公开免费的binder在线设计服务,让科学家无需自建复杂流程,就能直接调用这一能力,加速科研探索。

字节Seed发布PXDesign:蛋白设计效率提升十倍,进入实用新阶段

背景与意义

蛋白质是生命活动的基石。2024年诺贝尔化学奖一半授予David Baker(计算蛋白设计),另一半联合授予Demis HassabisJohn Jumper(蛋白结构预测)。

这也凸显了科学家关注的挑战:不仅要“预测结构”,更要能“反向设计” —— 根据功能需求,创造全新的蛋白质。

其中,设计能精确结合目标蛋白的结合蛋白(binder),有望为癌症、感染等重大疾病带来全新疗法,是领域研究的热点。

过去,蛋白设计依赖高通量实验筛选,往往要从数万候选里才能淘出少数有效分子,成本高、效率低。而近几年,深度学习的突破让蛋白设计迎来了新机遇。

在这一背景下,字节跳动Seed团队的Protenix项目组提出了新一代蛋白设计方法PXDesign

实验室验证表明,PXDesign在多个靶点上取得了20–73%的实验成功率,在相同靶点相较DeepMind的AlphaProteo提升2–6 倍,达到了当前领域最高水准。

字节Seed发布PXDesign:蛋白设计效率提升十倍,进入实用新阶段

这意味着,科学家们不用再像过去那样依赖昂贵的高通量筛选实验,只需要低通量的常规实验,就能直接得到能紧紧抓住目标蛋白的binder。

更重要的是,团队还提供了公开免费的网页服务,使得蛋白设计有望成为常规科研工具的一部分,让科学家更快地用全新的蛋白解决挑战性问题。

PXDesign的突破:“生成+过滤”组合拳

Protenix团队是怎么做到的?

答案在于他们打出了一套“生成+过滤”的组合拳。

生成:快速高效

想要找到合适的binder,先要让模型给出大量的候选设计。

目前主流有两大技术路线:

Hallucination:以BindCraft为代表,利用AlphaFold2等结构预测模型作为“评分器”,通过反向传播不断优化随机序列,直到得到高置信度的设计。

Diffusion:以RFdiffusion为代表,直接从复合物数据中学习规律,从噪声逐步生成自然界中不存在的binder结构,再预测对应的氨基酸序列。

Protenix团队系统性探索了两种技术路线,构建了PXDesign-d(Diffusion)和PXDesign-h(Hallucination) 两个方案。

在相同框架下,两者均超过了现有主流方法,而基于Diffusion的PXDesign-d在生成质量、通量和结构多样性方面表现最佳,更适合挑战性任务上的大规模生成。尤其是在VEGF-A、H1、TNF-α等高难度靶点上,PXDesign-d的效率较以往方法提升数倍甚至数百倍

PXDesign-d的优势既来自模型架构,也源于技术路线的差异

同类Diffusion的对比:PXDesign-d采用复杂度为 O(N²) 的DiT网络结构,而RFdiffusion中还包含O(N³) 的模块。这让PXDesign-d可以在更大的结构数据上训练,生成效率也更高。

对比Hallucination路线:Hallucination方法每一步都要调用一次O(N³) 的结构预测模型,并通过反向传播更新参数,需要多轮迭代才能收敛。这样虽然能定向优化,但整体速度远不及PXDesign-d。

字节Seed发布PXDesign:蛋白设计效率提升十倍,进入实用新阶段

正因PXDesign-d在效率与成功率上的大幅提升,团队才能以免费网页服务的形式开放大规模binder设计能力,而不再受制于计算开销。

过滤:精准稳定

有了快速高效的生成器,下一步就是利用结构预测模型作为“筛子”,从中挑选出真正有潜力的候选。

由于蛋白设计领域的训练数据规模和质量远不及自然语言模型,生成器往往无法直接给出完全可靠的结果,因此仍需要依赖其他工具进行筛选,而最常用的筛选工具就是结构预测模型的置信度评分。

过滤环节重点关注两个维度:

1)准确性:哪种过滤器的眼光最好,可以把真正合适的binder筛出来?

2)效率:在准确的前提下,哪个过滤器计算成本更低?

为此,Protenix团队对AlphaFold 2和自研的Protenix结构预测模型在公开历史数据上进行了系统性评估,验证不同过滤策略的效果。

Protenix是团队此前对标AlphaFold 3的一款开源复合物结构预测模型,该项目在GitHub上有不错的影响力。它的名字来源于“Protein + X”,寓意是面向蛋白质和更广泛的生物分子的基础模型。

字节Seed发布PXDesign:蛋白设计效率提升十倍,进入实用新阶段

为了提升效率,Protenix团队还开发了Protenix-Mini系列模型,通过 few-step ODE 扩散采样器,把AlphaFold 3生成结构需要的200步的扩散过程简化到2步,显著缩短了计算时间。

结果证明,基于Protenix的过滤器有3点优势:

1)更准:相比AlphaFold 2,Protenix在绝大多数靶点的binder挑选任务上,都有更高的准确性;

2)更快:「加速版」的Protenix-Mini有相似的筛选能力,同时效率提升了数倍;

3)更稳定:Protenix和AlphaFold 2各有偏好,把两者组合起来,可以构建出更稳定、更精准的筛选标准。

字节Seed发布PXDesign:蛋白设计效率提升十倍,进入实用新阶段

简而言之,以Protenix为核心构建评估工具,实验成功率更高,尤其适合大规模筛选。这也帮助PXDesign取得了非常高的湿实验成功率。

从算法到应用:让蛋白Binder设计走向开放应用

为了加速binder设计和评估的效率,除了PXDesign,Protenix团队还发布了两款配套工具,加速设计与评估的应用落地:

PXDesign Server

基于论文成果,Protenix团队开发了可直接使用的binder设计网页服务——PXDesign Server(https://protenix-server.com/)。

现在,研究人员无需自己搭建流程,只需进入网站,即可一站式完成设计,获得多样化的binder候选与质量评估结果。

PXDesign Server提供两种模式:

1)Preview:用于快速调试和难度预估,在20-30分钟内返回5–25个经过筛选的候选binder。

2)Extended:用于深入研究和实验前筛选,生成候选数量更多、质量更高、评估指标更全面,更适合进行湿实验验证。

PXDesign Server之所以能开放应用,正是得益于PXDesign框架生成质量和效率的大幅提升。

相比以往即便耗时数天,仍可能效果不理想的传统方法,PXDesign Server显著缩短了设计周期,让高水平的binder设计真正变得触手可及。

PXDesignBench

自从AI加入蛋白设计赛道,各种新方法层出不穷。

然而,领域内一直缺乏统一的评估标准:不同研究使用的数据集不一致、过滤器差异显著,评估指标更是五花八门。

这样的“各说各话”导致优劣难以公平比较,很大程度上阻碍了整个领域的进展

为了解决这个问题,Protenix团队分享了他们的解决方案,这就是PXDesignBench

字节Seed发布PXDesign:蛋白设计效率提升十倍,进入实用新阶段

PXDesignBench是一套系统化的评估工具箱,整合了主流的评估指标与流程。无论是单体蛋白(monomer)还是结合蛋白(binder)的设计,都能从多个维度给出全面评价。

所有评估流程、模型调用和过滤器配置已在GitHub开源。研究者不仅能直接复现PXDesign的结果,还可以轻松将自己的方法接入进行公平对比。

One More Thing

字节不是唯一一个在生物领域有布局的互联网大厂。今年6月,微软发布了开源动态预测模型BioEmu,前不久,苹果也发布了自研蛋白质折叠模型SimpleFold。

可以预见,AI在生物领域的探索正在从学术界走向工业界,未来的生物和制药行业或许会像芯片一样,成为科技巨头们不愿错过的技术高地。

项目主页:https://protenix.github.io/pxdesign/
论文:https://protenix.github.io/pxdesign/technical_report.pdf
PXDesign Server:https://protenix-server.com
PXDesignBench:https://github.com/bytedance/PXDesignBench

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy