字节Seed发布PXDesign:蛋白设计效率提升十倍,进入实用新阶段
24小时内即可生成数百个高质量的候选蛋白
字节Seed团队 投稿
量子位 | 公众号 QbitAI
AI蛋白设计进入新阶段!
最近,字节跳动Seed团队多模态生物分子结构大模型(Protenix)项目组提出了一种可扩展的蛋白设计方法,叫做PXDesign。

在实际测试中,PXDesign展现出极高的效率,24小时内即可生成数百个高质量的候选蛋白,生成效率较业界主流方法提升约10倍,并在多个靶点上实现了20%–73%的湿实验成功率,达到了当前领域的领先水平。
要知道,蛋白设计一直是个成功率很低的任务,即便是DeepMind推出的AlphaProteo,凭借其AlphaFold系列模型,在相同靶点上的成功率也仅为 9%-33%。
此外,Protenix团队还推出了公开免费的binder在线设计服务,让科学家无需自建复杂流程,就能直接调用这一能力,加速科研探索。

背景与意义
蛋白质是生命活动的基石。2024年诺贝尔化学奖一半授予David Baker(计算蛋白设计),另一半联合授予Demis Hassabis与John Jumper(蛋白结构预测)。
这也凸显了科学家关注的挑战:不仅要“预测结构”,更要能“反向设计” —— 根据功能需求,创造全新的蛋白质。
其中,设计能精确结合目标蛋白的结合蛋白(binder),有望为癌症、感染等重大疾病带来全新疗法,是领域研究的热点。
过去,蛋白设计依赖高通量实验筛选,往往要从数万候选里才能淘出少数有效分子,成本高、效率低。而近几年,深度学习的突破让蛋白设计迎来了新机遇。
在这一背景下,字节跳动Seed团队的Protenix项目组提出了新一代蛋白设计方法PXDesign。
实验室验证表明,PXDesign在多个靶点上取得了20–73%的实验成功率,在相同靶点相较DeepMind的AlphaProteo提升2–6 倍,达到了当前领域最高水准。

这意味着,科学家们不用再像过去那样依赖昂贵的高通量筛选实验,只需要低通量的常规实验,就能直接得到能紧紧抓住目标蛋白的binder。
更重要的是,团队还提供了公开免费的网页服务,使得蛋白设计有望成为常规科研工具的一部分,让科学家更快地用全新的蛋白解决挑战性问题。
PXDesign的突破:“生成+过滤”组合拳
Protenix团队是怎么做到的?
答案在于他们打出了一套“生成+过滤”的组合拳。
生成:快速高效
想要找到合适的binder,先要让模型给出大量的候选设计。
目前主流有两大技术路线:
Hallucination:以BindCraft为代表,利用AlphaFold2等结构预测模型作为“评分器”,通过反向传播不断优化随机序列,直到得到高置信度的设计。
Diffusion:以RFdiffusion为代表,直接从复合物数据中学习规律,从噪声逐步生成自然界中不存在的binder结构,再预测对应的氨基酸序列。
Protenix团队系统性探索了两种技术路线,构建了PXDesign-d(Diffusion)和PXDesign-h(Hallucination) 两个方案。
在相同框架下,两者均超过了现有主流方法,而基于Diffusion的PXDesign-d在生成质量、通量和结构多样性方面表现最佳,更适合挑战性任务上的大规模生成。尤其是在VEGF-A、H1、TNF-α等高难度靶点上,PXDesign-d的效率较以往方法提升数倍甚至数百倍。
PXDesign-d的优势既来自模型架构,也源于技术路线的差异。
同类Diffusion的对比:PXDesign-d采用复杂度为 O(N²) 的DiT网络结构,而RFdiffusion中还包含O(N³) 的模块。这让PXDesign-d可以在更大的结构数据上训练,生成效率也更高。
对比Hallucination路线:Hallucination方法每一步都要调用一次O(N³) 的结构预测模型,并通过反向传播更新参数,需要多轮迭代才能收敛。这样虽然能定向优化,但整体速度远不及PXDesign-d。

正因PXDesign-d在效率与成功率上的大幅提升,团队才能以免费网页服务的形式开放大规模binder设计能力,而不再受制于计算开销。
过滤:精准稳定
有了快速高效的生成器,下一步就是利用结构预测模型作为“筛子”,从中挑选出真正有潜力的候选。
由于蛋白设计领域的训练数据规模和质量远不及自然语言模型,生成器往往无法直接给出完全可靠的结果,因此仍需要依赖其他工具进行筛选,而最常用的筛选工具就是结构预测模型的置信度评分。
过滤环节重点关注两个维度:
1)准确性:哪种过滤器的眼光最好,可以把真正合适的binder筛出来?
2)效率:在准确的前提下,哪个过滤器计算成本更低?
为此,Protenix团队对AlphaFold 2和自研的Protenix结构预测模型在公开历史数据上进行了系统性评估,验证不同过滤策略的效果。
Protenix是团队此前对标AlphaFold 3的一款开源复合物结构预测模型,该项目在GitHub上有不错的影响力。它的名字来源于“Protein + X”,寓意是面向蛋白质和更广泛的生物分子的基础模型。

为了提升效率,Protenix团队还开发了Protenix-Mini系列模型,通过 few-step ODE 扩散采样器,把AlphaFold 3生成结构需要的200步的扩散过程简化到2步,显著缩短了计算时间。
结果证明,基于Protenix的过滤器有3点优势:
1)更准:相比AlphaFold 2,Protenix在绝大多数靶点的binder挑选任务上,都有更高的准确性;
2)更快:「加速版」的Protenix-Mini有相似的筛选能力,同时效率提升了数倍;
3)更稳定:Protenix和AlphaFold 2各有偏好,把两者组合起来,可以构建出更稳定、更精准的筛选标准。

简而言之,以Protenix为核心构建评估工具,实验成功率更高,尤其适合大规模筛选。这也帮助PXDesign取得了非常高的湿实验成功率。
从算法到应用:让蛋白Binder设计走向开放应用
为了加速binder设计和评估的效率,除了PXDesign,Protenix团队还发布了两款配套工具,加速设计与评估的应用落地:
PXDesign Server
基于论文成果,Protenix团队开发了可直接使用的binder设计网页服务——PXDesign Server(https://protenix-server.com/)。
现在,研究人员无需自己搭建流程,只需进入网站,即可一站式完成设计,获得多样化的binder候选与质量评估结果。
PXDesign Server提供两种模式:
1)Preview:用于快速调试和难度预估,在20-30分钟内返回5–25个经过筛选的候选binder。
2)Extended:用于深入研究和实验前筛选,生成候选数量更多、质量更高、评估指标更全面,更适合进行湿实验验证。
PXDesign Server之所以能开放应用,正是得益于PXDesign框架生成质量和效率的大幅提升。
相比以往即便耗时数天,仍可能效果不理想的传统方法,PXDesign Server显著缩短了设计周期,让高水平的binder设计真正变得触手可及。
PXDesignBench
自从AI加入蛋白设计赛道,各种新方法层出不穷。
然而,领域内一直缺乏统一的评估标准:不同研究使用的数据集不一致、过滤器差异显著,评估指标更是五花八门。
这样的“各说各话”导致优劣难以公平比较,很大程度上阻碍了整个领域的进展。
为了解决这个问题,Protenix团队分享了他们的解决方案,这就是PXDesignBench。

PXDesignBench是一套系统化的评估工具箱,整合了主流的评估指标与流程。无论是单体蛋白(monomer)还是结合蛋白(binder)的设计,都能从多个维度给出全面评价。
所有评估流程、模型调用和过滤器配置已在GitHub开源。研究者不仅能直接复现PXDesign的结果,还可以轻松将自己的方法接入进行公平对比。
One More Thing
字节不是唯一一个在生物领域有布局的互联网大厂。今年6月,微软发布了开源动态预测模型BioEmu,前不久,苹果也发布了自研蛋白质折叠模型SimpleFold。
可以预见,AI在生物领域的探索正在从学术界走向工业界,未来的生物和制药行业或许会像芯片一样,成为科技巨头们不愿错过的技术高地。
项目主页:https://protenix.github.io/pxdesign/
论文:https://protenix.github.io/pxdesign/technical_report.pdf
PXDesign Server:https://protenix-server.com
PXDesignBench:https://github.com/bytedance/PXDesignBench
