字节Seed发布最强数学模型:一招“打草稿”,IMO银牌变金牌

77次阅读
没有评论

字节Seed发布最强数学模型:一招“打草稿”,IMO银牌变金牌

Scaling加持

鱼羊 发自 凹非寺

量子位 | 公众号 QbitAI

字节最新数学推理专用模型,刚刚刷新战绩:拿下IMO金牌成绩。

Scaling Law加持下,这个名为Seed Prover 1.5的模型,在16.5小时内,顺利解决IMO 2025的前5道题目,在仅失一题的情况下拿到35分,达到今年IMO的金牌线。

字节Seed发布最强数学模型:一招“打草稿”,IMO银牌变金牌

这一成绩与7月官方认证的IMO金牌“选手”谷歌Gemini打平。而字节自己的前代模型,当时的成绩是3天完成了6道题目中的4道,以及一道题的部分证明,达到银牌成绩。

同时,Seed Prover 1.5也在北美本科级别数学竞赛Putnam这一基准上,大幅刷新了SOTA成绩。

字节Seed发布最强数学模型:一招“打草稿”,IMO银牌变金牌

模型尚未开源,但技术报告已经公开。

值得关注的是,Seed Prover 1.5强调了大规模强化学习给数学模型带来的性能提升,也证明,在推理阶段增加计算资源,可以显著提高解题率。

即,验证了测试时Scaling和强化学习训练时的Scaling的有效性。

草稿引导的高效形式化证明

具体来看技术报告。Seed Prover 1.5的参数规模与Seed 1.6相同,230B总参数,23B激活。

主要创新有两点:

  • Agentic Prover:一种新的形式化数学推理范式
  • Sketch Model:自然语言到形式语言的翻译器

Agentic Prover

相较于通用模型用自然语言解答数学问题的方式,数学推理专用模型采用的是形式化数学推理,也就是用Lean等形式语言,构建可在公理系统中机械验证的证明,以确保结果更加可靠。

其难点在于,形式化证明比自然语言证明更加困难。根据“De Bruijn factor”经验法则,一行普通的数学推导,通常需要扩展成4到10行复杂的代码。

这要求模型不仅懂数学,还要精通编程和类型论,而这一高门槛导致形式化证明在效率和成功率上一直远落后于自然语言推理。

以往的研究中,形式化证明器通常分为两类:

  • Step-prover:一步一步证明,效率很低;
  • Whole-prover:一次性生成完整证明,但中间一旦出错就会前功尽弃。

Seed Prover 1.5为了平衡两种方法的优缺点,提出了一种全新的Agentic Prover架构

模型将Lean语言视为一种工具,且在证明过程中可以自主地调用其他多种工具。

  • Mathlib搜索工具:类似于程序员查阅技术文档,模型可以主动检索Lean庞大的数学库 Mathlib,寻找可用的定理和定义,而非依赖不可靠的隐式记忆。
  • Python代码执行:遇到需要计算的部分,模型可以编写并运行Python脚本来辅助验证直觉。
  • 增量式引理验证:模型不再被迫一次性生成整个证明,而是将复杂问题拆解为若干引理。每证明出一个引理,系统就会将其保留并复用,作为后续推理的基石。

这样一来,模型既可以像人类一样先使用“草稿纸”(自然语言)进行推理,又能够与Lean环境及多种工具进行交互,随时调用工具来验证猜想。

字节Seed发布最强数学模型:一招“打草稿”,IMO银牌变金牌

就是说,Seed Prover 1.5采用的是基于引理的交互方式,既不是一次性生成整个证明,也无需每一步都做交互验证。

官方技术报告中还提到,Seed Prover 1.5进行了大规模的Agentic RL。

实验证明,随着强化学习训练步数的增加,模型在训练集上的证明通过率从初始的50%升至接近90%。

Agentic RL还带来了大幅的效率提升。在对比测试中,Seed Prover 1.5仅需少量的计算资源,就能在Putnam和Fate等高难度数据集上,击败消耗大量算力的上一代Seed Prover模型。

字节Seed发布最强数学模型:一招“打草稿”,IMO银牌变金牌

Sketch Model

为了让模型能更好地“打草稿”,研究人员还专门训练了Sketch Model,来模拟人类数学家解决问题的方式:

数学家在证明一个复杂定理时,通常不会直接写出每一步严丝合缝的代码。他们会先在纸上写下一个非形式化的证明草稿,列出关键的中间步骤、引理和大致思路。

Sketch Model同样不纠结于具体的语法细节,而是专注于逻辑路径的规划。它可以将自然语言证明拆解为若干个独立的、难度更低的引理,并暂时跳过具体证明,仅保留整体的逻辑骨架。

这就将原本不可解的复杂命题,转化成了难度更低的子目标。

研究人员采用混合奖励信号的强化学习策略,来训练这一模型:

  • 信号一:Lean编译器验证生成的草图是否完全正确。
  • 信号二:自然语言Prover会逐一检查引理,一旦发现任一引理在数学上不成立,整个草稿即被否决。
  • 信号三:引入基于长思维链的Rubric评分模型,从语义层面评估草稿的质量——考量引理是否与自然语言证明对齐、拆解的粒度是否合适、是否真正降低了原题的难度。

当草稿在形式验证、数学正确性和整体评分上均满足要求时,才会获得正向奖励。

字节Seed发布最强数学模型:一招“打草稿”,IMO银牌变金牌

测试时工作流

以上创新最终构成了一个分层级的多智能体协作系统:

  • Natural Language Prover负责提供高层的数学直觉和自然语言证明。
  • Sketch Model将自然语言转化为形式化的引理结构。
  • Agentic Prover并行地攻克每一个被拆解出的引理。

如果某个引理太难证明,系统还会递归地调用Sketch Model再次进行拆解。这不仅规避了长文本生成的错误累积问题,更提升了推理的并行度和成功率。

字节Seed发布最强数学模型:一招“打草稿”,IMO银牌变金牌

研究人员还验证了这一工作流的测试时Scaling特性。

如上图所示,投入更多的计算资源,Seed Prover 1.5对问题的解决率会呈对数线性增长。

这项研究来自字节Seed AI4Math团队。

量子位捕捉到了其中几位作者的踪迹。

Zheng Yuan,清华统计学博士。今年6月刚刚加入字节,此前在阿里Qwen团队负责对齐和推理方向工作。

Hanwen Zhu,本科毕业于牛津大学数学与计算机科学专业,目前在CMU读研,即将加入字节Seed。

郑泽宇,CMU在读博士,字节Seed实习生,专业方向同样是数学与计算机科学联合方向。

论文链接:
https://arxiv.org/pdf/2512.17260
参考链接:
[1]https://mp.weixin.qq.com/s/vcciJWK9KfDBM4FBIJwTfw?click_id=2
[2]https://x.com/GanjinZero/status/2001948751871815741

— 完 —

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 12 月
1234567
891011121314
15161718192021
22232425262728
293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...