1.5B刷新数学代码SOTA!快手&清华精细化Token管理,LLM推理能力飙升

877次阅读
没有评论

1.5B刷新数学代码SOTA!快手&清华精细化Token管理,LLM推理能力飙升

“怎么学”可能比“学了多少”更重要

Archer团队 投稿

量子位 | 公众号 QbitAI

当大模型在数学题和代码任务里“卷”参数规模时,一支来自快手和清华的团队给出了不同答案——

他们用1.5B参数的小模型,在多个推理基准上干过了同量级SOTA。

秘密在于给模型的“学习过程”做了精细化管理:让该记牢的知识稳住,让该灵活的推理放开。

在多个挑战性的数学、代码评测基准上,该团队提出的Archer方法都展现出了强大的实力。

1.5B刷新数学代码SOTA!快手&清华精细化Token管理,LLM推理能力飙升

目前,Archer的代码已开源,详细链接可见文末。

1.5B刷新数学代码SOTA!快手&清华精细化Token管理,LLM推理能力飙升

“两难”:知识和推理难兼顾

通过预训练,LLM能记住海量的知识。但要让这些知识转化为解决数学题、写复杂代码的推理能力,还得靠后续的强化学习(RL)优化。

其中,带可验证奖励的强化学习(RLVR)是当前的主流方法——简单地说,就是让模型不断尝试解题,通过“是否做对”的反馈调整行为,有点像人类“做题纠错”。

但问题来了:模型输出的内容里,有些是“知识型”的(比如“1+1=2”这类事实),有些是“推理型”的(比如“先算括号里,再算乘除”这类逻辑规划步骤)

过去的RLVR方法要么“一视同仁”,给所有内容用一样的训练信号;要么“粗暴分割”,用梯度屏蔽把两类内容拆开训练。

结果往往是:要么知识逐渐变差(比如把公式记错),要么推理放不开(比如总用老套思路解题)

快手和清华团队发现:这两类内容在模型里其实有明显特征:

  • 低熵Token
  • (确定性高):比如“3.14”、“def函数”,对应事实性知识,训练时不能乱改;
  • 高熵Token
  • (不确定性高):比如“因此”、“接下来”、“循环条件”,对应逻辑推理,需要多尝试。

但关键在于,这两类Token在句子里是“绑在一起”的——比如解数学题时,“因为2+3=5(低熵),所以下一步算5×4(高熵)”,拆开会破坏语义逻辑。

Archer:给Token“差异化训练”

团队提出的Archer方法,核心是“双Token约束”——不拆分Token,而是给它们定制不同的训练规则。

简单说就是两步:

1.先给Token“贴标签”:用熵值分类型

通过计算每个Token的熵值(不确定性),自动区分“知识型”和“推理型”:

  • 高熵Token:比如数学推理里的“接下来”、“综上”,代码里的“循环”、“判断”,是逻辑转折点;
  • 低熵Token:比如“123”、“print”,是必须准确的事实性内容。

团队用“句子级熵统计”替代传统的“批次级统计”——比如同一道数学题,不同解法的Token熵分布不同,按句子单独划分,避免把“关键推理Token”误判成“知识Token”。

2.再给训练“定规矩”:差异化约束

对贴好标签的Token,用不同的规则训练:

  • 推理型(高熵)Token:松约束。用更高的裁剪阈值(允许更大幅度调整)和更弱的KL正则(减少对原始策略的依赖),鼓励模型多尝试不同推理路径;
  • 知识型(低熵)Token:紧约束。用更低的裁剪阈值和更强的KL正则,让模型“死死记住”正确知识,避免越训越错。

这样一来,知识和推理既能同步更新,又不互相干扰——就像老师教学生:基础公式要背牢,解题思路可以大胆试。

从数学到代码:全面碾压同量级模型

在最考验推理能力的数学和代码任务上,Archer的表现都很出色。

数学推理:解题正确率大幅提升

1.5B刷新数学代码SOTA!快手&清华精细化Token管理,LLM推理能力飙升

在AIME 2024/2025、Minerva等硬核数学基准上:

  • 相比同基座的原始模型,Archer在AIME24上正确率提升18.1%,AIME25提升10.3%;
  • 对比当前SOTA方法DAPO,Archer在AIME24上多对6.6%的题,AIME25多对5.2%;
  • 1.5B参数的Archer-Math,直接超过了FastCuRL、Nemotron等同量级SOTA模型,平均正确率登顶

代码生成:刷题能力显著增强

1.5B刷新数学代码SOTA!快手&清华精细化Token管理,LLM推理能力飙升

在LiveCodeBench(主流代码生成基准)v5/v6上:

  • 相比DAPO,Archer在v5上正确率提升3.4%,v6提升2.6%;
  • 超过了专门优化代码的DeepCoder-1.5B,成为同量级最佳代码生成模型之一。
1.5B刷新数学代码SOTA!快手&清华精细化Token管理,LLM推理能力飙升

效率方面,Archer只用单阶段训练、1900 H800 GPU小时(对比Nemotron的16000 H100小时),就实现了这些提升。

没有复杂的多轮训练,达到了“花小钱办大事”的效果。

关键在“平衡”

Archer的核心洞察是:LLM推理能力不是“死记硬背”或“盲目试错”,而是知识稳定性和推理探索性的平衡

团队通过实验验证了这种平衡的重要性:

1.5B刷新数学代码SOTA!快手&清华精细化Token管理,LLM推理能力飙升
1.5B刷新数学代码SOTA!快手&清华精细化Token管理,LLM推理能力飙升
  • 若不给低熵Token加约束(KL=0),模型会很快“记混知识”,输出重复内容,性能崩塌;
  • 若给高熵Token加严约束(裁剪阈值太小),模型推理“放不开”,学不到新方法;
  • 只有让知识Token“”、推理Token“”,才能既不丢基础,又能提升逻辑能力。

这种思路也解释了为什么小模型能逆袭——大模型的参数优势能堆出更多知识,但如果训练时“管不好”知识和推理的关系,能力提升反而受限。

Archer用精细化的Token管理,让小模型的每一个参数都用在刀刃上,学会如何更好的组织使用已有的知识。

论文链接:http://arxiv.org/abs/2507.15778
GitHub:https://github.com/wizard-III/ArcherCodeR

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 7 月
 123456
78910111213
14151617181920
21222324252627
28293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...