Post Title

412次阅读
没有评论

老方法,大用场

字节&MAP团队投稿 发自 凹非寺

量子位 | 公众号 QbitAI

强化学习(RL)范式虽然显著提升了大语言模型(LLM)在复杂任务中的表现,但其在实际应用中仍面临传统RL框架下固有的探索难题。

一个普遍存在的现象是:在训练过程中,模型的熵值迅速下降,推理路径趋于固化,导致“利用(exploitation)”远超“探索(exploration)”,严重失衡。

这种过早收敛不仅削弱了模型的多样性生成能力,也限制了其性能上限的进一步突破。

OpenAI经典论文《First Return, Then Explore》中“先返回,再探索”思想的启发,来自字节跳动、MAP,曼彻斯特大学的联合团队提出了一种全新的结构化探索框架:First Return, Entropy-Eliciting Explore(FR3E)。

Post Title

该方法通过识别推理轨迹中具有高不确定性的关键token,并以此为锚点引导后续的多样化展开,系统性地重建了LLM在强化学习中的探索机制,旨在实现利用与探索之间的动态平衡,从而释放RL训练的更高潜力。

值得一提的是,FR3E发布后,《First Return, Then Explore》的作者之一Jeff Clune还在X(原 Twitter)上转发了这篇文章。

Post Title

算法框架

FR3E的算法框架分为两个阶段:

第一阶段:First Return

Post Title

在该阶段,模型对每条prompt进行多次rollout,自由探索可能的解题路径,并收集相应的轨迹及其奖励信号。

随后,采用拒绝采样(rejection sampling)策略过滤掉全正确的样本(避免对已掌握知识的重复学习),并针对剩余样本构建基准路径:对于存在部分正确结果的prompt,选取其中一条正确轨迹作为基准;

对于全部错误的prompt,则随机选取一条作为参考路径。

在此基础上,计算基准路径中每个token的生成熵,筛选出top-n个高熵token作为关键决策点。

这些关键点将整条轨迹划分为n+1个partial rollout。通过将原始prompt与前n个partial rollout依次拼接(最后一个包含答案的部分被排除),形成n+1个中间状态(state),初始状态即为原始prompt本身。

第二阶段:Entropy-Eliciting Explore

Post Title

基于构建的多状态prompt组,FR3E在GRPO++(融合了拒绝采样与Clip-Higher机制的GRPO变体)的基础上,进一步引入动态优势调制机制,以更精细地调控学习信号。具体而言,通过引入了一个优势调制因子,它基于从上一个状态到当前状态的价值边际改善来缩放学习信号。

优势调制因子定义为:

Post Title

调控后的Advantage定义为:

Post Title

Post Title

表示当前state prompt中的partial rollout部分对最终答案有正向影响,此时需要适当降低它的advantage,防止模型过早锁定当前推理路径,保留探索空间。

反之,当

Post Title

则意味着当前state prompt中的partial rollout部分对思考过程没有或有负向影响,需要放大其优势信号,激励模型在该节点进行更积极的探索,以突破推理瓶颈。

在数据构建方面,团队采用双难度混合策略:低难度数据来自DeepScaler,用于稳定训练初期的收敛过程;

高难度数据则取自SimpleRL中难度等级为3–5的样本,旨在激发模型的深层推理能力。这种组合既保障了训练稳定性,又提供了足够的挑战性以推动能力跃迁。

实验结果

为全面评估FR3E的有效性,团队在多个权威数学推理基准上进行了实验,包括GSM8K、Math500、Minerva Math、Gaokao2023en、OlympiadBench、College Math以及AIME24。并在Qwen2.5-7B、Qwen2.5-Math-7B和Qwen2.5-32B三种模型上进行了评测。

Post Title

实验结果表明,FR3E在多个基准上均显著优于强基线GRPO++,展现出更强的泛化与推理能力。

Post Title

尤其值得注意的是,在训练动态分析中,FR3E展现出更持久的探索行为:其熵值衰减更缓慢,响应长度更长,特别是在Qwen2.5-Math-7B这类已微调模型上,成功突破了传统方法中熵值长期处于低位的“僵化”困境,实现了探索能力的再激活。

Post Title

此外,通过对多次rollout结果的统计监控,团队发现FR3E显著提升了“全正确”轨迹的数量,同时大幅降低了“全错误”轨迹的比例。

这表明,原本仅能部分解出或完全失败的问题,在FR3E的训练机制下,逐步演化为稳定、完整的正确解答路径,真正实现了从“部分成功”到“全面突破”的跃迁。

综上所述,FR3E提出了一种新颖且高效的结构化探索范式,直面LLM在强化学习中“探索不足”的核心瓶颈。

通过“先返回、再探索”的两阶段设计,结合高熵锚点识别与动态优势调制机制,FR3E不仅有效延缓了模型的过早收敛,更显著提升了复杂推理任务中的性能上限。

实验充分验证了FR3E在多个数学推理基准上的优越性,尤其在提升探索多样性、增强长程推理稳定性方面表现突出。

更重要的是,该方法所体现的“结构化反馈 + 自适应调节”思想,具备良好的可扩展性。团队期待FR3E所倡导的探索机制,能够为未来大模型的强化学习训练提供新的范式参考。

论文地址:https://arxiv.org/pdf/2507.07017

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 8 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手 十三 2025-12-09 18:18:41 来源:量子位...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东 Jay 2025-12-09 08:26:01 来源...
梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物! 一水 2025-12-09 09:46:23 来源:量子位 来自安...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布 思邈 2025-12-09 15:46:09 来源:量子位 国内首个聚焦...
极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」 henry 2...