henry
2025-08-11
09:52:51

来源：量子位

老方法，大用场

字节&MAP团队投稿发自凹非寺

量子位 | 公众号 QbitAI

强化学习（RL）范式虽然显著提升了大语言模型（LLM）在复杂任务中的表现，但其在实际应用中仍面临传统RL框架下固有的探索难题。

一个普遍存在的现象是：在训练过程中，模型的熵值迅速下降，推理路径趋于固化，导致“利用（exploitation）”远超“探索（exploration）”，严重失衡。

这种过早收敛不仅削弱了模型的多样性生成能力，也限制了其性能上限的进一步突破。

受OpenAI经典论文《First Return, Then Explore》中“先返回，再探索”思想的启发，来自字节跳动、MAP，曼彻斯特大学的联合团队提出了一种全新的结构化探索框架：First Return, Entropy-Eliciting Explore（FR3E）。

该方法通过识别推理轨迹中具有高不确定性的关键token，并以此为锚点引导后续的多样化展开，系统性地重建了LLM在强化学习中的探索机制，旨在实现利用与探索之间的动态平衡，从而释放RL训练的更高潜力。

值得一提的是，FR3E发布后，《First Return, Then Explore》的作者之一Jeff Clune还在X（原 Twitter）上转发了这篇文章。

算法框架

FR3E的算法框架分为两个阶段：

第一阶段：First Return

在该阶段，模型对每条prompt进行多次rollout，自由探索可能的解题路径，并收集相应的轨迹及其奖励信号。

随后，采用拒绝采样（rejection sampling）策略过滤掉全正确的样本（避免对已掌握知识的重复学习），并针对剩余样本构建基准路径：对于存在部分正确结果的prompt，选取其中一条正确轨迹作为基准；

对于全部错误的prompt，则随机选取一条作为参考路径。

在此基础上，计算基准路径中每个token的生成熵，筛选出top-n个高熵token作为关键决策点。

这些关键点将整条轨迹划分为n+1个partial rollout。通过将原始prompt与前n个partial rollout依次拼接（最后一个包含答案的部分被排除），形成n+1个中间状态（state），初始状态即为原始prompt本身。

第二阶段：Entropy-Eliciting Explore

基于构建的多状态prompt组，FR3E在GRPO++（融合了拒绝采样与Clip-Higher机制的GRPO变体）的基础上，进一步引入动态优势调制机制，以更精细地调控学习信号。具体而言，通过引入了一个优势调制因子，它基于从上一个状态到当前状态的价值边际改善来缩放学习信号。

优势调制因子定义为：

调控后的Advantage定义为：

当

表示当前state prompt中的partial rollout部分对最终答案有正向影响，此时需要适当降低它的advantage，防止模型过早锁定当前推理路径，保留探索空间。

反之，当

则意味着当前state prompt中的partial rollout部分对思考过程没有或有负向影响，需要放大其优势信号，激励模型在该节点进行更积极的探索，以突破推理瓶颈。

在数据构建方面，团队采用双难度混合策略：低难度数据来自DeepScaler，用于稳定训练初期的收敛过程；

高难度数据则取自SimpleRL中难度等级为3–5的样本，旨在激发模型的深层推理能力。这种组合既保障了训练稳定性，又提供了足够的挑战性以推动能力跃迁。

实验结果

为全面评估FR3E的有效性，团队在多个权威数学推理基准上进行了实验，包括GSM8K、Math500、Minerva Math、Gaokao2023en、OlympiadBench、College Math以及AIME24。并在Qwen2.5-7B、Qwen2.5-Math-7B和Qwen2.5-32B三种模型上进行了评测。

实验结果表明，FR3E在多个基准上均显著优于强基线GRPO++，展现出更强的泛化与推理能力。

尤其值得注意的是，在训练动态分析中，FR3E展现出更持久的探索行为：其熵值衰减更缓慢，响应长度更长，特别是在Qwen2.5-Math-7B这类已微调模型上，成功突破了传统方法中熵值长期处于低位的“僵化”困境，实现了探索能力的再激活。

此外，通过对多次rollout结果的统计监控，团队发现FR3E显著提升了“全正确”轨迹的数量，同时大幅降低了“全错误”轨迹的比例。

这表明，原本仅能部分解出或完全失败的问题，在FR3E的训练机制下，逐步演化为稳定、完整的正确解答路径，真正实现了从“部分成功”到“全面突破”的跃迁。

综上所述，FR3E提出了一种新颖且高效的结构化探索范式，直面LLM在强化学习中“探索不足”的核心瓶颈。

通过“先返回、再探索”的两阶段设计，结合高熵锚点识别与动态优势调制机制，FR3E不仅有效延缓了模型的过早收敛，更显著提升了复杂推理任务中的性能上限。

实验充分验证了FR3E在多个数学推理基准上的优越性，尤其在提升探索多样性、增强长程推理稳定性方面表现突出。

更重要的是，该方法所体现的“结构化反馈 + 自适应调节”思想，具备良好的可扩展性。团队期待FR3E所倡导的探索机制，能够为未来大模型的强化学习训练提供新的范式参考。

论文地址：https://arxiv.org/pdf/2507.07017

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

2025 年 8 月
一	二	三	四	五	六	日
	1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

Post Title

算法框架

第一阶段：First Return

第二阶段：Entropy-Eliciting Explore

实验结果

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定