性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

959次阅读
没有评论

性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

展现了通往更高级通用智能的清晰路径

招商局狮子山人工智能实验室 投稿

量子位 | 公众号 QbitAI

大模型可以不再依赖人类调教,真正“自学成才”啦?

新研究仅通过RLVR(可验证奖励的强化学习),成功让模型自主进化出通用的探索、验证与记忆能力,让模型学会“自学”!

性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

当前主流的LLM Agent依然高度依赖于提示词工程、复杂的系统编排、甚至静态规则表,这使得它们在面对复杂任务时难以实现真正的智能行为演化。

而来自招商局狮子山人工智能实验室的研究团队认为,RLVR范式是智能体(Agent)通往更高通用性和自主性的重要突破口。

于是,他们从两个关键层面出发构建了端到端Agent训练pipeline——L0系统

  • 智能体架构层面
  • 提出了结构化智能体框架——NB-Agent,在经典”代码即行动”(Code-as-Action)架构基础上进行扩展,使智能体能够操作记忆/上下文,从而获得类人类的记忆存储、信息总结与自我反思能力。
  • 学习范式层面
  • 探索了一个核心问题:是否可以仅通过RLVR范式,引导智能体从零开始,学会如何规划、搜索、验证与记忆,最终解决复杂的多轮推理任务?

L0系统的框架、模型及训练集已全部开源,详细可见文末链接。

结构化智能体框架:Notebook Agent(NB-Agent)

性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

△NB-Agent的“Think-Code-Observe”循环

受到“代码即行动”的启发,NB-Agent选择使用代码作为通用的动作空间,并且遵循“读取-求值-输出”循环(Read-Eval-Print-Loop,REPL)的方式来和Jupyter Kernel交互。

每一步都是“Think-Code-Observe”:

  • Think:模型生成推理逻辑;
  • Code:将推理转化为Python代码;
  • Observe:执行代码并观察输出结果,反馈进入下一轮思考。

在这个过程中,长文本处理是智能体驱动模型(Agentic model)面临的核心挑战。

为此,研究团队提出一个创新方案:将模型的上下文窗口(context)与一个Python运行时的变量进行双向绑定。

这赋予了智能体主动管理自身记忆的能力,不再被动受限于上下文长度。

具体来说,研究团队提供了一个Notepad Python类作为结构化的外部记忆模块。智能体可以通过代码指令,将关键信息、推理步骤或中间结果写入Notepad。

这些信息会持久存在,并映射到上下文中一个稳定区域,确保在长程任务中不被遗忘。

同时,REPL的交互模式,使智能体能像程序员一样,将复杂信息存入变量、随时取用,从而彻底突破上下文的枷锁。

训练流程:端到端强化学习

性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

△L0的multi-turn训练过程

L0采用端到端强化学习进行智能体训练:

  • 重新定义动作粒度
  • 一个动作不再是一个token,而是一个完整的“思考+代码段”;
  • 提出Agentic Policy Gradient算法
  • 适应序列级动作定义,将策略梯度从单token级扩展到完整动作序列级;
  • 构建多维度自动奖励函数
  • 包括最终答案正确性、代码执行情况、输出结构规范性等;
  • 分布式训练架构
  • 采用轻量级沙箱隔离(Bubblewrap),支持高并发、低部署门槛的大规模RL训练。

测试:L0显著提升了模型在多个基准测试上的性能

在多个经典的开放领域问答数据集对L0系统进行测试,见证了智能体的惊人进化。

性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

以Qwen2.5-7B这个基础模型为例:

L0-Scaffold(仅有架构,未经过RL训练)下,它就像一个刚拿到Notebook的新手,在HotpotQA上得分22%

经过L0-RL(强化学习训练)后,它学会了如何高效搜索、验证信息、剔除冗余步骤,最终在同一任务上得分飙升至41%(提升84%)

在SimpleQA数据集上,L0-RL带来的提升更加显著:EM(精确匹配)得分从30%暴涨到80%(提升166%)

性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

L0在与其他工作的比较中也获得了具有竞争力的性能,在平均表现上明显优于Search-R1和ZeroSearch。

这表明L0框架为强化学习提供了更丰富和更具表现力的环境:其他方法训练智能体学习何时调用单个工具(例如搜索引擎),而L0框架训练智能体成为一个程序化的问题解决者,学习如何在结构化环境中组合动作、管理状态和进行推理。

这意味着什么?

在真实搜索之外,模型自己“学会”的搜索、规划和记忆行为,比直接调用API的规则式Agent更稳定、更泛化、也更强大!

它不再是生硬地调用工具,而是真正理解了怎么利用代码和这个世界交互,展现了通往更高级通用智能的清晰路径。

论文:https://github.com/cmriat/l0/tree/main/papers/l0.pdf
NB-Agent框架、训练pipeline和所有训练recipe:https://github.com/cmriat/l0
模型checkpoint:https://huggingface.co/cmriat/models
20K训练数据集:https://huggingface.co/cmriat/datasets
用checkpoint执行深度搜索任务的示例:https://github.com/cmriat/l0/blob/main/examples/nb_agent/deep_searcher_case.md

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 7 月
 123456
78910111213
14151617181920
21222324252627
28293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...