突破Claude-4编程上限!自进化Agent框架拿下新SOTA,已开源

419次阅读
没有评论

突破Claude-4编程上限!自进化Agent框架拿下新SOTA,已开源

中科院、清华大学、阶跃星辰等提出SE-Agent

SE-Agent团队 投稿

量子位 | 公众号 QbitAI

突破多步推理瓶颈,让Claude-3.7-Sonnet解题成功率暴增20.6%。

在SWE-Bench Verified上刷新开源框架SOTA

中科院、清华大学、阶跃星辰等提出SE-Agent,一个创新的自进化(Self-Evolution)框架。

它不再满足于简单地“多想几次”,而是让智能体学会系统性地修订、重组与精炼其整个思考过程,通过多轨迹间的相互启发与对抗,探索更广阔、更多样化的解决方案空间。

随着Claude 4模型的发布,SE-Agent的性能被推向新的高度:在SWE-Bench Verify上,它取得了高达80%的Top-1 Resolution Rate,再次刷新了领域纪录

这充分证明该框架可以随着基础模型升级而不断进步。

突破Claude-4编程上限!自进化Agent框架拿下新SOTA,已开源

核心思想:从“独立尝试”到“集体进化”

大语言模型(LLM)驱动的智能体在处理复杂推理和工具使用方面展现了惊人的潜力,尤其是在软件工程等需要多步骤交互的任务上。然而,现有方法(如蒙特卡洛树搜索 MCTS)常常陷入困境:它们将每次的解决尝试(即“轨迹”)视为独立事件,忽视了不同解决方案路径之间的内在联系,导致思维固化,难以跳出局部最优解。

通俗来说,传统智能体就像一群各自为战的士兵,虽然人数众多,但缺乏协同。SE-Agent则引入了“进化”的视角,将每一次解决问题的完整路径(轨迹)视为一个“物种”,通过三大核心操作,让这些“物种”在一个“生态系统”中迭代进化,优胜劣汰。

突破Claude-4编程上限!自进化Agent框架拿下新SOTA,已开源

SE-Agent的三大进化算子:

1、修订(Revision)-深度自省与定向改进

生成初始多样性:首先,通过多样的规划策略和可控的“突变”,生成一个包含不同解题思路的初始轨迹池,确保进化的起点足够丰富。

反思与修正:随后,智能体对每一条初始轨迹进行“复盘”,分析其优缺点、逻辑断点和潜在的改进空间,然后进行有针对性的修正,消除逻辑不一致和冗余推理,完成个体的自我完善。

2、重组(Recombination)-跨轨迹的“杂交”与学习

这是SE-Agent最具创新性的部分。它不再将轨迹视为孤岛,而是促进它们之间的“知识共享”。

交叉融合(Crossover):识别并提取不同轨迹中的高效片段(例如,一个轨迹擅长定位问题,另一个擅长编写修复代码),然后将这些“优势基因”组合起来,创造出全新的、更强大的混合轨迹。

知识迁移(Transfer Learning):将成功轨迹中的关键策略和洞见,系统性地“嫁接”到其他表现较差的轨迹上,实现“差生”向“优等生”的学习。

3、精炼(Refinement)-多维评估与优化选择

在每一轮进化后,SE-Agent会通过一个多维度评估函数(综合考量任务完成度、推理质量和效率)对所有新旧轨迹进行打分。

精英选择:保留得分最高的“精英”轨迹,同时通过策略性选择确保轨迹的多样性,避免所有方案趋同。这个过程不断迭代,直到找到能够稳健解决问题的最优解。

在最具挑战性的代码基准上实现 SOTA

研究团队以SWE agent作为我们的Baseline,在公认极具挑战性的SWE-bench Verified基准(包含500个真实GitHub问题)上对SE-Agent进行了全面评测。结果显示,SE-Agent在所有测试的LLM上都实现了显著的性能提升。

开源模型表现(Pass@1):

  • DeepSeek-V3:从31.6%提升至54.8%(+73%相对提升)
  • Qwen-2.5-72B:从18.8%提升至38.8%(+106%相对提升)
  • Llama-3.1-70B:从15.4%提升至32.6%(+112%相对提升)

闭源模型表现(Pass@1):

  • GPT-4o:从22.4%提升至40.4%(+80%相对提升)
  • Claude-3.7-Sonnet:从40.6%提升至61.2%(+51%相对提升)
突破Claude-4编程上限!自进化Agent框架拿下新SOTA,已开源

值得注意的是,SE-Agent在Claude-3.7-Sonnet上达到了61.2%的首次尝试成功率,这创造了开源智能体框架在SWE-bench Verified上的最佳性能记录。消融实验进一步证明,修订和重组两大模块对于框架的成功至关重要。

核心优势与技术突破

SE-Agent的成功源于对现有智能体范式的几大核心突破:

1、真正的解决方案多样性:不同于传统方法仅在表面表达上有所不同,SE-Agent通过轨迹级干预,生成本质上不同的解决路径,大幅扩展了候选解决方案空间。

2、跨轨迹协同智能:SE-Agent充分利用轨迹间的丰富相互依赖关系和潜在协同效应,实现了集体智慧的最大化,突破了单一智能体的认知局限。

3、高效进化收敛:相比传统遗传算法,SE-Agent通过结构化的进化机制,能在显著更少的进化周期内实现高质量结果。

4、模型无关的即插即用:SE-Agent作为一个独立的优化模块,可与现有智能体框架无缝集成,在多种 LLM 上都展现出一致的、强大的性能提升。

案例研究:SE-Agent如何跳出思维定势?

在一个scikit-learn的真实Bug修复案例中,传统智能体的问题显露无遗。

突破Claude-4编程上限!自进化Agent框架拿下新SOTA,已开源

传统智能体(上图):所有尝试都紧盯报错信息出现的_validation.py文件,提出的修复方案几乎是“换汤不换药”的重复,始终无法触及问题的根源,导致测试失败。

SE-Agent(下图):通过轨迹的重组与进化,SE-Agent强迫自己探索了完全不同的方向。它跳出了最初报错的文件,成功定位到根源在于multioutput.py文件缺少了一个关键字段的写入。最终,通过一行代码的根本性修复,完美通过了所有测试。

这个案例生动地说明了SE-Agent如何通过在轨迹层面进行演化,有效避免了“隧道视野”,从而发现那些隐藏更深、也更为关键的解决方案。

结论与技术影响

SE-Agent的提出,为提升LLM智能体的复杂推理能力提供了一个全新的、高效的范式。其重要影响在于:

1、开创了轨迹级优化范式:从传统的参数调整转向系统性的推理路径操作,为智能体能力提升提供了新的理论基础。

2、验证了集体智慧机制:证明了通过跨轨迹学习实现智能体群体智慧的有机融合,是突破单一智能体认知瓶颈的有效途径。

3、构建了自进化智能系统:为实现能够持续自我改进的智能体系统铺平了道路。

展望未来,研究团队计划将SE-Agent的自进化思想扩展到更广泛的路径搜索问题中,例如强化学习策略发现、具身智能规划等,为通往更强大、更鲁棒的通用人工智能持续贡献力量。

本论文团队还创立了学术组织QuantaAlpha,成员来自北大、中科院、CMU等,旨在探索智能和引领前沿。我们将在CodeAgent、AgentRL等方向持续产出高质量的研究。主页:https://quantaalpha.github.io

论文标题: SE-Agent: Self-Evolution Trajectory Optimization in Multi-Step Reasoning with LLM-Based Agents
论文链接: https://arxiv.org/pdf/2508.02085
开源代码: https://github.com/JARVIS-Xs/SE-Agent

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 8 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...