“神经-符号”融合规划器性能显著超越o1:借鉴人类运动学习机制

531次阅读
没有评论

“神经-符号”融合规划器性能显著超越o1:借鉴人类运动学习机制

还能自动激活反馈接收

中国科学院磐石研发团队 投稿

量子位 | 公众号 QbitAI

科研er看过来!还在反复尝试材料组合方案,耗时又耗力?

新型“神经-符号”融合规划器直接帮你一键锁定高效又精准的科研智能规划。

不同于当前效率低下、盲目性高的传统智能规划方法,中国科学院磐石研发团队此次提出的混合规划器,同时融合了神经规划系统和符号规划系统的优势。

“神经-符号”融合规划器性能显著超越o1:借鉴人类运动学习机制

借鉴人类的闭环反馈机制,构建双向规划机制,在表达能力、适应能力、泛化能力以及可解释性上都实现了显著提升。

还能只在正向规划器需要时,自动激活反馈接收,在规划覆盖率和规划效率上均显著优于OpenAI o1

目前该智能规划器已加入“磐石·科学基础大模型”,该项目已面向科学领域集成了一系列专用模型。

借鉴人类运动学习的“反馈闭环理念”

基于Knowledge of Result(KR)的闭环系统是人类运动学习的关键部分,可以帮助学习者纠正错误,向着目标方向实现有效学习。

在运动学习中KR是执行运动后的增强信息,表明既定目标是否成功,而闭环系统是以反馈、错误检测和错误纠正为核心的过程。

规划任务中的问题、规划器和动作序列可近似对应于人类运动学习中的试验、学习者和行动序列,规划任务与运动学习有较强的相似性。

“神经-符号”融合规划器性能显著超越o1:借鉴人类运动学习机制

反馈闭环与对应的规划问题

因此,“神经-符号”融合规划器通过借鉴人类运动学习中的反馈闭环理念,构建了一种闭环反馈的双向规划机制——KRCL(Knowledge-of-Results based Closed-Loop),正向神经规划器生成问题的动作序列与反向KR反馈机制构成动态的错误检测-纠正闭环。

通过有效利用信息的双向传递和反馈来评估和调整动作,在规划中研究以KR信息为中心的闭环规划结构,实现准确的反馈以加强错误检测和错误纠正,持续评估和调整规划器的动作,从而促进规划器的有效学习。

神经规划器与符号规划识别器融合

“磐石”研发团队构建了一种神经规划器与符号规划识别器的新型融合模式,实现了神经系统与符号系统之间的双向连接,通过利用两种范式的互补优势,在规划中同时实现的有效学习和推理。

其中,正向的神经规划器反向的符号规划识别器构成KR闭环结构。

“神经-符号”融合规划器性能显著超越o1:借鉴人类运动学习机制

“神经-符号”融合新型规划器架构

在正方向,神经规划器利用其强大的表示和学习能力生成规划问题的动作序列,可提高规划效率和灵活性。

在反方向,动作序列则被输入到符号规划识别器中,推理出最可能的规划目标。

符号规划识别器具备准确、可靠和可解释性等优势,可帮助神经网络训练、学习和推理,进而提高模型的可解释性。

实现正反向闭环的KR增强信息则利用文本相似度方法来量化,通过比较推理目标和真实目标来计算它们的相似度。

KR强信息赋予规划器思考能力并对结果进行校正。闭环反馈过程兼顾有效学习与推理能力,促进规划器纠正错误并能够更精准地指导规划器寻找正确的解决方案。

只在“需要”的时候接收反馈

人类运动学习中,传统的固定KR机制由指导者控制KR信息,限制了学习者的学习动机和获取的反馈信息。

为了解决该问题,提出了自我控制机制,允许学习者决定何时获得KR,这种方式不仅可以增强学习动机,还可以增强信息处理能力,特别是可以提高闭环系统的错误检测和错误纠正能力。

“神经-符号”融合规划器性能显著超越o1:借鉴人类运动学习机制

面向规划问题的自我控制机制

此外,过多的KR增强反馈会使正向规划器依赖于KR,导致短期表现提升,但会影响模型的长远表现和迁移能力。

因此,“磐石”研发团队提出了面向规划问题的自我控制机制,从规划问题的难度和模型表现两方面展开研究。

一方面,评估规划问题的难度,基于规划问题的对象、状态、动作三个重要元素来计算每个问题的难度,当难度超过预定义的阈值时激活反向规划识别器。

另一方面,当正向规划器表现不佳时,反向规划识别器也会被触发。

自我控制机制使得反向规划识别器只在正向规划器“需要”的时候被激活,以优化正向规划器接收反馈的频率,减少规划器对反馈的依赖,进而提高模型的自主性,另外也为规划器提供了更高的学习效率。

它在适当时机选择性地引入KR反馈,避免了固定KR策略中的反馈冗余问题,从而在规划器的学习过程中实现了更快的收敛和更高的覆盖率。

规划覆盖率和规划效率显著领先

研发团队在国际IPC(International Planning Competition)竞赛的8个代表性规划任务上系统性地评估了KRCL的性能。

“神经-符号”融合规划器性能显著超越o1:借鉴人类运动学习机制

8个代表性规划任务上的系统评估

结果显示KRCL的平均覆盖率显著优于其他对比规划器,证明了所提出的基于神经-符号融合的双向规划器可以指导规划器寻找正确的解决方案,精准有效地解决规划任务。

此外,团队还在PlanBench(用于评估大语言模型规划性能的基准数据集)上对KRCL与大型语言模型OpenAI o1在规划任务中的性能进行了对比。

“神经-符号”融合规划器性能显著超越o1:借鉴人类运动学习机制

PlanBench上的性能对比

实验结果表明, KRCL在规划覆盖率和规划效率方面均显著优于OpenAI o1,进一步验证了该方法在规划任务中的优势。

KRCL通过神经和符号系统优势互补,能够有效提升规划性能,并利用其强大的闭环反馈机制、精准的推理校正能力以及高效的自主规划特性,可为各类科学研究任务提供更可靠、更智能的规划工具。

论文链接:
https://www.sciencedirect.com/science/article/abs/pii/S095070512501086X?via%3Dihub

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 8 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...