让AI像人类一样认知真实世界！UCLA谷歌强强联手，长时记忆+3D空间理解超越基线16.5%

不圆
2025-06-04
17:21:02

来源：量子位

3DLLM团队投稿

量子位 | 公众号 QbitAI

想象一下，你在一个陌生的房子里寻找合适的礼物盒包装泰迪熊，需要记住每个房间里的物品特征、位置关系，并根据反馈调整行动。

这一系列过程依赖人类强大的空间-时间长时记忆。

让AI像人类一样认知真实世界！UCLA谷歌强强联手，长时记忆+3D空间理解超越基线16.5%

如何让AI在3D环境中像人类一样思考，一直是具身智能领域的难题。

加州大学洛杉矶分校（UCLA）与谷歌研究院的研究团队带来了最新进展：3DLLM-MEM模型与3DMEM-BENCH基准，让AI首次具备在复杂3D环境中构建、维护和利用长时记忆的能力。

挑战：3D环境中的记忆困境

现有大语言模型（LLMs）在文本理解中表现卓越，但当“进入”动态3D环境时却举步维艰。存在以下问题：

长时记忆断层
在多房间任务中（如跨客厅、卧室、厨房寻找物品），模型难以关联不同时空的观察，常因“遗忘”关键信息导致任务失败。
空间表征缺失
传统模型依赖稀疏或物体中心的表征，无法捕捉3D环境中复杂的几何关系（如家具布局、物体尺寸对比），而这些细节对任务成败至关重要（如判断礼物盒是否“太松”或“太大”）。
时空动态管理
环境变化（如移动家具、使用物品）会导致记忆过时，但现有模型缺乏动态更新机制，难以区分“旧记忆”与“新状态”。

简单地说，模型无法像人类一样形成“认知地图”并灵活调用记忆的核心问题在于缺乏针对3D空间-时间的记忆建模。

突破：3DMEM-BENCH基准与3DLLM-MEM模型

为系统评估具身智能的记忆能力，研究团队构建了3DMEM-BENCH——首个3D长时记忆评估基准。

其核心特点包括：

1.大规模与多样性

包含26,000+轨迹、1,860个具身任务（从简单物品收集到复杂跨房间推理），覆盖182个3D场景（平均每个场景18个房间）。

2.多维度评估

具身任务：要求模型执行跨房间动作链（如“在客厅找到泰迪熊，到卧室试装小盒子，再到厨房试装大盒子，最终返回客厅选择最合适的盒子”）。
时空问答（EQA）：测试空间关系推理（如“任务完成后，站在餐桌前，梳妆台在左侧还是右侧？”）。
场景描述：总结多房间记忆中的共性与差异（如“之前的房间有橱柜和床，当前房间独特之处在于整面墙的衣柜”）。

3.难度分级

任务分为简单（3房间）、中等（5房间）、困难（10房间），并包含“野外挑战”（从未见过的物体或场景），全面考察模型泛化能力。

4.对比现有基准

相较于ALFWorld、Behavior-1K等，3DMEM-BENCH首次聚焦“长时记忆”与“3D空间理解”的结合，填补了领域空白。

针对记忆难题，研究团队提出3DLLM-MEM模型——一款双记忆系统驱动的具身智能体。

其设计灵感源自人类认知结构：

1.双记忆架构

工作记忆（Working Memory）：存储当前观察（如“当前房间的书架上有红色盒子”），容量有限但动态更新。
情景记忆（Episodic Memory）：以密集3D表征存储历史观察与交互（如“厨房的蓝色盒子太大，卧室的绿色盒子太小”），可扩展且包含时空位置信息。

2.记忆融合模块

工作记忆作为“查询”，从情景记忆中选择性提取与任务相关的特征（如“寻找合适礼物盒”时，重点关注曾见过的盒子尺寸、位置），通过注意力机制融合两者，既避免记忆过载，又确保关键信息不被遗漏。

3.动态更新机制

当环境变化（如移动盒子），模型自动更新情景记忆，确保记忆与当前状态一致。

3DLLM-MEM的核心优势在于：通过“选择性记忆检索+时空特征融合”，模型在复杂环境中既能聚焦任务关键信息，又能维持记忆效率。

验证：超越基线16.5%的记忆能力

在3DMEM-BENCH上的实验表明，3DLLM-MEM显著优于现有方法。

1.具身任务成功率

在最具挑战性的“野外困难任务”中，3DLLM-MEM成功率达27.8%，远超基线模型（如“最近记忆”仅5%，“检索增强记忆”仅10.6%）。
在“野外任务”整体成功率上，3DLLM-MEM达32.1%，比最强基线高16.5%。

2.时空推理能力

在EQA任务中，3DLLM-MEM在“空间关系”“跨房间对比”等子任务上准确率超60%，而传统3D-LLM因上下文限制，准确率不足10%。

3.记忆效率

3DLLM-MEM模型通过“动态融合”机制，仅需处理与当前任务相关的记忆片段，计算成本比“全记忆存储”降低，同时保持高推理精度。

典型案例包括：在“准备早餐”任务中，3DLLM-MEM模型先在厨房寻找咖啡机未果，转而利用记忆中“餐厅有茶壶”的信息，调整策略煮茶完成任务，体现了灵活的记忆调用与任务规划能力。

尽管3DLLM-MEM已实现重大突破，研究团队也指出其局限性：目前模型依赖模拟器的高层动作预设，未来需与底层导航和控制结合。

论文连接: https://arxiv.org/abs/2505.22657
项目主页: https://3dllm-mem.github.io

2025 年 6 月
一	二	三	四	五	六	日
	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

让AI像人类一样认知真实世界！UCLA谷歌强强联手，长时记忆+3D空间理解超越基线16.5%

让AI像人类一样认知真实世界！UCLA谷歌强强联手，长时记忆+3D空间理解超越基线16.5%

挑战：3D环境中的记忆困境

突破：3DMEM-BENCH基准与3DLLM-MEM模型

验证：超越基线16.5%的记忆能力

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定