斯坦福&谷歌等|面向机器人操纵的物理接地视觉语言模型

1,360次阅读
没有评论

Physically Grounded Vision-Language Models for Robotic Manipulation

J Gao, B Sarkar, F Xia, T Xiao, J Wu, B Ichter, A Majumdar, D Sadigh
[Stanford University & Google DeepMind & Princeton University]

面向机器人操纵的物理接地视觉语言模型

  • 现有的视觉语言模型在对日常物品进行物理推理方面的能力非常有限,这限制了它们在机器人操纵任务中的应用。

  • 提出PhysObjects数据集,包含36.9万个众包标注和417万个自动标注的家用物品图像及其物理概念标注,概念包括质量、脆性、可变形性、材质等。

  • 在PhysObjects数据集上微调视觉语言模型可以显著提高其在未见数据上的物理推理能力。

  • 将微调过的具有物理知识的视觉语言模型和大型语言模型规划器结合,可以提高实际场景中的物理推理规划任务的性能。

  • 在实际机器人上使用微调过的视觉语言模型也可以提高任务成功率。

  • 本文工作证明了使用人工标注数据来提高视觉语言模型对物品物理特性的理解,可以显著地提升机器人规划和操作的能力。

动机:针对当前视觉-语言模型(VLM)在物理世界推理方面的限制,尤其是对常见物体的物理概念(如材料、脆性)的理解不足,这限制了它们在涉及与这些对象的交互和物理推理的机器人操作任务中的实用性。因此,研究者提出PhysObjects,这是一个包含36.9K众包和417K自动化物理概念标注的常见家居物品的物体为中心的数据集,以解决这一限制。

斯坦福&谷歌等|面向机器人操纵的物理接地视觉语言模型

方法:本论文的方法包括使用PhysObjects数据集来对VLM进行微调,从而提高其对物理物体概念的理解,以捕捉这些概念的视觉外观方面的人类先验知识。此外,研究者还将这个物理基础的VLM与基于大型语言模型的机器人规划器相结合,以改进需要推理物理物体概念的任务的规划性能。

优势:通过使用PhysObjects数据集来提高视觉-语言模型的物理推理能力,从而增强了机器人操作任务的规划性能。研究者还展示了在真实机器人上使用物理接地VLM的好处,提高了任务成功率。此外,该方法的通用性和灵活性消除了在物理推理中使用单独的任务特定视觉模型的需要,使其成为为机器人规划赋予物理推理的自然解决方案。

提出PhysObjects数据集,通过微调视觉-语言模型,显著提高了对物理物体概念的理解,进而改进了机器人规划性能,为扩展VLM在机器人领域的应用性取得了进展。

https://iliad.stanford.edu/pg-vlm/ 

https://arxiv.org/abs/2309.02561 

斯坦福&谷歌等|面向机器人操纵的物理接地视觉语言模型
斯坦福&谷歌等|面向机器人操纵的物理接地视觉语言模型

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 9 月
 123
45678910
11121314151617
18192021222324
252627282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了

企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了

企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了 衡宇 2025-12-16 20:10:53 来...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026 克雷西 2025-...
顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式

顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式

顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式 思邈 2025-12-16 10:24:0...
PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026

PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026

PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026 梦瑶 2025-12...
Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控

Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控

Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控 量子位的朋友们 2025-12-16...
推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码 henry 2025-12-16 15:03:31 ...