斯坦福&谷歌等｜面向机器人操纵的物理接地视觉语言模型

Physically Grounded Vision-Language Models for Robotic Manipulation

J Gao, B Sarkar, F Xia, T Xiao, J Wu, B Ichter, A Majumdar, D Sadigh
[Stanford University & Google DeepMind & Princeton University]

面向机器人操纵的物理接地视觉语言模型

现有的视觉语言模型在对日常物品进行物理推理方面的能力非常有限，这限制了它们在机器人操纵任务中的应用。
提出PhysObjects数据集，包含36.9万个众包标注和417万个自动标注的家用物品图像及其物理概念标注，概念包括质量、脆性、可变形性、材质等。
在PhysObjects数据集上微调视觉语言模型可以显著提高其在未见数据上的物理推理能力。
将微调过的具有物理知识的视觉语言模型和大型语言模型规划器结合，可以提高实际场景中的物理推理规划任务的性能。
在实际机器人上使用微调过的视觉语言模型也可以提高任务成功率。
本文工作证明了使用人工标注数据来提高视觉语言模型对物品物理特性的理解，可以显著地提升机器人规划和操作的能力。

动机：针对当前视觉-语言模型(VLM)在物理世界推理方面的限制，尤其是对常见物体的物理概念(如材料、脆性)的理解不足，这限制了它们在涉及与这些对象的交互和物理推理的机器人操作任务中的实用性。因此，研究者提出PhysObjects，这是一个包含36.9K众包和417K自动化物理概念标注的常见家居物品的物体为中心的数据集，以解决这一限制。

斯坦福&谷歌等｜面向机器人操纵的物理接地视觉语言模型

方法：本论文的方法包括使用PhysObjects数据集来对VLM进行微调，从而提高其对物理物体概念的理解，以捕捉这些概念的视觉外观方面的人类先验知识。此外，研究者还将这个物理基础的VLM与基于大型语言模型的机器人规划器相结合，以改进需要推理物理物体概念的任务的规划性能。

优势：通过使用PhysObjects数据集来提高视觉-语言模型的物理推理能力，从而增强了机器人操作任务的规划性能。研究者还展示了在真实机器人上使用物理接地VLM的好处，提高了任务成功率。此外，该方法的通用性和灵活性消除了在物理推理中使用单独的任务特定视觉模型的需要，使其成为为机器人规划赋予物理推理的自然解决方案。

提出PhysObjects数据集，通过微调视觉-语言模型，显著提高了对物理物体概念的理解，进而改进了机器人规划性能，为扩展VLM在机器人领域的应用性取得了进展。

https://iliad.stanford.edu/pg-vlm/

https://arxiv.org/abs/2309.02561

斯坦福&谷歌等｜面向机器人操纵的物理接地视觉语言模型

2023 年 9 月
一	二	三	四	五	六	日
	1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

斯坦福&谷歌等｜面向机器人操纵的物理接地视觉语言模型

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

刚开年，马斯克就到账了200亿美金！

B站开启AI创作大赛，首次开放《三体》改编权，奖金总计超300万

卓世科技，股改完成！

悲报！Stack Overflow彻底凉了，比18年前上线首月问题数量还少

老黄All in物理AI！最新GPU性能5倍提升，还砸掉了智驾门槛

文心AIGC

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

刚开年，马斯克就到账了200亿美金！

B站开启AI创作大赛，首次开放《三体》改编权，奖金总计超300万

卓世科技，股改完成！

悲报！Stack Overflow彻底凉了，比18年前上线首月问题数量还少

老黄All in物理AI！最新GPU性能5倍提升，还砸掉了智驾门槛