UCLA & MIT | 从多视图图像中进行三维概念的学习和推理

706次阅读
没有评论

在本文中,介绍了从多视角图像进行三维推理的新任务。通过放置主动探索室内环境的具身机器人,文章收集了一个名为3DMV-VQA的大规模基准。另外还提出了一个新的3D-CLR模型,该模型结合了神经场、二维VLM以及推理算子来完成这项任务,并说明其有效性。最后,进行了深入分析,以了解这个数据集的挑战,并指出了潜在的未来方向。未来希望3DMV-VQA能够用来推动三维推理的前沿发展。

3D Concept Learning and Reasoning from Multi-View Images

Yining Hong, Chunru Lin, Yilun Du, Zhenfang Chen, Joshua B. Tenenbaum, Chuang Gan

[UCL & Shanghai Jiaotong University & MIT CSAIL & UMass Amherst & MIT-IBM Watson AI Lab ]

  1. 人类通过收集周围世界的多视角观察,能够准确地进行三维推理。受此启发,论文为3D多视角视觉问题回答(3DMV-VQA)引入了一个新的大规模基准。
  2. 这个数据集是由一个在环境中积极移动和捕捉RGB图像的具身代理使用Habitat模拟器收集的。总的来说,它包括大约5k个场景,60万张图片,与5万个问题配对在一起。在其基准上评估了各种最先进的视觉推理模型,发现它们的表现都很差。
  3. 论文建议,从多视角图像中进行三维推理的原则性方法应该是从多视角图像中推断出世界的紧凑三维表征,该表征进一步建立在开放词汇的语义概念基础上,然后在这些三维表征上执行推理。作为实现这一方法的第一步,提出了一个新颖的三维概念学习和推理(3D-CLR)框架,该框架通过神经场、二维预训练的视觉语言模型和神经推理运算符将这些组件无缝结合起来。
  4. 实验结果表明,我们的框架在很大程度上优于基线模型,但这一挑战在很大程度上仍未解决。我们进一步对挑战进行了深入分析,并强调了潜在的未来方向。

https://arxiv.org/pdf/2303.11327.pdf

UCLA & MIT | 从多视图图像中进行三维概念的学习和推理

UCLA & MIT | 从多视图图像中进行三维概念的学习和推理

UCLA & MIT | 从多视图图像中进行三维概念的学习和推理

 

 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy