场景理解的分解神经表示法

643次阅读
没有评论

Factored Neural Representation for Scene Understanding

解决问题:本文旨在解决场景理解中的一个长期目标,即获得可解释和可编辑的表示形式,该表示形式可以直接从原始单目RGB-D视频中构建,而不需要专门的硬件设置或先验知识。该论文的目标是在多个移动和/或变形物体存在的情况下实现这一目标。

关键思路:本文提出了一种分解的神经场景表示法,可以直接从单目RGB-D视频中学习,以生成具有显式编码对象运动(例如刚性轨迹)和/或变形(例如非刚性运动)的对象级神经表示。相比当前领域的研究状况,该论文的创新点在于使用了神经隐式表示和辐射场,并且可以进行端到端优化,以共同捕捉几何、外观和物体运动。

其他亮点:本文的实验结果表明,该表示方法是高效、可解释和可编辑的,并且可以用于改变对象轨迹。作者提供了一个项目网页,其中包括实验数据和代码。

关于作者:本文的主要作者是Yu-Shiang Wong和Niloy J. Mitra。Yu-Shiang Wong是新加坡国立大学的博士研究生,他在计算机图形学和计算机视觉方面有多年的研究经验。Niloy J. Mitra是伦敦帝国学院计算机科学系的教授,他的研究兴趣包括计算机图形学、计算机视觉和计算机辅助设计。他们之前的代表作包括:“Learning to Reconstruct 3D Manhattan Wireframes from a Single Image”和“Unsupervised Discovery of Parts, Structure, and Dynamics”。

相关研究:近期其他相关的研究包括:“NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”(Mildenhall等人,UC Berkeley)和“GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis”(Lombardi等人,Facebook AI Research)。

论文摘要:这篇论文的一个长期目标是获得可解释且可编辑的表示形式,这些表示形式可以直接从原始单目RGB-D视频中构建,无需特殊的硬件设置或先验知识。在存在多个移动和/或变形对象的情况下,这个问题变得更加具有挑战性。传统方法采用一些简化方法、场景先验、预训练模板或已知变形模型来解决这个问题。神经表示法的出现,特别是神经隐式表示法和辐射场,开启了通过端到端优化来共同捕捉几何、外观和物体运动的可能性。然而,目前的方法产生全局场景编码,假设多视角捕捉并且场景中的运动受到限制或没有运动,而且不能方便地进行新视角合成之外的易于操作。在这项工作中,我们介绍了一种分解的神经场景表示法,可以直接从单目RGB-D视频中学习,以产生具有显式编码物体运动(例如刚性轨迹)和/或变形(例如非刚性运动)的对象级神经表示。我们在合成和真实数据上对我们的方法进行了评估,以证明该表示方法高效、可解释且可编辑(例如更改物体轨迹)。该项目网页可在以下链接中访问:$href{https://yushiangw.github.io/factorednerf/}{text{link}}$。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy