TextDeformer:使用文本指导进行几何变形

883次阅读
没有评论

TextDeformer: Geometry Manipulation using Text Guidance

解决问题:该论文旨在通过文本指导自动产生输入三角形网格的变形。这是否是一个新问题?是的,这是一个新问题。

关键思路:该论文的关键思路是利用不同iable rendering将几何形状与预训练的图像编码器(如CLIP和DINO)相连,通过Jacobian更新网格变形,从而实现大规模低频形状变化和小规模高频细节变化。相比当前领域的研究状况,该论文的思路在使用Jacobian表示网格变形方面具有新意。

其他亮点:该论文的实验设计使用了不同的数据集,并且使用的是开源代码。此外,该方法可以平滑地变形各种来源的网格和目标文本提示,实现了对动物体型等的大幅修改,以及对军靴鞋带和面部细节等的细节增强。这个方法值得进一步深入研究。

关于作者:主要作者William Gao,Noam Aigerman,Thibault Groueix,Vladimir G. Kim和Rana Hanocka都在斯坦福大学工作。他们之前的代表作包括:《MeshCNN: A Network with an Edge》、《3D Object Proposals for Accurate Object Class Detection》、《Learning to Generate 3D Meshes with Neural Networks》等。

相关研究:近期其他相关的研究包括:《Text2Shape: Generating Shapes from Natural Language by Learning Joint Embeddings》、作者为Zhiqin Chen等;《Text2Scene: Generating Compositional Scenes from Textual Descriptions》、作者为Yikang Li等;《Neural Text-to-Image Synthesis with Spatially-Adaptive Normalization》、作者为Ting-Chun Wang等。这些论文的作者来自不同的机构,包括斯坦福大学、加州大学伯克利分校、华盛顿大学等。

论文摘要:本文介绍了一种技术,可以自动地通过文本提示来产生输入三角网格的变形。我们的框架能够产生既包括大范围低频形状变化,也包括小范围高频细节的变形。我们的框架依赖于可微渲染技术,将几何形状与强大的预训练图像编码器(如CLIP和DINO)相连接。值得注意的是,通过可微渲染采取梯度步骤来更新网格几何形状是非常具有挑战性的,通常会导致出现具有显著伪影的变形网格。这些困难会被CLIP的嘈杂和不一致的梯度放大。为了克服这个限制,我们选择通过雅可比矩阵来表示网格变形,这种方法可以以全局、平滑的方式更新变形(而不是局部的次优步骤)。我们的关键观察是,雅可比矩阵是一种偏向于平滑、大变形的表示方法,可以在顶点和像素之间建立全局关系,避免局部的嘈杂梯度。此外,为了确保所得到的形状在所有三维视角下都是连贯的,我们鼓励从所有视角计算的二维渲染编码的深度特征对于给定顶点是一致的。我们证明了我们的方法能够平滑地变形各种来源网格和目标文本提示,实现对动物身体比例等方面的大幅修改,以及对军靴鞋带和面部细节等方面的精细语义细节的添加。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy