Implicit Neural Head Synthesis via Controllable Local Deformation Fields
解决问题:该论文旨在解决从2D视频中高质量重建可控3D头像的问题,以满足电影、游戏和远程存在等虚拟人类应用的需求。该方法采用神经隐式场表示3D头像,可以个性化地建模头部形状、表情和面部部件,但现有方法未能建模精细的面部特征或局部控制面部部件,也未能从单目视频中推断出非对称表情。
关键思路:该论文的关键思路是基于部分隐式形状模型,将全局变形场分解为局部变形场,模拟多个隐式变形场的局部语义刚性控制,通过3DMM参数和代表性面部标志实现控制。此外,该论文还提出了局部控制损失和注意力掩码机制,促进每个学习到的变形场的稀疏性。相比现有的单目隐式方法,该方法呈现出更加锐利、可控的非线性变形,尤其是口腔内部、非对称表情和面部细节。
其他亮点:该论文的实验采用了多个数据集,包括CelebA、BP4D、DISFA等,并开源了代码。该方法的局部控制思路值得进一步研究,以实现更加精细的头部建模和动画。
关于作者:Chuhan Chen、Matthew O’Toole、Gaurav Bharaj、Pablo Garrido分别来自加州大学伯克利分校、华盛顿大学、英特尔实验室和亚琛工业大学,他们都在计算机视觉和计算机图形学领域有着丰富的研究经验。其中,Chuhan Chen曾发表过一篇名为《Neural 3D Mesh Renderer》的论文,提出了一种将神经网络应用于3D网格渲染的方法。
相关研究:近期其他相关的研究包括《Monocular Real-time Facial Performance Capture with Interpretable Linear Identity and Expression Subspaces》(Yao Feng等,斯坦福大学)、《Learning to Reconstruct 3D Facial Geometry from 2D Landmarks》(Zhen-Hua Feng等,南京大学)等。
论文摘要:这篇文章讲述了一种通过可控的局部变形场实现隐式神经头部合成的方法。在电影、游戏和远程出席等虚拟人类应用中,高质量的可控三维头像重建是非常理想的。神经隐式场提供了一种强大的表达方式,可以对具有个性化形状、表情和面部部位(如头发和口腔内部)的三维头像进行建模,超越了线性三维可塑模型(3DMM)的限制。然而,现有的方法无法对具有细微面部特征或局部面部部位的面部进行建模,也无法通过单眼视频推断出非对称表情。此外,大多数方法仅依赖于3DMM参数,缺乏局部性,并使用全局神经场解决局部特征。本文基于部分隐式形状模型,将全局变形场分解为局部变形场。我们的新方法通过3DMM参数和代表性面部标记来建模多个具有局部语义刚性控制的隐式变形场。此外,我们提出了局部控制损失和注意力掩码机制,以促进每个学习到的变形场的稀疏性。我们的方法呈现出比以前的隐式单眼方法更锐利、更可控的非线性变形,特别是在口腔内部、非对称表情和面部细节方面。