高保真度和自由可控的说话人头视频生成

827次阅读
没有评论

High-Fidelity and Freely Controllable Talking Head Video Generation

解决问题:本文旨在解决目前生成对话头视频时存在的几个挑战,包括面部变形、动作信息不明确、视频抖动等问题,以实现高保真和自由控制的效果。

关键思路:本文提出了一种新的模型,结合自监督学习和3D面部模型的关键点来模拟运动,引入了一种新的运动感知多尺度特征对齐模块,以实现无失真的运动传输。此外,通过特征上下文适应和传播模块,增强了合成对话头视频的平滑性。

其他亮点:本文通过实验验证了该模型的卓越性能,并在网站https://yuegao.me/PECHead上提供了更多信息。此外,该论文还提供了开源代码和使用的数据集。

关于作者:本文的主要作者是Yue Gao、Yuan Zhou、Jinglu Wang、Xiao Li、Xiang Ming和Yan Lu。他们来自中国的不同机构,包括清华大学和北京大学。以前,Yue Gao曾在几篇人工智能论文中发表过关于图像处理和计算机视觉的研究,其中包括“Deep Joint Task Learning for Generic Object Extraction”和“Semi-Supervised Learning with Generative Adversarial Networks”。

相关研究:近期的相关研究包括“High-Resolution Talking Face Generation via Hierarchical Adversarial Networks”(Zhou et al.,2020)和“Talking Head Anime from a Single Image”(Lin et al.,2020)。 Zhou et al.的论文提出了一种基于分层对抗网络的高分辨率对话头视频生成方法,而Lin et al.的论文则提出了一种基于单个图像的动漫对话头视频生成方法。

论文摘要:本文介绍了一种新型的生成对话头视频的模型,该模型可以在保证高保真度的同时,自由地控制视频中人物的头部姿态和表情。目前的方法存在一些挑战,限制了生成视频的质量和可控性。首先,生成的面部形变和严重失真。其次,驱动图像没有明确地分离出与运动相关的信息,如姿势和表情,这限制了在生成过程中对不同属性的操作。第三,由于提取的关键点在相邻帧之间不一致,生成的视频往往会出现闪烁的伪影。本文提出了一种新型模型,利用自监督学习的关键点和基于3D面部模型的关键点来模拟运动,同时引入了一种新颖的运动感知多尺度特征对齐模块,可以有效地传输运动而不会出现面部畸变。此外,还通过特征上下文适应和传播模块增强了合成对话头视频的平滑性。作者在具有挑战性的数据集上评估了模型,并展示了其最先进的性能。更多信息可在https://yuegao.me/PECHead上获取。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy