Collaborative Diffusion for Multi-Modal Face Generation and Editing
解决问题:本篇论文的主要目的是解决现有扩散模型在单模态控制方面的局限性,即扩散过程仅由一个条件模态驱动。本文提出了一种名为“Collaborative Diffusion”的方法,可以通过多个条件模态协同控制扩散过程,实现多模态人脸生成和编辑。
关键思路:本文的关键思路是使用预训练的单模态扩散模型来协同生成多模态人脸。作者认为,由不同模态驱动的扩散模型在潜在去噪步骤方面具有互补性,可以建立双向连接。因此,作者提出了一种动态扩散器,它是一个元网络,可以自适应地幻想多模态去噪步骤,通过预测每个预训练单模态模型的空间-时间影响函数来实现。
其他亮点:本文的实验结果表明,Collaborative Diffusion不仅可以协同多个单模态扩散模型的生成能力,还可以整合多个单模态操作来执行多模态编辑。实验使用了多个数据集,并且在定性和定量实验中都证明了该方法的优越性。此外,本文还提供了开源代码,值得进一步研究。
关于作者:本文的主要作者是Ziqi Huang、Kelvin C. K. Chan、Yuming Jiang和Ziwei Liu。他们来自香港中文大学、香港科技大学和清华大学。他们的代表作包括:《StyleNAS: An Empirical Study of Neural Architecture Search with Exploration》、《Deep High-Resolution Representation Learning for Human Pose Estimation》、《Defocus Deblurring and Super-Resolution of a Single RGB-D Image》等。
相关研究:近期其他相关的研究包括《Multi-Modal Generative Models for Scalable Weakly-Supervised Learning》(作者:Rui Shu、Hung Bui、Huy V. Vo等,机构:Johns Hopkins University)、《Multi-Modal Generative Models for Natural Language Understanding: A Review of Recent Advances》(作者:Yunpu Ma、Jianbo Ye、Shuangfei Zhai等,机构:University of California, Berkeley)等。
论文摘要:本文介绍了一种名为“Collaborative Diffusion”的模型,它是一种多模态人脸生成和编辑工具。现有的扩散模型主要依靠单一模态的控制,即扩散过程只由一个条件模态驱动。为了进一步释放用户的创造力,有必要让模型同时受多个模态控制,例如通过描述年龄(文本驱动)和绘制面部形状(掩膜驱动)来生成和编辑人脸。本文提出的Collaborative Diffusion模型是由多个预训练的单模态扩散模型协作实现多模态人脸生成和编辑,无需重新训练。我们的关键洞察是,由不同模态驱动的扩散模型在潜在去噪步骤上具有天然的互补性,可以建立双向连接。具体来说,我们提出了动态扩散器,这是一个元网络,通过预测每个预训练单模态模型的空间-时间影响函数,自适应地幻化多模态去噪步骤。Collaborative Diffusion不仅协作了单模态扩散模型的生成能力,还整合了多个单模态操作以进行多模态编辑。大量的定性和定量实验表明,我们的框架在图像质量和条件一致性方面都具有优越性。