谷歌提出利用文本-图像扩散模型实现零微调图像定制的驯化编码器

697次阅读
没有评论

本文提出了一个问题,即每对象优化的主导方法是否对个性化图像合成至关重要,并提出了该问题的解决方案。我们介绍了一个使用编码器来捕捉对象概念的通用框架,这样就可以绕过测试时间优化。然后,我们研究框架中的独特挑战。特别地,我们提出了一种正则化的联合训练方案,以在不影响编辑能力的情况下保持对象身份。我们进一步提出了一种自适应方案,以提供多样化的文本字幕,从而实现更好的个性化。我们的框架能够使用用户提供的文本合成同一对象的图像,在一次前馈过程中只使用一个图像,在质量和效率上都优于现有的工作。我们相信,这项工作中的发现和见解将激励未来的工作,以提高个性化图像合成方法的有效性和适用性。

标题:Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Diffusion Models

作者:Xuhui Jia, Yang Zhao, Kelvin C. K. Chan, Yandong Li, Han Zhang, Boqing Gong, Tingbo Hou, Huisheng Wang, Yu-Chuan Su

[google]

本文提出了一种生成由用户指定的定制对象图像的方法。该方法基于一个通用的框架,绕过了以前的方法所需要的冗长的优化,这些方法通常采用每个对象的优化范式。我们的框架采用了一个编码器来捕捉物体的高级可识别语义,只需一个前馈通道就能产生一个特定物体的嵌入。然后,获得的对象嵌入被传递给文本到图像合成模型,用于后续生成。为了在相同的生成环境下有效地将对象意识到的嵌入空间融合到发达的文本到图像模型中,我们研究了不同的网络设计和训练策略,并提出了一个简单而有效的带有对象身份保留损失的正则化联合训练方案。此外,我们提出了一个标题生成方案,该方案成为促进对象特定嵌入忠实地反映在生成过程中的关键部分,同时保持控制和编辑能力。一旦经过训练,该网络能够产生不同的内容和风格,以文本和对象为条件。我们通过实验证明,我们提出的方法能够合成具有令人信服的输出质量、外观多样性和对象保真度的图像,而不需要进行测试时间的优化。我们还进行了系统的研究来分析我们的模型,为未来的工作提供见解。

https://arxiv.org/pdf/2304.02642.pdf

谷歌提出利用文本-图像扩散模型实现零微调图像定制的驯化编码器

谷歌提出利用文本-图像扩散模型实现零微调图像定制的驯化编码器

谷歌提出利用文本-图像扩散模型实现零微调图像定制的驯化编码器

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy