牛津大学:通过交叉注意力引导实现不需要训练的布局生成模型

734次阅读
没有评论

牛津大学:通过交叉注意力引导实现不需要训练的布局生成模型

最近基于扩散的生成器一般可以基于文本提示生成高质量的图像。然而,它们不能正确解释指定构图空间布局的指令。本文提出了一种简单的方法,可以在不需要对图像生成器进行训练或微调的情况下实现稳健的布局控制。本文称之为布局引导技术,它通过操纵模型用于交互文本和视觉信息的交叉注意力层,根据用户指定的布局方向引导重建。为了确定如何最好地引导注意力,本文研究了在生成图像时不同注意力图的作用,并尝试了两种备选策略,即前向和反向引导。本文通过多个实验对本文的方法进行定量和定性评估,验证了其有效性。本文进一步展示了布局引导技术的多种用途,例如将其扩展到编辑给定实际图像的布局和上下文。

总结:

本文提出了一种基于交叉注意力引导的无需训练的布局控制方法。该方法包含两个阶段:空间抽象阶段和位置校正阶段。在空间抽象阶段,算法使用交叉注意力模块来对目标布局进行抽象,将目标布局转换为类似于向量的表示。在位置校正阶段,算法利用这些抽象表示并结合简单的位置偏差差异来校正中间过程中的错误。实验结果表明该方法在多个数据集和任务中都能有效地优化布局控制,与其他方法相比具有更好的性能和速度。

标题:Training-Free Layout Control with Cross-Attention Guidance

作者:Minghao Chen, Iro Laina, Andrea Vedaldi

项目:https://silent-chen.github.io/layout-guidance/

牛津大学:通过交叉注意力引导实现不需要训练的布局生成模型

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy