A Picture is Worth a Thousand Words: Principled Recaptioning Improves Image Generation
E Segalis, D Valevski, D Lumen, Y Matias, Y Leviathan
[Google Research]
一图胜千言:用原则性再描述改善图像生成
要点:
- 提出一种称为RECAP的方法,通过使用改进的图像描述来训练文本到图像模型以改进模型。
- 观察到像LAION这样用于训练模型的数据集中的替代文本描述质量较低,缺乏细节。
- 在详细的人工描述上微调图像描述生成模型,并用它来生成更好的训练描述。
- 在RECAP描述上训练Stable Diffusion可以大幅提高图像质量和语义保真度指标。
- 分析表明,RECAP描述减少了训练集测试集的偏差,并为每个图像提供了更多信息。
- 定性示例展示了RECAP在解释提示中的关系和修饰词方面的改进能力。
动机:当前的文本到图像生成模型在理解和准确地遵循文本提示方面存在困难,主要是因为训练数据集中的图像描述质量较低,无法充分传达图像的语义细节。
方法:通过使用自动图像到文本模型重新生成高质量的图像标题,并将其用于训练文本到图像模型,从而改进模型在图像生成质量和语义对齐方面的性能。
优势:改进后的模型在图像质量和语义对齐方面都有显著提升,包括图像质量指标、人工评估等多个方面。
一句话总结:
通过重新生成高质量的图像描述来改进文本到图像生成模型的性能,提高图像质量和语义对齐能力。
https://arxiv.org/abs/2310.16656
正文完
可以使用微信扫码关注公众号(ID:xzluomor)