推荐理由:一个名为HIVE的新框架,它可以通过人的反馈来进行指导性的图像编辑。框架将人类的反馈(被量化为奖励值)整合到扩散模型的微调过程中。设计了该方法的两个变体,它们都比以前最先进的指导性图像编辑方法提高了性能。工作表明,带有人类反馈的指导性图像编辑是一种使图像生成与人类偏好相一致的可变方法,从而为扩大模型能力以实现更强大的应用(如对话式图像编辑)释放了新的机会和潜力。
HIVE: Harnessing Human Feedback for Instructional Visual Editing
Shu Zhang, Xinyi Yang, Yihao Feng, Can Qin, Chia-Chih Chen, Ning Yu, Zeyuan Chen, Huan Wang, Silvio Savarese, Stefano Ermon, Caiming Xiong, Ran Xu
[Salesforce AI Research & Stanford University & Northeastern University]
纳入人类反馈已被证明是使大型语言模型生成的文本与人类偏好相一致的关键。本文假设,最先进的指导性图像编辑模型,即根据输入图像和编辑指令生成的输出,同样可以从人类反馈中受益,因为它们的输出可能不符合用户的正确指令和偏好。
在本文中,提出了一个新的框架,以利用人类的反馈来进行教学视觉编辑(HIVE)。具体来说,收集人类对编辑过的图像的反馈,并学习一个奖励函数来捕捉潜在的用户偏好。然后,引入了可扩展的扩散模型微调方法,该方法可以根据估计的奖励纳入人类的偏好。此外,为了减轻数据限制带来的偏差,贡献了一个新的1M训练数据集,一个用于奖励学习的3.6K奖励数据集,以及一个1K评估数据集,以提高指导性图像编辑的性能。
从数量和质量上进行了广泛的实证实验,表明HIVE比以前最先进的教学图像编辑方法要好得多。
https://arxiv.org/pdf/2303.09618.pdf