GlyphDraw: Learning to Draw Chinese Characters in Image Synthesis Models Coherently
Jian Ma, Mingjun Zhao, Chen Chen, Ruichen Wang, Di Niu, Haonan Lu, Xiaodong Lin
[OPPO Research Institute & University of Alberta & Rutgers Universi]
- 最近在语言引导的图像生成领域的突破取得了令人印象深刻的成就,能够根据用户的指令创建高质量和多样化的图像。尽管合成性能令人着迷,但目前图像生成模型的一个重要局限性是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样复杂的字形结构。
- 为了解决这个问题,我们引入了GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型以生成嵌入连贯文字的图像的能力。据我们所知,这是图像合成领域中第一个解决汉字生成的工作。
- 我们首先采用OCR技术,收集带有汉字的图像作为训练样本,并提取文字和位置作为辅助信息。我们首先复杂地设计了图像-文本数据集的构建策略,然后在基于扩散的图像生成器上专门建立了我们的模型,并仔细修改网络结构,使模型能够在字形和位置信息的帮助下学习绘制汉字。此外,我们通过使用各种训练技术来防止灾难性的遗忘,从而保持了模型的开放域图像合成能力。
- 广泛的定性和定量实验表明,我们的方法不仅能产生准确的汉字作为提示,而且还能将生成的文字自然地融合到背景中。
https://arxiv.org/pdf/2303.17870.pdf
正文完
可以使用微信扫码关注公众号(ID:xzluomor)