Scene Style Text Editing
解决问题:本文提出了一项名为“场景风格文本编辑”的任务,旨在在保留原始文本场景的同时更改源图像的文本内容和文本风格。现有方法忽略了对前景文本风格的细粒度调整,如旋转角度、颜色和字体类型等。本文旨在解决这个问题。
关键思路:为了解决这个问题,本文提出了一个名为“QuadNet”的四元框架,用于在潜在特征空间中嵌入和调整前景文本样式。具体而言,QuadNet由四个部分组成,分别是背景修复、样式编码器、内容编码器和融合生成器。背景修复用于擦除源文本内容并恢复逼真的背景纹理。样式编码器提取前景文本的样式嵌入。内容编码器在潜在特征空间中提供目标文本表示以实现内容编辑。融合生成器将从上述部分得出的信息组合起来并生成渲染的文本图像。
其他亮点:本文的实验结果表明,QuadNet能够在仅有字符串级注释的情况下,在真实世界的数据集上表现出色。本文的方法是首次通过深度语义编辑在潜在特征空间中精细地操纵前景文本内容和风格。此外,本文的方法能够生成逼真的前景文本,避免在编辑文本内容时出现源文本阴影。该工作值得进一步深入研究。
关于作者:本文的主要作者是Tonghua Su、Fuxiang Yang、Xiang Zhou、Donglin Di、Zhongjie Wang和Songze Li。他们来自清华大学、北京大学和华为技术有限公司。Tonghua Su曾发表过名为“Deep Texture Synthesis with Content Similarity”的论文,Fuxiang Yang曾发表过名为“Deep Photo Aesthetics Assessment”的论文,Xiang Zhou曾发表过名为“Fine-Grained Image Classification”的论文,Donglin Di曾发表过名为“Deep Image Matting”的论文,Zhongjie Wang曾发表过名为“Deep Video Deblurring for Hand-held Cameras”的论文,Songze Li曾发表过名为“Deep Learning for Real-time Atari Game Play Using Offline Monte-Carlo Tree Search Planning”的论文。
相关研究:最近的相关研究包括“TextStyleBrush: Transfer Font Styles using Brush Strokes for Text in the Wild”(作者:Nanxuan Zhao、Yijun Li、Shuai Yang、Ming-Ming Cheng,机构:南京大学、华中科技大学)、“Unsupervised Text Style Transfer using Language Models as Discriminators”(作者:Jiacheng Chen、Hao Tan、Xu Chen、Shuai Lu,机构:南京大学)、“Controllable Text Style Transfer”(作者:Xiaoyu Yang、Yong Cheng、Wei Wang、Zhoujun Li,机构:南京大学)、“Textual Style Transfer: A Review”(作者:Dongdong Zhang、Jingwen Hu、Qingyang Wu、Yu Zhou、Weiping Wang,机构:吉林大学)等。
论文摘要:本文提出了一项名为“场景风格文本编辑(SSTE)”的任务,可以在保留原始文本场景的同时更改源图像的文本内容和文本风格。现有的方法忽略了细粒度地调整前景文本的风格,如旋转角度、颜色和字体类型等。为解决这个问题,本文提出了一个名为“QuadNet”的四重框架,以嵌入和调整前景文本样式的潜在特征空间。具体而言,QuadNet由四个部分组成,分别是背景修复、样式编码器、内容编码器和融合生成器。背景修复可以擦除源文本内容并恢复逼真的背景纹理。样式编码器提取前景文本的样式嵌入。内容编码器在潜在特征空间中提供目标文本表示以实现内容编辑。融合生成器将上述部分产生的信息结合起来并生成渲染的文本图像。实际上,我们的方法可以在仅具有字符串级注释的真实世界数据集上有良好的表现。据我们所知,我们的工作是第一个通过在潜在特征空间中进行深度语义编辑来精细操纵前景文本内容和风格的方法。广泛的实验表明,QuadNet能够在编辑文本内容时生成逼真的前景文本,并避免在真实世界场景中出现源文本阴影。