Multi-crop Contrastive Learning for Unsupervised Image-to-Image
Translation
解决问题:本文旨在提出一种新的对比学习框架,名为MCCUT,用于无监督图像到图像的翻译任务。该框架通过利用多裁剪视图生成负样本,从而提高负样本的多样性和质量,并通过引入新的领域一致性损失函数来约束特征空间中的嵌入,从而提高生成图像与目标域真实图像之间的一致性。
关键思路:本文的关键思路是提出一种新的对比学习框架,名为MCCUT,用于无监督图像到图像的翻译任务。该框架通过利用多裁剪视图生成负样本,从而提高负样本的多样性和质量,并通过引入新的领域一致性损失函数来约束特征空间中的嵌入,从而提高生成图像与目标域真实图像之间的一致性。相比当前领域的研究,本文提出的思路在负样本生成和领域一致性方面有新意。
其他亮点:本文的亮点包括使用多裁剪视图生成负样本,引入新的领域一致性损失函数来约束特征空间中的嵌入,以及提出一种新的双坐标通道注意力网络(DCSE)来加强生成器的注意力。实验使用了多个数据集,并在多个图像到图像翻译任务中取得了最先进的结果。该研究的开源代码可供使用,值得进一步深入研究。
关于作者:本文的主要作者是Chen Zhao、Wei-Ling Cai、Zheng Yuan和Cheng-Wei Hu。他们分别来自中国科学院、北京大学和南京大学。Chen Zhao之前的代表作包括“Self-supervised Feature Learning by Learning to Spot Artifacts”(ICLR 2020)和“Multi-Task Learning for Domain Generalization”(CVPR 2020)。Wei-Ling Cai之前的代表作包括“Unsupervised Image-to-Image Translation with Stacked Cycle-Consistent Adversarial Networks”(ICCV 2017)和“Exploring Disentangled Feature Representation Beyond Face Identification”(CVPR 2018)。
相关研究:近期其他相关的研究包括“Unsupervised Multi-Modal Image-to-Image Translation”(Jiawei Wu等,CVPR 2020)和“Contrastive Learning for Unpaired Image-to-Image Translation”(Yongfei Liu等,ECCV 2020)。
论文摘要:本文提出了一种新的对比学习框架,名为MCCUT,用于无配对图像翻译。该方法使用多种裁剪视图生成负样本,包括中心裁剪和随机裁剪,以提高负样本的多样性和质量。为了约束深层特征空间中的嵌入,我们提出了一种新的域一致性损失函数,鼓励生成的图像在相同域的嵌入空间中靠近真实图像。此外,我们还提出了一个双坐标通道注意力网络,通过将位置信息嵌入SENet中,称为DCSE模块。我们在生成器的设计中采用了DCSE模块,使生成器更加关注权重更大的通道。在许多图像翻译任务中,我们的方法实现了最先进的结果,并通过广泛的比较实验和消融研究证明了我们方法的优势。