Domain Adaptive and Generalizable Network Architectures and Training
Strategies for Semantic Image Segmentation
解决问题:这篇论文旨在解决无监督域自适应(UDA)和域泛化(DG)在语义图像分割中的问题,即使得模型在源域训练后能够在未标记或未见过的目标域中表现出色。同时,论文试图探索更加先进的网络结构和训练策略,以提高模型的性能。
关键思路:该论文的关键思路在于设计了DAFormer网络和HRDA多分辨率框架,以提高模型在UDA&DG任务中的泛化能力。DAFormer网络结合了Transformer结构和三种训练策略,以避免模型对源域过拟合。HRDA框架则将高分辨率和低分辨率的图像片段相结合,以同时保留细节和长程上下文信息。相比于以往的研究,该论文的思路在于使用更加先进的网络结构和训练策略,并将多分辨率结合起来,以提高模型的泛化能力。
其他亮点:该论文的实验结果表明,DAFormer和HRDA相较于现有的UDA&DG方法,在5个不同的基准测试上都取得了超过10 mIoU的提升。此外,该论文的代码已经开源在https://github.com/lhoyer/HRDA。该论文的亮点在于提出了一种先进的网络结构和训练策略,并在多个基准测试上取得了显著的提升。这些工作值得进一步深入研究。
关于作者:该论文的主要作者是Lukas Hoyer、Dengxin Dai和Luc Van Gool。Lukas Hoyer目前在苏黎世联邦理工学院计算机视觉实验室从事博士后研究,他的研究方向包括计算机视觉和深度学习。Dengxin Dai目前在荷兰代尔夫特理工大学计算机视觉实验室担任博士后研究员,他的研究方向包括计算机视觉和深度学习。Luc Van Gool是比利时鲁汶大学计算机视觉实验室的教授,他的研究方向包括计算机视觉、机器学习和人工智能。在之前的代表作中,Lukas Hoyer曾参与开发了用于图像分割的深度学习框架和用于3D物体识别的神经网络;Dengxin Dai曾参与开发了用于姿态估计的深度学习模型和用于图像生成的生成对抗网络;Luc Van Gool则曾参与开发了用于目标检测的深度学习模型和用于图像分割的卷积神经网络。
相关研究:近期的相关研究包括:
- “Domain Adaptive Faster R-CNN for Object Detection in the Wild”,作者:Yuhua Chen等,机构:华中科技大学;
- “Domain Generalization for Object Detection with Fewer Targets”,作者:Yonglong Tian等,机构:华中科技大学;
- “Domain Generalization with Adversarial Feature Augmentation and Momentum Contrast”,作者:Jingfeng Zhang等,机构:南京大学。
论文摘要:本文研究无监督域自适应(UDA)和域泛化(DG)的语义图像分割方法,使得在源域训练的机器学习模型能够在未标注或未见过的目标域上表现良好。由于之前的UDA&DG语义分割方法大多基于过时的网络,因此本文评估了更近期的架构,揭示了Transformer的潜力,并设计了适用于UDA&DG的DAFormer网络。该网络通过三种训练策略实现了避免过拟合源域的目的:(1)稀有类别采样减轻了对常见源域类别的偏见,(2)Thing-Class ImageNet特征距离和(3)学习率预热促进了从ImageNet预训练中的特征转移。由于UDA&DG通常需要占用大量GPU内存,因此以往的方法大多采用降低分辨率或裁剪图像的方式。然而,低分辨率预测往往无法保留细节,而使用裁剪图像训练的模型则难以捕捉远程、具有域鲁棒性的上下文信息。因此,本文提出了HRDA,一种多分辨率框架,将小的高分辨率裁剪图像的细节和大的低分辨率裁剪图像的远程上下文依赖相结合,并使用学习的比例注意力。DAFormer和HRDA在5个不同的基准测试中显著提高了UDA&DG的最新水平超过10个mIoU。该实现可在https://github.com/lhoyer/HRDA上获得。