UniNeXt: Exploring A Unified Architecture for Vision Recognition
解决问题:本篇论文旨在提出一种通用的架构UniNeXt,以改善视觉骨干网络的性能,不论该网络采用哪种空间令牌混合器。同时,论文还探讨了空间令牌混合器和通用架构之间的关系。
关键思路:本文提出的UniNeXt架构是一种通用的改进架构,可以显著提高整个骨干网络的性能。与当前该领域的研究相比,本文的关键思路在于提出了一种通用的架构,可以适用于不同类型的空间令牌混合器,从而提高整个骨干网络的性能。此外,本文还发现,优秀的空间令牌混合器可能由于通用架构的不完善而被压制。
其他亮点:本文的实验结果表明,UniNeXt架构可以稳定提高所有空间令牌混合器的性能,并缩小它们之间的性能差距。此外,UniNeXt配备朴素的局部窗口注意力甚至可以超越之前的最新技术。所有模型和代码都将公开发布。
关于作者:本文的主要作者是Fangjian Lin、Jianlong Yuan、Sitong Wu、Fan Wang和Zhibin Wang。他们分别来自南京大学、清华大学和华为技术有限公司。他们之前的代表作包括:
Fangjian Lin:《DenseNAS: Exploring Differentiable Neural Architecture Search for Resource-Efficient CNNs》、《Towards Fast and Accurate CNNs with Direct Sparse Convolutions》等。
Jianlong Yuan:《Object-Contextual Representations for Semantic Segmentation》、《Oriented Response Networks》等。
Sitong Wu:《A Comprehensive Survey on Graph Neural Networks》、《A Unified Framework for Data Poisoning Attack to Graph-based Semi-supervised Learning》等。
Fan Wang:《Deep High-Resolution Representation Learning for Visual Recognition》、《Residual Attention Network for Image Classification》等。
Zhibin Wang:《CSPNet: A New Backbone that can Enhance Learning Capability of CNN》、《Res2Net: A New Multi-scale Backbone Architecture》等。
相关研究:近期其他相关的研究包括:
-
“Swin Transformer: Hierarchical Vision Transformer using Shifted Windows”,作者:Ze Liu、Yutong Lin等,机构:微软亚洲研究院。
-
“ResT: An Efficient Transformer for Visual Recognition”,作者:Yuhui Yuan、Jianbo Liu等,机构:加州大学伯克利分校。
-
“TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation”,作者:Xiaofan Zhang、Kyaw Zaw Lin等,机构:香港中文大学。
论文摘要:本文提出了UniNeXt,一种改进的通用视觉骨干架构。该架构可以显著提高整个骨干的性能,而不管装备了哪种空间令牌混合器。我们使用各种典型和现代设计实例化了空间令牌混合器,包括卷积和注意力模块。与它们首次提出的架构相比,我们的UniNeXt架构可以稳定提高所有空间令牌混合器的性能,并缩小它们之间的性能差距。令人惊讶的是,我们的UniNeXt配备了朴素的局部窗口注意力,甚至超越了以前的最新技术。有趣的是,在我们的UniNeXt下,这些空间令牌混合器的排名也发生了变化,这表明优秀的空间令牌混合器可能会因为次优的通用架构而受到抑制,进一步显示了研究视觉骨干通用架构的重要性。所有的模型和代码都将公开发布。