华为+清华大学提出DECO | 纯卷积设计+无NMS精度速度完胜DETR系列

416次阅读
没有评论

点击下方卡片,关注AI视界引擎」公众号

华为+清华大学提出DECO | 纯卷积设计+无NMS精度速度完胜DETR系列

近年来,检测Transformer(DETR)及其变体在精确目标检测方面展示出巨大的潜力。目标的 Query 机制使得DETR家族可以直接获得固定数量的物体预测,并简化了检测 Pipeline 。同时,最近的研究还表明,通过适当的架构设计,卷积网络(ConvNets)也可以与Transformer达到竞争性能,如ConvNeXt。

因此,在本论文中作者探讨了是否可以构建一个基于 Query 的端到端目标检测框架,使用卷积网络而不是复杂的Transformer架构。所提出的框架,称为检测卷积网络(DECO),包括一个 Backbone 网络和卷积编码器-解码器架构。作者精心设计了DECO编码器,并提出了一种新颖的机制,通过卷积层实现目标 Query 和图像特征之间的交互。作者将所提出的DECO与先前的检测器在具有挑战性的COCO基准上的性能进行比较。

尽管它的简单性,作者的DECO在检测准确性和运行速度方面实现了竞争性能。具体而言,使用ResNet-50和ConvNeXt-Tiny Backbone ,DECO在COCO验证集上获得了38.6%和40.8%AP,分别达到35和28 FPS,并超过了DETR模型。结合先进的多种尺度特征模块,作者的DECO+实现了47.8%AP,达到34 FPS。作者希望提出的DECO为设计目标检测框架带来另一个视角。

1. Introduction

目标检测是计算机视觉领域中最基本的任务之一,对于许多实际应用至关重要。目标检测 Pipeline 在深度学习时代得到了快速发展。Faster R-CNN是最典型的两阶段目标检测器,它使用从粗糙到精细的框架进行边界框预测。与此同时,一阶段检测器如SSD,YOLO系列或FCOS等通过直接从图像特征中预测感兴趣的目标来简化检测 Pipeline 。上述大多数目标检测器都基于卷积神经网络,并通常使用非极大值抑制(NMS)策略作为后处理,以删除重复的检测结果。

深度神经网络架构的进步已经为目标检测任务带来了好处。例如,更强大的架构通常会带来相当显著的改进。最近,视觉Transformer及其变体在图像分类任务上表现出卓越的性能,并为目标检测领域奠定了坚实的基础。Carion等人提出了检测Transformer(DETR),它将目标检测 Pipeline 重构为一套预测问题,并通过Transformer编码器-解码器架构直接获得固定的一组目标。这种设计使得DETR可以摆脱复杂的NMS后处理模块,从而实现基于 Query 的端到端目标检测 Pipeline 。通过不同的方面改进DETR的有很多变体,例如训练收敛,多尺度特征和可变形注意力或更好的 Query 策略等。

与此同时,一些最近的工作重新思考了强大的性能,并发现通过适当的架构设计,纯卷积网络(ConvNets)也可以实现竞争性能。例如,ConvNeXt在准确率和计算成本方面与视觉Transformer(如Swin Transformer)相竞争。此外,某些AI芯片的某些注意模块操作并不很好地支持。

这些动机作者探索了本文的一个重要问题:作者是否可以通过纯卷积网络获得一个基于 Query 的端到端目标检测器,但仍能享受与DETR类似的优秀属性?此外,也有一些最近的努力,试图通过纯卷积网络获得端到端目标检测器。然而,这些框架要么是基于单阶段检测器(如FCOS或RetinaNet)的一对一标签分配策略和额外的复杂模块(如3D Max Filtering),要么基本上是两阶段框架,这会降低运行速度和部署效率。

在本文中,作者提出了一种名为Detection ConvNet **(DECO)**的简单且有效的基于 Query 的端到端目标检测框架。作者的DECO模型具有与DETR类似的优点。例如,使用目标 Query 机制,作者的DECO可以直接获得一组固定的目标预测,并丢弃NMS过程。此外,它仅堆叠标准卷积层,不依赖任何复杂的注意力模块。

华为+清华大学提出DECO | 纯卷积设计+无NMS精度速度完胜DETR系列

为实现这一目标,作者首先仔细研究了DETR的设计,并提出了DECO编码器和解码器架构,如图2所示。DECO编码器基于ConNeXt块,由于卷积网络输入顺序的变体,无需位置编码。解码器是DETR变体的最关键是部分,以实现目标 Query 和图像特征之间的交互,从而使目标 Query 捕捉到必要的信息以进行最终目标预测。作者抽象了解码器的一般架构,并将其分为两个组件,即自交互模块(SIM)和交叉交互模块(CIM)。

在DETR中,SIM和CIM使用多头自注意力和交叉注意力机制实现,而在作者提出的DECO中,SIM堆叠了简单的逐点卷积和卷积。作者进一步为作者的DECO提出了一种新颖的SIM机制,通过卷积层以及简单的上采样和池化操作实现目标 Query 和图像特征之间的交互。

作者在具有挑战性的目标检测基准上评估所提出的DECO,即COCO。实验结果表明,作者的DECO在检测准确性和运行速度方面达到了竞争水平,如图1所示。

华为+清华大学提出DECO | 纯卷积设计+无NMS精度速度完胜DETR系列

具体而言,使用ResNet-50和ConvNeXt-Tiny Backbone ,DECO在COCO的val集上分别获得了38.6%和40.8%AP,分别达到35和28 FPS,并超过了DETR模型。还进行了大量的消融研究,以提供更多关于设计选择的讨论和洞察。

本文的主要贡献可以总结如下:

  1. 提出了一种基于 Query 的端到端目标检测框架,该框架使用标准卷积构建,即检测卷积网络(DECO),该框架简单且有效。作者希望它能为未来目标检测 Pipeline 的设计带来另一个视角。

  2. 仔细设计了一种新颖的DECO解码器架构,以使目标 Query 能够与图像特征完全交互,从而获得更好的检测性能。

  3. 在具有挑战性的COCO基准上对DECO进行了广泛的评估,并在准确性和速度方面与先前的检测器(如DETR和Faster R-CNN)取得了竞争性能。

2 Related Work

目标检测是计算机视觉领域最基础的任务之一,吸引了计算机视觉领域的大量研究兴趣。目标检测 Pipeline 在深度学习时代得到了快速发展。Faster R-CNN是最典型的两阶段目标检测器,它首先生成区域建议并提取区域特征,然后进行最终边界框预测。两阶段检测 Pipeline 从多个方面进行了改进。与此同时,像SSD,YOLO系列,CenterNet或FCOS等一阶段检测器通过直接从图像特征中预测感兴趣的目标,简化了检测 Pipeline。

基于Transformer的端到端检测器。 开创性工作DETR 利用Transformer编码器-解码器架构,将目标检测建模为一套预测问题。它直接预测一组固定的目标,并摆脱了需要人工设计的非极大值抑制(NMS)。更多的后续研究基于原始DETR进行各种优化和扩展,以实现强大的检测性能。例如,Deformable DETR通过引入多尺度可变形自/交叉注意力,只关注一小部分关键采样点,从而提高检测准确率以及训练收敛性。DAB-DETR通过在解码器中使用边界框坐标作为 Query ,改进了DETR。

DN-DETR和DINO引入了多种新技术,包括 Query 去噪、混合 Query 选择等,以实现强大的检测性能。RT-DETR设计了一个实时端到端检测器,其中提出了高效的混合尺度编码器以及IoU感知的 Query 选择。基于DETR的检测器的一个重要特性是 Query 驱动的最终预测方案,这简化了检测 Pipeline 并使其成为端到端检测器。

基于卷积神经网络的端到端检测器。 受到像DETR变体这样的基于Transformer的检测器成功的影响,一些研究也试图通过引入一对一的分配策略和置预测损失来消除后处理NMS。OneNet系统性地探索了一对一匹配中分类成本的重要性,并将其应用于典型的卷积神经网络(ConvNet)基检测器,如RetinaNet和FCOS。DeFCN引入了一种新的标签分配策略,以增强匹配成本。Sparse R-CNN将固定的可学习 Anchor 点集成到两阶段检测 Pipeline 中。然而,它通过动态头与 Query 和RoI特征交互,这是一种可学习的矩阵乘法。

卷积神经网络在各种任务上表现出竞争性能,并且在大多数硬件平台上具有部署友好性。因此,在本论文中,作者希望能设计一个类似于DETR的检测 Pipeline ,但使用标准卷积构建,这样就能继承卷积神经网络的优点和DETR框架的有利属性。

3 Approach

在这个部分,作者首先回顾DETR模型,并概述作者提出的DECO框架。接下来,作者将详细阐述DECO编码器和解码器的架构设计。

Preliminary

目标检测 Pipeline 已经研究了几十年。最近,Carion提出了一种名为检测Transformer(DETR)的模型,将目标检测建模为一个集合预测问题,并直接生成一组固定目标。

如图2(a)所示,DETR首先使用 Backbone 网络提取图像特征,并将其输入到Transformer编码器和解码器架构。一组固定的可学习目标 Query 与全局图像上下文相互作用,直接输出最终的物体预测结果。DETR简化了端到端目标检测 Pipeline ,并由于在目标检测方面具有良好的准确性和运行性能,而引起了广泛关注。

尽管在计算机视觉任务(如图像分类、目标检测、分割)中,Transformer已经展示了强大的能力,但最近也有一些工作揭示了卷积神经网络(ConvNet)基础架构的潜力,如ConvNext和ConvFormer。在本工作中,作者重新检查DETR设计,并探索卷积神经网络基础的目标检测器是否可以继承DETR的良好属性。

Overall Framework of DECO

DETR基础检测器的一个重要特性是 Query 驱动的最终预测方案,这样目标检测器可以直接获得一组固定的目标,并消除任何人工设计的NMS后处理。作者遵循这种范式来设计作者的检测卷积网络(DECO),如图2(b)所示。

DECO也使用卷积神经网络(CNN) Backbone 提取输入图像的特征。具体而言,对于一个RGB图像, Backbone 网络生成特征图,通常。特征图经过CNN编码器后,得到输出嵌入

CNN解码器将以及一组固定的可学习目标 Query 作为输入,通过前馈网络(FFN)进行最终检测预测,其中是编码器输出嵌入的大小。CNN编码器和解码器的详细架构将在接下来的部分中详细阐述。作者使用与DETR相同的预测损失,它使用二分匹配来找到配对的预测和真实目标。

DECO Encoder

与DETR类似,首先使用一个1×1卷积将的通道维数从减少到,并获得一个新的特征图。在DETR中,被输入到堆叠的Transformer编码器层,主要由多头自注意力(MHSA)和前馈网络(FFN)分别进行空间和通道信息混合。最近的工作如ConvNeXt表明,使用堆叠的逐点卷积和逐通道卷积可以达到与Transformer相当的表现。

因此,作者使用ConvNeXt块来构建作者的DECO编码器。具体而言,每个编码器层堆叠了一个的逐点卷积,一个LayerNorm层,一个1×1卷积,一个GELU激活和另一个1×1卷积。为了与DETR的FLOPs相匹配,作者的编码器由三个阶段组成,分别是块数和通道维数。

在DETR中,由于Transformer架构是顺序不变的,因此需要在每个Transformer编码器层的输入中添加位置编码。然而,卷积网络架构是顺序可变的,因此作者的DECO编码器层可以消除任何位置编码。

DECO Decoder

在DETR中,解码器的目标是推理物体之间的关系和全局图像特征。

华为+清华大学提出DECO | 纯卷积设计+无NMS精度速度完胜DETR系列

如图3(a)所示,DETR解码器中的每个层主要由自交互模块(SIM)和交叉交互模块(CIM)组成。原始DETR中的自交互模块(SIM)是一个多头自注意力层,负责在目标 Query 之间交互信息。交叉交互模块(CIM)是DETR解码器的重要组成部分,由交叉注意力层来执行编码器输出和目标 Query 之间的交互。这样,目标 Query 可以关注全局图像特征并捕获每个预测物体的必要信息。在本部分中,作者旨在探索如何构建一个使用卷积神经网络的解码器,同时保持类似于DETR解码器的性能。

自交互模块(SIM)。对于个目标 Query ,作者首先将 Query  Reshape 为,并将其输入到卷积层。例如,如果作者有个目标 Query , Query 嵌入将 Reshape 为。关于 Reshape 的更多设计选择将在消融研究中讨论。如图3(b)所示,DECO解码器的SIM部分与DECO编码器的设计方案非常相似,其中堆叠深度卷积和卷积可以导致类似于自注意力机制的强大能力。作者使用一个大小为的大核卷积进行长程感知特征提取。

交叉交互模块(CIM)。CIM主要接受两个特征作为输入,例如,来自编码器输出的图像特征嵌入,以及从SIM部分生成的目标 Query 嵌入。DETR解码器中的交叉注意力机制允许每个目标 Query 与图像特征相互作用,以捕获目标预测所需的信息。然而,使用卷积网络来执行这种交互并不直观。如图3(b)所示,作者首先上采样目标 Query ,以获得,使其与图像特征具有相同的大小,即

然后将上采样目标 Query 和图像特征嵌入使用加法操作融合在一起,接着使用大核逐点卷积允许目标 Query 捕获图像特征中的空间信息。Short-Cut 全部使用,如下所示的方程:

输出特征进一步经过另一个带有 Short-Cut 的前馈网络(FFN)。最后,使用自适应最大池化将目标 Query 下采样回大小为,并将在接下来的解码层中进一步处理。

解码器的最终输出特征将被输入到检测Head中,以获得类别和边界框预测,这与原始DETR相似。

Deco+

原始DETR以及作者的DECO的一个局限性是缺乏多尺度特征,这已经被证明对于精确的目标检测非常重要。Deformable DETR [50]利用多尺度可变形注意力模块来聚合多尺度特征,但是这个机制不能直接应用到作者的DECO框架中。

为了使作者的DECO具有多尺度特征能力,作者在从DECO编码器中获得增强的全球特征之后,利用RT-DETR [27]中提出的交叉尺度特征融合模块。更多的DETR技术也将与作者兼容,作者将留待未来的探索。

4 Experiments

在本部分中,作者首先在目标检测基准上评估作者提出的模型,并将其与最先进的方法进行比较。作者还进行了大量的消融研究,以提供更多关于设计选择的讨论和洞察。

Experimental Setting

数据集。 所有实验均在具有挑战性的COCO 2017检测基准上进行,该基准包含约118K训练图像和5K验证样本。

训练。 遵循与DETR相同的设置,作者使用AdamW优化器训练提出的DECO模型,权重衰减为,编码器-解码器的 Backbone 网络的初始学习率为,解码器的初始学习率为。作者对模型进行150个epoch的训练,并使用官方代码在150个epoch时报告DETR结果。学习率在100个epoch后减少10倍。作者遵循与DETR相同的增强方案,包括将输入图像缩放到至少480和最多800像素的短边,将长边缩放到最多1333像素,随机裁剪图像,以训练图像被裁剪的概率为0.5到一个随机矩形块。

评估。 作者遵循标准的COCO评估协议,报告平均精确度(AP),0.50,0.75和针对小、中、大目标的AP分数,即AP50,AP75,APS,APM和APL。

Comparisons with State-of-the-arts

作者在COCO基准上评估提出的DECO,并与最近的竞争性目标检测器进行比较,包括DETR,YOLOS,FCOS,Faster R-CNN,Sparse R-CNN,OneNet和DeFCN。

实验结果以检测AP和FLOPs/FPS表示,如表1所示。作者报告的FPS是在NVIDIA V100 GPU上运行COCO 2017 _val_集中的前100张图像的平均值,而FLOPs是在输入大小为的情况下计算的。还展示了AP和FPS之间的更直观的比较,如图1所示。

华为+清华大学提出DECO | 纯卷积设计+无NMS精度速度完胜DETR系列

作者将DECO与DETR进行比较,DETR使用了不同的 Backbone ,即经典的ResNet-和更近的、更强大的ConvNexT-Tiny。如表1所示,对于ResNet-和ConvNexT-Tiny Backbone ,尽管具有更高的FLOPs,但作者的DECO在推理速度(FPS)上比DETR更快。这表明作者的纯卷积网络基础架构在GPU平台上比基于Transformer的DETR更部署友好。

如图1所示,作者的DECO在检测准确性和推理速度之间具有更好的权衡。具体而言,作者的DECO在运行速度相同的条件下,获得38.6%AP,比使用ResNet- Backbone 的DETR(比DETR)更好7.0%。使用ConvNexT-Tiny Backbone ,作者的DECO在28 FPS时达到40.8%AP,与DETR模型具有竞争力。

作者还将DECO与几种典型的目标检测器进行了比较,例如Faster R-CNN,RetinaNet和FCOS。请注意,这些检测器都配备了特征金字塔网络(FPN)来融合多尺度特征,而作者的DECO只从 Backbone 网络的最后一层使用单尺度特征。然而,提出的DECO仍然在这些典型的检测器之上,在COCO _val_集上具有更好的AP与FPS权衡。

作者还与其他端到端检测器进行了比较,例如Sparse R-CNN和OneNet,它们都是基于卷积神经网络的端到端检测器。如表1所示,作者的DECO与Sparse R-CNN和OneNet-RetinaNet具有相似的AP,但速度快1.75倍和1.35倍。同样,作者的DECO在检测准确性为40.8%和34 FPS时,与DeFCN具有相似的AP,但DeFCN只有19 FPS。

作者还与其他DETR变体进行了比较,例如Anchor-DETR,Conditional-DETR和ViDT等。如表2所示,作者的DECO+在ResNet-50 Backbone 网络上的AP达到43.8%,34 FPS在V100 GPU上,超过了大多数先前的DETR变体。

华为+清华大学提出DECO | 纯卷积设计+无NMS精度速度完胜DETR系列

此外,基于ResNet-18的DECO+在AP方面达到40.5%,66 FPS,在类似RT-DETR的变体上取得了相当相似的性能,作者修改了该变体,以不使用变形注意力和去噪训练进行公平比较。请注意,变形注意力和去噪训练专门针对基于注意力的架构设计,DECO的类似改进策略仍然有待于未来的探索。

Ablation Studies

作者进行了大量的消融研究,以提供更多关于不同设计选择和作者的提出方法有效性的讨论和洞察。

在CIM中,目标 Query 首先上采样,然后与编码器嵌入融合以处理不同的尺寸。这里作者有两个不同的设计选择,即在融合之前,将目标 Query 和编码器嵌入都上采样到固定大小,或者直接将目标 Query 上采样到编码器嵌入的动态大小,这与输入图像的分辨率有关。

华为+清华大学提出DECO | 纯卷积设计+无NMS精度速度完胜DETR系列

如表7所示,使用动态大小可以达到最佳性能,因为它对不同的输入分辨率更加灵活,并且没有信息丢弃。需要注意的是,是COCO训练集的平均大小,采用动态方式会导致0.5 AP的下降。

解码器层数。如图4所示,解码器层数越多,性能通常会更好。然而,使用6个解码器层是一个很好的选择,以平衡性能和计算成本,作者遵循DETR [3]中的选择。

华为+清华大学提出DECO | 纯卷积设计+无NMS精度速度完胜DETR系列

解码器中的核大小。使用 dwconv的原因是为了实现足够的感受野。作者进行了消融实验来探索不同的核大小的影响。如表5所示,使用的核大小由于感受野有限而性能不佳,将核大小扩展到或甚至带来的改进可以忽略不计。

华为+清华大学提出DECO | 纯卷积设计+无NMS精度速度完胜DETR系列

CIM中不同的融合方法设计。如第3节所述,使用加法操作将上采样目标 Query 和图像特征嵌入融合在一起。在这里,作者进行其他融合方法设计的消融实验,例如使用 ConCat 和卷积,或简单地进行逐元素乘法进行融合。

华为+清华大学提出DECO | 纯卷积设计+无NMS精度速度完胜DETR系列

如表6所示,使用逐元素乘法将目标 Query 和图像特征嵌入融合在一起并没有获得更好的性能。此外,使用加法操作与使用 ConCat 和卷积实现相似的检测性能,但具有更小的FLOPs。

目标 Query 的不同形状。在作者提出的这种方法中,目标 Query 应具有2D形状,并为个目标 Query 选择几种 Query 形状。例如,对于的 Query ,可以是。如表7所示,使用的 Query 形状可以获得更好的检测性能。当时,使用的 Query 形状可以稍微比的 Query 形状获得更好的性能。

COCO的典型图像尺寸比例可以认为是,从表7中作者可以得出结论,当 Query 形状约为输入图像比例时,可以获得更好的性能。

Analysis and Visualization

Query Slots的视觉化。遵循DETR中的相同方法,作者将DECO预测的100个  Query Slots中的20个框可视化。每个点代表一个框预测,坐标按每个图像大小归一化。不同颜色表示不同大小的目标,例如绿色、红色和蓝色分别表示小框、大横向框和大竖向框。如表4所示,作者可以发现DECO和DETR倾向于针对不同的空间区域和框大小做出不同的目标 Query 。

有趣的是,作者还可以观察到DETR中小物体的槽在空间上是不有序的,这表明每个槽的预测在空间维度上是随机的。然而,对于作者DECO,每个槽的分布对小框是空间有序的,这很可能与目标 Query 和图像特征之间的交叉交互机制有关,其中交叉注意力模块倾向于捕捉全局信息,而作者所提出的模块则通过大的核卷积关注局部交互。

华为+清华大学提出DECO | 纯卷积设计+无NMS精度速度完胜DETR系列

对未见过的实例数量的一般化能力。作者也以长颈鹿类别为例,来展示作者的DECO对未见过的实例数量的一般化能力,因为在COCO训练集中没有一张图像包含超过13只长颈鹿。如图6所示,在作者的合成图像中,长颈鹿的图像被重复24次,DECO成功检测到所有24只长颈鹿。

华为+清华大学提出DECO | 纯卷积设计+无NMS精度速度完胜DETR系列

定性结果在COCO的_val_集中,作者的DECO的定性结果如图5所示。作者可以观察到,作者的DECO在各种不同情况下,如拥挤、被遮挡和重叠场景中,对各种目标都表现良好。

华为+清华大学提出DECO | 纯卷积设计+无NMS精度速度完胜DETR系列

5 Conclusion and Discussion

本文旨在探索作者是否可以构建一个基于 Query 的端到端目标检测框架,该框架使用卷积神经网络(ConvNets)而不是复杂的Transformer架构。作者提出了一种新的检测框架,即检测卷积网络(DECO),它由 Backbone 和卷积编码器-解码器架构组成。

作者仔细设计了DECO编码器并提出了一个新颖的机制,用于作者的DECO解码器通过卷积层实现目标 Query 和图像特征之间的交互。作者在具有挑战性的COCO基准上比较了先前的检测器。尽管很简单,但作者的DECO在检测准确性和运行速度方面实现了竞争性能。

具体而言,使用ResNet-50和ConvNeXt-Tiny Backbone ,DECO超过了DETR模型,并在COCO的val集上分别获得了38.6%和40.8%AP,同时达到35和28 FPS。作者希望提出的DECO为设计目标检测框架带来新的视角。

参考

[1].DECO: Query-Based End-to-End Object Detection with ConvNets

华为+清华大学提出DECO | 纯卷积设计+无NMS精度速度完胜DETR系列

点击上方卡片,关注「AI视界引擎」公众号

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy