DETR在实时物体检测方面击败了YOLO。

899次阅读
没有评论

DETRs Beat YOLOs on Real-time Object Detection

解决问题:论文旨在解决实时目标检测中端到端变压器检测器(DETRs)的高计算成本问题,以及非极大值抑制(NMS)对推理速度的影响,提出了一种实时端到端目标检测器(RT-DETR)。

关键思路:为了避免NMS带来的推理延迟,论文提出了一种高效的混合编码器来处理多尺度特征,通过解耦内尺度交互和跨尺度融合,提出了IoU感知的查询选择来改进目标查询的初始化。此外,论文还设计了支持灵活调整推理速度的解码器,无需重新训练模型即可实现,从而提高了实时目标检测器的实用性。

其他亮点:RT-DETR-L在COCO val2017上取得了53.0%的AP和114 FPS的速度,RT-DETR-X取得了54.8%的AP和74 FPS的速度,在速度和准确性方面均优于同等规模的YOLO检测器。此外,RT-DETR-R50在准确性上比DINO-Deformable-DETR-R50高2.2% AP,在FPS上高了约21倍。该论文的源代码和预训练模型可在PaddleDetection上获得。

关于作者:本文的主要作者包括Wenyu Lv、Shangliang Xu、Yian Zhao、Guanzhong Wang、Jinman Wei、Cheng Cui和Yuning Du。他们来自中国科学院自动化研究所、浙江大学、北京大学、华中科技大学等机构。他们之前的代表作包括“End-to-End Object Detection with Transformers”、“YOLOv4: Optimal Speed and Accuracy of Object Detection”等。

相关研究:近期其他相关的研究包括“YOLOv5: Improved Real-Time Object Detection”(作者:Glenn Jocher等,机构:Ultralytics Inc.)和“EfficientDet: Scalable and Efficient Object Detection”(作者:Mingxing Tan等,机构:Google)。

论文摘要:最近,基于端到端变换器的检测器(DETRs)已经取得了显著的性能。然而,DETRs 的高计算成本问题尚未得到有效解决,限制了它们的实际应用,并防止它们充分利用无后处理的优势,如非极大值抑制(NMS)。在本文中,我们首先分析了现代实时目标检测器中 NMS 对推理速度的影响,并建立了一个端到端速度基准。为了避免 NMS 引起的推理延迟,我们提出了一种实时检测变换器(RT-DETR),它是我们所知道的第一个实时端到端目标检测器。具体来说,我们设计了一个高效的混合编码器,通过解耦内部尺度交互和跨尺度融合来有效处理多尺度特征,并提出了 IoU-aware 查询选择来改善对象查询的初始化。此外,我们提出的检测器支持使用不同的解码器层进行推理速度的灵活调整,无需重新训练,这有助于实时目标检测器的实际应用。我们的 RT-DETR-L 在 COCO val2017 上实现了 53.0% 的 AP 和 114 FPS 的速度,而 RT-DETR-X 则实现了 54.8% 的 AP 和 74 FPS 的速度,在速度和准确性方面均优于同等规模的所有 YOLO 检测器。此外,我们的 RT-DETR-R50 实现了 53.1% 的 AP 和 108 FPS 的速度,在准确性方面优于 DINO-Deformable-DETR-R50 约 2.2% 的 AP,在 FPS 方面约为其的 21 倍。源代码和预训练模型将在 PaddleDetection 上提供。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy