Fully Sparse Fusion for 3D Object Detection
解决问题:本文旨在解决当前流行的多模态三维物体检测方法中存在的问题,即基于激光雷达的检测器通常使用密集的鸟瞰图特征图,这种特征图的成本随着检测范围的增加呈二次函数增长,不适用于长距离检测。本文提出了一种全稀疏架构,旨在高效地进行长距离感知。
关键思路:本文的关键思路是在新兴的全稀疏架构中有效地利用图像模态。特别地,利用实例查询,该框架将广泛研究的二维实例分割集成到激光雷达侧,与全稀疏检测器中的三维实例分割部分并行。这种设计实现了一个统一的基于查询的融合框架,在2D和3D两个方面都保持了全稀疏特性。与当前领域内的其他研究相比,本文的思路具有新意。
其他亮点:本文的实验结果表明,在广泛使用的nuScenes数据集和长距离Argoverse 2数据集上,本文的方法展示了最先进的结果。值得注意的是,在长距离激光雷达感知设置下,本文方法的推理速度比其他最先进的多模态三维检测方法快2.7倍。本文的代码将在url{https://github.com/BraveGroup/FullySparseFusion}上发布。
关于作者:本文的主要作者是Yingyan Li、Lue Fan、Yang Liu、Zehao Huang、Yuntao Chen、Naiyan Wang和Zhaoxiang Zhang,他们来自中国科学院自动化研究所、北京大学、中国科学院深圳先进技术研究院和商汤科技。其中,Naiyan Wang曾在微软亚洲研究院从事研究工作,发表了多篇论文,如《Learning Robust Face Representation from Facial Dynamics》和《Deep Learning for Abnormal Event Detection in Videos》。Zhaoxiang Zhang曾在香港中文大学从事研究工作,发表了多篇论文,如《Learning a Deep Single Image Contrast Enhancer from Multi-Exposure Images》和《Deep Unfolding Network for Image Super-Resolution》。
相关研究:近期的其他相关研究包括《Multi-modal Detection for Autonomous Driving: Baseline Approach and Challenge》(Jie Li等,华为技术有限公司)、《Complex-YOLO: Real-time 3D Object Detection on Point Clouds》(Simon Mayer等,奥地利格拉茨技术大学)和《PointPainting: Sequential Fusion for 3D Object Detection》(Irwan Bello等,谷歌)。
论文摘要:本文介绍了一种全稀疏融合的三维物体检测方法。目前流行的多模态三维检测方法基于基于激光雷达的检测器,通常使用密集的俯视图特征图。然而,这种俯视图特征图的成本随着检测范围的增加呈二次增长,因此不适用于长距离检测。全稀疏架构因其在长距离感知方面高效而备受关注。本文研究了如何在新兴的全稀疏架构中有效利用图像模态。特别地,利用实例查询,我们的框架将广泛研究的二维实例分割集成到激光雷达端,该端与全稀疏检测器中的三维实例分割部分并行。这种设计实现了两侧均为基于查询的融合框架,同时保持了全稀疏特性。广泛的实验展示了在广泛使用的nuScenes数据集和长距离Argoverse 2数据集上的最新结果。值得注意的是,在长距离激光雷达感知设置下,所提出的方法的推理速度比其他最先进的多模态三维检测方法快2.7倍。代码将在url{https://github.com/BraveGroup/FullySparseFusion}上发布。