3D检测神技 | UFO Trick让SECOND、PointPillars、PV-RCNN涨点

1,130次阅读

点击下方名片，即刻关注【智驾实验室】

在这篇论文中提出了一个关于在3D点云中检测未知前景物体（UFO）的新问题，这是自动驾驶在野外中的一个关键技术。UFO检测具有挑战性，因为现有的3D目标检测器在3D定位和Out-of-Distribution（OOD）检测方面都遇到了极其困难的挑战。

为了应对这些挑战，作者提出了一种新的UFO检测框架，包括三个任务：评估协议、方法和基准。评估包括一种新的方法来衡量作者的目标性能，即UFO的定位和OOD检测。方法包括实际技术来增强作者的目标性能。

基准包括KITTI Misc基准和作者附加的合成基准，用于模拟更广泛的UFO。所提出的框架在所有四个基准检测器（SECOND、PointPillars、PV-RCNN和PartA2）上始终显著提高性能，为野外UFO检测的未来工作提供了洞察。

1 Introduction

在自动驾驶场景中，使用点云进行3D目标检测是一种关键的感知技术。尽管3D目标检测器的识别性能已经取得了进步，但它们在实际应用中的稳定性仍然不足。具体来说，一个显著的问题是3D目标检测器倾向于给未识别的前景或未知物体分配高置信度分数。最近，处理Out-of-Distribution（OOD）检测或开集目标检测在图像上的2D目标检测方法已经解决了类似的挑战。同样，在点云上的3D目标检测领域，正在进行努力来解决这些问题。

然而，作者发现3D目标检测器不仅面临未识别前景物体的OOD检测挑战，而且在定位方面也遇到了显著的困难。与2D图像不同，激光点云是稀疏的，因此很难获取准确的环境上下文并精确地定位大小不一的未知前景物体。如图1a所示，SECOND模型在Car、Pedestrian和Cyclist类别上进行训练，在绿色矩形内部即使距离很近也无法定位’Misc’类别的物体。相反，SECOND将未知物体识别为较小的行人，这可能对安全性构成潜在威胁。

此外，这些定位挑战对OOD检测指标具有关键影响。例如，如果检测器无法定位未知物体，获取相应的检测结果将变得不可能，从而在获取OOD数据的置信度分数方面遇到困难。在本论文中，作者使用“未识别前景物体（UFO）”作为未知物体或OOD物体的同义词。

在作者的论文中从三个主要方向解决了UFO检测问题：

引入一种新颖的评估协议；
提出增强方法论；
引入新的合成基准。

作者提出了一种全面的协议，评估UFO检测时考虑了OOD检测和整体评估，包括定位性能。作者的理想3D目标检测器在精确定位UFO的同时，给它们分配较低的分数。作者建立了一种标准化的方法来衡量在KITTI场景上训练的Lidar基础检测器的定位和OOD检测。作者将’Misc’类设置为OOD目标，创建了KITTI Misc基准，并提出了四个现有检测器的 Baseline ：SECOND，PointPillars，PV-RCNN和PartA2。定位性能通过UFO的召回率进行测量，而OOOD检测则使用作者提出的基于Hungarian匹配策略和建立的指标：AUROC，FPR95和AUPR进行评估。

其次，根据提出的UFO检测协议，提出了一些实用的技术，同时增强定位和OOD检测性能。作者引入了一种异常样本增强方法，受到outlier exposure方法的启发，从室内场景SUN-RGBD数据中获取异常样本，并将其作为训练的新附加类别。因此，UFO对各种大小的UFO进行训练。接下来，作者解决OOOD检测和定位之间的冲突方面。虽然作者试图为未知物体获取低置信度分数，同时为定位获取低物体性分数。

因此，作者在3D目标检测器的分类节点旁边添加了一个独立的物体性节点。除了所提出的增强外，作者还引入了一种利用提出的增强中引入的能量基于规范化以及利用异常样本进行监督对比学习以增强OOOD检测性能的技术。如图0(b)所示，作者技术的应用在本地化和OOOD检测方面都相对于四个基准检测器有所提高。

最后，为了评估更广泛范围内的UFOs的安全性，作者从室内场景的SUN-RGBD数据中引入各种新物体到KITTI的室外场景中，提出了一种新的合成基准。所提出的合成基准由SUN-RGBD数据组成，这些数据在增强过程中没有被使用。

此外，为了构建一个具有挑战性的基准，作者采用了最近邻网格采样方法来减少室内场景和室外场景之间的域间隙，确保室内场景的物体被纳入室外场景。因此，作者可以从现有基准检测器的角度创建一个更具挑战性的UFO检测基准。

总之，作者的贡献可以概括为以下几点：

提出了一种新的评估协议，用于在KITTI场景上评估UFO检测，为四个3D目标检测器提供了基准评估：SECOND，PointPillars，PV-RCNN和PartA2。
应用实用技术增强了现有3D目标检测器基准的UFO检测性能，同时提高了定位和OOOD检测。
构建了一个新的合成基准场景，用于模拟更广泛的UFO范围，可以证明评估协议的有效性，并为野外UFO检测的未来工作提供洞察。

2 Related Works

开集目标检测

开集目标检测（Open Set Object Detection，OSOD）从目标检测扩展到开集识别（Open Set Recognition，OSR）。OSOD在[3]中正式提出，评估像Faster-RCNN，Retinaet和YOLO这样的检测器。他们的关键协议，荒野，测量了混合未知和纯粹已知实例之间的精确度比例。

最近，OpenDet提出将低密度潜在区域扩展以改进OSOD。然而，这些方法需要混合未知和纯粹已知的场景。作者的协议更加实际，因为它可以应用于具有混合未知实例的单个场景。它评估了单个场景中未知元素的两个方面：定位和OOOD检测。

OOD目标检测

OOD检测类似于在OSR中拒绝未知类别，但不需要保持已知类别的准确性。在最近的2D目标检测中，STUD和VOS论文提出了一个OOD检测协议。他们通过区分只有已知物体和没有它们的场景，考虑所有从检测器获得的分数来衡量OOD检测性能。然而，这可能不适合许多实际环境，其中已知和未知物体共存。

最近，在激光3D点云中，已经提出了一个旨在在已知和未知实例共存时评估OOD检测的评估协议。然而，他们使用启发式IOU阈值来获取未知实例的OOD分数。UFO不同，在于寻求基于启发式无一对一匹配的一致的OOD检测性能。

基于激光的3D目标检测

基于激光点云的3D目标检测通过基于 Voxel 学习的特征聚合得到了显著改进。SECOND通过用稀疏卷积替换其传统的3D卷积，在速度上超过了VoxelNet。PointPillars将点云分割成柱单元，并应用PointNet在每个单元上。与SECOND和VoxelNet，它们使用3D卷积将 Voxel 单元集成不同，PointPillars使用2D卷积将柱单元集成，从而提高了时间效率。

PartA2新设计了一个 RoI-aware 点云池化模块来编码3D Proposal 的有效特征。PV-RCNN扩展了SECOND，通过添加关键点分支保留了更多的3D结构信息。现有方法主要专注于改进内分布数据的检测精度。然而，还没有对它们区分和定位OOOD或未识别的前景物体的能力进行明确的研究。

3 Unidentified Foreground Object detection

Problem Formulation and Evaluation

作者可以将基于激光的3D目标检测器形式化为,其中是一个输入的3D激光点云，包含个点的检测结果，是将输入3D激光点云映射到目标检测结果的函数。一个点是一个具有维度的向量，包括位置，和。

目标检测结果由个检测结果组成，每个检测结果表示为，其中也可以定义为最终的物体性分数，表示物体存在的程度。对于一个总共有个类别的分类分数，它定义为。对应于3D检测框，定义为一个具有方向角度的立方体。

在实际应用中，为了解决UFO问题，作者在KITTI数据集中使用了一个具有K=3的检测器：汽车、行人和自行车。对于UFOs，作者在实际KITTI数据集中定义了’Misc’类。作者将这个称为KITTI Misc基准，并提出了一个评估该基准的协议。

在评估过程中，作者同时评估UFO的两个方面：定位和OOOD检测。对于定位，使用。对于OOOD检测，从中获取标量分数（例如，MSP，能量）进行评估。除特别说明外，本文中用于评估的Energy分数。

3.1.1 Evaluation of Localization on UFO

通常，召回率是确保目标检测器安全性的关键指标。在实际KITTI设置中，检测器通常遵循一个基本设置，最多获得500个结果。

根据图2中描述的实际SECOND检测器在KITTI上的召回率结果进行展示。具体而言，召回率是基于 Proposal 数量和IOU阈值标准的。预测结果根据得分和类似地根据IOU阈值限制到前k个，计算实际目标中预测的物体，然后计算。从图中可以看出，基准检测器SECOND在相同阈值（0.40）下的OOOD定位相比ID检测器显著滞后。

此外，召回率在图中显示，除了 Proposal 数300以外，在 Proposal 数上的差异很小。因此，固定 Proposal 数，并使用三个IOU阈值评估定位性能：0.10，0.25和0.40。

3.1.2 Evaluation of OOD Detection on UFO

作者基于最终检测结果从ID分类和OOOD分类获得的标量分数进行OOOD检测。评估指标包括AUROC，FPR95和AUPR。在以前的工作[12]中，对于OOOD目标的IOU阈值为0.3或更高，选择进行OOOD检测。然而，当将此方法均匀应用于多个检测器时，会出现挑战。

为了解决这个问题，作者提出了一种基于匈牙利算法的一对一匹配检测结果与 GT 的算法，以测量跨检测器的一致的OOOD检测。作者的算法类似于DETR中二分匹配优化的双边匹配。

然而，现有的DETR类似匹配方法无法处理 GT 和检测结果之间没有重叠的特殊情况。在实际检测器中，这种情况通常发生在OOOD数据中，并且传统方法会随机匹配它们。因此，为了精确评估OOOD检测，提出了一种单独处理这种 GT 样本的方法。当IOU不可用时，作者根据欧几里得距离匹配最接近的检测结果。

如算法1所示，作者首先区分没有IOU的样本，然后单独处理它们。对于这些情况，作者根据距离进行匹配以找到最近的样本，提出了一种比传统方法更精确的一对一匹配。

Practical Techniques for UFO detection in 3D

基准3D目标检测器在定位和检测UFO方面存在困难。为了解决这个问题，作者采用了两种关键策略。首先，受到outlier exposure的启发，从SUN-RGBD室内场景中复制并粘贴辅助UFO数据，将其视为新’Anomaly’类，用于训练UFO在不同大小下的定位。

图3a说明了从SUN-RGBD中获取的样本。其次，为了提高OOOD检测，作者利用Anomaly数据实现基于能量的正则化和异常感知对比学习。

UFO包括四个主要技术：

Anomaly Sample Augmentation
Learning on Objectness
Learning on Localizing UFO
Learning on Distinguishing UFO

3.2.1 Anomaly Sample Augmentation

在现有的SECOND中，训练过程中的增强方法涉及从数据库中采样真实值，具体是从真实值的物体点和对应该真实值的标签复制训练点云，同时检查碰撞以防止不现实的后果。作者采用类似策略进行Anomaly Sample Augmentation，构建一个SUN-RGBD数据库。

从该数据库中，作者使用 Copy-Paste 方式获取异常样本，将其视为额外的(‘Anomaly’)类进行检测器训练。Anomaly Sample Augmentation训练检测器定位各种大小或上下文的UFO。具体而言，作者直接使用之前的研究中形成的室内3D目标检测数据库，该数据库包括3D立方体及其对应的RGB-D点云。

3.2.2 Learning on Objectness

现有的3D目标检测器通常具有分类分数和置信分数之间的高相关性。例如，在单阶段检测器（如SECOND）中，置信分数作为。然而，作者旨在分别增强定位和OOOD检测。因此，提出添加一个单独的目标性节点，该节点用于解耦这些方面。

作者使用RetinaNet中使用的常规Focal损失，并设置和的SECOND设置。作者将前景，包括ID类和’Anomaly’类，标记为1，将其他所有内容标记为0。使用Focal损失构建的目标性损失称为。引入的目标性节点旨在模拟通用目标性，类似于Faster-RCNN[7]的Region Proposal Network。

在单阶段检测器中，它作为置信分数服务，而在二阶段检测器中，它充当桥梁，为后续阶段形成 Proposal 。二阶段检测器的最终置信分数通过第二阶段分类器得出。

3.2.3 Learning on Localizing UFO

作者通过添加’Anomaly’类并使用Anomaly Sample augmentation训练模型来定位各种大小的物体。然而，如图3a所示，室内场景数据的尺寸通常比室外场景的数据尺寸要小或较少多样化。为了解决这个问题，作者提出了Multi-size Mix augmentation，以创建更多样化的异常物体集。

如图2(b)所示，通过将原始异常大小重新缩放到各种大小并将其混合在一起来构建一个数据库。具体而言，Multi-size mix augmentation将原始异常的相同部分与其重新缩放后的异常混合在一起。此外，重新缩放框的大小是从KITTI Misc类中各种框大小样本中随机提取的。

3.2.4 Learning on Distinguishing UFO

直接应用简单的OE损失在用于一vs-rest分类器时并不有效，因为基本分类器已经训练了额外的Anomaly类，它应该为所有ID类设置为零。因此，通过引入能量正则化损失来解决这个问题，同时通过引入异常感知的对比学习来提高ID和OOOD数据在表示上的可分性。

能量正则化损失的定义如下：

在这里，被定义为一个’Anomaly’类目标。

对比学习的损失定义如下：

在这里，作者设定当时， = 0。

当时， = 1。

在总批中，实例具有以下表示。具有分批和，分别对应ID目标和异常类目标。因此，作者的损失总和定义如下：

Proposed Synthetic Benchmark

作者提出了一个使用KITTI中的’Misc’类来评估UFO的基准。然而，这主要是由室外场景中的物体组成。为了创建更丰富的UFO场景，作者从之前使用的室内场景中合成数据并将其纳入基准。使用 Copy-Paste 技术，作者将来自室内SUN-RGBD数据的实例插入，这些实例的类别与训练样本不重叠。

如图4所示，作者的基准包括将UFO添加到现有场景中。蓝色表示原始内分布数据，绿色表示合成的UFO。作者的目标是评估这些共存于这些场景中的现有基准3D检测器的OOOD检测和UFO定位。

作者的目标是创建一个具有挑战性的合成基准。这里的关键问题是减少室内和室外场景之间的域差距，以确信地在室外场景中合成UFO。通常，室内数据比室外数据具有更密集的点云。

为了减轻这种域差距，作者首先对强度特征进行标准化，使它们的均值和标准差与室外数据对齐。接下来，为了适应密集室内数据到稀疏室外模式，作者提出了一种采样方法。

如算法2所述，作者引入了最近邻网格采样方法。作者设置了一个切片数作为默认设置。如第4.3.2节所述，UFO相比传统的随机采样或无采样方法更具挑战性，展示了基础SECOND检测器的OOOD检测性能较低。

4 Experimental Result

Experiment Settings

作者在KITTI训练和验证集上进行了实验，将数据集分为5:5的比例。对于基准配置，基准检测器基于OpenPCDet的代码进行训练。主要区别在于，在训练集中，除了Car，Pedestrian和Cyclist（如Truck，Van等）之外，其他类别的点云被从点云中删除，以避免将其训练为背景。

此外，作者一直致力于获得最多500个检测结果。为此，SECOND和PointPillar保持其原始配置设置自OpenPCDet。对于PV-RCNN和PartA2，作者在第一阶段推理中更改了设置，将预最大尺寸NMS配置为8192，后最大尺寸配置为2048，以确保获得大量检测结果。作者利用了SUN-RGBD数据集中的{R,G,B,x,y,z}信息。将RGB值平均以转换为强度{I,x,y,z}，形成一个4D向量，与KITTI相同。

对于Misc基准，作者使用了现有的验证集，但只选择了距离0-50m范围内具有Misc目标的场景。在这些场景中收集了与内分布样本共存的样本，以形成ID和OOOD分布。作者通过汇总这些场景来评估OOOD回忆。这与合成基准的设置相同。详细的超参数设置和训练环境已在附录中描述。

Evaluation on KITTI Misc benchmark

4.2.1 Quantitative Result

首先，在KITTI Misc基准上定量验证UFO，特别是展示了在Misc类上的优越定位性能，与强大的基准SECOND相比。如图5所示，无论 Proposal 数量和IOU阈值（0.1，0.25，0.40），UFO始终表现出出色的召回率。UFO超越了SECOND，评估了四个检测器的召回率和OOOD性能。

如表1所示，两阶段检测器（PV-RCNN和Part-A2）在OOOD性能和召回率方面均优于单阶段检测器（PointPillars和SECOND）。UFO在所有检测器上显著提高了召回率和OOOD检测，如图1中介绍的那样。

4.2.2 Qualitative Result

作者通过可视化方式定性验证UFO，具体是针对基准SECOND检测器。如图6所示，顶部图像显示了SECOND的常规结果，而底部图像展示了UFO。蓝色方框表示内分布的 GT 框，绿色方框表示Misc的 GT 框。红色方框表示最终检测的Top-25结果。与基准相比，UFO始终提供了更准确的大小相似的框的Misc定位估计。UFO的优势在视觉上显然，证实了其有效性。

Evaluation on Synthetic benchmark

4.3.1 Comparison with baseline

此外，作者在提出的合成基准上验证了UFO。如表2所示，传统的基准检测器在合成生成的室内场景中定位物体方面存在困难。与Misc基准的结果一致，高性能的两阶段检测器在OOOD检测方面优于单阶段检测器。

此外，将UFO应用于所有四个检测器导致定位和增强OOOD检测性能。这种趋势在所有检测器上都是正确的。值得注意的是，与Misc基准相比，UFO在OOOD检测方面取得了显著改进。这种明显的增强可以归因于使用室内场景数据进行异常样本增强，尽管具有不同的类别，但与OOOD数据共享相同的域。这使得与具有Misc类目标的户外场景相比，OOOD检测更加简单。

4.3.2 Comparison on Sampling method

首先，作者旨在定性验证UFO的有效性。将目标点云与五种采样方法进行了比较：No sampling，Random sampling，Random-grid sampling，Nearest Neighbor sampling和作者的采样方法。随机网格采样在目标的高度网格上随机采样。如图7所示，UFO生成了与原始目标特征紧密匹配的合成样本，从而实现了有效的室内到户外合成样本生成。