点击下方卡片,关注「AI视界引擎」公众号
单目3D目标检测的主要挑战之一是实际数据集中的物体多样性和数量的有限性。虽然通过在真实场景中增加虚拟物体可以提高物体多样性和数量,但由于复杂真实捕获场景中缺乏有效的3D物体插入方法,这一问题仍然难以解决。在本文中,作者研究了将虚拟物体与复杂真实室内场景相结合以进行单目3D目标检测。主要的挑战在于在杂乱的真实场景中自动识别虚拟资产(如位置、外观、大小等)的合理物理属性。
为了应对这个挑战,作者提出了一种物理上可行的室内3D物体插入方法,该方法可以自动复制虚拟物体并将其粘贴到真实场景中。场景中的物体具有合理的物理位置和外观的3D边界框。特别是,作者的方法首先识别出插入物体的可行位置和姿态,以防止与现有房间布局发生碰撞。然后,它估计插入位置的时空变化,使得虚拟物体可以以合理的姿态与原始场景进行沉浸式融合,并产生阴影。
作者证明,作者的增强方法显著提高了现有的单目3D物体模型,并实现了最先进的性能。首次展示了物理上可行的3D物体插入,作为生成数据增强技术,可以显著提高 discriminative downstream任务的性能,如单目3D目标检测。
项目网站:https://gyhandy.github.io/3D-Copy-Paste/
1 Introduction
单目室内3D目标检测方法在机器人学和增强现实等应用中取得了令人鼓舞的结果。然而,这些方法的应用可能会受到现有真实数据集中物体多样性和数量的限制。例如,在SUN RGB-D数据集中,浴缸类别只有不到500个标注,而椅子类别有超过19,000个标注。这可能是因为获取和标注具有多种3D物体标注的丰富室内场景数据集的难度。
数据增强技术在2D检测和分割任务中得到了广泛应用,以提高可用训练数据的多样性和数量。然而,由于真实3D场景中的物理约束,将2D增强方法扩展到3D场景并非易事。特别是,在以下方面出现了一些技术挑战:
- 碰撞和遮挡处理:在3D数据增强中,处理物体之间的碰撞比在2D数据中更具挑战性。正确管理碰撞是防止生成物和确保物体看起来像场景中自然且连贯的部分的关键。
- 光照和阴影:对于3D数据,增强物体需要仔细考虑场景中的光照条件,以创建逼真的阴影和反射。这涉及估计时空变化的照明和调整插入物体的外观以保持视觉连贯性。
- 几何一致性:在3D数据增强中,保持几何一致性至关重要,以确保增强物体自然地融入场景中。与2D增强处理平面图像不同,3D增强必须考虑空间关系、物体方向以及与周围环境的交互。
在本文中,作者探索了一种新颖的方法,即3D Copy-Paste,以实现室内场景的3D数据增强。作者采用物理上可行的室内3D物体插入,自动生成具有合理物理位置和照明的规模较大的标注3D物体。与室外场景不同,室内环境面临独特的挑战:
- 复杂的空间布局,特别是混乱的背景和物体放置的空间有限,需要一种精心制作的自动物体定位方法(确保物体的真实位置、尺寸和姿态)
- 复杂的照明效果,如软阴影、内反射和远程光源依赖性,需要复杂的照明考虑来实现和谐的目标插入。
图1显示了作者的整体流程。在作者的方法中,作者利用现有的大规模3D物体数据集,从中复制模拟3D物体并将其粘贴到真实场景中。为了应对创建物理上可行的插入的挑战,作者采用了一种三步过程。首先,作者通过识别所有适合3D物体插入的平面来分析场景。接下来,作者考虑插入位置,估计物体的姿态和大小,以防止碰撞。最后,作者估计空间变化的照明,以生成逼真的阴影和纹理,确保插入的物体可以无缝地融入场景中。
作者提出的增强方法通过将作者的3D Copy-Paste方法与大规模3D物体数据集(如Objaverse)相结合,增强现有的室内场景数据集(如SUN RGB-D)。作者的方法是一种离线增强方法,创建一个新的增强数据集。在增强数据集上训练的单目3D目标检测模型,如InvoxelNet,在SUN RGB-D数据集上的性能取得了新的最先进水平。作者系统地评估了插入物体的物理位置和照度对最终单目3D目标检测模型下游性能的影响。作者的结果表明,物理上可行的3D物体插入可以作为一种有效的生成数据增强技术,在具有区分性的下游任务(如单目3D目标检测)上实现最先进的性能。
作者做出了三个主要贡献:
- 作者提出了3D Copy-Paste,一种新颖的物理上可行的室内物体插入技术,用于自动生成大规模标注的3D物体。这种方法确保了物体在场景中的物理位置、大小、姿态和照明的合理性。
- 作者证明了使用3D Copy-Paste技术增强的数据集训练单目3D目标检测模型可以实现最先进性能。作者的结果表明,物理上可行的3D物体插入方法可以作为一种有效的生成数据增强技术,显著提高下游单目3D目标检测任务的性能。
- 作者对插入物体的位置和照度对下游单目3D目标检测模型性能的影响进行了系统评估。这种分析为作者提供了有关这些因素在所提方法整体有效性中所起作用的有价值的见解。
2 Related Works
Monocular 3D Object Detection
单目3D目标检测估计从单个2D图像中物体的3D位置、方向和尺寸(3D边界框)。近年来,由于在自动驾驶、机器人学和增强现实等领域的潜在应用,它已经引起了广泛关注。由于在驾驶场景中有很多单目3D检测的研究,例如3DOP,MLFusion,M3D-RPN,MonODIS,Pseudo-LiDAR,FCOS3D,SMOKE,RTM3D,PGD,CaDDN。
具体来说,基于几何的方法:MV3D利用LiDAR基于点云和图像的几何线索进行3D目标检测。Mousavian等人[2017]介绍了一种从2D边界框中使用几何约束回归物体属性(如尺寸、方向和位置)的方法。在室内场景的背景下,多任务学习已经取得了进展。
最近的研究,包括Xu等人的PointFusion,将3D目标检测与深度估计或语义分割等任务相结合,以提高性能。Total3D和Implicit3D使用端到端解决方案,同时重建单个图像中的房间布局、物体边界框和网格。ImvoxelNet 通过使用图像 Voxel 投影实现单目3D目标检测,达到最先进性能。
3D Data Augmentation
3D数据增强在各种3D感知任务中提高性能变得越来越重要。大部分工作都关注于户外场景。几何变换:Wu等人[2015]对ModelNet数据集进行了旋转、平移和缩放,以改进分类和检索任务。点云增强:Engelcke等人[2017]提出了随机点删除、高斯噪声和点云插值等技术,用于增强LiDAR数据集,提高目标检测和分割性能。基于生成模型的增强:Smith和Meger[2017]使用条件GAN生成多样且逼真的3D目标。同样,Achlioptas等人[2018]使用VAE学习3D形状的生成模型,用于形状补全和探索任务。然而,虽然3D生成模型可以实现目标级别的增强,但它们并不适用于场景级别的增强。2D生成模型可以产生高度逼真的图像,但它们无法提供物理上合理的3D标签。3D常见的破坏使用3D信息生成实际世界的破坏性,用于2D数据集,可以评估模型的鲁棒性,并用于模型训练,但不支持3D检测,因为它没有引入新的3D目标内容。
Illumination Estimation
照明估计是计算机视觉研究中的一个关键领域,因为它在各种应用中起着至关重要的作用。Li等人[2020]解决了复杂室内场景的逆渲染问题,估计出空间变化的照明、SVBRDF和形状,从而从单张图像中进行估计。同时,一种可微的射线追踪方法与深度学习相结合,被提出用于基于深度学习的逆渲染室内场景。
此外,已经开展了使用深度学习进行室内照明估计的研究,例如Deep Parametric Indoor Lighting Estimation提供了增强的准确性和效率Gardner等人[2019]。此外,Wang等人(2022b)介绍了Neural Light Field Estimation,一种有效模拟街场景中虚拟物体插入的复杂照明条件的方法。这些研究强调了机器学习在改进渲染和计算机视觉任务中的照明估计能力方面的潜力。
3 Methods
本节介绍了作者提出的物理上可行的室内3D物体插入方法。图2显示了作者的3D Copy-Paste方法概述。第3.1节回答了“物体应该放在哪里以及如何放置”的问题,详细介绍了估计物体合适的插入位置、姿态和尺寸的过程,同时避免与现有物体发生碰撞。第3.2节解释了“作者应该向物体添加什么样的照明”:估计场景的空间变化照明,并使用逼真的照明和阴影渲染插入的物体。第3.3节描述了如何使用插入的物体创建增强数据集并训练单目3D目标检测模型。
Where and how: Physically Plausible Position, Pose, and Size Estimation
本节描述了在插入过程中处理第一个挑战的方法,即估计物理上可行的位置、姿态和尺寸参数以避免碰撞。
3.1.1 Ground Plane Selection
在给定场景和要插入的3D物体时,初始问题是将物体放置在哪里。为了容纳新物体,作者必须确定和理解物体可以放置的可用区域。作者执行平面重建以理解场景的布局,然后估计物理上可行的关键参数,如位置、大小和姿态。图2(a)显示了作者的平面重建和选择模块的概述,该模块接受RGB图像和深度数据作为输入,预测所有潜在的平面,然后缩小到地面平面。
为了得到一个粗略的平面重构,作者遵循了Feng等人(2014)描述的聚类层次聚类(AHC)平面提取方法。主要分为三个步骤:
- 作者构建一个表示点云(合并RGB和深度)非重叠组的图,其中节点和边表示一组点。
- 作者对组织好的图执行AHC,通过合并属于同一平面的节点来识别潜在的平面,继续直到平面拟合均方误差超过阈值。
- 作者使用像素级的区域生长方法来细化检测到的平面。
为了在保留清晰的表面纹理和锐利的特征的同时,同时保持几何细节,作者利用Wang和Guo(2018)描述的室内平面优化和重构方法。具体而言,作者首先根据AHC提取的平面将整个密集网格划分为不同的平面聚类,将它们视为平面基本元素。然后为每个平面创建一个纹理块,并对其采样,然后执行跨帧全局优化过程,以最大程度地保持采样点的光度一致性,通过优化相机姿态、平面参数和纹理颜色。进一步,作者通过优化几何与平面基本元素的一致性,进一步保留原始场景的锐利特征,例如平面交点的边缘和角落。最后,作者得到具有几何参数(例如表面法向量)的重构平面。
为了选择一个合适的平面进行插入,作者首先根据表面方向和Z轴上的标准差识别所有水平平面。具体而言,考虑一个平面为水平有两个约束条件:
- 平面必须具有与Z轴正方向平行的表面法向量(重力向量的相反方向)
- Z轴上的标准差应小于预定义的阈值。在作者的场景中,作者旨在将家具插入场景中,例如SUN RGB-D数据集中的十个兴趣类别:沙发、床、椅子、桌子、桌子、床头柜、衣柜、书架、厕所和浴缸。
因此,作者必须通过选择所有检测到的水平平面中平均Z值最低的平面来识别地面平面。
3.1.2 Constrained Insertion Parameter Search
为了解决在场景中放置物体的位置和方式的问题,作者估计了具体的插入参数:位置()、大小()和姿态()。作者提出了一种高效的受约束插入参数搜索算法,在避免与场景中的现有物体发生碰撞的同时计算可能的插入参数(算法1)。给定重构的地面平面,作者首先确定每个参数的搜索空间。对于位置,作者希望插入的物体接触地面,因此作者找到物体的3D边界框,并将底部表面的中心作为位置的优化参数。为了防止插入的物体与原始场景中的现有资产发生潜在的碰撞,作者在重构地面平面的中心周围搜索一个合适的位置。
如图2(b)所示,作者首先计算地面的中心,并设置一个搜索正方形,其使用地面沿X轴的标准差的两倍作为边宽和长度。插入位置是从搜索正方形内部均匀分布中采样得到的,即和,。对于大小(),作者使用物体的3D边界框的高度作为优化参数。对于每个物体类别,作者首先计算原始场景数据集中属于同一类物体的物体高度的平均值和标准差。然后作者假设高度尺寸遵循正态分布,并从这种正态分布中采样一个高度尺寸:。对于姿态(),作者只允许物体沿Z轴旋转以保持其稳定性。优化参数是沿Z轴的旋转角度,它遵循均匀分布,即。
Algorithm 1详细介绍了受约束插入参数搜索算法。首先,作者设定搜索预算:次搜索迭代。对于每次迭代,作者从相应的搜索空间中随机采样位置、大小和姿态参数,并基于采样参数计算插入物体的边界框。然后,作者检查与现有物体是否存在碰撞,并定量评估碰撞程度。直接碰撞检查方法是将插入物体转换为点云,然后计算与现有物体点云的覆盖。然而,由于涉及的点数量很大,这种方法是耗时的。作者简化问题,将原来的三维碰撞转换为二维碰撞,以加速碰撞检查。由于插入物体在地面上,如果两个物体发生碰撞,它们在顶部视图上的3D边界框投影也会经常发生碰撞(但并非总是如此,例如当一个物体可能被放在桌子下时,作者在这里忽略这些候选放置)。换句话说,作者忽略3D体积的绝对值,并使用2D碰撞投影作为相对碰撞分数。利用高效的碰撞检查,作者可以设置相对较大的搜索迭代次数,例如,同时仍然保持有限的时间(小于0.5秒)。作者 also 考虑了一个缩放因子,用于缩小插入物体的尺寸,以处理在空地上插入大物体的场景。在搜索过程中,如果找到一个碰撞分数为0的插入,则终止该过程;否则,继续跟踪具有最低碰撞分数的最佳插入,并在完成次搜索迭代后返回它。
What Illumination is on the object
3.2.1 Spatial-varying Illumination Estimation and Retrieval
为了回答“应该在物体上投射什么样的照明”这个问题,作者首先需要估计场景的空间变化照明。这个过程涉及到在场景的每个空间位置捕捉复杂的全局相互作用。为了实现这一点,作者利用了Li等人(2020年)提出的深度反渲染框架。首先,作者估计中间几何特征,如漫反射率、法线、深度和粗糙度。然后,一个LightNet结构,包括编码器-解码器设置,将原始图像和预测的中间特征输入。这反过来,使得可以估计场景的空间变化照明。
如图2(c)所示,估计的空间变化照明被表示为环境图。具体而言,原始图像中的每个4×4像素区域都与一个环境图相关联,该图捕获了周围环境的 appearance,并用于反射、折射或全局照明。这些图是球形的(等角直角),表示单一的2D纹理上的环境。X轴对应经度,Y轴对应纬度。纹理上的每个点对应于球面上特定的经度和纬度。
为了获取与插入物体位置相关的环境图,作者根据进行受约束插入参数搜索后估计的位置注册并检索相应的环境图。
3.2.2 Environment Map Refinement
坐标变换。插入物体的环境图是根据插入位置的局部坐标估计的。特别是,它建立了一个坐标系统,其中表面法向量被指定为Z轴。为了使用渲染方法(如Blender)对插入物体进行再照明,有必要将环境图转换为与Blender坐标系统对齐。
纬度补全。估计的环境图只包含范围在(0, )的纬度,因为反渲染方法无法估计表面下的照明。如图2(d)所示,作者通过在第二部分填入人工值来补全整个环境图。
强度细化。估计的环境图是低动态范围(LDR)格式,缺乏高动态范围(HDR)细节和高对比度。如果作者直接使用预测值,渲染的阴影看起来相对模糊。作者通过调整对数空间的缩放来估计HDR值:,其中是一个超参数。
最后,作者将经过变换和细化的HDR环境图,以及位置、大小和姿态,输入到插入渲染器(如Blender)中。这使作者能够获得具有3D边界框作为真实值的插入图像。
Dataset Augmentation with Insertion and Downstream Model Training
对于一个室内场景数据集和一组潜在插入的兴趣类别,作者可以识别出落在这些兴趣类别中的外部3D物体集合。在进行任何插入之前,作者计算每个感兴趣类别统计参数的值。对于每个感兴趣类别,作者假设大小参数(例如,高度)符合高斯分布。然后,作者计算这个大小参数的平均值和标准差,以指导外部物体的插入。以下是插入的详细步骤:对于室内场景数据集中的每个场景,作者从感兴趣类别集合中随机选择一个类别。
接下来,作者从外部3D物体集合中随机选择一个属于选定类别的实例。然后,作者使用作者的物理上可行的插入方法(算法1)将这个外部3D物体集成到场景中。因为作者自动获得了插入物体的3D标注,所以作者可以用增强后的数据集训练任何下游单目3D目标检测模型。
4 Experiments
本节介绍了实验来评估作者提出的物理上可行的3D物体插入方法的有效性,并评估不同插入参数如何影响单目3D目标检测的最终性能。
Dataset and Model Setting
室内场景数据集。 作者将SUN RGB-D数据集作为室内场景的主要资源。它是最具挑战性的室内场景理解基准测试之一。SUN RGB-D包括使用四个不同传感器捕获的10,335张RGB-D图像。数据集分为5,285个训练场景和5,050个测试场景。此外,它还包括146,617个2D多边形和58,657个3D边界框,为作者提供了全面的数据集。
作者还使用了ScanNet数据集。ScanNet v2是一个大规模的RGB-D视频数据集,其中包含训练集的1,201个视频/场景和验证集的312个场景。将其适应于单目3D目标检测,作者使用了每个视频的一个RGB-D图像,总共为训练集的1,201个RGB-D图像和验证集的312个图像。作者从提供的场景级标签中计算作者使用的每个视图的 GT 3D边界框标签,因为场景中的某些物体在作者的单目视点中可能不可见。
外部3D物体资产。 3D物体的质量对于有效的插入至关重要。因此,作者使用Objaverse,这是一个具有80万多个标注的稳健数据集。使用词解析,作者从SUN RGB-D中的感兴趣类别中提取与单目3D目标检测相匹配的物体。表1显示了每个SUN RGB-D类中选择的Objaverse数据。
单目3D目标检测模型。 作者专注于依赖于单一RGB图像作为输入的具有挑战性的单目3D目标检测任务。作者使用ImVoxelNet,它仅使用单一RGB图像作为输入,在原始SUN RGB-D数据集上实现了最先进的性能。其他现有方法要么依赖于额外的模态和多个数据集进行额外的监督,要么性能不佳。对于单目3D目标检测,作者在原始SUN RGB-D数据集及其各种版本上训练相同的ImVoxelNet模型,每个版本都通过不同的插入方法进行增强。所有mAP结果都为mAP0.25。
Physically-plausible position, pose, size, and illumination leads to better monocular detection performance
作者提出的3D Copy-Paste方法主要解决两个挑战:(1)物体应该放置在哪里:作者估计物体的位置、方向和大小,同时确保不会与场景中的现有物体发生碰撞。(2)物体上的照明是什么:作者估计场景的空间变化照明,并应用逼真的照明和阴影渲染物体。接下来的实验评估了模型的性能。
表2展示了在SUN RGB-D数据集上使用各种目标插入增强技术进行单目3D目标检测的结果。第一行是未使用任何插入的ImVoxelNet在原始SUN RGB-D数据集上的性能。”ImVoxelNet + random insert”行显示了通过不应用物理上可行的约束(随机位置和相机的点光源)实现的3D物体插入的结果。这种方法导致准确率从40.96%下降到37.02%,这很可能是因为物理上不可行的原因导致最终图像中严重的碰撞和遮挡。”ImVoxelNet + 3D Copy-Paste (w/o light)”行展示了在仅估计物理上可行的插入位置、姿态和大小后实现的结果。尽管使用了简化的相机点光源,但这种方法优于没有任何插入的”ImVoxelNet”,也优于简单的”ImVoxelNet + random insert”(+4.78%的改进)。
这一结果表明,应用合理的几何形状是必要的,可以使3D数据增强变得有用,而不仅仅是简单的随机增强。在进一步应用物理上可行的动态光之后,作者提出的”ImVoxelNet + 3D Copy-Paste”进一步提高了性能,并实现了新的最先进状态,超越了不使用插入的ImVoxelNet(+2.83%)。这一性能改进表明,作者的3D Copy-Paste插入可以作为有效的数据增强方法,对下游3D目标检测任务产生积极影响。表3显示了ImVoxelNet在单个目标类别上的SUN RGB-D单目3D目标检测结果。
表4展示了在ScanNet数据集上使用单目3D目标检测的结果。作者使用了每个视频的一个RGB-D图像:训练集1,201个,验证集312个。作者从提供的场景级标签中计算了作者使用的每个视图的 GT 3D边界框标签。对于 Baseline ,作者在训练集上训练一个ImVoxelNet单目3D目标检测模型,并在验证集上进行测试。对于作者方法,ScanNet数据集中的18个类别中有8个与作者的收集的Objaverse数据中的重叠类别(沙发、书架、椅子、桌子、床、桌子、厕所、浴缸)。作者使用作者的3D Copy-Paste来增强训练集并训练一个ImVoxelNet模型。所有训练参数与在SUN RGB-D数据集上的训练相同。作者在表4中展示了8个重叠类别的平均准确率(mAP@0.25)。作者的3D Copy-Paste将ImVoxelNet提高了2.8%的mAP。
Ablation study on the influence of insertion illumination and position on monocular 3D object detection
作者首先探讨了插入物体的照明如何影响下游单目3D目标检测任务。
表5显示了在3D Copy-Paste期间不同照明设置下ImVoxelNet在SUN RGB-D上的性能。为了消除其他插入参数的影响,作者在表5中的所有实验中固定每个场景的估计位置、姿态和大小。
图3提供了在插入渲染过程中各种光源和光参数的影响可视化。表5中呈现了相应的单目3D目标检测结果。这些结果说明了照明不仅会影响从人类观察者的角度插入物体的视觉感知,而且会极大地影响下游检测任务的性能。因此,准确和物理上可行的照明估计对于理解和实际应用下游检测任务都是至关重要的。
表2显示了在单目3D目标检测任务中物理位置、姿态和大小(局部上下文)的重要性。作者还探索了全局上下文对检测性能的重要性。全局上下文在这里指的是插入物体与整个场景的语义关系。例如,将一个厕所插入到客厅中可能不符合全局上下文。作者提出了一种可行的全局上下文插入方法,其中插入物体的类别考虑全局场景信息。此外,作者还可以根据地板大小选择插入的类别:仅在大型地板上插入较大尺寸的物体(例如床、书架)。
表6显示了在不同设置下的结果。作者发现,在插入过程中考虑全局上下文与随机类别选择设置相当,接下来的下游检测模型可能不对此敏感。
Qualitative Analysis
图4展示了在SUN RGB-D数据集上单目3D目标检测的定性结果。作者的方法在检测具有严重遮挡的目标、提供改进的姿势估计和有效抑制假阳性方面具有增强的能力。
5 Conclusion and Discussion
作者的工作通过提出一种物理上可行的室内3D物体插入方法来解决单目3D目标检测的稀缺大规模标注数据集的挑战。这种技术使作者能够有效地将大规模标注的3D物体插入现有的室内场景数据集(如SUN RGB-D)中,这些物体具有合理的物理位置和照明。生成的增强数据集使作者能够训练出一种单目3D物体模型,其性能达到了新的最先进水平。作者的方法仔细考虑插入物体的物理位置、大小和姿态,避免与现有房间布局发生碰撞,并估计空间变化的照明,以无缝地将物体集成到原始场景中。作者还系统地评估了插入物体的物理位置和照明的影响,以及它们对最终单目3D目标检测模型的性能的影响。本文是首次证明物理上可行的3D物体插入可以作为一种有效的生成数据增强技术,在具有区分性的下游任务(如单目3D目标检测)中实现最先进性能。作者的发现强调了3D数据增强在改进3D感知任务性能方面的潜力,为研究和实际应用开辟了新的途径。
Experiments on more Monocular 3D Object Detection methods
在作者的主要论文中,作者使用了ImVoxelNet进行单目3D目标检测。为了展示3D Copy-Paste在不同的下游检测方法上的鲁棒性,作者进行了另外一些实验,使用另一个单目3D目标检测模型:Implicit3DUnderstanding(Im3D)。Im3D模型在一个统一的 Pipeline 中预测物体的3D形状、边界框和场景布局。训练这个模型需要不仅SUN RGB-D数据集,还需要Pix3D数据集,该数据集提供3D网格监督。Im3D的训练过程分为两个阶段。在第一阶段,单独的模块(布局估计网络、目标检测网络、局部隐式嵌入网络和场景图卷积网络)分别进行预训练。在第二阶段,所有这些模块进行联合训练。作者在联合训练的第二阶段中引入作者的3D Copy-Paste方法,并将其专门应用于作者在主要论文中使用的10个SUN RGB-D类别。作者按照Im3D的官方指南1进行了作者的实验。
表7显示了在SUN RGB-D数据集上单目3D目标检测的Im3D结果,与主要论文中概述的相同十个类别一致。Im3D没有插入时,平均平均精度(mAP)检测性能为42.13%。在应用作者提出的3D Copy-Paste方法,包括物理上可行的插入位置、姿态、大小和照明后,单目3D目标检测的mAP性能增加到43.34。这些结果进一步证实了作者提出的方法的鲁棒性和有效性。
Appendix B More experiment details
作者进行了多次实验,使用不同的随机种子。表8显示了与主要论文表2相同的结果,误差范围。
作者还展示了在SUN RGB-D数据集上,作者的方法在mAP@0.15(表9)上的结果,作者的方法显示出一致的改进。
Discussion on Limitations and Broader Impact
作者的方法虽然有效,但也存在一些局限性。一个关键约束是它依赖于外部3D目标的可用性,特别是对于不常见的类别,其中可能没有 readily available的3D资产。这种限制可能会影响下游任务的性能。此外,插入目标的质也可以影响结果。可能的方法来解决这个问题包括利用Neural Radiance Fields(NeRF)等技术来构建不同类别的高质量3D资产。
更广泛的影响。 作者提出的3D Copy-Paste方法表明,物理上可行的3D物体插入可以作为一种有效的生成数据增强技术,在具有区分性的下游任务中,如单目3D目标检测,实现最先进性能。这项工作的影响对计算机图形学和计算机视觉社区都深远。从图形学的角度来看,作者的方法表明,更准确的3D属性估计、重建和反渲染技术可以生成更 plausible 3D资产和更好的场景理解。这些资产不仅具有视觉吸引力,还可以有效地为下游计算机视觉任务作出贡献。从计算机视觉的角度来看,它鼓励作者更有效地利用合成数据来解决下游领域中的挑战,包括计算机视觉和机器人技术。
参考
[1].3D Copy-Paste: Physically Plausible Object Insertion for Monocular 3D Detection.
点击上方卡片,关注「AI视界引擎」公众号