DQS3D:密集匹配量化感知半监督三维检测

766次阅读
没有评论

DQS3D: Densely-matched Quantization-aware Semi-supervised 3D Detection

解决问题:本文旨在解决半监督三维物体检测问题,以应对在杂乱的三维室内场景中高昂的注释成本。这是一个新问题吗?

关键思路:本文采用了自我训练的鲁棒性和原则性框架,将其应用于半监督三维物体检测问题。与之前的方法不同,本文提出了单阶段的半监督三维检测算法,并允许空间密集的训练信号。这个新设计的一个基本问题是点到体素离散化引起的量化误差,这不可避免地导致了体素域中两个变换视图之间的不对齐。为此,本文推导并实现了实时补偿这种不对齐的闭合规则。相比当前领域的研究状况,本文的思路有哪些新意?

其他亮点:本文的实验结果显著,例如使用20%的注释将ScanNet mAP@0.5从35.2%提升到48.5%。代码和数据将公开发布。本文的亮点还包括采用了单阶段的半监督三维检测算法,允许空间密集的训练信号,并实时补偿了量化误差。

关于作者:本文的主要作者是Huan-ang Gao、Beiwen Tian、Pengfei Li、Hao Zhao和Guyue Zhou。他们分别来自清华大学、北卡罗来纳州立大学和中山大学。他们之前的代表作是:

  • Huan-ang Gao:《D2Det: Towards High Quality Object Detection and Instance Segmentation》、《CSPNet: A New Backbone that can Enhance Learning Capability of CNN》
  • Beiwen Tian:《Rethinking on Multi-Stage Networks for Human Pose Estimation》、《F-DNN: A High-Efficiency Deep Neural Network for FPGA》
  • Pengfei Li:《Towards Faster Training of Global Covariance Pooling Networks by Iterative Matrix Square Root Normalization》、《Spherical CNNs》
  • Hao Zhao:《M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network》、《PSANet: Point-wise Spatial Attention Network for Scene Parsing》
  • Guyue Zhou:《Relation-Aware Global Feature Consensus for Fine-grained Image Classification》、《DenseBox: Unifying Landmark Localization with End to End Object Detection》

相关研究:近期其他相关的研究还包括:

  • “Learning with Noisy Labels for Object Detection” by Xudong Wang, Dangwei Li, Xiaoyong Shen, Shengjin Wang and Liang Lin from Sun Yat-sen University, SenseTime Group Limited and Sun Yat-sen University (ECCV 2020)
  • “S4Net: Single Stage Salient-Instance Segmentation” by Yuxin Fang, Xuming He, Jianbing Shen and Ming-Ming Cheng from Nankai University and Nanyang Technological University (ECCV 2020)
  • “Unsupervised Domain Adaptation for 3D Keypoint Estimation via View Consistency” by Yichao Zhou, Zimo Li, Tianqi Zhao, Kai Xu and Yebin Liu from Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences and University of Technology Sydney (ECCV 2020)

论文摘要:本文研究了半监督三维物体检测问题,这在考虑到混乱的三维室内场景的高注释成本时具有重要意义。我们采用了自我教学的健壮和原则性框架,该框架最近在半监督学习方面取得了显着进展。虽然这种范式在图像级或像素级预测方面很自然,但将其适应于检测问题则受到提案匹配问题的挑战。先前的方法基于两阶段流水线,匹配在第一阶段生成的启发式选择的提案,并导致空间稀疏的训练信号。相比之下,我们提出了第一个半监督三维检测算法,它以单阶段方式工作并允许空间密集的训练信号。这种新设计的一个基本问题是由于点到体素离散化引起的量化误差,这不可避免地导致了体素域中两个变换视图之间的不对齐。为此,我们推导并实现了闭合规则,以实时补偿这种不对齐。我们的结果非常显著,例如,使用20%的注释将ScanNet mAP@0.5从35.2%提高到48.5%。代码和数据将公开发布。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy