Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低!

493次阅读
没有评论

点击下方卡片,关注「集智书童」公众号

Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低!

Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低!

作者提出了一种用于使用时间LiDAR点云进行3D目标检测的Late-to-Early循环特征融合方案。作者的主要动机是将具有目标感知能力的潜在嵌入融合到3D目标检测器的早期阶段。这种特征融合策略使模型能够更好地捕捉具有挑战性的目标的形状和姿态,相对于直接从原始点学习。

作者的方法以一种循环方式进行从Late-to-Early的特征融合。通过对经过时间校准和对齐的稀疏Pillar标记施加基于窗口的注意力块,作者实现了这一目标。利用鸟瞰视图的前景Pillar分割,作者将模型需要融合到当前帧的稀疏历史特征数量减少了10倍。作者还提出了一种随机长度的FrameDrop训练技术,该技术可以在推理时将模型推广到可变帧长度,从而提高性能而无需重新训练。

在广泛采用的Waymo开放数据集上评估了作者的方法,并展示了在3D目标检测方面相对于Baseline模型的改进,特别是对于大目标这一具有挑战性的类别。

1、简介

激光雷达(LiDAR)时间融合的目标是汇聚学到的历史信息,以改善基于点云的任务。这些历史信息可以是各种隐式(例如潜在嵌入)、显式(例如点云、3DBBox轨迹)表示或两者的混合,具体取决于所处理的模型和任务。时间融合对于多个与驾驶相关的任务至关重要,如3D目标检测、跟踪、分割和行为预测。

在这里,作者主要研究基于LiDAR的融合方法,用于3D目标检测,这是现代自动驾驶系统中识别和定位周围目标的关键任务。单帧点云只能作为场景的部分观测,缺乏完整的环境背景和代理动态的覆盖。这种信息瓶颈由多种因素引起,如目标自遮挡、被其他目标遮挡、传感器视场限制和数据噪声等。

此外,对于移动目标,只有单帧数据的模型将难以理解它们的短期状态(速度、加速度)和长期意图(未来轨迹)。解决这些问题需要有效的LiDAR时间融合方法,可以使模型从广泛的时间范围内理解场景/目标属性和动态。

Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低!

时间融合的主要挑战在于如何表示和聚合历史帧的长序列信息。通常来说,先前的解决方案可以分为两种类型。其中一种最广泛使用的方法是基于点云叠加的Early-to-early融合。多帧LiDAR点直接堆叠在一起作为模型输入,相对于单帧LiDAR点,可以获得更好的性能。然而,当更多帧简单堆叠在一起时,性能很快就会饱和,而没有仔细建模帧间关系。此外,当它们堆叠成不同的相邻帧时,每帧都需要重复处理,大大增加了计算成本。拟合长序列还会大大增加内存成本,降低模型效率,甚至导致内存不足(OOM)问题。

理想情况下,模型应该利用已经从数据中学到的知识,而不仅仅是堆叠其原始感知输入。为了克服这个问题,另一种融合方法转向Late-to-Late融合,以利用学到的历史嵌入。代表性的方法是ConvLSTM,它在模型的深层中对相邻帧之间的潜在嵌入进行递归融合。这种方法减少了内存使用和计算成本,但其结果通常不如Early-to-early融合,如图1b所示。作者怀疑这是因为在晚期融合之前,Backbone只能访问单帧数据。理解时间融合的深层特征的任务落在检测头上,通常由低容量的多层感知器(MLP)层组成。因此,大多数最先进的LiDAR 3D目标检测器(例如PVRCNN++、CenterPoint、SST、SWFormer等)仍然依赖于点云叠加的Early-to-early融合。

Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低!

在本文中,作者提出了一种新的融合方法,称为LEF:Late-to-Early时间融合。作者认为,这种融合方案可以利用学到的历史知识,同时其Backbone不会受到单帧数据不足的问题的影响。长期历史LiDAR融合是自动驾驶的基本组成部分,作者的工作为实现这一目标开辟了一个有希望的方向。作者的论文有三个主要贡献:

  • 作者提出了一种递归架构,将最终稀疏Pillar特征融合到下一帧的早期阶段。为了对齐底层的静态目标,作者提出了一个逆校准和对齐模块,用于融合历史和当前的稀疏Pillar特征。对于移动目标,作者利用基于窗口的注意力层,可以关联窗口内的相关特征,从而连接属于同一目标的Pillar标记。

  • 虽然点云叠加在历史长度增加时很难缓存和预处理大量点云,但作者利用鸟瞰视图(BEV)前景Pillar分割模块以低恒定成本实现长序列融合。通过前景分割过程,作者的模型在每个递归步骤中需要融合的稀疏体素数量可以减少10倍以上。

  • 作者还提出了一种随机长度的FrameDrop训练方法。它使模型暴露在不同速度的Pillar轨迹的扩增大运动空间中。因此,作者的递归模型可以捕捉不同速度的目标,并在推理过程中推广到不同的帧长度,以提高性能。

2、相关方法

3D目标检测

基于LiDAR的3D目标检测在自动驾驶中发挥着关键作用。早期的研究工作,如PointRCNN,通常通过PointNet(++) 处理原始的3D点云。但是它们在大规模数据上(例如,具有数百万个点的长序列融合的LiDAR)的泛化能力受到了挑战。这些检测器在很大程度上依赖于基于MLP的Backbone,很快就被具有更先进架构的模型超越,比如次流形稀疏卷积或 Transformers。

通过将自由形状的点集分解为规则的2D1或3D形状的体素,LiDAR-based检测器可以借鉴图像2D目标检测领域的许多进展,开始展示有希望的3D检测结果。特别是,CenterPoint利用稀疏卷积层和基于CenterNet的检测头来预测3DBBox。一些最近的工作,如SST和SWFormer,利用Swin-Transformer推动了检测性能达到了新的技术水平。与此同时,一些方法研究了替代的LiDAR表示方法,并努力在检测效率和效果之间取得平衡。

LiDAR时间融合

与3D检测Backbone取得的快速进展相比,LiDAR时间融合方法的研究较少。WOD中的单帧点云已经导致了巨大的计算负担(即,约200k个点),更不用说长历史序列了。正如在介绍部分简要讨论的那样,LiDAR时间融合的解决方案通常可以分为三种类型:Early-to-early,Late-to-Late和Late-to-Early融合。Early-to-early融合也被称为点云叠加。

最近的LiDAR目标检测器(例如CenterPoint、RSN、SWFormer等)最广泛采用这种方法,因为它的设置简单。多帧点集被合并在一起。相对于当前帧的时间戳偏移被附加到每个3D点的感知信号中,用作指示不同帧来源的标记。

然而,点叠加在处理长序列时很困难,因为需要合并、保存和联合预处理数百万个点。也可以使用Transformer来早期融合来自不同帧的点云。Early-to-early融合只是简单地堆叠原始感知输入,没有仔细建模帧间关系和忽略从先前帧学到的知识,而Late-to-Late融合尝试通过ConvLSTM 来解决这些问题。它在Backbone的深层之间递归融合稀疏的潜在嵌入,效率比点云叠加更高,但结果通常不如Early-to-early融合具有竞争力。这可能是因为它的Backbone直到深层的融合发生才能利用单帧数据。3D-MAN也可以看作是一种Late-to-Late融合的形式,因为这种方法中的时间融合是通过各种交叉注意力在BBox提议和存储器库中的特征之间完成的,这两者都位于网络的Backbone之后。FaF研究了早期融合和晚期融合两种方法。

据作者所知,Late-to-Early融合在LiDAR检测器中尚未被研究过。在[35] 中也研究了类似的融合框架,但是针对的是基于摄像头的检测,面临着与作者问题非常不同的挑战。作者需要处理广泛范围内分布的3D数据,这需要专门设计用于稀疏特征对齐、融合以及新的训练方法。

最后,作者注意到,到目前为止,作者的审查主要集中在一个可训练的单阶段模型上,该模型内部化了时间融合方案。也可以跟踪BBox预测,采用最近两阶段方法的Term,来进行第二阶段的离线优化,MPPNet是这种两阶段方法的最新示例之一。MPPNet在4帧堆叠的LiDAR点云上运行预训练的CenterPoint,以生成Anchor-BBox,然后跟踪并聚合长序列中的BBox。

具体地说,一个帧内BBox区域内的潜在嵌入或原始点将与从其他帧中提取的那些交织在一起,以优化BBox状态。这种两阶段方法的关键区别因素在于两个阶段/模型是分别训练,这意味着第一阶段内在地内置的改进与第二阶段的创新是互补的。

3、本文方法

A. 问题陈述

作者使用来表示一系列连续的LiDAR点云,其中。作者的目标是使用来检测每一帧的3D目标,其中。理想情况下,模型应该能够融合到当前时间戳-t的历史信息,其中表示融合函数。由于点云的稀疏和广泛的空间分布,以及多样化的目标动态,LiDAR时间融合被认为是一个开放性挑战。

目前,最广泛使用的是Early-to-early融合(即,点云叠加),这种方法容易实现。然而,由于内存限制,序列长度通常较小,例如。此外,当作者在相邻帧上进行模型推理时,一个帧的点云必须被重复处理次,导致计算资源的巨大浪费。至于检测性能,直接堆叠原始感知输入,而不重复使用学到的历史知识是否能够导致最佳结果,也仍然存在疑问。

B. 递归的Late-to-Early融合

为了解决上述问题,作者提出了一种递归的Late-to-Early时间融合策略。如图2所示,融合流程类似于“马尔可夫链”,可以积累来自长序列的历史信息并减少冗余计算。因此,融合函数可以迭代定义为:

Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低!

其中表示历史深层体素嵌入,τ是用于编码时间戳偏移的正弦函数。ν代表用于从点云中获取Pillar特征的VoxelNet,是用于递归融合和多尺度稀疏Pillar特征提取的Backbone,ψ是前景分割模块。

历史特征

特别地,作者使用分段前景Pillar的潜在特征作为,并将它们传递到下一个时间戳。不失一般性,如果需要,作者在后续讨论中使用SWFormer作为Backbone和基于中心的检测头作为示例。

Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低!

该图在图2中绘制。模型工作在稀疏Pillar Token上,因此分割输出可以写成。前两个维度记录Pillar的BEV坐标,其余的是提取的嵌入(即d = 128),其中包含丰富的场景和目标感知信息。

此外,与一个帧的原始点云大小相比,前景Pillar特征集大小要小得多。因此,作者有动力将这些深层特征融合到下一帧的早期阶段,以有效地重用学到的高级知识进行3D检测,特别是对于具有挑战性的大型目标。

融合位置

为了实现递归的Late-to-Early融合,作者将与VoxelNet 的输出融合在主要的Backbone网络之前。同时,一些人可能会认为,另一种方式是在Backbone处理之后进行迟到融合,接近提取的网络阶段。这两种不同融合位置的示意图在图1中绘制。

作者认为,Late融合可能会导致BackboneB失去对时间聚合的LiDAR序列信息的访问,从而使低容量的检测头H难以理解融合特征并预测目标的姿态和形状。作者在表IV和第IV-C节中提供了Early-to-early、Late-to-Late和作者提出的Late-to-Early融合方法的消融研究,从经验上证明了作者方法的优势。

C. 逆校准和对齐

虽然图像序列自然地通过形状(高度、宽度、通道)在不同帧之间对齐,但稀疏的Pillar特征集既不对齐也不具有相同的基数(即)。直观地,可以将稀疏特征转换为密集的BEV地图然后对齐它们。然而,正如图2所示,如果没有适当的校准,直接这样做可能会导致场景中底层目标的不对齐。这是因为由Backbone提取的Pillar特征来自其对应的局部车辆坐标和姿态。为了减轻这种不对齐问题,作者需要校准历史BEV地图

Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低!

此处表示应用车辆坐标变换,表示校准的BEV地图。

然而,在实际应用中,如果作者在上应用正向校准,可能会得到多个Pillar落入内相同的离散坐标的情况。为了解决这个问题,作者对进行逆转换到,并对历史BEV特征进行采样。作者使用零填充来填充空样本的Pillar特征,也用于超出视野范围的位置,例如图2中的红色十字标记。

逆校准的历史地图现在可以通过特征串联来与当前地图对齐。

接下来,作者对应用MLP进行维度降低(即),并得到时间对齐的Pillar特征。请注意,并不是内的所有坐标都有有效特征。作者使用从当前和校准的历史BEV特征中获得的联合BEV布尔Mask 来标记的有效坐标。因此,作者不会丢失数据的稀疏性。

D. 基于窗口的注意力融合

静止目标的Pillar在前面的步骤之后得到了有效的对齐,但移动的Pillar仍然面临不对齐的问题。一种解决方法是在时间对齐之前,对历史BEV特征进行进一步的流估计校准。但这需要添加额外的占用流模型、损失和特征坐标变换,这可能会大大增加3D目标检测器的计算开销。因此,作者提出通过基于窗口的注意力块从数据中隐式学习这种关联。作者将密集的BEV特征图及其布尔掩码稀疏化为一组Pillar Token 。通常情况下,。因为基于第III-C节中的步骤在历史和当前特征之间进行时间对齐后,的基数意味着融合Pillar的数量。而被用作注意力块的查询张量时,确定Key和Value张量时可以进行不同的选择:再次使用或历史Pillar Token 的稀疏集合(2):

由于在车辆坐标校准后,通常情况下,因此产生的变体有:自注意力/交叉注意力/混合注意力。自注意力中Key和Value张量与Query张量相同。交叉注意力使用作为Key和Value,混合注意力使用前两种注意力变体的联合集合。作者对不同注意力设计的详细消融研究在第IV-C节中提供。通过基于窗口的注意力融合,静态和移动Pillar的特征现在可以关联和融合,以供后续传递到主要的Backbone网络。

E. 随机长度的FrameDrop

为了在长序列上实现稳健的训练,作者在每次训练迭代中随机删除历史帧。换句话说,作者随机采样个历史帧,其中在不同的训练步骤中是一个随机数,所采样的帧不一定是相邻的帧。

相比之下,以前的LiDAR时间融合方法通常将固定为一个常数(例如3或4)并采样连续的帧。当将深层历史特征融合到下一帧的早期层时,作者在每个递归传递之间应用停止梯度,否则3D目标检测器的长序列训练很容易变得难以处理或遇到OOM。在训练期间,模型只在最后的正向传递中预测3D BBox。损失被强制执行在某些中间输出(例如前景Pillar分割)和最终的BBox参数预测(例如形状和姿态)上。

Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低!

在这里,L表示总损失。是前景分割的Focal Loss。也是Focal Loss,但用于目标中心Heatmap估计。包含BBox方位角、中心偏移和大小回归的SmoothL1损失。

在LiDAR序列采样中引入的训练随机性使模型能够适应不同的Pillar轨迹在时间上的各种运动模式。因此,作者的递归模型可以理解不同的目标动态,并在推理过程中实现可变帧长度的泛化,而无需重新训练。更多的实验和分析在表VI和消融研究中提供。

4、实验

A. 主要结果和比较

Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低!

与其他竞争方法相比,作者的整体车辆检测结果如表I所示。作者比较了带有BBox细化步骤和不带BBox细化步骤的方法,尽管作者的模型是一个不带细化的单阶段方法,通常比那些带有细化的方法更高效。

作者的方法LEF在L2测试数据上超过了以前最好的单阶段模型SWFormer,3D APH提高了+1.3(例如75.16 vs. 73.87),展示了作者方法的强大整体性能。

Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低!

作者的方法特别适用于检测挑战性的大型目标,其最大尺寸超过7米:卡车、公共汽车、工程车等。作者在验证集上进行了详细的分析,如表II所示。作者的方法LEF在L1 3D AP上相对增加了+9.3%:54.35 vs. 49.74,优于SWFormer。

与小型或中型目标相比,大型车辆等难例更容易出现部分观察问题。要忠实地检测这些具有挑战性的情况,需要在较长的帧长度上进行LiDAR时间融合,以扩大感知数据的覆盖范围。此外,作者的后到前融合方案可以重复利用从之前帧中学到的场景和目标感知的潜在特征,而不仅仅是像RSN和SWFormer中堆叠的原始感知输入。

Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低!

定性结果在图3中可视化。SWFormer的典型错误在红色区域中突出显示。作者的结果与GT更好地对齐(即3D IoU更高)比SWFormer的预测,特别是对于具有挑战性的大型目标。

Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低!

此外,作者的结果包含的假阴性和假阳性预测较少。作者还在表III中测量了不同LiDAR 3D目标检测器的模型延迟、FLOPs和参数大小。PointPillars和SWFormer都使用点堆叠。结果显示了作者的后期到早期递归融合方法的效率优势。

B. 消融研究

融合策略

作者进行了苹果对苹果的比较,研究了如图1a所示的Early-to-early(E2E),Late-to-Late(L2L)和Late-to-Early(L2E)融合策略的影响。

具体来说,作者测试了所有融合变体,具有相同的Backbone和帧数(即3),以分解模型体系结构和LiDAR序列长度的影响。验证集大型目标的结果如表IV所示。

Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低!

作者的L2E融合在L1 3D AP上超越了其他两种方法,相对增益为7.8%。通过比较E2E和L2L融合,作者观察到它们在2D AP上的结果是可比的。但是E2E在3D AP上明显优于L2L,表明了更高质量的3D目标检测。

这些结果验证了作者关于Late-to-Early融合优势的论点。与E2E融合相比,L2E使模型能够重复使用从之前帧中学到的场景和目标感知知识。与L2L相比,L2E融合的模型容量没有受到限制,因为其Backbone可以早期访问时间上聚合的感知数据。

不同的目标大小

除了在第IV-B节中的整体结果和难例分析之外,作者还对不同目标大小对作者方法的影响感兴趣。因此,作者将验证集目标分为:大、中、小。典型的大型目标是公交车和卡车。中型和小型目标

Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低!

通常包括轿车和行人。详细的结果见表V。尽管作者的方法LEF在小目标上取得了与竞争方法相当的结果,但作者观察到随着目标尺寸的增大,收益越来越多。在L2中等目标上,LEF的改进值为0.73 AP,并且在大型目标上进一步提高为4.11 AP。一个可能的解释是小目标受到的部分视图观察问题较少,因此不太能从时间融合中受益。从结果来看,作者认为作者的方法在不同的目标大小上都能稳健工作。

C. 帧长度的泛化

由于计算设备(如GPU或TPU)的内存限制,具有LiDAR时间融合的3D目标检测器通常在训练期间采样一定数量的历史帧(例如2或3)。然而,在推断期间,根据历史长度,模型通常可以获得额外的帧。对于典型的基于Early-to-early融合的多帧检测器(例如CenterPoint、SWFormer),如果作者想要在不同的帧长度上测试已训练好的模型,需要修改训练设置并重新训练模型。通过随机长度的FrameDrop(SLF),LEF可以在不重新训练的情况下泛化到可变的帧长度。它可以利用额外的帧,并获得越来越好的结果。表VI中显示了大型目标的3D AP。

Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低!

相比之下,没有SLF的SWFormer和LEF可能无法充分利用较长的历史,甚至可能面临性能下降。这是因为长历史帧可以展示时间上聚合数据的多种运动模式,对于没有SLF训练的方法来说,这会带来泛化困难。

此外,由于SWFormer基于点云堆叠,如果作者只是将长LiDAR序列堆叠成数百万个3D点并将它们用作输入,它将遇到OOM。这些观察结果表明,随机长度的FrameDrop和循环融合对于在推断期间将作者的LEF方法泛化到可变帧长度是至关重要的。

前景Pillar分割

为了以递归的方式高效融合历史Pillar特征,作者在将历史潜在Pillar嵌入传递到下一帧之前,对BEV前景进行分割。需要递归融合的历史Pillar数量可以从∼20k平均减少到∼2k,去除了大量无信息的背景数据。因此,作者的后期到早期时间融合方案的计算负担可以大大减轻,并保持在相对较低的固定成本。

逆校准和对齐

如图2所示,逆校准和对齐对于在先前帧和当前帧之间融合两个稀疏的Pillar特征集是重要的。经过这个时间对齐过程后,属于相同基础静态目标的特征可以有效地对齐。

Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低!

在表VII中,作者展示了逆校准和对齐在不同尺寸目标上实现了一致的检测改进,包括卡车、轿车、行人等。

基于窗口的注意力融合

作者在时间上对齐的稀疏Pillar标记上应用基于窗口的注意力块,以进一步融合历史和当前帧的信息。如第III-D节所解释的,作者探索了三种不同的注意力设计:自注意力/交叉注意力/混合注意力。

Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低!

WOD验证集上的大型目标检测AP如表VIII所示。对于所有方法,作者使用从经过时间上对齐的BEV特征图转换而来的Pillar标记的稀疏集合作为查询张量。在自注意力中,Query、Key和Value基于相同的张量。在交叉注意力中,Key和Value张量是从校准历史特征转换而来的稀疏Pillar标记。混合注意力使用前两种方法的并集作为Key和Value。

作者观察到,自注意力一直优于其他两种注意力变体。这可能是因为历史标记存在于与时间上对齐标记非常不同的潜在空间中。因此,在之间的注意力可能很容易导致难以处理的特征融合,最终损害检测。与此同时,由于已经合并了历史和当前的信息,自注意力能够很好地关联相关的Pillar标记并完成融合任务。

Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低!

基于窗口的注意力融合在融合来自移动目标Pillar的信息方面发挥着重要作用。在表IX中,作者展示了在有和没有基于窗口的自注意力融合的情况下的验证集3D AP比较。作者报告了不同速度范围的不同大小目标的子类指标:[0, 0.45)、[0.45, 2.24)、[2.24, 6.71)、[6.71, 22.37)、[22.37, +∞)英里/小时,用于静态、缓慢、中等、快速、非常快速的目标。这些指标是在不同大小的目标上进行平均的。作者观察到,注意力融合在不同的目标速度范围内带来了一致的检测增益。

特别是,在高速目标上取得的改进大于在低速目标上取得的改进:+9.4(快速)vs.+6.1(静态)3D AP增益。这些比较从经验上证明了基于窗口的自注意力融合对于关联属于相同基础目标的相关Pillar非常重要,这对于移动目标检测尤为重要。

5、参考

[1].LEF: Late-to-Early Temporal Fusion for LiDAR 3D Object Detection.

6、推荐阅读

Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低!

BEVFusion?看UniBEV携CNW融合策略如何一统多模态融合的江湖

Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低!

即插即用FoLR | 让Self-Attention在目标检测的世界中游刃有余,价值满满!

Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低!

骨干网络PK | ResNet/Res2Net/DarkNet/Swin-T在Deformable DETR中应该怎么选择

Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低!

扫码加入👉「集智书童」交流群

(备注:方向+学校/公司+昵称

Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低!

Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低!Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低!

Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低!

Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低!Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低!想要了解更多:

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF

行业技术方案👉AI安防、AI医疗、AI自动驾驶AI模型部署落地实战👉CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码,加入集智书童-知识星球,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!


免责声明凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。
点击下方“阅读原文”,了解更多AI学习路上的「武功秘籍」

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy