一文看懂BEVFormer技术及其背后价值

图片来源@视觉中国

文 | 赛博汽车

从时间维度上看，BEVFormer已是历史产物，或许几个月、最多一两年后，一个真正的“王炸”会出现。

2021年7月，特斯拉展示了基于BEV+Transformer（BEVFormer）的自动驾驶感知新范式，在取得了惊艳的效果后，国内也掀起“跟风潮”。

近期，理想、蔚来、小鹏、小马智行、百度等多家主流车企、自动驾驶方案解决商推出相关量产方案。

一时间，BEV越发“火”了起来。

这背后逻辑也很好理解。一方面，BEV技术已经日渐成熟，从预研阶段基本走到了量产落地阶段；另外一方面，今年可能会是从高速NOA走向城区NOA量产的元年，在更加复杂的智驾场景下，BEV所带来的优势能更好地得到体现。

与此同时，在智能驾驶商业化进展不及预期的大背景下，BEV也可以作为相关企业难得的“技术卖点”。

因此，在这个时间节点，我们试图按照What-Why-Who-How的逻辑，对BEV+Transformer技术本身，以及背后的商业价值可能性进行探讨。

What：什么是BEV+Transformer

首先解决技术概念问题。

BEV（Bird’s-eye-view），即鸟瞰图视角，是自动驾驶跨摄像头和多模态融合背景下的一种视角表达形式。

一文看懂BEVFormer技术及其背后价值

它的核心思想，是将传统自动驾驶２D图像视角（Image View）加测距的感知方式，转换为在鸟瞰图视角下的３D感知。

从实现任务来说，BEV的核心是将2D图像作为输入，最终输出一个3D的框架，在这个过程中，如何将不同传感器的特征（feature）实现最优表达是难点。

目前行业有两种常见的方式，一种是正向思维，采用自底向上、从2D到3D的方式，先在2D视角去每个像素的深度，再通过内外参投影到BEV空间，通过多视角的融合生成BEV特征，但对深度的估计一直都是难点。

另一种方法是逆向思维，采用自顶向下、从3D到2D的方式，先在BEV空间初始化特征，在通过多层transformer与每个图像特征进行交互融合，最终再得到BEV特征。

在第二种方法中，因为Transformer的存在，使得“逆向思维”成为了可能。

一文看懂BEVFormer技术及其背后价值

Transformer是一种基于注意力机制（Attention）的神经网络模型，由Google在2017年提出。与传统神经网络RNN和CNN不同，Transformer不会按照串行顺序来处理数据，而是通过注意力机制，去挖掘序列中不同元素的联系及相关性，这种机制背后，使得Transformer可以适应不同长度和不同结构的输入。

Transformer问世后，先在自然语言处理NLP领域大放异彩，之后被逐步移植到计算机视觉任务上，也取得了惊人的效果，实现了NLP和CV在建模结构上的大一统，使视觉和语言的联合建模更容易，两个领域的建模和学习经验可以通过深度共享，也加快各自领域进展。

Why：为什么需要基于Transformer的BEV

在厘清技术原理后，其实也就理解了“为什么需要”的问题：识别准，精度高，方便和激光、毫米波雷达做前融合等。

具体延展来看，BEV可以带来四大优势。

第一，BEV视角下的物体，不会出现图像视角下的尺度（scale）和遮挡（occlusion）问题。由于视觉的透视效应，物理世界物体在2D图像中很容易受到其他物体遮挡，2D感知只能感知可见的目标，而在BEV空间内，算法可以基于先验知识，对被遮挡的区域进行预测。

一文看懂BEVFormer技术及其背后价值

第二，将不同视角在BEV下进行统一表达，能极大方便后续规划和控制任务。主流规划和控制算法，不论上游传感器信息来自什么视角，经过融合之后，都会转换到以自车为中心坐标系中（Vehicle Coordinate System，VCS），对VCS来说，最适合的其实就是BEV视角，也就是BEV感知结果输出的空间是规划和控制任务的标准输入。

第三，BEV能够给系统带来巨大的提升。摄像头感知算法工作在2D空间，而雷达感知算法工作在3D空间，在对2D与3D几何关系融合过程中，会丢失大量的原始信息，采用BEV感知系统中，摄像头、激光雷达、毫米波雷达感知均在BEV空间中进行，融合过程提前。BEV还可以引入过去时间片段中的数据，实现时序融合，最终使感知效果更加稳定、准确。

第四，BEV能够实现端到端优化。感知任务中的识别、跟踪和预测本质是一个串行系统，系统上游误差会传递在下游误差，在BEV空间内，感知和预测都在同一个空间进行，可以通过神经网络做到端到端的优化，输出“并行”结果，而整个感知网络可以以数据驱动方式来自学习，实现快速迭代。

一文看懂BEVFormer技术及其背后价值

可以理解为，BEV可以实现将360度环视的时间、空间融合，再加上Transformer架构可以输出静态的车道线、红绿灯、道路边缘信息等，以及动态的有行人、两轮车、汽车等，同时还应用了端到端的预测能力，结合时序帧能对周边的车辆做未来3-6秒的轨迹预测。

这也意味着，端到端的算法有了闭环的希望。

Who: 行业最佳实践是特斯拉

特斯拉是第一个在工业界采用BEV＋Transformer进行视觉感知任务的企业。

在其感知任务中，首先利用主干网络对各个摄像机进行特征提取，再利用Transformer将多摄像机数据从图像空间转化为BEV空间。

在这个空间里面，通过深度学习去完成一个特征的融合，然后再通过一个3D的解码器，直接端到端输出最后的一个3D检测和道路结构信息，这样下游的规划与控制直接可以在BEV的空间上去进行。

这一次革命，让马斯克可以自信地对外宣称，特斯拉感知不依赖激光雷达和毫米波雷达，依靠纯视觉，也可以得到准确三维世界信息。

一文看懂BEVFormer技术及其背后价值

基于以上实践，众多车企以及智驾供应商都开始尝试BEV+transformer，车企里的代表蔚来、理想、小鹏；智驾供应商里面的百度、毫末、地平线、小马、轻舟等等，在具体使用方法上每一家有“微调”，但是整体还是跟随特斯拉的节奏在走。

How：自动驾驶感知的主流范式

未来，BEV+Transformer很有可能会替代之前的2D+CNN，逐步成为自动驾驶感知的主流范式。

这意味着，从硬件芯片开始，到传感器摄像头、软件算法、模型部署、数据采集标定等，都需要有相应的适配和变化。

第一，为了确保视觉感知重叠，对汽车摄像头数量的要求会有所提升，相应地，激光雷达的数量以及在感知中的作用会减少，也就是纯视觉技术路线会受到更多的青睐。

第二，Transformer是暴力美学，模型体量惊人，其运算还会消耗大量的存储及带宽空间，对芯片来说，除了需要进行相应算子适配以及底层软件优化外，在SOC层面需要对缓存和带宽要求进行增加。

第三，Transformer需要海量数据，会使得汽车数据采集、训练、标注的成本大幅度上升。

这些一定程度上，也会使得芯片、摄像头、标注等相关产业厂商受益。

总结

通过对BEV+Transformer的梳理，我主要有以下两点感受。

第一，为什么BEV+Transformer会成为主流范式，我觉得背后核心还是第一性原理，就是智能驾驶要越来越近“人一样去驾驶”，映射到感知模型本身，BEV是一种更加自然的表达方式，而Transformer实现了CV和NLP的统一。

第二，随着工业和学术界的研究推进，近段时间BEV＋Transformer从普及到走向量产，在当前智能驾驶商业受阻的背景下，或许是一个难得的亮点。但从时间维度上看，BEV＋Transformer已是历史产物，占用网络已经来了，大模型也在路上，或许几个月、最多一两年之后，一个真正的“王炸”会出现，会让之前的积累全部推倒重来，我们要对每一波的迭代怀有敬畏之心，先从技术开始，之后就是商业模式的大变革。

有关算法迭代、大模型、Mapless、GPT等是我们近期持续跟进的重点，有兴趣欢迎随时与我沟通交流。

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体App

2023 年 5 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

一文看懂BEVFormer技术及其背后价值

What：什么是BEV+Transformer

Why：为什么需要基于Transformer的BEV

Who: 行业最佳实践是特斯拉

How：自动驾驶感知的主流范式

总结

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定