无需3D数据也能训练，港科&港中文联手华为推出3D自动驾驶场景生成模型

允中发自凹非寺
量子位 | 公众号 QbitAI

无需采集3D数据，也能训练出高质量的3D自动驾驶场景生成模型。

这是来自香港中文大学、香港科技大学和华为诺亚方舟实验室的最新研究成果——针对自动驾驶街景的可控3D场景生成方法“MagicDrive3D”。

此前，采用常见的2D自动驾驶数据集来生成3D街景的方法不是没有，但受采集角度所限，生成结果的可控性和几何一致性无法同时满足。而现在，MagicDrive3D通过结合可控生成与场景重建解决了这一限制。

不仅支持多条件控制，还突破了原始数据的局限，即使在原始图像不一致的情况下，也能建立出连贯的高质量模型。

无需3D数据也能训练，港科&港中文联手华为推出3D自动驾驶场景生成模型

即使场景中有很多物体，生成结果依然真实可靠：

http://www.qbitai.com/wp-content/uploads/2024/05/video1.mp4

而且支持天气情况的文本控制，可以一键从晴天切换到雨天：

http://www.qbitai.com/wp-content/uploads/2024/05/video2.mp4

道路结构、物体位置都能够精确控制（随机保留50%车）：

http://www.qbitai.com/wp-content/uploads/2024/05/video3.mp4

还可以一键实现白天与夜晚的转换（随机保留25%车）：

http://www.qbitai.com/wp-content/uploads/2024/05/video4.mp4

总之，这项成果解决了自动驾驶等无边界场景下3D场景的高质量模型开发难题，可以有效帮助BEV分割等下游感知任务。

常规驾驶数据即可实现可控场景生成

3D自动驾驶场景生成应用广阔，然而目前3D资产的生成方法通常局限于以物体为中心的生成场景，对于自动驾驶中无界限的大场景生成缺乏探索。

但从应用的角度来说，可控的生成方法在下游应用中价值更高，针对这个痛点，MagicDrive3D提出了一种新颖的框架，在常规的自动驾驶数据集上即可训练出3D场景生成模型，而且支持多种条件控制！

MagicDrive3D继承了前一代MagicDrive诸多优点，其多条件控制可以实现场景、背景和前景的多层次街景图像编辑，用来生成更多的自动驾驶3D场景。

无需3D数据也能训练，港科&港中文联手华为推出3D自动驾驶场景生成模型

△MagicDrive3D 的多视角渲染能力

而且生成的场景支持多相机视角的渲染，例如全景图渲染：

无需3D数据也能训练，港科&港中文联手华为推出3D自动驾驶场景生成模型

在目前应用最广泛的nuScenes数据集上，MagicDrive3D在视频生成和场景生成两方面相比于baseline，均表现出明显优势。

无需3D数据也能训练，港科&港中文联手华为推出3D自动驾驶场景生成模型

△MagicDrive3D的生成效果评估

此外，MagicDrive3D生成的图片还可以直接用于数据增强，可以在BEV分割任务中提升相机参数的鲁棒性。

无需3D数据也能训练，港科&港中文联手华为推出3D自动驾驶场景生成模型

△MagicDrive3D的生成数据在下游任务的效果

那么，MagicDrive3D究竟是如何做到的呢？

先合成，再重建

随着扩散模型的发展，图片、视频生成的方法层出不穷，但是受限制于现有的数据采集形式，这些方法只能生成固定的相机视角，对场景几何缺乏建模（geometry-free），因而无法拓展到更多视角。

能够支持多视角的重建方法，虽然能够提供几何一致性的保证（geometry-focused），却又受到了真实采集的数据（静态、多视角数据）的限制，常见的自动驾驶数据集根本无法满足这些要求。

为了填补这部分空白，MagicDrive3D提出了一个将视角合成方法与场景重建方法相结合的框架。

该框架充分利用前者的可控性以及后者的几何一致性，实现了接受多种控制条件的3D街景场景合成。

无需3D数据也能训练，港科&港中文联手华为推出3D自动驾驶场景生成模型

△MagicDrive3D的方法框架

具体来说，MagicDrive3D首先训练了一个细粒度可控的视频生成模型，不仅能够通过语义信息控制，视频中每个视角的相机参数都经过统一坐标系编码，使得生成的多视角视频具备更强的几何一致性。

接着，为了提供更强的几何一致性保证以及多视角渲染，MagicDrive3D提出可形变的高斯泼溅作为场景的3D表征，结合单目深度点云进行重建。

最终得到的驾驶场景能够合理的反应各种控制条件，并且支持任意相机视角的精确渲染。

总的来说，MagicDrive3D带来了一个全新的、高效的可控3D场景生成框架，不仅成功解决了无界限的3D场景生成难题，其可控性更为多种下游任务提供了支持。

相比前序工作MagicDrive，MagicDrive3D不仅提供了多视角渲染能力，生成的场景几何信息也为更多样的场景编辑提供可能。

随着质量和真实性的提升，生成数据将得到更广泛的应用，为自动驾驶技术的发展注入更多活力。

论文地址：
https://arxiv.org/abs/2405.14475
项目主页：
https://gaoruiyuan.com/magicdrive3d/

2024 年 6 月
一	二	三	四	五	六	日
	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

无需3D数据也能训练，港科&港中文联手华为推出3D自动驾驶场景生成模型

常规驾驶数据即可实现可控场景生成

△MagicDrive3D 的多视角渲染能力

△MagicDrive3D的生成效果评估

△MagicDrive3D的生成数据在下游任务的效果

先合成，再重建

△MagicDrive3D的方法框架

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

AI金矿上打盹的小红书，刚刚醒了一「点点」

字节Seed：大概念模型来了，推理的何必是下一个token

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

英特尔CES奇袭老黄大本营！英伟达显卡刚涨价，最强酷睿量产出货

陈天桥代季峰打响2026大模型第一枪：30B参数跑出1T性能

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex

文心AIGC

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

AI金矿上打盹的小红书，刚刚醒了一「点点」

字节Seed：大概念模型来了，推理的何必是下一个token

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

英特尔CES奇袭老黄大本营！英伟达显卡刚涨价，最强酷睿量产出货

陈天桥代季峰打响2026大模型第一枪：30B参数跑出1T性能

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex