小米打通智驾和具身大模型,然后开源了

144次阅读
没有评论

小米打通智驾和具身大模型,然后开源

具身与智驾,小米全都要!

Henry 发自 凹非寺

量子位 | 公众号 QbitAI

全球首个自驾+机器人统一基座模型开源了!

针对自驾与具身操作场景的知识迁移难题,小米汽车陈龙团队提出并开源了全球首个打通这两大领域的跨具身(X – Embodied)基座模型——MiMo-Embodied

小米打通智驾和具身大模型,然后开源了

MiMo-Embodied基于MiMo-VL架构,通过构建涵盖通用视觉、具身任务及驾驶场景的高质量数据集,并采用包含思维链(CoT)和强化学习(RL)的渐进式四阶段训练策略,有效打破了室内操作与户外驾驶之间的领域鸿沟。

在实测效果上,MiMo-Embodied在自动驾驶与具身智能共计29个Benchmark上均超越了现有的专用模型及通用模型,实现了跨领域的最先进(SOTA)性能。

小米打通智驾和具身大模型,然后开源了

无论是开车的环境感知、规划,还是机器人的拿取、导航,主打一个我全都要。

具身与智驾,小米全都要!

在以往具身/自驾的VLM领域中,往往存在以下问题:

一方面是缺乏统一的具身VLM(Unified Embodied VLM)

现有的视觉语言模型(VLMs)大多专注于单一领域(仅室内任务或仅户外驾驶),缺乏能够连接这两个领域的统一模型。限制了模型在动态环境中与物理世界有效交互的能力。

而这,也带来了领域差距与迁移困难

具身智能侧重于室内操作,而自动驾驶侧重于户外道路,两者存在显著的领域差距(Domain Gap),阻碍了能力的跨领域迁移 。

另一方面则是评估体系缺失, 即缺乏全面的跨具身能力评估体系来衡量模型在两个领域的综合表现。

为了解决这些挑战, MiMo-Embodied试图将自动驾驶和具身智能的任务合并到一个统一的VLM中,以整合模型的跨具身能力。

小米打通智驾和具身大模型,然后开源了

如上图所示,

MiMo-Embodied架构由以下三个部分组成:

  • 用于编码视觉输入的 Vision Transformer (ViT):模型使用ViT来编码各种类型的视觉输入,包括单张图像、多张图像和视频。这使得模型能够提取复杂的模式和关系。
  • 一个投影器(projector): 使用多层感知机(MLP)作为投影器(Projector),将视觉Token映射到与大语言模型对齐的潜在空间。
  • 负责文本理解和推理的LLM:LLM作为核心组件,负责理解文本指令并结合视觉信息进行推理,生成连贯且上下文相关的响应。

由此,通过无缝集成视觉和文本领域,MiMo-Embodied增强了多样化多模态推理任务和应用的潜力。

接下来,为了实现跨领域的统一能力,论文提出了一套系统的数据构建和分阶段训练策略:

小米打通智驾和具身大模型,然后开源了

首先在数据方面,训练数据涵盖了通用多模态理解、具身 AI(功能性预测、规划、空间理解)和自动驾驶(感知、预测、规划)三个维度的多模态数据:

  • 通用数据:基于MiMo-VL语料库,包含图像、视频、长文本等,长文档和合成推理数据,确保广泛覆盖感知、推理和交互能力。
  • 具身智能数据:涵盖可供性预测(Affordance Prediction)、高层任务规划和空间理解,整合了如 PixMo-Points, RoboAfford, RoboRefIt等数据集。
  • 自动驾驶数据:涵盖环境感知、状态预测和驾驶规划,整合了 CODA-LM, DriveLM, nuScenes-QA等数据集。

基于上述构建的数据集,研究又开发了一种四阶段训练策略

基于MiMo-VL,研究引入了具身智能和自动驾驶方面的专门监督,最终通过思维链微调和强化学习实现高级推理能力 。

这一策略有助于模型建立在先前获得的能力之上,从而在具身交互和自动驾驶领域实现稳健的性能。

小米打通智驾和具身大模型,然后开源了

阶段1:具身智能监督微调 (Embodied AI Supervised Fine-tuning):结合通用数据和具身数据,建立核心的视觉语言理解、具身推理能力。

阶段2:自动驾驶监督微调 (Autonomous Driving Supervised Fine-tuning): 在阶段1的基础上,加入大量自动驾驶数据。重点训练多视角空间推理、视频时间一致性和复杂交通场景分析 。

阶段3:思维链推理微调 (CoT Supervised Fine-tuning): 使用包含明确推理步骤的数据进行微调。这增强了模型处理复杂多步问题的能力,例如风险评估和行为合理性解释。

阶段4:强化学习微调 (RL Fine-Tuning): 使用 GRPO (Group Relative Policy Optimization) 算法。通过针对正确性(如选择题匹配、IoU计算)设计奖励信号,进一步优化模型的精确度和可靠性。

实验测试

为了验证MiMo-Embodied的性能,研究分别在定性和定量两层面进行评估,定量比较涉及针对具身智能和自动驾驶的各种既定学术和行业基准的客观评估,从而能够与领先模型进行直接的实证比较。

定性评估则展示了MiMo-Embodied在现实世界任务中的实际效能,突出了其在复杂机器人和自动驾驶场景中的部署,并提供了其将习得能力转化为有效性能的具体证据 。

基准测试上的定量比较

首先,在具身能力方面,研究在三个核心领域进行了全面评估:可供性预测、任务规划和空间理解。

小米打通智驾和具身大模型,然后开源了

结果表明,MiMo-Embodied 取得了具有竞争力的结果,与通用多模态模型和专用具身模型相比,在可供性预测和空间理解方面表现出特别的优势。

小米打通智驾和具身大模型,然后开源了

其次,在自动驾驶能力方面,研究在感知能力、预测能力和规划能力上进行了评估。包含在4种数据类型上的12个基准测试中的性能,涉及其理解复杂交通场景、预测动态道路智能体行为以及生成安全高效驾驶建议的能力。

小米打通智驾和具身大模型,然后开源了

实验结果显示,MiMo-Embodied在所有感知基准测试、预测、规划中均取得了强劲的性能,在全景语义理解任务中展示了最先进的结果,同时在具有挑战性的局部感知场景中也表现出卓越的鲁棒性。

小米打通智驾和具身大模型,然后开源了

现实世界任务的定性评估

首先,为了验证MiMo-Embodied 在复杂交互环境中的实际效用,研究评估了其在两个基本下游应用中的性能:具身导航和操作。

在具身导航中,相较于GPT-4o、Qwen2.5-VL和RoboBrain-2.0,MiMo-Embodied展现出在多样化家庭场景中增强的对象定位能力和一致的性能。

小米打通智驾和具身大模型,然后开源了

在操作任务中,MiMo-Embodied同样展现出强大的可供性和空间推理能力。

小米打通智驾和具身大模型,然后开源了

在自动驾驶能力上,研究首先在具有挑战性的NAVSIM上确定性能以进行标准化比较,然后在一个包含多样化真实世界驾驶场景的大规模专有数据集上测试模型的能力。

实验结果表明MiMo-Embodied可以处理多样化的自动驾驶情况并完成具有挑战性的任务,包括交叉路口转弯、弯道掉头、跟车和变道超车。

在每种情况下,模型都应感知道路上下文,整合自车状态和导航意图,并做出连贯的决策。

小米打通智驾和具身大模型,然后开源了

此外,MiMo-Embodied在所有评估类别中始终优于基线。值得注意的是,在转弯、绕开障碍物和变道等复杂、交互式操作中,性能提升最为显著。

小米打通智驾和具身大模型,然后开源了

在最后,论文表示还将基于MiMo-Embodied模型的能力,探索具身智能视觉-语言-动作(VLA)模型,以增强复杂环境中的交互,通过自然语言理解实现更直观的任务执行。

One more thing

这篇论文的一作是郝孝帅博士。他于今年8月加入小米汽车,在陈龙博士的指导下,从事具身多模态大模型方向的研究。

郝孝帅博士毕业于中国科学院大学信息工程研究所。此前,他曾在北京智源研究院、三星、亚马逊等机构工作。

小米打通智驾和具身大模型,然后开源了

这篇论文的project leader是小米智能驾驶的首席科学家陈龙博士,他此前就职于英国AI独角兽公司Wayve,主导新一代端到端自动驾驶VLA模型的研发。

小米打通智驾和具身大模型,然后开源了

更早前,他还以研究工程师身份加入Lyft,牵头车队学习项目,通过大规模众包车队数据完成自动驾驶车辆机器学习规划器的预训练。

论文链接: https://arxiv.org/abs/2511.16518

GitHub: https://github.com/XiaomiMiMo/MiMo-Embodied

Huggingface: https://huggingface.co/XiaomiMiMo/MiMo-Embodied-7B

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 11 月
 12
3456789
10111213141516
17181920212223
24252627282930
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地 henry 2025-12-11 10:27:...
Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了… Jay 2025-12-11 11:48:25 来源:量子位 Ja...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...