罗福莉首个小米成果!开源具身大模型

188次阅读
没有评论

罗福莉首个小米成果!开源具身大模型

满打满算,入职不到10天

henry 发自 凹非寺

量子位 | 公众号 QbitAI

正式入职小米还不到10天,罗福莉的首篇论文,这就来了!

罗福莉首个小米成果!开源具身大模型

在这篇出自MiMo团队(主打空间智能)的研究中,罗福莉作为团队负责人担任核心作者,小米智驾团队首席科学陈龙则作为项目负责人。

而这项研究最亮眼的地方,恰恰是具身智能与自动驾驶的跨界融合。

针对自驾与具身操作场景的知识迁移难题,MiMo团队提出并开源了全球首个打通这两大领域的跨具身(X – Embodied)基座模型——MiMo-Embodied

在实测效果上,MiMo-Embodied在自动驾驶与具身智能共计29个Benchmark上全部霸榜!

罗福莉首个小米成果!开源具身大模型

无论是开车的环境感知、规划,还是机器人的拿取、导航,主打一个我全都要。

罗福莉首个小米成果!开源具身大模型

具身与智驾,小米全都要!

如上所说,小米这次开源的MiMo-Embodied是业界首个开源的、成功融合了自动驾驶与具身智能(Embodied AI)两大领域的统一多模态基础模型。

罗福莉首个小米成果!开源具身大模型

它基于MiMo-VL架构,通过构建涵盖通用视觉、具身任务及驾驶场景的高质量数据集,并采用包含思维链(CoT)和强化学习(RL)的渐进式四阶段训练策略,有效打破了室内操作与户外驾驶之间的领域鸿沟。

最终,该模型在任务规划、空间理解、环境感知及驾驶规划等29个基准测试中,均超越了现有的专用模型及通用模型,实现了跨领域的最先进(SOTA)性能。

接下来,我们具体来看。

在以往具身/自驾的VLM领域中,往往存在以下问题:

一方面是缺乏统一的具身VLM(Unified Embodied VLM)

现有的视觉语言模型(VLMs)大多专注于单一领域(仅室内任务或仅户外驾驶),缺乏能够连接这两个领域的统一模型。限制了模型在动态环境中与物理世界有效交互的能力。

而这,也带来了领域差距与迁移困难

具身智能侧重于室内操作,而自动驾驶侧重于户外道路,两者存在显著的领域差距(Domain Gap),阻碍了能力的跨领域迁移 。

另一方面则是评估体系缺失, 即缺乏全面的跨具身能力评估体系来衡量模型在两个领域的综合表现。

为了解决这些挑战, MiMo-Embodied试图将自动驾驶和具身智能的任务合并到一个统一的VLM中,以整合模型的跨具身能力。

罗福莉首个小米成果!开源具身大模型

如上图所示,MiMo-Embodied架构由以下三个部分组成:

  • 用于编码视觉输入的 Vision Transformer (ViT):模型使用ViT来编码各种类型的视觉输入,包括单张图像、多张图像和视频。这使得模型能够提取复杂的模式和关系。
  • 一个投影器(projector): 使用多层感知机(MLP)作为投影器(Projector),将视觉Token映射到与大语言模型对齐的潜在空间。
  • 负责文本理解和推理的LLM:LLM作为核心组件,负责理解文本指令并结合视觉信息进行推理,生成连贯且上下文相关的响应。

由此,通过无缝集成视觉和文本领域,MiMo-Embodied增强了多样化多模态推理任务和应用的潜力。

接下来,为了实现跨领域的统一能力,论文提出了一套系统的数据构建和分阶段训练策略:

罗福莉首个小米成果!开源具身大模型

首先在数据方面,训练数据涵盖了通用多模态理解、具身 AI(功能性预测、规划、空间理解)和自动驾驶(感知、预测、规划)三个维度的多模态数据:

  • 通用数据: 基于MiMo-VL语料库,包含图像、视频、长文本等,长文档和合成推理数据,确保广泛覆盖感知、推理和交互能力。
  • 具身智能数据: 涵盖可供性预测(Affordance Prediction)、高层任务规划和空间理解,整合了如 PixMo-Points, RoboAfford, RoboRefIt等数据集。
  • 自动驾驶数据: 涵盖环境感知、状态预测和驾驶规划,整合了 CODA-LM, DriveLM, nuScenes-QA等数据集。

基于上述构建的数据集,研究又开发了一种四阶段训练策略

基于MiMo-VL,研究引入了具身智能和自动驾驶方面的专门监督,最终通过思维链微调和强化学习实现高级推理能力 。

这一策略有助于模型建立在先前获得的能力之上,从而在具身交互和自动驾驶领域实现稳健的性能。

罗福莉首个小米成果!开源具身大模型

阶段1:具身智能监督微调 (Embodied AI Supervised Fine-tuning):结合通用数据和具身数据,建立核心的视觉语言理解、具身推理能力。

阶段2:自动驾驶监督微调 (Autonomous Driving Supervised Fine-tuning): 在阶段1的基础上,加入大量自动驾驶数据。重点训练多视角空间推理、视频时间一致性和复杂交通场景分析 。

阶段3:思维链推理微调 (CoT Supervised Fine-tuning): 使用包含明确推理步骤的数据进行微调。这增强了模型处理复杂多步问题的能力,例如风险评估和行为合理性解释。

阶段4:强化学习微调 (RL Fine-Tuning): 使用 GRPO (Group Relative Policy Optimization) 算法。通过针对正确性(如选择题匹配、IoU计算)设计奖励信号,进一步优化模型的精确度和可靠性。

实验测试

为了验证MiMo-Embodied的性能,研究分别在定性和定量两层面进行评估,定量比较涉及针对具身智能和自动驾驶的各种既定学术和行业基准的客观评估,从而能够与领先模型进行直接的实证比较。

定性评估则展示了MiMo-Embodied在现实世界任务中的实际效能,突出了其在复杂机器人和自动驾驶场景中的部署,并提供了其将习得能力转化为有效性能的具体证据 。

基准测试上的定量比较

首先,在具身能力方面,研究在三个核心领域进行了全面评估:可供性预测、任务规划和空间理解。

罗福莉首个小米成果!开源具身大模型

结果表明,MiMo-Embodied 取得了具有竞争力的结果,与通用多模态模型和专用具身模型相比,在可供性预测和空间理解方面表现出特别的优势。

罗福莉首个小米成果!开源具身大模型

其次,在自动驾驶能力方面,研究在感知能力、预测能力和规划能力上进行了评估。包含在4种数据类型上的12个基准测试中的性能,涉及其理解复杂交通场景、预测动态道路智能体行为以及生成安全高效驾驶建议的能力。

罗福莉首个小米成果!开源具身大模型

实验结果显示,MiMo-Embodied在所有感知基准测试、预测、规划中均取得了强劲的性能,在全景语义理解任务中展示了最先进的结果,同时在具有挑战性的局部感知场景中也表现出卓越的鲁棒性。

罗福莉首个小米成果!开源具身大模型

现实世界任务的定性评估

首先,为了验证MiMo-Embodied 在复杂交互环境中的实际效用,研究评估了其在两个基本下游应用中的性能:具身导航和操作。

在具身导航中,相较于GPT-4o、Qwen2.5-VL和RoboBrain-2.0,MiMo-Embodied展现出在多样化家庭场景中增强的对象定位能力和一致的性能。

罗福莉首个小米成果!开源具身大模型

在操作任务中,MiMo-Embodied同样展现出强大的可供性和空间推理能力。

罗福莉首个小米成果!开源具身大模型

在自动驾驶能力上,研究首先在NAVSIM上确定性能以进行标准化比较,然后在一个包含多样化真实世界驾驶场景的大规模专有数据集上测试模型的能力。

实验结果表明MiMo-Embodied可以处理多样化的自动驾驶情况并完成具有挑战性的任务,包括交叉路口转弯、弯道掉头、跟车和变道超车。

在每种情况下,模型都应感知道路上下文,整合自车状态和导航意图,并做出连贯的决策。

罗福莉首个小米成果!开源具身大模型

此外,MiMo-Embodied在所有评估类别中始终优于基线。值得注意的是,在转弯、绕开障碍物和变道等复杂、交互式操作中,性能提升最为显著。

罗福莉首个小米成果!开源具身大模型

在最后,论文表示还将基于MiMo-Embodied模型的能力,探索具身智能视觉-语言-动作(VLA)模型,以增强复杂环境中的交互,通过自然语言理解实现更直观的任务执行。

One more thing

这篇论文,是罗福莉于11月12日正式官宣加盟小米、出任MiMo团队负责人后,发布的第一篇论文。

作为业界备受关注的95后AI才女,她本科毕业于北京师范大学,硕士在北京大学继续深耕。

罗福莉首个小米成果!开源具身大模型

硕士毕业后,她加入阿里巴巴达摩院担任机器智能实验室研究员,主导开发多语言预训练模型 VECO,并推动核心项目AliceMind的开源落地。

2022 年,罗福莉加入DeepSeek母公司幻方量化,后续任职DeepSeek深度学习研究员,深度参与 DeepSeek-V2等标杆模型的研发工作。

而本论文的Project Leader(项目负责人)陈龙,也于今年正式入职小米,担任智能驾驶首席科学家。

罗福莉首个小米成果!开源具身大模型

在此之前,陈龙曾任职于英国AI独角兽公司Wayve,主导新一代端到端自动驾驶VLA模型的研发。

更早前,他还以研究工程师身份加入Lyft,牵头车队学习项目,通过大规模众包车队数据完成自动驾驶车辆机器学习规划器的预训练。

论文链接: https://arxiv.org/abs/2511.16518

GitHub: https://github.com/XiaomiMiMo/MiMo-Embodied

Huggingface: https://huggingface.co/XiaomiMiMo/MiMo-Embodied-7B

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 11 月
 12
3456789
10111213141516
17181920212223
24252627282930
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...