北京人形开源最新VLM模型，推动具身智能再迈关键一步 !

梦瑶
2025-11-14
13:05:29

来源：量子位

11月13日，北京人形机器人创新中心全面开源具身智能VLM模型——Pelican-VL 1.0。该模型覆盖7B、72B参数规模，是迄今为止“最大规模的开源具身多模态大模型”，同时，也是迄今为止全球性能最强大的具身智能VLM模型，根据测试，其性能超越GPT-5 同类模型15.79% ，与Google gemini 系列模型相比提升19.25%，同时也超越通义千问、书生万象等国内模型，成为了目前最强的开源具身多模态大模型。

另外值得注意的是，Pelican-VL的核心主创团队都是由女性组成，这也充分体现了女性力量在我国科技研发中的重要贡献。该团队还提出了一套全新的DPPO（刻意训练）训练范式，是全球首创的具身多模态大模型后训练自进化算法框架。凭借DPPO，Pelican-VL 实现【性能最强】这一目标使用的数据量为200K，仅仅是其他大模型的1/10甚至1/50，是名副其实的开源VLM性价比之王。

Pelican-VL 1.0 的开源，能够大幅提升具身智能在商业服务、工业泛工业、高危特种作业、家庭服务等多种真实场景中，通过视觉-语言感知辅助多步任务规划的能力。而VLM作为目前实现机器人全自主的核心，Pelican的开源也将推动我国具身智能全自主发展。

本次开源的Pelican-VL 1.0的核心优势在于深度整合海量数据与自适应学习机制，在由 1000+ A800 GPU 组成的集群上训练，单次检查点训练耗费超过 50,000 A800 GPU-小时；团队从原始数据中蒸馏出的包含数亿 token 的高质量元数据以做训练基石。基于上述优势，Pelican-VL 1.0实现了在基线基础上性能提升20.3%，平均超过Qwen3-VL系列、InternVL3.5系列等同级别开源模型10.6%。

得益于“刻意练习”DPPO（Deliberate Practice Policy Optimization）训练范式，Pelican-VL 就像一名刻苦钻研的学生：每次训练循环都会“看视频—自主练习—发现错误—纠正提升”。通过DPPO 模仿人类元认知的学习方式，通过强化学习（RL）探索弱点、生成失败样本，再进行有针对性的监督微调（SFT），让模型不断自我纠错和迭代进步。

就像学生做错题后总结经验一样，Pelican-VL 能在训练中发现“薄弱知识点”并补齐，从而持续提高在视觉-语言和具身任务上的能力。通过这种机制，Pelican-VL 能够更准确地理解图像内容、语言指令和物理常识，最终在决策和操作执行环节中，实现了具身智能在空间-时间推理和动作规划方面的大幅突破。

VLM，让具身拥有智能

人形机器人无疑是目前AI 技术在普通人认知里最具象的展现，而让机器人真正能够做到服务人类，一直都是全球研发团队所追求的目标，但这并不容易，背后是具身智能体对于空间-时间的理解不足，以及多步骤长线程复杂决策的能力缺失造成的困境。

在典型的Vision–Language–Action (VLA) 系统里，Pelican-VL 扮演着“视觉语言大脑”的角色，为机器人提供强大的环境感知和指令理解能力。它将摄像头所见与自然语言指令结合，构建起对场景的多模态表征，然后输出可供后续决策单元使用的结构化信息。也就是说，Pelican-VL负责“看图听话”，理解指令和环境，VLA负责跨机器人应用；简而言之，Pelican-VL 构成了VLA系统的认知前端，为长期规划和指令执行提供跨模态的信息支持，使机器人能够像人类一样将复杂任务拆解并落地操作。

而由于端到端VLA直出的模型存在黑箱性，机器人虽然可以理解人类指令，但最终执行的动作却不可控，而分层的模型则是先建模、再规划、最后执行，虽然解决了黑箱风险，但也产生了新的信息传导误差问题，信息随着每一层模型的传递，可能会在某一层产生微小误差，这一误差会在后续环节呈现指数级的扩散。

北京人形的解法是让VLM和世界模型相互纠偏作为大脑，再与VLA等构建的技能库模型协作。通过将VLM部署在云端，用于理解指令、规划任务与生成策略，世界模型则对物理世界进行建模与预测，VLM规划的策略在世界模型中进行预演，预测执行策略后的结果。二者通过反馈机制相互作用，具象化的理解策略的后果，根据好坏精进能力，VLM能力提升后又反向修正和提升世界模型的预测准确性，以此帮助机器人实现能力跃迁的关键。

以下面这个复合指令为例：“把鞋子放到鞋架上、将桌上的垃圾扔到垃圾桶，再把衣服放入洗衣机”。Pelican-VL 首先将会感知房间物体和布局，构建出整个环境的语义表示；接着根据指令自动生成行动序列：依次移动到鞋架、垃圾桶和洗衣机位置并进行抓取和放置操作。

作为创造全球首个人形机器人马拉松冠军的团队，北京人形致力于让具身智能体从最能跑到最聪明、最好用的演进，本次Pelican-VL的开源也代表着北京人形在具身智能领域的又一重大突破。

而Pelican-VL代表了国内具身智能的一种端到端解法，它和Google提出的RT-2有着相似特点，都是追求单模型解决感知到执行，但不同于RT-2基于PaLM-E、PaLI-X等预训练模型微调的思路，Pelican-VL是从零开始构建大规模具身训练集并使用DPPO循环自我演练，而与SayCan、GPT-5相比，它则更强调开放性和端到端的控制输出，为不同机器人提供统一的智能“大脑”解决方案。

因此，Pelican-VL不仅具备目前具身智能大模型里最大的规模、最强的性能，也能够帮助人形机器人更好的感知空间-时间、实现具身交互，并且在训练中进行自我纠错与迭代。

开源当天，北京人形进行了直播演示和技术解读，邀请了《商业漫谈 Jane’s Talk》创始人、科技媒体人卫诗婕与主创成员深度对话，不仅详细展现了具身智能大脑Pelican-VL全面领先的性能，并拆解Pelican-VL创新的技术架构，还充分展示了女性研发成员在具身智能模型领域的创新力量。

用“最低”的门槛，激发“最高”的产业活力

北京人形希望通过Pelican-VL 的开放为产业落地提供更良好土壤，让广大机器人厂商和开发者可以自由使用与定制这一模型，加速研发进程。例如，北京人形机器人创新中心还在推进“千台机器人真实场景数据采集计划”，让上千台机器人在工厂、仓库、酒店等场景中执行任务并采集数据。而这些规模化的多模态数据与Pelican-VL结合，将推动其在制造业自动化、智能物流、零售无人化和家居服务等多领域的快速适配和优化。

Pelican-VL 的开源特点和多场景覆盖能力可以视作机器人生态的“开放型大脑”，作为具身智能的基础软件平台，厂商可以基于它快速开发特定场景下的应用方案，大大降低开发成本和难度。长期来看，Pelican-VL 及其后续版本将促进国内形成完善的通用机器人智能平台，推动更多种类的机器人像安装“通用智能操作系统”一样迅速获取新能力。

Pelican-VL 1.0 的开源标志着具身智能进入了一个以数据驱动、开放协同为核心的新阶段。它不仅在技术上实现了视觉、语言和行动的深度融合，也为产业链带来了全新的合作模式。随着更多研究机构和企业参与生态建设，北京人形致力于通过通用机器人“大脑”市场的发展，让更多机器人在可见的未来中具备“通用智能”、灵活自适应的能力。

VLM模型——Pelican-VL 1.0主页

https://pelican-vl.github.io/

Github

GitHub – Open-X-Humanoid/pelican-vl: Pelican-VL 1.0 is a new family of open-source embodied brain mo

Huggingface

https://huggingface.co/X-Humanoid/Pelican1.0-VL-72B

Modelscope

https://modelscope.cn/models/X-Humanoid/Pelican1.0-VL-72B

2025 年 11 月
一	二	三	四	五	六	日
	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

北京人形开源最新VLM模型，推动具身智能再迈关键一步 !

北京人形开源最新VLM模型，推动具身智能再迈关键一步 !

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定