2.4万亿参数原生全模态，文心5.0一手实测来了

西风
2025-11-13
17:39:15

来源：量子位

拆解跳水视频，太细了！

西风发自凹非寺

量子位 | 公众号 QbitAI

刚刚，文心5.0正式发布了！

全新一代主打原生全模态，最开始就把语言/图像/视频/音频放在同一套自回归统一架构里，做统一的理解与生成训练。

所以，最终模型能够做到支持全模态输入（文字/图片/音频/视频）+全模态输出（文字/图片/音频/视频），创意写作、指令遵循、智能体规划方面也更强了。

在官方展示中，上传一个电影片段，它立马就能分析出最紧张的情节，具体到第几秒到第几秒的那种。

同时上传一段视频和一段音频，就能让它指出视频里是否有用到音频里的音乐，还能说出节点：

做音视频融合生成也行，简单操作即可爆改甄嬛传滴血认亲（佟掌柜版）：

视频链接：https://mp.weixin.qq.com/s/wMeWKu2HAGuilZtlY7Q5KA

拿来生成3D交互式地球与卫星演示模型，用户可以通过鼠标拖拽旋转视角，直观地观察地球与卫星的空间运动关系：

官方基准测试结果显示，文心5.0 Preview在语言、视觉理解、音频理解、视觉生成多维度表现突出：

就在几天前，文心5.0 Preview（ERNIE-5.0-Preview-1022）还闪现大模型竞技场LMArena，在文本排行榜（Text Arena）上得分1432，与gpt-4.5-preview、claude-opus-4-1、claude-sonnet-4-5等并列全球第二，位居国内第一。

当时，不少在LMArena体验过的网友给出好评。

更有网友追问啥时候正式上线。

这不，现在它来了。

目前，文心5.0 Preview已上线文心一言网页版、文心App；同时上线百度千帆大模型平台，提供API服务。

不过，Preview版暂且先支持全模态输入（文/图/音/视频）+多模态输出（文/图）。量子位了解到，能实现全模态输出的满血版现在正在进行产品体验优化，之后会陆续推出。

那就先让文心5.0 Preview带我们一探，文心5.0体验感究竟如何。

文心5.0 Preview实测，原生全模态强在哪？

先来看输入方面，文心5.0 Preview支持全模态输入。

在单次交互中，不论是文档、图片，还是音频、视频，都能一口气发给它，可跨文件类别混合上传。

具体规则如下：

值得一提的是，经用户授权，它还能与百度网盘关联，无需下载就能访问处理网盘文件：

接下来，整活儿～

多模态理解推理全面强化

在多模态理解能力上，我们上来就给它看了一段跳水比赛史上的名场面：

视频链接：https://mp.weixin.qq.com/s/wMeWKu2HAGuilZtlY7Q5KA

给出简单的prompt：这个视频中发生了什么？有什么好笑的？

只见文心5.0 Preview和之前的深度思考模型一样，先进行了一轮自我思考，包括回顾视频内容、描述视频、找出好笑的地方以及确认了更多细节，紧接着快速给出了结果。

这波回答什么水平？

细看文心5.0 Preview的理解分析，咱只能说，理解的精细度有点离谱了。

从起跳、空中翻转到入水，各动作阶段拆得门清；一闪而过的选手信息、动作名称、难度系数，也都被它精准捕捉到了。

同时，它甚至还带有视频情感理解能力，注意到了选手的表情——起跳时皱着眉、咬着牙，像是在硬着头皮往下跳。

“入水瞬间水花越小越厉害”“压水花”，这些行规它也懂。

真正的神来之笔，是它连视频中的慢放片段都能识别，还点明慢动作回放补刀。

好好好，下一题。

搬出“你怎么穿着品如的衣服啊？”这一电视剧名场面，问：品如穿的什么颜色的衣服？

这时，文心5.0 Preview又当如何作答？

结合视频中的台词，文心5.0 Preview轻松答对：

上难度。

那么，“视频中的女人是品如吗？”

这次文心5.0 Preview依靠智能体能力自主调用了搜索工具，通过角色名等线索，将这一幕准确定位为出自电视剧《回家的诱惑》。

值得一提的是，它最后是根据角色的性格特征，分析出视频中的不是品如的。

并且也是通过性格特征推测，穿着品如粉色衣服的这个人，大概率是艾莉。

不得不说，这理解能力确实让人眼前一亮。

那再来一张难倒不少大模型的带有文字的谐音梗图，看它能否理解透彻：

通过思考，图片理解对它来说更是不在话下了：

最后，咱下班路上路过卖炒货的摊儿，顺手拍了几秒的视频上传给文心5.0 Preview。

尽管视频分辨率不是很高，它也能抓到细节，算出两斤糖炒栗子、一斤炒内蒙瓜子、一斤现炒四粒红花生一共多少钱。

要说瑕疵的话，就是没区分会员价和非会员价，默认按会员价计算。不过视频确实有点糊，也难怪看不清。

测试下来不难发现文心5.0 Preview的特点——

它不仅能识别画面中的内容，而且还能精准捕捉到各种细节，同时擅长结合视频情节、台词等多模态内容，理解其中的情感氛围和叙事意图。

另外，在综合推理、跨模态信息整合、复杂场景判别方面，文心5.0 Preview也更强，不容易被单一模态误导，能从多个角度判断画面的合理性。

原生全模态技术背后

从技术上来看，文心5.0这次的设计以“原生统一”为目标，走的是非后期拼接的原生全模态路线。

过去的多模态模型通常是各模态独立训练、后期再进行特征拼接或融合，这种方式虽然工程上更易落地，但在语义对齐、信息互证和效率上存在天然瓶颈。

文心5.0的方法是从训练伊始，就将语言、图像、视频、音频等多模态数据放入同一套架构中联合学习，使模型在底层就能形成跨模态的内在关联与理解逻辑。就像人看到闪电会联想到雷声，文心5.0也在试图建立这种跨模态的直觉。

为了实现这种统一的理解，它采用了自回归统一结构。

通过对不同模态的训练目标进行离散化建模，使多模态特征得以在统一的架构中充分融合与协同优化。这意味着，无论输入是文字、图像还是音频，都会被映射到统一的表征空间中，用同一套逻辑结构进行处理与解码，从而打通模态间的边界。

为同时兼顾知识容量与运行效率，文心5.0引入了当前大模型主流架构——超大规模混合专家架构。

该架构在保持模型性能的同时，通过稀疏激活机制显著降低了计算负载。每次推理只会激活与任务最相关的专家模块，实现能力全面与成本可控的平衡。

官方透露，在底层实现上，百度飞桨深度学习框架提供了关键支撑。

训练端，通过多模态编码器分离异步训练架构、动态自适应显存卸载、细粒度通信计算重叠编排及FP8混合精度训练，文心5.0实现了万亿级参数模型的高效分布式训练。

推理端，基于多模编码器-预填充-解码-多模生成器的多级分离推理部署框架，结合超稀疏混合专家、数据负载和注意力计算的均衡算法，以及动态自适应多步投机解码和效果无损低比特键值缓存量化技术，大幅降低了推理成本。

整体而言，文心5.0的模型总参数规模超过2.4万亿；其超稀疏激活参数设计，激活比例低于3%，在保持模型性能的同时显著优化了计算与推理效率。

另外，文心5.0的能力还延伸到智能体与工具调用的执行层。

通过在真实和模拟环境中合成长程任务轨迹数据，并结合思维链、行动链与多轮强化学习训练，模型在任务规划、工具使用和决策执行方面实现了系统性提升。

今年完成的又双叒一轮迭代

近一年，大模型领域的竞争逻辑发生转变。

行业正越来越注重底层架构创新、训练与推理效率、落地成本等多维度的综合考量，各厂商也在技术路径上寻找差异化突破口。

从百度今年基础模型的迭代节奏来看，更新步伐持续加快：

4月，发布文心4.5 Turbo和文心X1 Turbo，增强多模态能力和推理能力。

6月底，文心4.5系列，包括47B、3B激活参数的混合专家（MoE）模型及0.3B参数的稠密型模型等10款模型，宣布开源，预训练权重和推理代码上均做到完全开放。

9月，文心X1.1深度思考模型发布，在事实性、指令遵循、智能体能力上持续提升。其开源模型ERNIE-4.5-21B-A3B-Thinking在抱抱脸全球模型总趋势榜和文本模型趋势榜均排名第一。

伴随底层模型的迭代，如百度电商数字人、百度搜索等上层应用也在持续演进，逐步承接模型能力。

这一次，文心5.0原生全模态模型的推出，也是百度从最底层实现的又一次差异化突破。背后撑起这一跃的，是百度在底层架构、算法训练、推理优化及生态协同等全链路环节上的系统性积累。

在多模态“强推理”和“深理解”方向，百度正在探索下一阶段模型能力的边界。

2025 年 11 月
一	二	三	四	五	六	日
	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

2.4万亿参数原生全模态，文心5.0一手实测来了

2.4万亿参数原生全模态，文心5.0一手实测来了

文心5.0 Preview实测，原生全模态强在哪？

多模态理解推理全面强化

更多用法，随你发挥

原生全模态技术背后

今年完成的又双叒一轮迭代

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定