一周六连发！昆仑万维将多模态AI卷到了新高度

655次阅读

没有评论

一周六连发！昆仑万维将多模态AI卷到了新高度

一水
2025-08-17
17:37:32

来源：量子位

大部分模型都被开源了

鲨疯了！一周连发六款模型。

火力全开的昆仑万维，正在把多模态AI卷到新高度。

8月11日~15日，这家公司天天都有新模型掉落，覆盖的还都是视频生成、世界模型、统一多模态、智能体以及AI音乐创作这些大热门，几乎每一个都是多模态AI应用的核心场景。

用表格总结一下be like：

而且这当中的绝大部分模型还被昆仑万维给开！源！了！

u1s1，不怪网友们天天在昆仑万维官方评论区等待惊喜掉落（doge）：

而且就在技术周开幕前，昆仑万维还成功入选“中国AI开源16强”，与腾讯、阿里等互联网大厂坐上了同一桌。

所以说，这个技术周的节点也显得格外耐人寻味——

表面上是一场高调的技术“肌肉秀”，但细究之下，背后其实藏着昆仑万维的一盘AI大棋。

单点突破，多模态能力全面开花

还是先来康康过去一周都发了啥（按发布顺序展开）。

SkyReels-A3：一张图开口带货so easy！

一上来，昆仑万维就甩出了核心瞄准数字人直播带货的SkyReels-A3模型。（毕竟目前光国内直播市场就已经逼近十万亿量级）

玩法呢主要有三种：

让照片开口说话：一张人像图+一段配音，照片里的人就能按照指定语音开口说话或唱歌；
根据指令生成新视频：一张人像图+一段配音+提示词，照片里的人还能按照要求的状态进行表演；
改台词不换脸：换掉原来的音频，新视频会重新自动对口型、表情和表演，画面依旧连贯。

从官方demo来看，今后恐怕很难分清每天都在看的视频是真人出镜还是数字人了——其手部动作、说话的语气和节奏、口型等都非常自然。

除了带货能力强悍，这个模型还有意增加了“镜头语言”——官方预设8种常见运镜参数，包括固定镜头、推镜、拉镜、左摇、右摇、抬升、下降和手持镜头。

这样一来，它也能轻松应对那些对艺术美感要求更高的场景（如音乐MV、电影片段或演讲视频），不像传统数字人只能“固定镜头”，画面略显呆板无趣。

瞅瞅下面这个由AI制作的MV，是不是氛围感一下子拉满了：

而且不止明面上效果OK，官方测评显示，在不同的音频驱动场景下，SkyReels-A3在大多数指标上均超越了主流的开源模型OmniAvatar和闭源模型OmniHuman等方法。

尤其在唇形同步（Sync-C和Sync-D）方面，SkyReels-A3明显表现更佳。

这里也不得不提到SkyReels-A3背后所采用的核心技术原理：

基于“DiT视频扩散模型+插帧模型进行视频延展+基于强化学习的动作优化+运镜可控”

DiT视频扩散模型就不用多说了，由于用Transformer结构替代了传统的U-Net，它能更好地捕捉长距离依赖关系。

这当中重点看一下所谓的“用插帧模型进行视频延展”：

插帧上一步：为了高效处理视频数据，SkyReels-A3采用3D变分自编码器（3D-VAE）将视频压缩成一个更小、更紧凑的形式，同时保留所有重要的信息；
开始插帧：有了压缩后的视频数据，SkyReels-A3还需要让视频中的人物动作看起来自然，而通过在视频帧之间添加更多的帧，这个目标最终得以顺利实现。

基于上述技术方案，SkyReels-A3相比之前的SkyReels-V1（今年2月发布）、SkyReels-V2（今年4月发布），为用户带来了四个方向上的新体验：

①Text Prompt（文本提示词输入）支持画面变化；
②更自然的动作交互，包括和商品的交互、说话时的手部动作等；
③运镜的运用和控制更高级，让艺术场景如音乐/MV等拥有更高的艺术美感；
④可以生成单分镜分钟级别视频，支持长达60秒的输出，多分镜可以支持无限时长。

一言以蔽之，SkyReels-A3在“让数字人开口说话”这件事上已经把门槛狠狠打下来了——

不需要专业影棚、不需要昂贵设备，只要一段声音和一张照片，人人都能创造无限时长、无限可能的数字内容。

国产开源Genie 3，黑客帝国照进现实

当然了，眼前火的要抓，未来可能火的前沿课题昆仑万维也不放过。

发布第二日，他们就带来了自研世界模型Matrix系列中Matrix-Game交互世界模型的升级版——Matrix-Game 2.0。

早在一周多前，谷歌DeepMind就因推出Genie 3而让世界模型再次备受关注，但遗憾的是Genie 3并没有开源，如今昆仑万维却做到了开源。

据了解，其Matrix-Game-Turbo是国内首家对标Genie 3的模型，而且这一次的2.0版本在实时生成和长序列能力上有了质的飞跃。

像下面这个以第一视角走遍游戏场景的例子，以前大多只能生成十几二十秒（包括7个月前的Genie2），而现在直接分钟级起步，并且还能做到实时前后左右交互。

具体而言，相比上一版本，Matrix-Game 2.0拥有三大核心优势：

高帧率实时交互长序列生成：支持前后左右移动和视角转动，用户可指令操控角色，系统以25 FPS（Genie 3为24 FPS）实时生成连续画面，单次交互可生成分钟级长视频，动作流畅，响应精准。
多场景泛化能力：模型适应多种场景，包括城市、野外等空间类型，以及真实、油画等视觉风格。
增强的物理一致性：对物理规则的理解进一步提升，角色在面对台阶、障碍物等复杂地形时，能够展现出符合物理逻辑的运动行为，沉浸感及可控性进一步增加。

而为了实现这些升级，昆仑万维主要从数据和架构两方面对Matrix-Game 2.0进行了优化。

第一，为了应对现有交互式世界模型普遍面临的数据瓶颈。他们为模型构建了基于Unreal Engine和GTA 5的可扩展数据生产管线，生产约1350小时高质量交互式视频数据，提供丰富动作覆盖。

第二，针对实时性不足的痛点，他们在1.3B小模型基础上设计了动作条件控制模块，支持帧级键盘与鼠标交互输入。

第三，面对生成序列较短的挑战，他们采用少步长自回归扩散模型实现实时长序列视频生成，在单个GPU上可达25 FPS的生成速度。

与此同时，昆仑万维也在同一天发布并开源了3D场景生成大模型——Matrix-3D。

作为一个融合全景视频生成与三维重建的统一框架，它从单图像出发，能够生成高质量、轨迹一致的全景视频，并能直接还原可漫游的三维空间。对标李飞飞World Labs的生成效果，还能实现更大范围的探索空间。

p.s.量子位另有一篇文章对昆仑万维Matrix-3D进行了详细介绍~

结合以上两种模型，昆仑万维可以说成功打破了世界模型在内容生成与交互之间的壁垒。

这也意味着，他们已经为游戏引擎、元宇宙、具身智能、自动驾驶等多个领域构建起了强有力的技术基座。

用上新框架，生图/编辑统统SOTA

进入第三天，昆仑万维盯上了今年颇火的统一多模态——

正式开源Skywork UniPic 2.0模型，作为面向统一多模态建模的高效训练和推理框架，能够实现一个模型搞定图像理解、生成以及编辑。

过去业界为了实现这一目标，通常信奉“大力出奇迹”那一套，想让模型更强，就加参数、加显卡、加算力。

但昆仑万维用新框架证明，优化训练策略可以替代单纯的模型扩张，从而降低高性能图像生成/编辑模型的训练成本和硬件门槛。

具体来说，通过改进SD3.5-Medium架构以及应用“独门秘笈”（渐进式双任务强化策略），最终使一个仅2B大小的模型在图像生成和编辑性能上超越了BAGEL（7B）和Flux-Kontext（12B），成功“以小博大”。

紧接着，当把这个2B模型与Qwen2.5-VL-7B联合训练之后，所得到的统一多模态模型UniPic2-Metaquery直接刷新了理解、生成、编辑等多项任务的SOTA纪录。

总而言之，Skywork UniPic 2.0的出现代表了统一多模态领域的一种全新训练范式。

天工超级智能体核心引擎又又又升级了

至此，昆仑万维前三天的发布可谓样样火热，但这还没完。

今年火到不能再火的Agent，这就接着上桌——

正式发布Skywork Deep Research Agent v2，作为天工超级智能体的核心引擎，它为平台用户产出了大量信息密度极高的优质文档、PPT、表格以及其他交付物。

这次的升级也主要体现在多模态上，具体有三点：

①推出“多模态深度调研”Agent，首次整合多模态检索、理解和生成。
②推出“多模态深度浏览器智能体”，重塑社媒内容分析与数据洞察。
③加强深度信息搜索和复杂任务执行能力，在多个任务测评集上取得SOTA。

先来看一个用“多模态深度调研”Agent搞研究的例子（该功能已全面上线天工平台）。

亮点1：智能体在检索信息的过程中，会自动浏览并分析理解重要的图片（以前依赖于纯文本）。

亮点2：在对图片做了收集和理解之后，智能体在生成文档时，会在合适位置插入高质量图片，直接传达信息，降低读者理解难度。

亮点3：智能体也可能对图片信息进行整合加工，以流畅的方式变成文字或者新的图表。

另一个“多模态深度浏览器智能体”目前仍处于内测和邀测阶段，官方计划不久之后全面开放。

和之前的浏览器相比，它也不再局限于文本，而是能够深入分析社交媒体（尤其是小红书、推特以及Instagram等平台）的图片、视频等内容。

现在，吃瓜和追星的姿态已经大变样了~

吃瓜ing：
结合近期社交媒体上的时间线和热点讨论内容进行分析，为我们生成一个「梳理年轮争议」的网页。

追星ing：
帮我们快速整理Instagram上周杰伦的近况，并且为粉丝后援会做一个共享信息的应援网站。

从技术角度而言，新版本Skywork Deep Research的成功主要靠以下核心手段：

（1）高质量数据合成及训练

提出端到端深度信息问题合成流程，明确高质量搜索问题的五大标准（多样性、正确性、唯一性、可验证性、挑战性），并通过“种子实体筛选—端到端问题构造—迭代式问题增强”三阶段方法，系统生成高难度、多步推理问题集。

（2）端到端强化学习

基于非对称验证原则构建大规模高质量训练数据，采用GRPO算法与动态课程学习机制，确保训练样本始终处于适宜难度区间；引入生成式密集奖励模型，将终点奖励细化为过程奖励，提升学习效率与鲁棒性。

（3）高效的并行推理

研发并行思考（Parallel Think）机制，在每步推理生成多个候选路径并筛选最优；引入长文本生成式结果验证与锦标赛排序，提升推理准确率与泛化能力；采用熵自适应剪枝，仅在高不确定性节点进行多路径推理，兼顾性能与计算效率。

（4）多智能体演进Agent

构建MCP Manager Agent，实现工具的生成—验证—持久化—复用闭环管理；通过协同多智能体框架，将不同Agent模型能力与MCP工具能力深度融合，并支持动态创建与管理工具，显著增强任务处理能力与环境适应性。

更懂中文歌曲的音乐模型

几个大热方向逐一突破后，最后一天，昆仑万维来了一波强势回归——音乐模型。

正式上线Mureka V7.5模型，使中文歌曲演绎再上新台阶：

中文歌曲音色、演奏技法提升
中文歌曲咬字与情感表现提升

前者通过深入理解中文音乐的多样性和文化特性，模型能更精准地传达中文音乐的艺术神韵和情感；后者通过优化的ASR技术提升了人声的真实性和情感深度，使AI演唱更自然，尤其在中文歌曲的韵律和气息处理上效果显著。

话不多说，直接来看它和国外顶尖音乐生成模型Suno v4.5（Suno最新版）的对比：

仅从提示词（摇滚、雨、爱与自由）来听，Mureka V7.5明显更具摇滚味儿，更符合提示词。

此外，更多测评结果表明，不论是音乐性还是文本控制准确性，Mureka V7.5均领先同类音乐模型。

同一时间，昆仑万维语音团队还推出了首个基于MoE的角色描述语音合成框架——MoE-TTS。

作为面向开放描述（Out-of-domain Descriptions）场景的全新框架，它能让用户通过自然语言描述（例如“清澈的少年音带磁性尾韵”）精准控制声音特征与风格。

在仅使用开源数据的条件下，对标甚至超越闭源商业产品的角色贴合度表现。

下图显示，在涵盖域内与域外描述的双测试集上，MoE-TTS与主流闭源TTS模型相比，在风格表现力贴合度（SEA）和整体贴合度（OA）等声学控制上精准度领先，这也正是其在复杂描述匹配度上胜出的关键。

昆仑万维：持续在AI核心技术领域投入

至此小结一下昆仑万维技术周，不难发现这样几个特征：

①多模态能力全面拉满：从文本到语音/视频/图像等，各项技术都在往多模态方向延伸。
②垂直领域深耕：面对高频应用场景，模型一再快速刷新各领域SOTA。
③开源驱动生态：多款SOTA模型开放权重与代码，推动行业迭代。

结合昆仑万维在AI方面的布局，不得不说如今的成就并非偶然，而是其精心布局与持续投入的必然结果。

那么，这背后究竟是一盘怎样的大棋呢？梳理下来核心在于三方面。

首先是战略定力。

早在ChatGPT卷起这轮AI浪潮的2023年初，昆仑万维就从顶层设计上率先确立了“All in AGI与AIGC”的战略。

这一前瞻性的战略决策，不仅体现了公司对AI未来发展的深刻洞察，也为昆仑万维在AI领域持续深耕奠定了坚实基础。

受此战略指引，过去三年他们在视觉多模态、深度学习、强化学习等核心技术领域持续投入，在AI上倾注了实打实的人力、物力、财力。

这一点可以通过昆仑万维2024以及2025年一季度财报体现：

研发投入节节高：2024全年研发费用为15.4亿元，同比增长59.5%，占总营收比重的27%以上。今年一季度研发费用为4.3亿元，同比增长23%，约占营收的26%。
研发人员在国内AI企业中跻身前列：2024年其研发团队达到1554人，占总人数的73.41%。

如此重押之下，昆仑万维也先后推出了多项重磅产品与平台——包括天工超级智能体（Skywork Super Agents）、AI音乐创作平台Mureka、AI短剧平台SkyReels、AI社交产品Linky等，形成了“AI前沿基础研究——基座模型——AI矩阵产品/应用”的全栈式AI产业链。

当然，这些产品的选择，实际上也揭示了昆仑万维的另一个关键策略：

技术上全面开花，应用上却狠狠瞄准垂直领域。

在WAIC 2025大会上，昆仑万维董事长兼CEO方汉提出了一个与众不同的观点。在行业普遍追逐“超级应用”和通用Agent的热潮中，他认为通用Agent在逻辑上不成立，垂直领域的深度优化才是未来。

绝大多数行业，数据虽多，却缺乏揭示“如何做”的过程记录。因此，通用大模型无法在所有行业都达到理想的智能水平，这为深耕特定行业的垂直Agent留下了巨大的发展空间。

而且从全球大模型调用数据来看，他认为只有那些能够融入用户日常工作流、被高频使用的应用，才能产生巨大的商业价值和用户粘性。

这些都为昆仑万维的AI应用落地指明了方向——垂直领域+高频应用场景。

△图源：昆仑万维公众号

当完成从技术→应用落地的关键一环后，昆仑万维最后用开源补齐了整个链条。相比一些同行选择闭源，昆仑万维在多个关键节点坚持开源，持续贡献高质量模型和工具。

在业内，这不仅帮助公司建立起技术话语权，也在吸引更多开发者、合作伙伴加入，从而形成“技术—社区—应用”的正向循环。事实也证明，该公司已经凭借开源成果入选“中国AI开源16强”，生态地位正在稳步提升。

综上所述，能够看到的是，昆仑万维正在加速推进其AI战略，并展现出强大的技术实力和商业潜力。作为国内AI企业第一梯队成员，其后续发展无疑值得资本关注。

可以说，技术周的落幕并非终点，而是昆仑万维AI征程新的起点。

一周六连发！昆仑万维将多模态AI卷到了新高度

一周六连发！昆仑万维将多模态AI卷到了新高度

单点突破，多模态能力全面开花

SkyReels-A3：一张图开口带货so easy！

国产开源Genie 3，黑客帝国照进现实

用上新框架，生图/编辑统统SOTA

天工超级智能体核心引擎又又又升级了

更懂中文歌曲的音乐模型

昆仑万维：持续在AI核心技术领域投入

△图源：昆仑万维公众号

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

2025 年 8 月
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

2025 年 8 月
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31