一周六连发!昆仑万维将多模态AI卷到了新高度

480次阅读
没有评论

一周六连发!昆仑万维将多模态AI卷到了新高度

大部分模型都被开源

鲨疯了!一周连发六款模型

火力全开的昆仑万维,正在把多模态AI卷到新高度。

8月11日~15日,这家公司天天都有新模型掉落,覆盖的还都是视频生成、世界模型、统一多模态、智能体以及AI音乐创作这些大热门,几乎每一个都是多模态AI应用的核心场景

用表格总结一下be like:

一周六连发!昆仑万维将多模态AI卷到了新高度

而且这当中的绝大部分模型还被昆仑万维给开!源!了!

u1s1,不怪网友们天天在昆仑万维官方评论区等待惊喜掉落(doge):

一周六连发!昆仑万维将多模态AI卷到了新高度

而且就在技术周开幕前,昆仑万维还成功入选“中国AI开源16强”,与腾讯、阿里等互联网大厂坐上了同一桌。

所以说,这个技术周的节点也显得格外耐人寻味——

表面上是一场高调的技术“肌肉秀”,但细究之下,背后其实藏着昆仑万维的一盘AI大棋。

一周六连发!昆仑万维将多模态AI卷到了新高度

单点突破,多模态能力全面开花

还是先来康康过去一周都发了啥(按发布顺序展开)

SkyReels-A3:一张图开口带货so easy!

一上来,昆仑万维就甩出了核心瞄准数字人直播带货的SkyReels-A3模型。(毕竟目前光国内直播市场就已经逼近十万亿量级)

玩法呢主要有三种:

  • 让照片开口说话:一张人像图+一段配音,照片里的人就能按照指定语音开口说话或唱歌;
  • 根据指令生成新视频:一张人像图+一段配音+提示词,照片里的人还能按照要求的状态进行表演;
  • 改台词不换脸:换掉原来的音频,新视频会重新自动对口型、表情和表演,画面依旧连贯。

从官方demo来看,今后恐怕很难分清每天都在看的视频是真人出镜还是数字人了——其手部动作、说话的语气和节奏、口型等都非常自然。

一周六连发!昆仑万维将多模态AI卷到了新高度

除了带货能力强悍,这个模型还有意增加了“镜头语言”——官方预设8种常见运镜参数,包括固定镜头、推镜、拉镜、左摇、右摇、抬升、下降和手持镜头。

这样一来,它也能轻松应对那些对艺术美感要求更高的场景(如音乐MV、电影片段或演讲视频),不像传统数字人只能“固定镜头”,画面略显呆板无趣。

瞅瞅下面这个由AI制作的MV,是不是氛围感一下子拉满了:

一周六连发!昆仑万维将多模态AI卷到了新高度

而且不止明面上效果OK,官方测评显示,在不同的音频驱动场景下,SkyReels-A3在大多数指标上均超越了主流的开源模型OmniAvatar和闭源模型OmniHuman等方法。

尤其在唇形同步(Sync-C和Sync-D)方面,SkyReels-A3明显表现更佳。

一周六连发!昆仑万维将多模态AI卷到了新高度

这里也不得不提到SkyReels-A3背后所采用的核心技术原理

基于“DiT视频扩散模型+插帧模型进行视频延展+基于强化学习的动作优化+运镜可控”

DiT视频扩散模型就不用多说了,由于用Transformer结构替代了传统的U-Net,它能更好地捕捉长距离依赖关系。

这当中重点看一下所谓的“用插帧模型进行视频延展”

  • 插帧上一步:为了高效处理视频数据,SkyReels-A3采用3D变分自编码器(3D-VAE)将视频压缩成一个更小、更紧凑的形式,同时保留所有重要的信息;
  • 开始插帧:有了压缩后的视频数据,SkyReels-A3还需要让视频中的人物动作看起来自然,而通过在视频帧之间添加更多的帧,这个目标最终得以顺利实现。

基于上述技术方案,SkyReels-A3相比之前的SkyReels-V1(今年2月发布)、SkyReels-V2(今年4月发布),为用户带来了四个方向上的新体验:

①Text Prompt(文本提示词输入)支持画面变化;
②更自然的动作交互,包括和商品的交互、说话时的手部动作等;
③运镜的运用和控制更高级,让艺术场景如音乐/MV等拥有更高的艺术美感;
④可以生成单分镜分钟级别视频,支持长达60秒的输出,多分镜可以支持无限时长。

一言以蔽之,SkyReels-A3在“让数字人开口说话”这件事上已经把门槛狠狠打下来了——

不需要专业影棚、不需要昂贵设备,只要一段声音和一张照片,人人都能创造无限时长、无限可能的数字内容。

国产开源Genie 3,黑客帝国照进现实

当然了,眼前火的要抓,未来可能火的前沿课题昆仑万维也不放过。

发布第二日,他们就带来了自研世界模型Matrix系列中Matrix-Game交互世界模型的升级版——Matrix-Game 2.0

早在一周多前,谷歌DeepMind就因推出Genie 3而让世界模型再次备受关注,但遗憾的是Genie 3并没有开源,如今昆仑万维却做到了开源。

据了解,其Matrix-Game-Turbo是国内首家对标Genie 3的模型,而且这一次的2.0版本在实时生成长序列能力上有了质的飞跃。

像下面这个以第一视角走遍游戏场景的例子,以前大多只能生成十几二十秒(包括7个月前的Genie2),而现在直接分钟级起步,并且还能做到实时前后左右交互。

一周六连发!昆仑万维将多模态AI卷到了新高度

具体而言,相比上一版本,Matrix-Game 2.0拥有三大核心优势:

  • 高帧率实时交互长序列生成:支持前后左右移动和视角转动,用户可指令操控角色,系统以25 FPS(Genie 3为24 FPS)实时生成连续画面,单次交互可生成分钟级长视频,动作流畅,响应精准。
  • 多场景泛化能力:模型适应多种场景,包括城市、野外等空间类型,以及真实、油画等视觉风格。
  • 增强的物理一致性:对物理规则的理解进一步提升,角色在面对台阶、障碍物等复杂地形时,能够展现出符合物理逻辑的运动行为,沉浸感及可控性进一步增加。

而为了实现这些升级,昆仑万维主要从数据架构两方面对Matrix-Game 2.0进行了优化。

第一,为了应对现有交互式世界模型普遍面临的数据瓶颈。他们为模型构建了基于Unreal EngineGTA 5的可扩展数据生产管线,生产约1350小时高质量交互式视频数据,提供丰富动作覆盖。

第二,针对实时性不足的痛点,他们在1.3B小模型基础上设计动作条件控制模块,支持帧级键盘与鼠标交互输入。

第三,面对生成序列较短的挑战,他们采用少步长自回归扩散模型实现实时长序列视频生成,在单个GPU上可达25 FPS的生成速度。

与此同时,昆仑万维也在同一天发布并开源了3D场景生成大模型——Matrix-3D

作为一个融合全景视频生成与三维重建的统一框架,它从单图像出发,能够生成高质量、轨迹一致的全景视频,并能直接还原可漫游的三维空间。对标李飞飞World Labs的生成效果,还能实现更大范围的探索空间。

p.s.量子位另有一篇文章对昆仑万维Matrix-3D进行了详细介绍~

一周六连发!昆仑万维将多模态AI卷到了新高度

结合以上两种模型,昆仑万维可以说成功打破了世界模型在内容生成交互之间的壁垒。

这也意味着,他们已经为游戏引擎、元宇宙、具身智能、自动驾驶等多个领域构建起了强有力的技术基座。

用上新框架,生图/编辑统统SOTA

进入第三天,昆仑万维盯上了今年颇火的统一多模态——

正式开源Skywork UniPic 2.0模型,作为面向统一多模态建模的高效训练和推理框架,能够实现一个模型搞定图像理解、生成以及编辑

过去业界为了实现这一目标,通常信奉“大力出奇迹”那一套,想让模型更强,就加参数、加显卡、加算力。

但昆仑万维用新框架证明,优化训练策略可以替代单纯的模型扩张,从而降低高性能图像生成/编辑模型的训练成本和硬件门槛。

具体来说,通过改进SD3.5-Medium架构以及应用“独门秘笈”(渐进式双任务强化策略),最终使一个仅2B大小的模型在图像生成和编辑性能上超越了BAGEL(7B)和Flux-Kontext(12B),成功“以小博大”。

紧接着,当把这个2B模型与Qwen2.5-VL-7B联合训练之后,所得到的统一多模态模型UniPic2-Metaquery直接刷新了理解、生成、编辑等多项任务的SOTA纪录。

总而言之,Skywork UniPic 2.0的出现代表了统一多模态领域的一种全新训练范式。

一周六连发!昆仑万维将多模态AI卷到了新高度

天工超级智能体核心引擎又又又升级了

至此,昆仑万维前三天的发布可谓样样火热,但这还没完。

今年火到不能再火的Agent,这就接着上桌——

正式发布Skywork Deep Research Agent v2,作为天工超级智能体的核心引擎,它为平台用户产出了大量信息密度极高的优质文档、PPT、表格以及其他交付物。

这次的升级也主要体现在多模态上,具体有三点:

①推出“多模态深度调研”Agent,首次整合多模态检索、理解和生成。
②推出“多模态深度浏览器智能体”,重塑社媒内容分析与数据洞察。
③加强深度信息搜索和复杂任务执行能力,在多个任务测评集上取得SOTA。

先来看一个用“多模态深度调研”Agent搞研究的例子(该功能已全面上线天工平台)

亮点1:智能体在检索信息的过程中,会自动浏览并分析理解重要的图片(以前依赖于纯文本)。

一周六连发!昆仑万维将多模态AI卷到了新高度

亮点2:在对图片做了收集和理解之后,智能体在生成文档时,会在合适位置插入高质量图片,直接传达信息,降低读者理解难度。

一周六连发!昆仑万维将多模态AI卷到了新高度

亮点3:智能体也可能对图片信息进行整合加工,以流畅的方式变成文字或者新的图表。

一周六连发!昆仑万维将多模态AI卷到了新高度

另一个“多模态深度浏览器智能体”目前仍处于内测和邀测阶段,官方计划不久之后全面开放。

和之前的浏览器相比,它也不再局限于文本,而是能够深入分析社交媒体(尤其是小红书、推特以及Instagram等平台)的图片、视频等内容。

现在,吃瓜和追星的姿态已经大变样了~

吃瓜ing:
结合近期社交媒体上的时间线和热点讨论内容进行分析,为我们生成一个「梳理年轮争议」的网页。

一周六连发!昆仑万维将多模态AI卷到了新高度

追星ing:
帮我们快速整理Instagram上周杰伦的近况,并且为粉丝后援会做一个共享信息的应援网站。

一周六连发!昆仑万维将多模态AI卷到了新高度

从技术角度而言,新版本Skywork Deep Research的成功主要靠以下核心手段:

(1)高质量数据合成及训练

提出端到端深度信息问题合成流程,明确高质量搜索问题的五大标准(多样性、正确性、唯一性、可验证性、挑战性),并通过“种子实体筛选—端到端问题构造—迭代式问题增强”三阶段方法,系统生成高难度、多步推理问题集。

(2)端到端强化学习

基于非对称验证原则构建大规模高质量训练数据,采用GRPO算法与动态课程学习机制,确保训练样本始终处于适宜难度区间;引入生成式密集奖励模型,将终点奖励细化为过程奖励,提升学习效率与鲁棒性。

(3)高效的并行推理

研发并行思考(Parallel Think)机制,在每步推理生成多个候选路径并筛选最优;引入长文本生成式结果验证与锦标赛排序,提升推理准确率与泛化能力;采用熵自适应剪枝,仅在高不确定性节点进行多路径推理,兼顾性能与计算效率。

(4)多智能体演进Agent

构建MCP Manager Agent,实现工具的生成—验证—持久化—复用闭环管理;通过协同多智能体框架,将不同Agent模型能力与MCP工具能力深度融合,并支持动态创建与管理工具,显著增强任务处理能力与环境适应性。

更懂中文歌曲的音乐模型

几个大热方向逐一突破后,最后一天,昆仑万维来了一波强势回归——音乐模型

正式上线Mureka V7.5模型,使中文歌曲演绎再上新台阶:

  • 中文歌曲音色、演奏技法提升
  • 中文歌曲咬字与情感表现提升

前者通过深入理解中文音乐的多样性和文化特性,模型能更精准地传达中文音乐的艺术神韵和情感;后者通过优化的ASR技术提升了人声的真实性和情感深度,使AI演唱更自然,尤其在中文歌曲的韵律和气息处理上效果显著。

话不多说,直接来看它和国外顶尖音乐生成模型Suno v4.5(Suno最新版)的对比:

一周六连发!昆仑万维将多模态AI卷到了新高度

仅从提示词(摇滚、雨、爱与自由)来听,Mureka V7.5明显更具摇滚味儿,更符合提示词。

此外,更多测评结果表明,不论是音乐性还是文本控制准确性,Mureka V7.5均领先同类音乐模型。

一周六连发!昆仑万维将多模态AI卷到了新高度

同一时间,昆仑万维语音团队还推出了首个基于MoE的角色描述语音合成框架——MoE-TTS。

作为面向开放描述(Out-of-domain Descriptions)场景的全新框架,它能让用户通过自然语言描述(例如“清澈的少年音带磁性尾韵”)精准控制声音特征与风格。

在仅使用开源数据的条件下,对标甚至超越闭源商业产品的角色贴合度表现。

下图显示,在涵盖域内与域外描述的双测试集上,MoE-TTS与主流闭源TTS模型相比,在风格表现力贴合度(SEA)和整体贴合度(OA)等声学控制上精准度领先,这也正是其在复杂描述匹配度上胜出的关键。

一周六连发!昆仑万维将多模态AI卷到了新高度

昆仑万维:持续在AI核心技术领域投入

至此小结一下昆仑万维技术周,不难发现这样几个特征:

多模态能力全面拉满:从文本到语音/视频/图像等,各项技术都在往多模态方向延伸。
垂直领域深耕:面对高频应用场景,模型一再快速刷新各领域SOTA。
开源驱动生态:多款SOTA模型开放权重与代码,推动行业迭代。

结合昆仑万维在AI方面的布局,不得不说如今的成就并非偶然,而是其精心布局与持续投入的必然结果。

那么,这背后究竟是一盘怎样的大棋呢?梳理下来核心在于三方面。

首先是战略定力。

早在ChatGPT卷起这轮AI浪潮的2023年初,昆仑万维就从顶层设计上率先确立了“All in AGIAIGC”的战略。

这一前瞻性的战略决策,不仅体现了公司对AI未来发展的深刻洞察,也为昆仑万维在AI领域持续深耕奠定了坚实基础。

受此战略指引,过去三年他们在视觉多模态、深度学习、强化学习等核心技术领域持续投入,在AI上倾注了实打实的人力、物力、财力。

这一点可以通过昆仑万维2024以及2025年一季度财报体现:

  • 研发投入节节高:2024全年研发费用为15.4亿元,同比增长59.5%,占总营收比重的27%以上。今年一季度研发费用为4.3亿元,同比增长23%,约占营收的26%。
  • 研发人员在国内AI企业中跻身前列:2024年其研发团队达到1554人,占总人数的73.41%。

如此重押之下,昆仑万维也先后推出了多项重磅产品与平台——包括天工超级智能体(Skywork Super Agents)、AI音乐创作平台Mureka、AI短剧平台SkyReels、AI社交产品Linky等,形成了“AI前沿基础研究——基座模型——AI矩阵产品/应用”的全栈式AI产业链

当然,这些产品的选择,实际上也揭示了昆仑万维的另一个关键策略:

技术上全面开花,应用上却狠狠瞄准垂直领域。

在WAIC 2025大会上,昆仑万维董事长兼CEO方汉提出了一个与众不同的观点。在行业普遍追逐“超级应用”和通用Agent的热潮中,他认为通用Agent在逻辑上不成立,垂直领域的深度优化才是未来

绝大多数行业,数据虽多,却缺乏揭示“如何做”的过程记录。因此,通用大模型无法在所有行业都达到理想的智能水平,这为深耕特定行业的垂直Agent留下了巨大的发展空间。

而且从全球大模型调用数据来看,他认为只有那些能够融入用户日常工作流、被高频使用的应用,才能产生巨大的商业价值和用户粘性。

这些都为昆仑万维的AI应用落地指明了方向——垂直领域+高频应用场景

一周六连发!昆仑万维将多模态AI卷到了新高度

△图源:昆仑万维公众号

当完成从技术→应用落地的关键一环后,昆仑万维最后用开源补齐了整个链条。相比一些同行选择闭源,昆仑万维在多个关键节点坚持开源,持续贡献高质量模型和工具。

在业内,这不仅帮助公司建立起技术话语权,也在吸引更多开发者、合作伙伴加入,从而形成“技术—社区—应用”的正向循环。事实也证明,该公司已经凭借开源成果入选“中国AI开源16强”,生态地位正在稳步提升。

综上所述,能够看到的是,昆仑万维正在加速推进其AI战略,并展现出强大的技术实力和商业潜力。作为国内AI企业第一梯队成员,其后续发展无疑值得资本关注。

可以说,技术周的落幕并非终点,而是昆仑万维AI征程新的起点。

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 8 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...