单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2

586次阅读
没有评论

单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2

2048帧视频12秒编码

允中 发自 凹非寺

量子位 | 公众号 QbitAI

单张显卡,就能处理万帧视频输入,并且编码2048帧视频仅需12秒!

国产开源模型又上大分,这次是在长视频理解领域:

智源研究院联合上海交通大学等机构,正式发布新一代超长视频理解模型Video-XL-2

单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2

长视频理解是多模态大模型关键能力之一。尽管OpenAI GPT-4o、Google Gemini等私有模型已在该领域取得显著进展,当前的开源模型在效果、计算开销和运行效率等方面仍存在明显短板。

而Video-XL-2相较于上一版本的Video-XL,在多个维度全面优化了开源多模态大模型对长视频内容的理解能力:

  • 效果更佳:Video-XL-2在长视频理解任务中表现出色,在MLVU、Video-MME、LVBench等主流评测基准上达到了同参数规模开源模型的领先水平。
  • 长度更长:新模型显著扩展了可处理视频的时长,支持在单张显卡上高效处理长达万帧的视频输入。
  • 速度更快:Video-XL-2大幅提升了处理效率,编码2048帧视频仅需12秒,显著加速长视频理解流程。

目前,Video-XL-2的模型权重已全面向社区开放。未来,该模型有望在影视内容分析、异常行为监测等多个实际场景中展现重要应用价值。

技术简介

在模型架构设计上,Video-XL-2主要由三个核心组件构成:视觉编码器(Visual Encoder)动态 Token 合成模块(Dynamic Token Synthesis, DTS)以及大语言模型(LLM)

单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2

△Video-XL-2的模型架构示意图

具体而言,Video-XL-2采用SigLIP-SO400M作为视觉编码器,对输入视频进行逐帧处理,将每一帧编码为高维视觉特征。

随后,DTS模块对这些视觉特征进行融合压缩,并建模其时序关系,以提取更具语义的动态信息。处理后的视觉表征通过平均池化与多层感知机(MLP)进一步映射到文本嵌入空间,实现模态对齐。最终,对齐后的视觉信息输入至Qwen2.5-Instruct,以实现对视觉内容的理解与推理,并完成相应的下游任务。

单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2

△Video-XL-2的训练阶段示意图

在训练策略上,Video-XL-2采用了四阶段渐进式训练的设计 ,逐步构建其强大的长视频理解能力。

前两个阶段主要利用图像/视频-文本对,完成DTS模块的初始化与跨模态对齐;第三阶段则引入更大规模,更高质量的图像与视频描述数据,初步奠定模型对视觉内容的理解能力;第四阶段,在大规模、高质量且多样化的图像与视频指令数据上进行微调,使Video-XL-2的视觉理解能力得到进一步提升与强化,从而能够更准确地理解和响应复杂的视觉指令。

此外,Video-XL-2还系统性设计了效率优化策略

首先,Video-XL-2引入了分段式的预装填策略(Chunk-based Prefilling):将超长视频划分为若干连续的片段(chunk),在每个chunk内部使用稠密注意力机制进行编码,而不同chunk之间则通过时间戳传递上下文信息。该设计显著降低了预装填阶段的计算成本与显存开销。

单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2

△Chunk-based Prefilling

其次,Video-XL-2还设计了基于双粒度KV的解码机制(Bi-granularity KV Decoding):

在推理过程中,模型会根据任务需求,选择性地对关键片段加载完整的KVs(dense KVs),而对其他次要片段仅加载降采样后的稀疏的KVs(sparse KVs)。这一机制有效缩短了推理窗口长度,从而大幅提升解码效率。得益于上述策略的协同优化,Video-XL-2实现了在单张显卡上对万帧级视频的高效推理,显著增强了其在实际应用场景中的实用性。

单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2

△Bi-granularity KV Decoding

实验效果

在模型具体表现方面,Video-XL-2在MLVU、VideoMME 和 LVBench等主流长视频评测基准上全面超越现有所有轻量级开源模型,达成当前最先进性能(SOTA),相较第一代 Video-XL 实现了显著提升

单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2

△Video-XL-2的主要对比结果

尤其值得关注的是,在MLVU和LVBench上,Video-XL-2的性能已接近甚至超越了如Qwen2.5-VL-72B和LLaVA-Video-72B等参数规模高达720亿的大模型。

此外,在时序定位(Temporal Grounding)任务中,Video-XL-2也表现出色,在Charades-STA数据集上取得了领先的结果,进一步验证了其在多模态视频理解场景中的广泛适用性与实际价值。

单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2

△Video-XL-2的全面对比结果

除了效果上的提升,Video-XL-2在视频长度方面也展现出显著优势

如下图所示,在单张24GB消费级显卡(如 RTX 3090 / 4090)上,Video-XL-2可处理长达千帧的视频;而在单张 80GB 高性能显卡(如 A100 / H100)上,模型更支持万帧级视频输入,远超现有主流开源模型。

单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2

△Video-XL-2输入长度的对比展示

相较于VideoChat-Flash 和初代 Video-XL,Video-XL-2显著拓展了视频理解的长度并有效降低了资源需求,为处理复杂的视频任务提供了有力的支撑。

最后,Video-XL-2在速度上也展现出卓越性能

Video-XL-2仅需12秒即可完成2048帧视频的预填充。更重要的是,其预填充时间与输入帧数之间呈现出近似线性增长,体现了其出色的可扩展性。

单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2

△Video-XL-2 Prefilling速度和输入帧数的关系图

相比之下,Video-XL与VideoChat-Flash 在输入长视频条件下的工作效率明显落后于Video-XL-2。

单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2

△Video-XL-2 Prefilling速度的对比展示

应用潜力

得益于出色的视频理解能力与对超长视频的高效处理性能,Video-XL-2在多种实际应用场景中展现出很高的应用潜力。例如,它可广泛应用于影视内容分析、剧情理解、监控视频中的异常行为检测与安全预警等任务,为现实世界中的复杂视频理解需求提供高效、精准的技术支撑。

以下是一些具体的例子,将展示Video-XL-2在实际应用中的潜力:

Example 1:电影情节问答

单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2

Question: A bald man wearing a green coat is speaking on the phone. What color is the phone?
Answer: The phone’s color is red

Example 2:监控异常检测

单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2

Question: Is there any unexpected event happening in this surveillance footage?
Answer: There is physical altercation between the customers and the store employees

Example 3: 影视作品内容总结

单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2

Example4:游戏直播内容总结

单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2

更多技术细节,可以在项目主页一探究竟,详细技术报告is coming soon~

项目主页:https://unabletousegit.github.io/video-xl2.github.io/
模型hf链接:https://huggingface.co/BAAI/Video-XL-2
仓库链接:https://github.com/VectorSpaceLab/Video-XL

— 完 —

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 6 月
 1
2345678
9101112131415
16171819202122
23242526272829
30  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手 十三 2025-12-09 18:18:41 来源:量子位...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东 Jay 2025-12-09 08:26:01 来源...
梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物! 一水 2025-12-09 09:46:23 来源:量子位 来自安...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布 思邈 2025-12-09 15:46:09 来源:量子位 国内首个聚焦...
极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」 henry 2...