分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配

588次阅读
没有评论

分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配

所有数据均已完全开源

PAM团队 投稿
量子位 | 公众号 QbitAI

可以输出语义的「分割一切模型2.0」来了!

一次交互,「分割+识别+解释+描述」全搞定,同时支持图像、视频和长视频,文本&Mask同时输出!

由港中文MMLab、港理工、北京大学等机构开源的PAM(Perceive Anything Model)模型,能够在保留SAM2分割一切、追踪一切能力的基础上,同时输出丰富的语义信息。

分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配

为了训练这样一个强大的模型,PAM团队还构建了一个超大规模高质量训练数据集:拥有150万个图像区域+60万个视频区域标注

实验结果表明,PAM仅使用3B参数,就在多个图像和视频理解基准上全面刷新或逼近SOTA,且具备更优的推理效率和显存占用,真正实现性能与轻量的统一。

所有数据均已完全开源

分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配

PAM:准确定位一键输出

SAM2拥有强大的分割能力,可以“分割一切物体”,在视频中能够高效追踪任意目标,表现惊艳!
但它也有一个明显的局限:无法提供定位目标的任何语义信息(比如物体是什么、有何功能、处于什么状态等)。

一些最新的Video LLM模型尝试结合VLM和SAM2的强大视觉提示能力,进行视频理解。然而:

  • 这些模型往往无法直接输出分割结果,或需要额外接入segment模型,流程复杂;
  • 模型体量通常非常庞大,对计算资源要求高,不适用于轻量化、快速响应的实际场景(如AR/VR、移动端推理等)。

分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配

而PAM(Perceive Anything Model)既保留了SAM2在图像和视频中分割、追踪一切物体的能力,同时可以输出丰富的语义信息:

在图像任务中,PAM支持一次点击即可输出选中区域的:

  • 类别(Label)
  • 解释(Explain)
  • 精细描述(Caption)

在视频任务中,PAM同样支持区域理解:

  • 整段描述(Caption)
  • 流式描述(Streaming Caption):连续事件追踪+动态叙述

只需要用户的一次点击,PAM就可以并行输出mask和文本,在许多应用场景下都具有潜力!

效果展示:图片/短视频/长视频

分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配

对于图片,用户通过点击或者拖拽矩形框选中一个物体,PAM可以完成分割的同时,输出该物体的类别+解释+描述的详细语义信息!

对于较短视频,用户选中特定物体后,PAM可以追踪并分割该物体,同时输出该物体的事件描述

而对于长视频,PAM在追踪分割用户选中物体的同时,会根据事件的变化,动态地输出流式描述,类似实时字幕

工作原理:模型框架+数据集

分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配

PAM引入了Semantic Perceiver来连接SAM2分割骨架和LLM,高效地将视觉特征“翻译”成多模态token

通过SAM2分割骨架+Semantic Perceiver+LLM并行解码,在保证轻量高效的前提下,实现了分割mask和语义信息并行输出的图像/视频区域级理解。

基于此方法,PAM只使用了1.5B/3B参数的LLM head,就可以输出非常丰富和鲁棒的语义信息。

分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配

为支撑PAM的训练,构建了一个大规模、多层次、高密度的图像与视频语义标注数据集,覆盖分类、解释、描述、时序事件等多个维度:

图像数据:精细三连注释

使用SoM(Set of Masks)方法精准定位目标区域**,结合强大的闭源VLM(如GPT-4o)生成三类语义信息:

  • 类别(Label)
  • 解释(Explain)
  • 描述(Caption)

每个物体不仅知道“是什么”,还能解释“为什么”和“什么作用”。

视频数据:Storyboard驱动式理解

  • 对每段视频抽取6张关键帧,合成为Storyboard格式的高分辨率图像;
  • 使用SoM高亮目标区域,作为提示引导;
  • 利用闭源VLM进行多帧联合推理,生成细节丰富、时间感知强的事件描述。

流式视频数据:连贯事件字幕的首创实践

  • 将长视频切分为多个连续不重叠的事件片段
  • 每段片段重复Storyboard流程;
  • 并在生成描述时递归引入前一段文字内容,让字幕连贯衔接,保证上下文一致性。

实验分析:规模更小、性能更好

分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配

可以看到,PAM-3B在PACO基准测试中达到最佳性能,超过先前最佳模型3.2%以上,并在LVIS基准测试中,就语义IoU而言,超越了当前SOTA模型DAM-8B。

此外,PAM-3B在Total-Text上超过VP-SPHINX-13B超过3.5%,并在COCO-Text上达到相当的性能。
分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配

在ImageCaption、VideoCaption、视频时序事件理解等多个benchmark上,PAM都以更小的参数规模(3Bvs8B、13B)刷新或并列SOTA

分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配

如图所示,和相同参数量的DAM-3B模型相比,PAM-3B推理更快,显存更省

此外,PAM首创了区域级的流式视频字幕能力,不仅能持续描述一个物体的行为,还能在连续事件中保持高度语义一致性,展现了强大的实际应用潜力。

论文地址:https://arxiv.org/abs/2506.05302
项目主页:https://perceive-anything.github.io/
GitHub Repo:https://github.com/Perceive-Anything/PAM
Model CKPT:https://huggingface.co/Perceive-Anything/PAM-3B
Dataset:https://huggingface.co/datasets/Perceive-Anything/PAM-data

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 6 月
 1
2345678
9101112131415
16171819202122
23242526272829
30  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手 十三 2025-12-09 18:18:41 来源:量子位...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东 Jay 2025-12-09 08:26:01 来源...
梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物! 一水 2025-12-09 09:46:23 来源:量子位 来自安...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布 思邈 2025-12-09 15:46:09 来源:量子位 国内首个聚焦...
极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」 henry 2...