分割/识别/解说一个模型搞定！3B参数刷新视觉理解SOTA，图像视频全适配

不圆
2025-06-14
20:01:45

来源：量子位

所有数据均已完全开源

PAM团队投稿
量子位 | 公众号 QbitAI

可以输出语义的「分割一切模型2.0」来了！

一次交互，「分割+识别+解释+描述」全搞定，同时支持图像、视频和长视频，文本&Mask同时输出！

由港中文MMLab、港理工、北京大学等机构开源的PAM（Perceive Anything Model）模型，能够在保留SAM2分割一切、追踪一切能力的基础上，同时输出丰富的语义信息。

分割/识别/解说一个模型搞定！3B参数刷新视觉理解SOTA，图像视频全适配

为了训练这样一个强大的模型，PAM团队还构建了一个超大规模高质量训练数据集：拥有150万个图像区域+60万个视频区域标注

实验结果表明，PAM仅使用3B参数，就在多个图像和视频理解基准上全面刷新或逼近SOTA，且具备更优的推理效率和显存占用，真正实现性能与轻量的统一。

所有数据均已完全开源。

分割/识别/解说一个模型搞定！3B参数刷新视觉理解SOTA，图像视频全适配

PAM：准确定位一键输出

SAM2拥有强大的分割能力，可以“分割一切物体”，在视频中能够高效追踪任意目标，表现惊艳！
但它也有一个明显的局限：无法提供定位目标的任何语义信息（比如物体是什么、有何功能、处于什么状态等）。

一些最新的Video LLM模型尝试结合VLM和SAM2的强大视觉提示能力，进行视频理解。然而：

这些模型往往无法直接输出分割结果，或需要额外接入segment模型，流程复杂；
模型体量通常非常庞大，对计算资源要求高，不适用于轻量化、快速响应的实际场景（如AR/VR、移动端推理等）。

分割/识别/解说一个模型搞定！3B参数刷新视觉理解SOTA，图像视频全适配

而PAM（Perceive Anything Model）既保留了SAM2在图像和视频中分割、追踪一切物体的能力，同时可以输出丰富的语义信息：

在图像任务中，PAM支持一次点击即可输出选中区域的：

类别（Label）
解释（Explain）
精细描述（Caption）

在视频任务中，PAM同样支持区域理解：

整段描述（Caption）
流式描述（Streaming Caption）：连续事件追踪+动态叙述

只需要用户的一次点击，PAM就可以并行输出mask和文本，在许多应用场景下都具有潜力！

效果展示：图片/短视频/长视频

分割/识别/解说一个模型搞定！3B参数刷新视觉理解SOTA，图像视频全适配

对于图片，用户通过点击或者拖拽矩形框选中一个物体，PAM可以完成分割的同时，输出该物体的类别+解释+描述的详细语义信息！

对于较短视频，用户选中特定物体后，PAM可以追踪并分割该物体，同时输出该物体的事件描述。

而对于长视频，PAM在追踪分割用户选中物体的同时，会根据事件的变化，动态地输出流式描述，类似实时字幕。

工作原理：模型框架+数据集

分割/识别/解说一个模型搞定！3B参数刷新视觉理解SOTA，图像视频全适配

PAM引入了Semantic Perceiver来连接SAM2分割骨架和LLM，高效地将视觉特征“翻译”成多模态token。

通过SAM2分割骨架+Semantic Perceiver+LLM并行解码，在保证轻量高效的前提下，实现了分割mask和语义信息并行输出的图像/视频区域级理解。

基于此方法，PAM只使用了1.5B/3B参数的LLM head，就可以输出非常丰富和鲁棒的语义信息。

分割/识别/解说一个模型搞定！3B参数刷新视觉理解SOTA，图像视频全适配

为支撑PAM的训练，构建了一个大规模、多层次、高密度的图像与视频语义标注数据集，覆盖分类、解释、描述、时序事件等多个维度：

图像数据：精细三连注释

使用SoM（Set of Masks）方法精准定位目标区域**，结合强大的闭源VLM（如GPT-4o）生成三类语义信息：

类别（Label）
解释（Explain）
描述（Caption）

每个物体不仅知道“是什么”，还能解释“为什么”和“什么作用”。

视频数据：Storyboard驱动式理解

对每段视频抽取6张关键帧，合成为Storyboard格式的高分辨率图像；
使用SoM高亮目标区域，作为提示引导；
利用闭源VLM进行多帧联合推理，生成细节丰富、时间感知强的事件描述。

流式视频数据：连贯事件字幕的首创实践

将长视频切分为多个连续不重叠的事件片段；
每段片段重复Storyboard流程；
并在生成描述时递归引入前一段文字内容，让字幕连贯衔接，保证上下文一致性。

实验分析：规模更小、性能更好

分割/识别/解说一个模型搞定！3B参数刷新视觉理解SOTA，图像视频全适配

可以看到，PAM-3B在PACO基准测试中达到最佳性能，超过先前最佳模型3.2%以上，并在LVIS基准测试中，就语义IoU而言，超越了当前SOTA模型DAM-8B。

此外，PAM-3B在Total-Text上超过VP-SPHINX-13B超过3.5%，并在COCO-Text上达到相当的性能。
分割/识别/解说一个模型搞定！3B参数刷新视觉理解SOTA，图像视频全适配

在ImageCaption、VideoCaption、视频时序事件理解等多个benchmark上，PAM都以更小的参数规模（3Bvs8B、13B）刷新或并列SOTA。

分割/识别/解说一个模型搞定！3B参数刷新视觉理解SOTA，图像视频全适配

如图所示，和相同参数量的DAM-3B模型相比，PAM-3B推理更快，显存更省。

此外，PAM首创了区域级的流式视频字幕能力，不仅能持续描述一个物体的行为，还能在连续事件中保持高度语义一致性，展现了强大的实际应用潜力。

论文地址：https://arxiv.org/abs/2506.05302
项目主页：https://perceive-anything.github.io/
GitHub Repo：https://github.com/Perceive-Anything/PAM
Model CKPT：https://huggingface.co/Perceive-Anything/PAM-3B
Dataset：https://huggingface.co/datasets/Perceive-Anything/PAM-data

2025 年 6 月
一	二	三	四	五	六	日
	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

分割/识别/解说一个模型搞定！3B参数刷新视觉理解SOTA，图像视频全适配

分割/识别/解说一个模型搞定！3B参数刷新视觉理解SOTA，图像视频全适配

PAM：准确定位一键输出

效果展示：图片/短视频/长视频

工作原理：模型框架+数据集

实验分析：规模更小、性能更好

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定