Meta「分割一切」3.0曝光!技能语义分割加入概念提示,好好玩,要爆了

390次阅读
没有评论

Meta「分割一切」3.0曝光!技能语义分割加入概念提示,好好玩,要爆了

能听懂人话的SAM

鱼羊 发自 凹非寺

量子位 | 公众号 QbitAI

传统语义分割好无趣好无聊,技能语义分割加入概念提示,好好玩,要爆了。(doge)

Meta「分割一切」3.0曝光!技能语义分割加入概念提示,好好玩,要爆了

SAM 3——第三代“分割一切”模型刚刚被发现,已经悄然投稿ICLR 2026。

论文还在双盲评审阶段,作者匿名中,但标题暴露一切。

Meta「分割一切」3.0曝光!技能语义分割加入概念提示,好好玩,要爆了

简单来说,就是在这个官方新版中,分割模型终于能听懂人话了:只要说出想要的东西,SAM 3就能在图像/视频中分割出对应实例。

比如,输入“条纹猫”,SAM 3自己就能找出并分割图中所有带条纹的猫猫:

Meta「分割一切」3.0曝光!技能语义分割加入概念提示,好好玩,要爆了

值得一提的是,SAM 3处理一张含100多个物体的图片仅需30ms,对视频也有近实时处理能力。

Meta「分割一切」3.0曝光!技能语义分割加入概念提示,好好玩,要爆了

能听懂人话的SAM

SAM 1引入了基于点、框、掩码等视觉提示的交互式分割任务,开辟了分割模型的新范式;SAM 2则在此基础之上,加入了对视频和记忆的支持。

这一次,SAM 3让这种交互式分割更进一步:支持基于短语、图像示例等概念提示多实例分割任务——对,捎带手突破了前代只能处理单个实例的局限。

论文中,SAM 3的研究团队将这种新任务范式命名为PCSPromptable Concept Segmentation)。

PCS:可提示概念分割

PCS的定义是,给定图像或视频,模型能够基于短语、图像示例,或者两者结合的方式,分割其中所有匹配提示概念的实例。

相比于传统分割任务,PCS强调:

  • 开放性词汇:不局限于预定义的固定类别,支持用户输入任意名词短语作为分割目标;
  • 全实例分割:找到并分割所有符合提示的实例,在视频中,还能保持不同帧之间的身份一致性;
  • 多模态提示:支持多种提示输入,包括文本提示、视觉提示,以及两者结合的方式;
  • 用户交互:允许用户通过交互进行分割结果的精细优化。

架构设计

SAM 3为实现PCS设计了新的架构。

Meta「分割一切」3.0曝光!技能语义分割加入概念提示,好好玩,要爆了

主要是在检测与分割模块上,SAM 3的检测器基于DETR(Deformable Transformer)架构,能够根据语言和视觉提示生成实例级的检测结果。

同时,引入了Presence Head模块,解耦物体的识别(是什么)和定位(在哪里)任务——

在传统对象检测框架中,模型往往需要同时判断目标是否存在、位置在哪里,这可能导致冲突,尤其是在多实例分割任务中容易出问题。

Presence Head将两者分开处理,从而进一步提升了模型的检测精度。

大规模数据引擎

为了改进PCS,研究团队还专门构建了一个可扩展的数据引擎,生成覆盖400万独特概念标签、5200万经过验证的掩码的训练数据集。

数据引擎由多阶段构成,能够逐步提升数据的多样性和难度。

整个构建过程中人类和大语言模型会相互检查彼此的工作,保证高质量的同时提升了标注的效率。

Meta「分割一切」3.0曝光!技能语义分割加入概念提示,好好玩,要爆了

SA-Co基准

为了评估模型在开放词汇分割任务中的性能,论文还提出了SA-Co(Segment Anything with Concepts)基准。

SA-Co包含214K独特概念、124K图像和1.7K视频,概念覆盖范围能达到现有基准的50倍以上。

Meta「分割一切」3.0曝光!技能语义分割加入概念提示,好好玩,要爆了

不过需要说明的是,SAM 3对语言的处理还局限于简单的短语提示,不支持复杂的语言表达,并不具备多模态大模型的语言生成、复杂语言理解和推理能力。

实验结果

实验结果表明,SAM 3在可提示分割任务中刷新了SOTA。

在LVIS数据集的零样本分割任务中,SAM 3的准确率达到了47.0,比此前的SOTA 38.5提升不少。

在新的SA-Co基准测试中,SAM 3的表现至少比基线方法强2倍。

Meta「分割一切」3.0曝光!技能语义分割加入概念提示,好好玩,要爆了

另外,在针对视频的PVS(Promptable Visual Segmentation)任务中,SAM 3的性能也优于SAM 2。

Meta「分割一切」3.0曝光!技能语义分割加入概念提示,好好玩,要爆了

研究人员还把SAM 3和多模态大模型(MLLM)相结合,探索解决更复杂的任务需求。

比如分割图片中“坐着但没拿礼物盒的人”。

大模型会先拆解需求,比如先找坐着的人,再排除拿礼物盒的人,然后给SAM 3发指令。

结果显示,SAM 3+MLLM的组合比专门做推理分割的模型效果还要好,并且无需专门的数据做训练。

Meta「分割一切」3.0曝光!技能语义分割加入概念提示,好好玩,要爆了

在H200 GPU上,SAM 3处理含100多个实体的单张图像只需要30ms的时间。在视频任务中,推理延迟随着目标数量线性增加,能在约5个并发目标的情况下维持接近实时的性能。

不过,论文也指出,SAM 3难以通过零样本的方式,将能力泛化到如医疗图像、热成像之类的细分领域。

视频分割任务中,遇到多目标场景,模型的实时性能会下降,需要多GPU并行处理。

论文地址:
https://openreview.net/forum?id=r35clVtGzw

— 完 —

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 10 月
 12345
6789101112
13141516171819
20212223242526
2728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了 一水 2025-12-12 13:56:19 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了 一水 2025-12-12 13:56:19 ...
IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别

IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别

IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别 量子位的朋友们 2025-1...