Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原

176次阅读
没有评论

Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原

SAM 3也正式亮相了

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

Meta的“分割一切”,这回给3D建模带来了新的范式——

现在,图像分割得到的切片,可以直接转换成3D模型了。

只要一张图,就能对里面的每个物体进行单独重建,有遮挡也不用怕。

Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原

这就是Meta MSL实验室刚刚发布的三维重建模型SAM 3D。

Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原

与此同时,MSL实验室之前投稿ICLR 2026的分割模型SAM 3,也终于露出了真容。

Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原

之前SAM 3就在一般图像分割的基础上增强了语义理解,论文一公布就备受关注。

现在又上新SAM 3D,许久不见出成果的Meta AI,总算是打出了一组王炸。

分割结果生成3D模型

SAM 3D家族包含两个新模型——SAM 3D Objects,用于物体和场景重建;以及SAM 3D Body,专注于人体,这两个模型均能够将静态2D图像转换为精细的3D重建模型。

SAM 3D Objects能够从单张自然图像中实现基于视觉的3D重建和物体姿态估计。

Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原

即使存在小物体、间接视角和遮挡现象等障碍,依然可以进行重建,弥补了仅凭像素不足以完成重建的不足。

Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原

SAM 3D Objects的性能显著优于现有方法,能够很好地泛化到多种类型的图像,并支持密集场景重建。

在与人类用户进行的直接对比测试中,其胜率至少达到其他领先模型的5倍。

Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原

类似地,SAM 3D Body在涉及不寻常姿态、图像部分被遮挡或多人等复杂情况下也依然能对人物进行建模。

Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原

相比其他人物重建模型,SAM 3D Body同样取得了SOTA成绩。

Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原

同时,Meta还与艺术家合作构建了SAM 3D艺术家物体数据集SA-3DAO,用于评估基于视觉的物理世界图像三维重建能力。

不只分割,还更懂语义

再来看SAM 3。

传统模型通常专注于使用固定的文本标签集进行对象分割,这限制了它们处理用户请求的能力,因为用户请求往往涉及分割预定义列表中不存在的概念。

这意味着现有模型可以分割像“人”这样常见的概念,但难以处理像“红色条纹伞”这样更细微的概念。

SAM 3则通过引入可提示概念分割功能克服了这些局限。

它能够查找并分割由文本或示例提示定义的概念的所有物体,消除了固定标签集的限制。

Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原

你可以直接通过文本指令,让SAM 3从图像中找到符合描述的物体。

Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原

也可以处理稍复杂的提升,例如输入“条纹猫”,SAM 3自己就能找出并分割图中所有带条纹的猫猫。

Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原

除了文本,还可以直接在图中选中某个物体,让SAM 3找到所有同类。

Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原

为了评估大词汇量检测和分割性能,Meta还创建了“基于概念的任意分割”(SA-Co)基准测试,用于图像和视频中的可提示概念分割。

与之前的基准测试相比,SA-Co要求模型识别更大的概念词汇量。

Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原

实验结果表明,SAM 3在可提示分割任务中刷新了SOTA。

在LVIS数据集的零样本分割任务中,SAM 3的准确率达到了47.0,比此前的SOTA 38.5提升不少。

在新的SA-Co基准测试中,SAM 3的表现至少比基线方法强2倍。

Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原

另外,在针对视频的PVS(Promptable Visual Segmentation)任务中,SAM 3的性能也优于SAM 2。

Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原

SAM如何实现?

SAM 3的核心架构建立在一个共享的Perception Encoder视觉骨干网络之上。

Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原

该骨干网络同时服务于检测器和追踪器两个模块,确保了图像特征提取的一致性与高效性。

其检测器部分基于DETR架构进行了改进,引入了包含文本提示和图像示例的提示Token。

这些Token与图像特征在融合编码器中通过交叉注意力机制进行交互,随后输入到解码器中生成对象查询。

为了解决开放词汇检测中常见的幻觉问题(即模型在目标不存在时仍强制预测出物体),SAM 3创新性地设计了一个Presence Head来解耦识别与定位任务。

该模块引入了一个可学习的全局存在Token,专门负责预测目标概念在当前图像中出现的概率,而原本的对象查询则专注于在假设目标存在的前提下计算局部匹配概率,最终的置信度得分为两者的乘积。

在视频处理方面,SAM 3继承并扩展了SAM 2的记忆机制,即通过追踪器利用记忆库存储过去帧的空间特征,将上一帧的掩码传播到当前帧。

为了处理新出现的物体,系统使用一种匹配函数,基于IoU等指标将追踪器预测的掩码与检测器在当前帧新发现的对象进行关联和更新,从而实现跨帧的身份保持与新目标的自动捕获。

Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原

SAM 3D Objects的核心则是通过两阶段的生成模型来实现几何与纹理的逐步构建。

首先,系统使用DINOv2编码器分别提取裁剪后的物体特征和全图上下文特征作为条件输入。

第一阶段的几何模型采用了一个参数量达12亿的流匹配Transformer,并结合了Mixture-of-Transformers(MoT)架构,主要用于预测物体的粗糙体素形状以及其在相机坐标系下的旋转、平移和缩放等6D布局参数。

当粗糙的几何结构确定后,第二阶段的纹理与精细化模型接手工作。

该模型基于稀疏潜在流匹配架构,仅从第一阶段预测的粗糙形状中提取活跃体素进行处理。

这种稀疏化处理极大地提高了计算效率,它可以细化几何细节并合成高保真的物体纹理,最终通过一对VAE解码器将潜在表示解码为网格(Mesh)或3D高斯溅射以适应不同的渲染需求。

Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原

为了支撑这一生成过程,Meta构建了一个独特的model-in-the-loop(MITL)数据引擎。

由于人类难以直接标注3D形状,该引擎让模型生成多个3D候选结果,利用Best-of-N搜索策略由人类标注员从8个候选中选择最佳匹配项。

然后,基于点云参考对齐物体在场景中的位姿,从而低成本地获取了大规模且精准的图像-3D配对数据。

Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原

针对人体结构的SAM 3D Body模型,其核心在于摒弃了传统的Skinned Multi-Person Linear模型,转而采用Momentum Human Rig表示法。

这种表示法将骨骼姿态与身体形状参数显式解耦,避免了传统模型中骨肉粘连导致的调整失真问题。

在模型架构上,SAM 3D Body采用了一种可提示的编码器-解码器设计,支持输入二维关键点或掩码作为提示Token,与图像特征一起指导推理过程。

为了解决全身模型往往难以兼顾手部细节的痛点,SAM 3D Body设计了独特的双路解码器结构。

虽然身体和手部共享同一个图像编码器,但在解码阶段分流——

  • 身体解码器利用全局特征和Momentum Human Rig Token预测全身的姿态、形状及相机参数;
  • 手部解码器则专门关注手部裁剪图像的特征,利用交叉注意力机制处理手部细节。

Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原

这种设计通过在Token层面融合全身与手部信息,使得模型既能通过身体解码器输出连贯的全身网格,又能利用手部解码器的输出来修正末端细节。

网友评价其精妙之处在于它并非凭空臆造几何图形,而是像人类一样,利用日常经验推断几何形状,这意味着混合场景理解从此普及开来,是真正意义上的基础模型具身化。

Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原

现在,成为开发者的最好时机已经来临了。

Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原

项目主页
SAM 3:https://ai.meta.com/sam3
SAM 3D:https://ai.meta.com/sam3d
GitHub
SAM 3:https://github.com/facebookresearch/sam3
SAM 3D Objects:https://github.com/facebookresearch/sam-3d-objects
SAM 3D Body:https://github.com/facebookresearch/sam-3d-body
论文地址
SAM 3:https://ai.meta.com/research/publications/sam-3-segment-anything-with-concepts/
SAM 3D Objects:https://ai.meta.com/research/publications/sam-3d-3dfy-anything-in-images/
SAM 3D Body:https://ai.meta.com/research/publications/sam-3d-body-robust-full-body-human-mesh-recovery/

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 11 月
 12
3456789
10111213141516
17181920212223
24252627282930
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手 十三 2025-12-09 18:18:41 来源:量子位...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东 Jay 2025-12-09 08:26:01 来源...
梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物! 一水 2025-12-09 09:46:23 来源:量子位 来自安...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布 思邈 2025-12-09 15:46:09 来源:量子位 国内首个聚焦...
极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」 henry 2...