前馈3D高斯泼溅新方法,浙大团队提出“体素对齐”,直接在三维空间融合多视角2D信息

367次阅读
没有评论

前馈3D高斯泼溅新方法,浙大团队提出“体素对齐”,直接在三维空间融合多视角2D信息

解决前馈重建两大瓶颈

VolSplat团队 投稿

量子位 | 公众号 QbitAI

在三维重建不断走向工程化的今天,前馈式3D Gaussian Splatting(Feed-Forward 3DGS)正火速走向产业化。

然而,现有的前馈3DGS方法主要采用“像素对齐”(pixel-aligned)策略——即将每个2D像素单独映射到一个或多个3D高斯上。

这一做法看似直观,但仍面临两道不可忽视的“天花板”:二维特征难以在三维中精确对齐、以及高斯基元数量被像素网格死死绑定,无法按场景复杂度智能分配。

VolSplat大胆抛弃像素对齐的固有范式,提出“体素对齐”(voxel-aligned)的前馈框架:在三维空间中融合视图信息,从根本上破局,让高质量的多视角渲染变得更鲁棒、更高效、更易工程化。

前馈3D高斯泼溅新方法,浙大团队提出“体素对齐”,直接在三维空间融合多视角2D信息

在公开数据集上的对比实验显示,VolSplat在RealEstate10K和ScanNet(室内)数据集上的视觉质量与几何一致性上均优于多种pixel-aligned baseline。这些数值既说明了视觉质量的提升,也反映了几何一致性的增强。

前馈3D高斯泼溅新方法,浙大团队提出“体素对齐”,直接在三维空间融合多视角2D信息

VolSplat 的核心思路:把“对齐”从二维搬到三维

原有的像素对齐前馈3DGS ,正面临两项无法回避的痛点。

第一,多视图对齐难题:基于2D特征的匹配难以可靠地解决多视角间的几何一致性问题——当深度估计不稳、遮挡或视角差异出现时,2D特征难以在三维空间里精确对齐,常导致浮空伪影与几何畸变。

第二,高斯密度受限:Gaussian的生成往往被像素网格所束缚,无法根据场景复杂度进行自适应分配;往往导致复杂结构表达不足,而平坦或冗余区域却消耗了大量表示容量。

综合来看,这两点直接阻碍了前馈3DGS在稠密视角、复杂结构与大场景下的扩展与稳健表现。

为了突破这两项挑战,VolSplat的核心思路直截了当却极具穿透力:不再在二维像素层面孤立预测,而是将多视角的二维特征利用每视图预测的深度图反投影并聚合到统一的三维体素网格(voxel grid)中,在这个统一坐标系里进行聚合与多尺度特征融合与细化(refine)(采用稀疏 3D U-Net实现),最好仅在那些被占据的体素上回归Gaussian参数。

前馈3D高斯泼溅新方法,浙大团队提出“体素对齐”,直接在三维空间融合多视角2D信息

这一范式的效果即时且深远:在3D网格内,视图间的不一致被天然消融;高斯密度不再被像素网格绑架,而是基于体素的“有无”和复杂度动态分配。这一范式带来的直接好处可以概括为四点:

(1) 跨视图一致性显著增强:不再完全依赖易错的2D特征匹配,信息在三维空间中融合,更稳定。

(2)高斯密度按需分配:根据场景复杂度动态分配高斯数量,复杂结构处高密度、平坦区域低密度,实现更精细且节省资源的表示。

(3)几何一致性更强:体素聚合与3D U-Net的多尺度细化有效减少“浮点”和伪影,细节与边界更清晰。

(4)易与外部3D信号融合:深度图、点云等3D信号可自然融入体素化流程,无需复杂投影操作。

为便于工程实现与扩展,VolSplat 将整体pipeline拆解为三个清晰模块:2D特征与深度估计、像素→体素的lifting与聚合、以及体素级的特征refine与Gaussian回归。每个模块各司其职,彼此衔接,既利于分步调试,也方便在工程上作伸缩与优化。

前馈3D高斯泼溅新方法,浙大团队提出“体素对齐”,直接在三维空间融合多视角2D信息

第一步——2D 特征提取与深度估计(Feature extraction & Depth prediction)

对每张输入图像,VolSplat使用共享的图像编码器(结合卷积与 Transformer 层)提取下采样的二维特征,并基于plane-sweep构建per-view cost volume,用以融合邻近视图信息并回归每视图的稠密深度图。该阶段为后续的像素到三维点的反投影(lifting)提供必要的几何先验与特征描述。

第二步——像素反投影到体素并进行特征聚合(Lifting + Voxelization)

将每个像素依据其预测深度反投影到世界坐标,得到带有图像特征的三维点云,随后把这些点按预设体素大小离散化(voxelization),对落入同一体素的点的特征做聚合得到初始voxel feature,这一步把来自不同视角的特征在3D空间里自然对齐,便于后续体素级处理。

第三步——稀疏3D U-Net细化与基于体素的Gaussian回归(Sparse 3D refinement+Gaussian prediction)

将初始voxel features输入稀疏3D U-Net解码器,该网络以残差形式预测每个体素的修正项,从而实现多尺度的局部与全局几何上下文融合,这种残差更新有助于网络只学习必要的几何细化而非重建全部特征,既稳健又高效。

随后,仅在被占据的体素上回归每个Gaussian的参数(位置偏移、协方差、不透明度与颜色系数)。最终使用Gaussian Splatting渲染novel views,并以像素级与感知损失进行端到端训练。

实验亮点:效果、泛化全面领先

除上述效果外,尤其令人瞩目的是VolSplat跨数据集的零样本泛化能力,在未见过的ACID数据集上,VolSplat依然保持高性能(PSNR 32.65dB),展现出强劲的泛化能力。

前馈3D高斯泼溅新方法,浙大团队提出“体素对齐”,直接在三维空间融合多视角2D信息

定性结果更直观,在边缘、细节和复杂几何处,VolSplat展现出更少的浮空伪影、纹理错位与几何畸变,Gaussians在3D空间上的分布也更贴近真实场景的几何分布,而非被像素网格“均匀绑架”。这样的效果在实际产品体验(例如虚拟看、室内漫游)中直接转化为更稳健、更自然的视觉体验。

前馈3D高斯泼溅新方法,浙大团队提出“体素对齐”,直接在三维空间融合多视角2D信息

VolSplat的提出并不是终点,而是提供了一种新的研究方向。它为前馈3D重建打开了全新的可能性。在机器人和自动驾驶中,提供更稳定的三维感知输入。在AR/VR中,实现更加流畅、真实的渲染体验。在三维视觉研究中,为统一的体素框架下融合多模态数据提供新途径。

未来,VolSplat可以作为前馈3D重建的一种新的探索方向,为相关的学术研究和工程应用提供参考。

论文链接:https://arxiv.org/abs/2509.19297
项目主页:https://lhmd.top/volsplat

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 9 月
1234567
891011121314
15161718192021
22232425262728
2930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...