Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

1,389次阅读
没有评论

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

Stable Diffusion背后公司Stability AI又上新了。

这次带来的是图生3D方面的新进展:

基于Stable Video Diffusion的Stable Video 3D(SV3D),只用一张图片就能生成高质量3D网格。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Stable Video Diffusion(SVD)是Stability AI此前推出的高分辨率视频生成模型。也就是说,此番登场的SV3D首次将视频扩散模型应用到了3D生成领域

官方表示,基于此,SV3D大大提高了3D生成的质量和视图一致性。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

模型权重依然开源,不过仅可用于非商业用途,想要商用的话还得买个Stability AI会员~

话不多说,还是来扒一扒论文细节。

将视频扩散模型用于3D生成

引入潜在视频扩散模型,SV3D的核心目的是利用视频模型的时间一致性来提高3D生成的一致性。

并且视频数据本身也比3D数据更容易获得。

Stability AI这次提供两个版本的SV3D:

  • SV3D_u:基于单张图像生成轨道视频。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

  • SV3D_p:扩展了SV3D_u的功能,可以根据指定的相机路径创建3D模型视频。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

研究人员还改进了3D优化技术:采用由粗到细的训练策略,优化NeRF和DMTet网格来生成3D对象。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

他们还设计了一种名为掩码得分蒸馏采样(SDS)的特殊损失函数,通过优化在训练数据中不直接可见的区域,来提高生成3D模型的质量和一致性。

同时,SV3D引入了一个基于球面高斯的照明模型,用于分离光照效果和纹理,在保持纹理清晰度的同时有效减少了内置照明问题。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

具体到架构方面,SV3D包含以下关键组成部分:

  • UNet:SV3D是在SVD的基础上构建的,包含一个多层UNet,其中每一层都有一系列残差块(包括3D卷积层)和两个分别处理空间和时间信息的Transformer模块。

  • 条件输入:输入图像通过VAE编码器嵌入到潜在空间中,会和噪声潜在状态合并,一起输入到UNet中;输入图像的CLIP嵌入矩阵则被用作每个Transformer模块交叉注意力层的键值对。

  • 相机轨迹编码:SV3D设计了静态和动态两种类型的轨道来研究相机姿态条件的影响。静态轨道中,相机以规律间隔的方位角围绕对象;动态轨道则允许不规则间隔的方位角和不同的仰角。

相机的运动轨迹信息和扩散噪声的时间信息会一起输入到残差模块中,转换为正弦位置嵌入,然后这些嵌入信息会被整合并进行线性变换,加入到噪声时间步长嵌入中。

这样的设计旨在通过精细控制相机轨迹和噪声输入,提升模型处理图像的能力。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

此外,SV3D在生成过程中采用CFG(无分类器引导)来控制生成的清晰度,特别是在生成轨道的最后几帧时,采用三角形CFG缩放来避免过度锐化。

研究人员在Objaverse数据集上训练SV3D,图像分辨率为575×576,视场角为33.8度。论文透露,所有三种模型(SV3D_u,SV3D_c,SV3D_p)在4个节点上训练了6天左右,每个节点配备8个80GB的A100 GPU

实验结果

在新视角合成(NVS)和3D重建方面,SV3D超过了现有其他方法,达到SOTA。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩
Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

从定性比较的结果来看,SV3D生成的多视角试图,细节更丰富,更接近与原始输入图像。也就是说,SV3D在理解和重构物体的3D结构方面,能够更准确地捕捉到细节,并保持视角变换时的一致性。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

这样的成果,引发了不少网友的感慨:

可以想象,在未来6-12个月内,3D生成技术将会被用到游戏和视频项目中。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

评论区也总少不了一些大胆的想法……

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

并且项目开源嘛,已经有第一波小伙伴玩上了,在4090上就能跑起来。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

如果你也有第一手实测体会,欢迎在评论区分享~

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

参考链接:
[1]https://twitter.com/StabilityAI/status/1769817136799855098
[2]https://stability.ai/news/introducing-stable-video-3d
[3]https://sv3d.github.io/index.html

报名中!

2024年值得关注的AIGC企业&产品

量子位正在评选2024年最值得关注的AIGC企业、 2024年最值得期待的AIGC产品两类奖项,欢迎报名评选

评选报名截至2024年3月31日 Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

中国AIGC产业峰会同步火热筹备中,了解更多请戳:Sora时代,我们该如何关注新应用?一切尽在中国AIGC产业峰会

商务合作请联络微信:18600164356 徐峰

活动合作请联络微信:18801103170 王琳玉

点这里👇关注我,记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 3 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
LeCun创业首轮估值247亿!Alexandre当CEO

LeCun创业首轮估值247亿!Alexandre当CEO

LeCun创业首轮估值247亿!Alexandre当CEO 克雷西 2025-12-19 10:39:10 来...
认知偏差、落地断层、体验割裂是目前AI产品的三大痛点|百度王颖@MEET2026

认知偏差、落地断层、体验割裂是目前AI产品的三大痛点|百度王颖@MEET2026

认知偏差、落地断层、体验割裂是目前AI产品的三大痛点|百度王颖@MEET2026 西风 2025-12-19 ...
让“组织AI”追上“物理AI”,飞书广州峰会发布“粤企一齐飞”加速计划

让“组织AI”追上“物理AI”,飞书广州峰会发布“粤企一齐飞”加速计划

让“组织AI”追上“物理AI”,飞书广州峰会发布“粤企一齐飞”加速计划 量子位的朋友们 2025-12-19 ...
可打电话可对讲!全球首款奥特曼 AI 互动对话器来了

可打电话可对讲!全球首款奥特曼 AI 互动对话器来了

可打电话可对讲!全球首款奥特曼 AI 互动对话器来了 闻乐 2025-12-19 14:40:37 来源:量子...
云宇星空大模型正式发布,上海市规划资源局与商汤大装置联合打造

云宇星空大模型正式发布,上海市规划资源局与商汤大装置联合打造

云宇星空大模型正式发布,上海市规划资源局与商汤大装置联合打造 十三 2025-12-19 14:34:34 来...