一张图0.1秒生成上半身3D化身!清华IDEA新框架入选ICCV 2025

449次阅读
没有评论

一张图0.1秒生成上半身3D化身!清华IDEA新框架入选ICCV 2025

相关代码已开源

一张图就能创建上半身动作视频,方法还入选了ICCV 2025!

来自清华大学、IDEA(粤港澳大湾区数字经济研究院)的研究人员提出新框架GUAVA,不需要多视角视频、不需要针对不同个体单人训练,仅需0.1秒就能从单图创建一个上半身3D化身

一张图0.1秒生成上半身3D化身!清华IDEA新框架入选ICCV 2025

通常来说,创建逼真且富有表现力的上半身人体化身(如包含细致面部表情和丰富手势),在电影游戏和虚拟会议等领域具有重要价值。

但截至目前,仅凭单张图像实现这一目标仍然是一个重大挑战,而且同时还需要易于创建和支持实时渲染。

而GUAVA,作为第一个从单张图像创建可驱动上半身3D高斯化身的框架,与需要多视图视频或单人训练的3D方法不同——可以在秒级时间内完成推理重建,并支持实时动画和渲染

与基于扩散模型的2D方法相比,GUAVA使用3D高斯来确保更好的ID一致性和实时渲染。而且还引入一种富有表现力的人体模型EHM,解决了现有模型在捕捉细致面部表情方面的局限性。

此外,它还利用逆纹理映射技术以准确地预测高斯纹理,并结合一个神经渲染器来提高渲染质量。

实验结果显示,GUAVA在渲染质量和效率方面优于现有2D和3D方法。

下面详细来看GUAVA所采用的方法。

具体方法

3DGS的兴起催生了许多3D化身重建方法,然而这些方法仍然存在一些局限性:

  • 逐ID练:每个个体都需要单独训练;
  • 训练复杂性:该过程耗时,需要标定的多视图或单目视频;
  • 表现力有限:头部重建方法缺乏身体动作表示,而全身方法则忽略了细致的面部表情。

另外,扩散模型在视频生成方面取得了显著成果。一些工作通过添加额外条件,如关键点或SMPLX渲染图,来引导扩散模型的生成过程,扩展了模型在生成可控人体动画视频上的应用。

但问题是,虽然这些方法实现了良好的视觉效果,其局限性却依旧存在:

  • ID一致性:难以保持一致的ID,尤其是在姿势发生大变化时;
  • 效率:高计算成本和多步去噪导致推理速度慢,阻碍了实时应用;
  • 视点控制:2D方法无法轻松调整相机姿势,从而限制了视点控制。

而GUAVA则通过以下举措进行了改进。

一张图0.1秒生成上半身3D化身!清华IDEA新框架入选ICCV 2025

(1)EHM模型与精确跟踪

为了解决SMPLX模型在捕捉面部表情上的不足,GUAVA引入了EHM(Expressive Human Model)

EHM结合了SMPLX和FLAME模型,能够实现更准确的面部表情表示。

同时,研究人员设计了对应的两阶段追踪方法,实现从单张图像到姿态的准确估计——首先利用预训练模型进行粗略估计,然后使用2D关键点损失进行精细优化,从而为重建提供精确的姿势和表情参数。

(2)快速重建与双分支模型

GUAVA基于追踪后的图像,通过单次前向推理方式完成化身的重建。

它包含两个分支:一个分支根据EHM顶点和投影特征预测粗略的“模板高斯”,另一个分支则通过“逆纹理映射”技术,将屏幕特征映射到UV空间,生成捕捉精细细节的“UV高斯”。

这两种高斯组合成完整的Ubody高斯,从而在保持几何结构的同时,捕捉丰富的纹理细节。

(3)实时动画与渲染

重建完成后,Ubody高斯可以根据新的姿势参数进行变形和动画。

最后,通过神经细化器对渲染的图像进行优化,以增强细节和渲染质量。

实验环节

实验设置方面,研究人员从YouTube、OSX和HowToSign收集视频数据集,主要关注人体上半身视频

其中训练集包含超过62万帧,测试集包含58个ID。

为确保评估的全面性,实验采用了多种指标:

  • 自重演(self-reenactment)场景下,通过PSNR、L1、SSIM和LPIPS评估动画结果的图像质量;
  • 跨重演(cross-reenactment)场景下,使用ArcFace计算身份保留分数(IPS)以衡量ID一致性。

评估中与MagicPose、Champ、MimicMotion等2D方法以及GART、GaussianAvatar和ExAvatar 3D方法进行比较。

定量结果如下:

(1)Self-reenactment

与2D方法相比,GUAVA在所有指标(PSNR, L1, SSIM, LPIPS)上均表现最佳,并在动画和渲染速度上达到约50 FPS,而其他方法仅为每秒几帧。

与3D方法相比,GUAVA的重建时间仅为0.1秒左右,而其他方法需要数分钟到数小时

一张图0.1秒生成上半身3D化身!清华IDEA新框架入选ICCV 2025
一张图0.1秒生成上半身3D化身!清华IDEA新框架入选ICCV 2025

(2)Cross-reenactment

GUAVA在身份保留分数(IPS)上显著优于其他所有2D方法,证明了其在不同姿势下保持ID一致性的能力。

一张图0.1秒生成上半身3D化身!清华IDEA新框架入选ICCV 2025

定性结果显示,尽管2D方法能生成高质量图像,但它们在保持ID一致性和准确恢复复杂手势及面部表情方面存在不足。

例如,Champ的手部模糊 ,MagicPose存在失真 ,而MimicMotion则无法保持ID一致性。

3D方法在处理精细的手指和面部表情方面存在困难,也缺乏泛化能力,在未见区域或极端姿势下会产生伪影。

GUAVA则能对未见区域生成合理的结果,在极端姿势下表现出更好的鲁棒性,并提供更准确、更细致的手部和面部表情

一张图0.1秒生成上半身3D化身!清华IDEA新框架入选ICCV 2025
一张图0.1秒生成上半身3D化身!清华IDEA新框架入选ICCV 2025
一张图0.1秒生成上半身3D化身!清华IDEA新框架入选ICCV 2025

为了验证方法中各个部分的有效性,论文还进行了充分的消融实验。

一张图0.1秒生成上半身3D化身!清华IDEA新框架入选ICCV 2025
一张图0.1秒生成上半身3D化身!清华IDEA新框架入选ICCV 2025
一张图0.1秒生成上半身3D化身!清华IDEA新框架入选ICCV 2025

小结一下,论文所提出的GUAVA,是一个用于从单张图像重建可动画、具有细腻表现力上半身3D化身的快速框架。

研究通过引入EHM模型及其精确跟踪方法,增强了面部表情、形状和姿势的捕捉能力,并通过UV高斯和模板高斯的两个推理分支共同构建一个上半身高斯。

实验结果表明,GUAVA在渲染质量和效率方面均优于现有方法。它实现了约0.1秒的重建时间,并支持实时动画和渲染。

目前相关代码已开源,感兴趣可以进一步关注。

论文地址: https://arxiv.org/pdf/2505.03351
项目主页:https://eastbeanzhang.github.io/GUAVA/
开源代码:https://github.com/Pixel-Talk/GUAVA
视频Demo: https://www.bilibili.com/video/BV1k45AzaEpW/

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 8 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...