TPAMI 2023 生成式 AI 与图像合成综述

1,192次阅读
没有评论

点击上方↑↑↑OpenCV学堂”关注我

来源:公众号 我爱计算机视觉 授权

生成式 AI 作为当前人工智能领域的前沿技术,已被广泛的应用于各类视觉合成任务。

随着 DALL-E2Stable Diffusion 和 DreamFusion 的发布,AI 作画和 3D 合成实现了令人惊叹的视觉效果并且在全球范围内的爆炸式增长。

这些生成式AI技术深刻地拓展了人们对于 AI 图像生成能力的认识,那么这些生成式 AI 方法是如何生成以假乱真的视觉效果?

又是如何利用深度学习和神经网络技术来实现画作、3D 生成以及其他创造性任务的呢?

我们的综述论文将会给您提供这些问题的答案。

TPAMI 2023 生成式 AI 与图像合成综述

  • 论文地址:https://arxiv.org/abs/2112.13592
  • GitHub地址:https://github.com/fnzhan/Generative-AI
  • 项目地址:https://fnzhan.com/Generative-AI/

在第一章节,该综述描述了多模态图像合成与编辑任务的意义和整体发展,以及本论文的贡献与总体结构。

在第二章节,根据引导图片合成与编辑的数据模态,该综述论文介绍了比较常用的视觉引导,文字引导,语音引导,还有近期DragGAN提出的控制点引导等,并且介绍了相应模态数据的处理方法。

TPAMI 2023 生成式 AI 与图像合成综述

在第三章节,根据图像合成与编辑的模型框架,该论文对目前的各种方法进行了分类,包括基于GAN的方法,扩散模型方法,自回归方法,和神经辐射场(NeRF)方法。

TPAMI 2023 生成式 AI 与图像合成综述

由于基于GAN的方法一般使用条件GAN和 GAN 反演,因此该论文进一步根据 控制条件的融合方式,模型的结构,损失函数设计,多模态对齐,和跨模态监督进行了详细描述。

TPAMI 2023 生成式 AI 与图像合成综述GAN Inversion Methods

近期,火热的扩散模型也被广泛应用于多模态合成与编辑任务。例如效果惊人的DALLE-2和Imagen都是基于扩散模型实现的。相比于GAN,扩散式生成模型拥有一些良好的性质,比如静态的训练目标和易扩展性。该论文依据条件扩散模型和预训练扩散模型对现有方法进行了分类与详细分析。

TPAMI 2023 生成式 AI 与图像合成综述Conditional Diffusion ModelsTPAMI 2023 生成式 AI 与图像合成综述Pre-trained Diffusion Methods

相比于基于GAN和扩散模型的方法,自回归模型方法能够更加自然的处理多模态数据,以及利用目前流行的Transformer模型。自回归方法一般先学习一个向量量化编码器将图片离散地表示为token序列,然后自回归式地建模token的分布。由于文本和语音等数据都能表示为token并作为自回归建模的条件,因此各种多模态图片合成与编辑任务都能统一到一个框架当中。

TPAMI 2023 生成式 AI 与图像合成综述Autoregressive Methods

以上方法主要聚焦于2D图像的多模态合成与编辑。近期随着神经辐射场(NeRF)的迅速发展,3D感知的多模态合成与编辑也吸引了越来越多的关注。由于需要考虑多视角一致性,3D感知的多模态合成与编辑是更具挑战性的任务。本文针对单场景优化NeRF,生成式NeRF两种方法对现有工作进行了分类与总结。

TPAMI 2023 生成式 AI 与图像合成综述NeRF-based Methods

随后,该综述对以上四种模型方法的进行了比较和讨论。总体而言,相比于GAN,目前最先进的模型更加偏爱自回归模型和扩散模型。而NeRF在多模态合成与编辑任务的应用为这个领域的研究打开了一扇新的窗户。

TPAMI 2023 生成式 AI 与图像合成综述Annotation types in popular datasets

在第四章节,该综述汇集了多模态合成与编辑领域流行的数据集以及相应的模态标注,并且针对各模态典型任务(语义图像合成,文字到图像合成,语音引导图像编辑)对当前方法进行了定量的比较。同时也对多种模态同时控制生成的结果进行了可视化。

TPAMI 2023 生成式 AI 与图像合成综述Combination of different guidance types

在第五章节,该综述对此领域目前的挑战和未来方向进行了探讨和分析,包括大规模的多模态数据集,准确可靠的评估指标,高效的网络架构,以及3D感知的发展方向。

在第六和第七章节,该综述分别阐述了此领域潜在的社会影响和总结了文章的内容与贡献。

TPAMI 2023 生成式 AI 与图像合成综述

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 9 月
 123
45678910
11121314151617
18192021222324
252627282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...