终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源

1,226次阅读
没有评论

终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源

  新智元报道  

编辑:桃子

【新智元导读】生成式AI模型的新范式要来了。UC伯克利谷歌提出幂等生成网络(IGN),只需单步即可生图。


已经红遍半边天的扩散模型,将被淘汰了?

终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源

当前,生成式AI模型,比如GAN、扩散模型或一致性模型,通过将输入映射到对应目标数据分布的输出,来生成图像。

通常情况下,这种模型需要学习很多真实的图片,然后才能尽量保证生成图片的真实特征。

最近,来自UC伯克利和谷歌的研究人员提出了一种全新生成模型——幂等生成网络(IGN)。

终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源

论文地址:https://arxiv.org/abs/2311.01462

IGNs可以从各种各样的输入,比如随机噪声、简单的图形等,通过单步生成逼真的图像,并且不需要多步迭代。

这一模型旨在成为一个「全局映射器」(global projector),可以把任何输入数据映射到目标数据分布。

简言之,通用图像生成模型未来一定是这样的。

有趣的是,《宋飞正传》中一个高效的场景竟成为作者的灵感来源。

终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源

这个场景很好地总结了「幂等运算符」(idempotent operator)这一概念,是指在运算过程中,对同一个输入重复进行运算,得到的结果总是一样的。

终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源

正如Jerry Seinfeld幽默地指出的那样,一些现实生活中的行为也可以被认为是幂等的。

幂等生成网络

IGN与GAN、扩散模型有两点重要的不同之处:

– 与GAN不同的是,IGN无需单独的生成器和判别器,它是一个「自对抗」的模型,同时完成生成和判别。

– 与执行增量步骤的扩散模型不同,IGN尝试在单个步中将输入映射到数据分布。

那么,幂等生成模型(IGN)怎么来的?

它被训练为从源分布终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源给定输入样本的目标分布终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源,生成样本。

给定示例数据集终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源,每个示例均取自终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源然后,研究人员训练模型终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源映射到终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源

假设分布终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源位于同一空间,即它们的实例具有相同的维度。这允许将终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源应用于两种类型的实例终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源

如图展示了IGN背后的基本思想:真实示例 (x) 对于模型 f 是不变的终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源。其他输入 (z) 被映射到f通过优化终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源映射到自身的实例流上。

终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源

IGN训练例程PyTorch代码的一部分示例。

终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源

实验结果


得到IGN后,效果如何呢?

作者承认,现阶段,IGN的生成结果无法与最先进的模型相竞争。

在实验中,使用的较小的模型和较低分辨率的数据集,并在探索中主要关注简化方法。

当然了,基础生成建模技术,如GAN、扩散模型,也是花了相当长的时间才达到成熟、规模化的性能。

实验设置

研究人员在MNIST(灰度手写数字数据集)和 CelebA(人脸图像数据集)上评估IGN,分别使用28×28和64×64的图像分辨率。

作者采用了简单的自动编码器架构,其中编码器是来自DCGAN的简单五层鉴别器主干,解码器是生成器。训练和网络超参数如表1所示。

终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源

生成结果

图4显示了应用模型一次和连续两次后两个数据集的定性结果。

如图所示,应用IGN 一次 (f (z)) 会产生相干生成结果。然而,可能会出现伪影,例如MNIST数字中的孔洞,或者面部图像中头顶和头发的扭曲像素。

再次应用 f (f (f (z))) 可以纠正这些问题,填充孔洞,或减少面部噪声斑块周围的总变化。

终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源

图7显示了附加结果以及应用f三次的结果。

终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源

比较终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源表明,当图像接近学习流形时,再次应用f会导致最小的变化,因为图像被认为是分布的。

潜在空间操纵

作者通过执行操作证明IGN具有一致的潜在空间,与GAN所示的类似,图6显示了潜在空间算法。

终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源

分布外映射

作者还验证通过将来自各种分布的图像输入到模型中以生成其等效的「自然图像」,来验证IGN「全局映射」的潜力。

研究人员通过对噪声图像x+n 进行去噪、对灰度图像终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源进行着色,以及将草图终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源转换为图5中的真实图像来证明这一点。

原始图像x,这些逆任务是不适定的。IGN能够创建符合原始图像结构的自然映射。

如图所示,连续应用f可以提高图像质量(例如,它消除了投影草图中的黑暗和烟雾伪影)。

终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源

谷歌下一步?


通过以上结果可以看出,IGN在推理方面更加有效,在训练后只需单步即可生成结果。

它们还可以输出更一致的结果,这可能推广到更多的应用中,比如医学图像修复。

论文作者表示:

我们认为这项工作是迈向模型的第一步,该模型学习将任意输入映射到目标分布,这是生成建模的新范式。

接下来,研究团队计划用更多的数据来扩大IGN的规模,希望挖掘新的生成式AI模型的全部潜力。

最新研究的代码,未来将在GitHub上公开。

参考资料:https://assafshocher.github.io/IGN/https://the-decoder.com/inspired-by-seinfeld-google-unveils-new-ai-model-for-image-generation/

终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源


终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源
终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 11 月
 12345
6789101112
13141516171819
20212223242526
27282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地 henry 2025-12-11 10:27:...
Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了… Jay 2025-12-11 11:48:25 来源:量子位 Ja...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...