何恺明团队新作:扩散模型可能被用错了

176次阅读
没有评论

何恺明团队新作:扩散模型可能被用错了

让扩散模型回归「去燥」本身

闻乐 发自 凹非寺

量子位 | 公众号 QbitAI

何恺明又一次返璞归真。

最新论文直接推翻扩散模型的主流玩法——不让模型预测噪声,而是直接画干净图。

何恺明团队新作:扩散模型可能被用错了

如果你熟悉何恺明的作品,会发现这正是他创新的典型路径,不提出更复杂的架构,而是把问题拆回最初的样子,让模型做它最擅长的那件事

实际上,扩散模型火了这么多年,架构越做越复杂,比如预测噪声、预测速度、对齐latent、堆tokenizer、加VAE、加perceptual loss……

但大家似乎忘了,扩散模型原本就是去噪模型。

现在这篇新论文把这件事重新摆上桌,既然叫denoising模型,那为什么不直接denoise?

于是,在ResNet、MAE等之后,何恺明团队又给出了一个“大道至简”的结论:扩散模型应该回到最初——直接预测图像

扩散模型可能被用错了

当下的主流扩散模型,虽然设计思想以及名为“去噪”,但在训练时,神经网络预测的目标往往并不是干净的图像,而是噪声, 或者是一个混合了图像与噪声的速度场

实际上,预测噪声和预测干净图差得很远。

根据流形假设,自然图像是分布在高维像素空间中的低维流形上的,是有规律可循的干净数据;而噪声则是均匀弥散在整个高维空间中的,不具备这种低维结构。

何恺明团队新作:扩散模型可能被用错了

简单理解就是,把高维像素空间想象成一个巨大的3D间,而干净的自然图像其实都挤在房间里的一块2D屏幕上。这就是流形假设——自然数据看着维度高,实则集中在一个低维的「曲面(流形)」上。

但噪声不一样。它是弥漫在整个3D房间里的雪花点,不在屏幕上;而速度场也一样,一半在屏上、一半在屏外,同样也脱离了「流形」的规律。

这就导致了一个核心矛盾,在处理高维数据时,例如将图像切分为16×16甚至32×32的大Patch,要求神经网络去拟合无规律的高维噪声,需要极大的模型容量来保留所有信息,这很容易导致模型训练崩溃。

而相反呢,如果让网络直接预测干净的图像,本质上就是让网络学习如何将噪点投影回低维流形,这对于网络容量的要求要低得多,也更符合神经网络“过滤噪声、保留信号”的原本设计。

何恺明团队新作:扩散模型可能被用错了

于是,这篇文章提出了一个极简的架构JiT——Just image Transformers。

正如其名,这就是一个纯粹处理图像的Transformer,它的设计非常简单。没有像普遍的扩散模型一样使用VAE压缩潜空间,也没有设计任何Tokenizer,不需要CLIP或DINO等预训练特征的对齐,也不依赖任何额外的损失函数。

完全从像素开始,用一个纯粹Transformer去做denoise

JiT就像一个标准的ViT,它将原始像素切成大Patch(维度可高达3072维甚至更高)直接输入,唯一的改动就是将输出目标设定为直接预测干净的图像块。

何恺明团队新作:扩散模型可能被用错了

实验结果显示,在低维空间下,预测噪声和预测原图的表现难分伯仲;但一旦进入高维空间,传统的预测噪声模型彻底崩溃,FID(越低越优)指数级飙升,而直接预测原图JiT却依然稳健。

何恺明团队新作:扩散模型可能被用错了

模型的扩展能力也很出色。即使将patch尺寸扩大到64×64,让输入维度高达一万多维,只要坚持预测原图,无需增加网络宽度也能实现高质量生成。

何恺明团队新作:扩散模型可能被用错了

团队甚至发现,在输入端人为引入瓶颈层进行降维,不仅不会导致模型失效,反而因为契合了流形学习过滤噪声的本质,进一步提升了生成质量。

这种极简架构在不依赖任何复杂组件或预训练的情况下,在ImageNet 256×256和512×512上达到了1.82和1.78的SOTA级FID分数。

何恺明团队新作:扩散模型可能被用错了

作者介绍

这篇论文的一作是何恺明的开门弟子之一黎天鸿,本科毕业于清华姚班,在MIT获得了硕博学位之后,目前在何恺明组内从事博士后研究。

何恺明团队新作:扩散模型可能被用错了

他的主要研究方向是表征学习、生成模型以及两者之间的协同作用。目标是构建能够理解人类感知之外的世界的智能视觉系统。

此前曾作为一作和何恺明开发了自条件图像生成框架RCG,团队最新的多项研究中他也都有参与。

何恺明团队新作:扩散模型可能被用错了

也可以说这是一位酷爱湖南菜的学者,把菜谱都展示在了自己的主页上。

何恺明团队新作:扩散模型可能被用错了

论文地址:https://arxiv.org/abs/2511.13720

— 完 —

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 11 月
 12
3456789
10111213141516
17181920212223
24252627282930
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手 十三 2025-12-09 18:18:41 来源:量子位...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东 Jay 2025-12-09 08:26:01 来源...
梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物! 一水 2025-12-09 09:46:23 来源:量子位 来自安...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布 思邈 2025-12-09 15:46:09 来源:量子位 国内首个聚焦...
极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」 henry 2...