谢赛宁新作:VAE退役,RAE当立

354次阅读
没有评论

谢赛宁新作:VAE退役,RAE当立

谢赛宁两次承认自己错了

时令 发自 凹非寺

量子位 | 公众号 QbitAI

昔日风光无限的VAE,终于被宣判“退役”?

谢赛宁团队最新研究给出了答案——VAE的时代结束,RAE将接力前行

谢赛宁新作:VAE退役,RAE当立

其中表征自编码器RAE(Representation Autoencoders)是一种用于扩散Transformer(DiT)训练的新型自动编码器,其核心设计是用预训练的表征编码器(如DINO、SigLIP、MAE 等)与训练后的轻量级解码器配对,从而替代传统扩散模型中依赖的VAE(变分自动编码器)。

这种新结构不仅能提供高质量重建结果,还具备语义丰富的潜空间,同时支持可扩展的基于变换器的架构

该方法在无需额外表示对齐损失的情况下,实现了更快的收敛速度。通过采用配备轻量级宽型DDT头部的DiT变体,他们在ImageNet上取得强劲的图像生成效果:

  • 256×256分辨率下,无引导(no guidance)FID= 1.51;
  • 256×256和512×512分辨率下,有引导(with guidance)FID=1.13。
谢赛宁新作:VAE退役,RAE当立

下面具体来看。

VAE退役,RAE当立

如今,Diffusion Transformer虽已取得长足发展,但多数模型仍依赖2021年的旧版SD-VAE构建潜空间。

谢赛宁新作:VAE退役,RAE当立

这引发了几大核心问题:

1、过时的骨干网络,让架构过于复杂。SD-VAE约需450 GFLOPs运算量,而简易的ViT-B编码器仅需22 GFLOPs。

2、过度压缩的潜空间(只有4个通道),严重限制信息容量。常言道压缩催生智能,但此处不然:VAE式压缩收效甚微,其信息承载能力与原始3通道像素几乎无异。

3、薄弱的表征能力。仅依赖重建训练的模式使VAE学得的特征质量低下(线性探测精度约8%),最终拖慢收敛速度并损害生成质量。现有研究已表明:表征质量直接决定生成效果。而SD-VAE的设计初衷并未涵盖此目标。

谢赛宁曾以为语义编码器主要捕获高层次抽象表征而会舍弃细粒度视觉细节,但他现在意识到这个想法是错误的。

谢赛宁新作:VAE退役,RAE当立

针对上述问题,研究团队采用预训练表征编码器(如基于标准化ViT架构的DINO、SigLIP和MAE)与训练好的解码器相结合,得到了RAE——

无需额外训练或对齐阶段,没有辅助损失函数,也不引入重新压缩的适配层。

只需获取预训练语义编码器,使用L1+LPIPS+GAN损失训练解码器即可。

尽管看起来架构如此简洁,但RAE在重建质量上却能超越SD-VAE。

谢赛宁新作:VAE退役,RAE当立

有意思的是,谢赛宁还以为扩散模型在高维空间中很难高效去噪,但他承认自己又错了。

谢赛宁新作:VAE退役,RAE当立

由于RAE的潜空间本质上是高维的,扩散Transformer确实需要一些适配,但只需三个非常简单的调整,它们的表现就能出乎意料地好。

1、宽DiT设计:要使扩散正常运作,变换器宽度d必须至少等于潜表征维度n。若不满足此条件,模型甚至无法过拟合单个样本。

谢赛宁新作:VAE退役,RAE当立

2、噪声调度:依赖分辨率的噪声调度调整早已用于高分辨率图像生成。同理,调整噪声调度可使扩散模型平滑适应增加的输入通道维度。

3、噪声解码器:为提升解码器对潜空间微小扩散误差的鲁棒性,他们在解码器训练中注入微量噪声。这使解码器能优雅处理重建表征中的细微瑕疵。

凭借这些简单调整,团队训练的DiT-XL模型已超越REPA,且无需引入任何辅助损失或额外训练阶段。

采用RAE时,收敛速度比基于SD-VAE的REPA快达16倍。

谢赛宁新作:VAE退役,RAE当立

事实表明,模型确实需要足够的宽度,但单纯依靠暴力扩展DiT宽度很快就会变得低效且不切实际。

为此,他们引入了一个简单而有效的技巧,以在RAE框架内提升DiT的可扩展性。这个思路虽与解耦扩散训练(DDT)存在松散关联,但他们的出发点截然不同。

在新架构中,原始DiT作为条件化骨干网络,驱动一个极宽但极浅的扩散头部。该头部以含噪潜变量x_t为输入,直接预测速度向量。

谢赛宁新作:VAE退役,RAE当立

借助RAE潜变量,DiTDH在训练计算量和模型大小方面的扩展效率,均优于基于RAE的标准DiT以及基于VAE的传统方法。

谢赛宁新作:VAE退役,RAE当立

论文链接:https://t.co/FGOAP3Eg5m
参考链接:https://x.com/sainingxie/status/1977936742763094289

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 10 月
 12345
6789101112
13141516171819
20212223242526
2728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
万人齐聚首钢园|第二十届中国IDC产业年度大典盛大召开!

万人齐聚首钢园|第二十届中国IDC产业年度大典盛大召开!

万人齐聚首钢园|第二十届中国IDC产业年度大典盛大召开! 量子位的朋友们 2025-12-15 10:11:1...
苏州大学首篇数学四大刊!解决了40年未决的丢番图逼近问题

苏州大学首篇数学四大刊!解决了40年未决的丢番图逼近问题

苏州大学首篇数学四大刊!解决了40年未决的丢番图逼近问题 闻乐 2025-12-15 12:16:09 来源:...
马斯克猛猛带货太空数据中心!“能耗比地球香太多”

马斯克猛猛带货太空数据中心!“能耗比地球香太多”

马斯克猛猛带货太空数据中心!“能耗比地球香太多” 一水 2025-12-15 14:22:42 来源:量子位 ...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
何恺明组三位本科生领衔!持续聚焦Flow模型,突破归一化流生成效率瓶颈

何恺明组三位本科生领衔!持续聚焦Flow模型,突破归一化流生成效率瓶颈

何恺明组三位本科生领衔!持续聚焦Flow模型,突破归一化流生成效率瓶颈 鱼羊 2025-12-15 15:28...