让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片

446次阅读
没有评论

AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片

在文生图和文生视频任务中,显著提升了生成结果的质量与连贯性

梦晨 发自 凹非寺

量子位 | 公众号 QbitAI

AI作画、生视频,可以「自己救自己」了?!

当大家还在为CFG(无分类器引导)的参数搞到头秃,却依然得到一堆“塑料感”废片而发愁时,来自清华大学、阿里巴巴AMAP(高德地图)、中国科学院自动化研究所的研究团队,推出全新方法S²-Guidance (Stochastic Self-Guidance)。

让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片

核心亮点在于通过随机丢弃网络模块(Stochastic Block-Dropping)来动态构建“弱”的子网络,从而实现对生成过程的自我修正。这不仅让AI学会了“主动避坑”,更重要的是,它避免了其他类似方法中繁琐、针对特定模型的参数调整过程,真正做到了即插即用、效果显著。

S²-Guidance方法在文生图和文生视频任务中,显著提升了生成结果的质量与连贯性。

具体表现在:

  • 卓越的时间动态: 无论是熊的运动姿态,还是赛车的动态镜头,都更具动感。
  • 精细的细节渲染: 能够刻画出宇航员头盔的透明质感等复杂细节。
  • 更少的视觉伪影: 有效减少了跑步者、打伞的女人等图像中的瑕疵。
  • 丰富的艺术表达: 在抽象肖像、城堡、彩色粉末爆炸等场景中,艺术细节更加饱满。
  • 更好的物体协调性: 猫与火箭、书与羊等组合中的物体关系更加和谐一致。

一、CFG的瓶颈:效果失真 + 缺乏通用性

在扩散模型的世界里,CFG (Classifier-Free Guidance)是提升生成质量和文本对齐度的标准操作。但它的“线性外推”本质,导致高引导强度下容易产生过饱和、失真等问题。

为了解决这个问题,学术界此前的思路是引入一个“监督员”——弱模型(weak model)。比如Autoguidance就提出用训练不充分的模型来修正。但这个思路在实践中遇到了核心难题:如何找到一个“恰到好处”的弱模型?

  • 弱模型如果太弱,它的预测就接近于无用噪声,无法提供有效引导。
  • 弱模型如果太强,它和主模型的行为又过于相似,起不到修正作用。
  • 最关键的是,对于像SD3这样已经发布的大模型,我们几乎不可能再获得一个与之配套的、训练到“一半火候”的官方弱模型。这使得Autoguidance的思路虽然理论上可行,但在现实中往往难以复现和应用。

为了绕开这个难题,后续的一些工作尝试“凭空制造”弱模型。它们通过在推理时手动修改网络结构来实现,比如模糊化特定的注意力图(Attention Map),或者在视频生成中跳过某些时空注意力层。但这些方法又带来了新的问题:它们通常是高度定制化的,需要针对不同任务进行精细的参数调整和大量的实验,缺乏通用性,使用起来非常繁琐

S²-Guidance则另辟蹊径,它问了一个直击灵魂的问题:我们能不能不找外援,也不搞复杂的调参,让模型自己监督自己,并且这个过程是通用且自动的?

二、S²-Guidance的精妙构思:“随机丢模块”就够了

S²-Guidance 在生成质量流形上的工作机制如下图所示。

生成过程从当前状态(Mₜ,橙色线框)向下一个状态(Mₜ₋₁)演进。标准CFG提供了一个强力但不够精准的引导方向(灰色箭头),它无法精确地命中代表最高质量的“山峰”(黄色峰值)。S²-Guidance的改进之处在于:它通过随机丢弃网络模块的策略,计算出一个“自我修正”的预测(蓝色箭头,“随机丢弃后的预测”)。最终,合成的S²-Guidance引导向量(紫色箭头)能更精准地将生成过程引向流形上的最优区域,最终得到保真度更高的结果。

让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片

第一步:通过随机模块丢弃,动态构建内生子网络

高性能扩散模型(如SD3)的核心架构多为Transformer,由一系列功能相似的Block堆叠而成。研究表明,这类大型网络存在显著的模型冗余(model redundancy)

S²-Guidance巧妙地利用了这一点。如图2所示,在每个推理步骤中,它通过随机模块丢弃(Stochastic Block-Dropping)这一策略,在前向传播时临时“跳过”或“屏蔽”掉一小部分网络模块。这个过程等效于在推理时动态地、无成本地构建出一个轻量化的内生子网络(intrinsic sub-network)

这个子网络并非外部训练的“弱模型”,而是完整模型的一个原生变体。由于部分功能模块被临时禁用,其预测能力相对受限,而它的预测结果恰恰暴露了完整模型在高认知不确定性(epistemic uncertainty)区域的“潜在错误倾向”。这种方法的优越性在于,它是一种通用且自动的策略,无需研究者手动判断应修改哪个特定模块,也无需为不同任务设计不同的“手术方案”。

第二步:利用子网络预测进行负向引导
当子网络给出了其预测方向后,S²-Guidance执行了其最关键的一步:负向引导修正。它并非尝试去靠近或模仿子网络的预测,而是主动地排斥(repel)它。

这在S²-Guidance的引导公式中体现得淋漓尽致,其核心逻辑可以直观地理解为:

最终引导方向 = 标准CFG引导方向 – 子网络预测的“高不确定性”方向

通过这个简单的“纠错式减法”,模型在保持CFG强引导力的同时,被一个源自内部的修正信号“拉回”,从而精准地规避了那些可能导致生成低质量、不真实结果的“陷阱区域”。最终,该方法在无需外部模型和繁琐参数微调的前提下,实现了便捷、通用且高效的自我优化。

理论先行:在“玩具实验”中验证可行性

在提出这个大胆的假设后,研究团队首先在一维和二维的高斯混合分布(Gaussian Mixture)这种有精确解的“玩具实验”上进行了验证。结果(如下图-图3所示)非常清晰:

S²-Guidance 实现了引导强度与分布保真度的平衡。 在玩具实验中,CFG(红框)会扭曲分布,而S²-Guidance能精准地捕获真实数据分布(半透明区域)的位置和形状,缓解了模式分离和分布失真的问题。

让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片
  • CFG(b) 虽然比无引导好,但生成的分布中心明显偏离了真实位置(红色框)。
  • Autoguidance(c) 有所改善,但仍不完美,难以找到合适的弱模型导致其效果受限。
  • 而S²-Guidance(e) 生成的分布,在位置和形状上都与真实的半透明分布更加贴合,证明了这种“自我纠错”机制缓解了CFG的分布失真问题。

有了理论上的坚实基础,团队才将其推广到更复杂的图像和视频生成任务中。

三、实验效果:全方位、可量化的质量提升

理论说得天花乱坠,不如看疗效。S²-Guidance在各大SOTA模型上,展现出了令人信服的、全方位的实力提升。

1 全面的视觉质量提升
开篇的这张对比图(图1)就是最好的证明。简单来说,S²-Guidance让生成结果在多个维度上实现了飞跃:

  • 动态感更强: 无论是熊爬树时更有力的动作,还是赛车镜头里传达出的速度感,时间动态(temporal dynamics)都远超CFG。
  • 细节更精致: 宇航员头盔的透明质感、抽象画作的笔触、彩色粉末爆炸的瞬间,细节(finer details)都得到了惊人的保留和渲染。
  • 伪影更少: 跑步的人、打伞的女人等场景中,CFG常见的肢体扭曲和物体粘连等伪影(fewer artifacts)被有效消除。
  • 物体一致性更好: “猫和火箭”、“书和羊”这类组合中,物体间的关系和比例(improved object coherence)更协调。
让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片

S²-Guidance 在美学质量和指令遵循度上,总能生成更出色的图像。 可以看到,像CFG、APG、CFG++和CFG-Zero这些现有的引导方法,常常会生成各种瑕疵,比如不自然的伪影、变形的物体,或者干脆无法理解复杂的指令(见红框)。而S²-Guidance方法则能产出干净、协调、观感舒适的图像,完美地规避了这些问题。

2 同台竞技,更胜一筹

当和其他先进的引导方法(如APG、CFG++、CFG-Zero)同台竞技时,S²-Guidance的优势就体现在稳定性上。在图4中可以看到,对于复杂的prompt,其他方法(红色框内)往往会产生扭曲的物体或不自然的伪影,或者干脆无法遵循完整的指令。而S²-Guidance则能稳定地生成干净、连贯且高度符合prompt描述的图像,在美学质量(aesthetic quality)和指令遵循度(prompt coherence)上都表现出色。

让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片

图5. S²-Guidance 能够生成时间和物理上都更合理的视频,解决了CFG的两大核心问题。 顶行对比: CFG无法生成合理的运动,它让卡车诡异地“横向漂移”而不是向前开(见红框)。相比之下,S²-Guidance渲染出了一个稳定又真实的行车场景。 底行对比: CFG没有完全理解指令,生成的光线并未“环绕”人脸(红色框),并且也漏掉了“发光粒子”这一细节(蓝色框)。而S²-Guidance则忠实地还原了整个prompt,生成了一个动态感十足、视觉元素丰富的场景。

3 视频生成:告别“指令遗忘症”,拥抱物理真实感

在视频生成中,S²-Guidance更是解决了CFG的两个核心痛点:

  • 物理真实性: 遵循物理规律是生成可信视频的基础。如图5顶行所示,对于“一个停车计时器和一辆卡车”的场景,CFG在处理物体运动时出现了严重失真。视频中的卡车并没有正常行驶,而是呈现出一种不符合物理常识的“横向漂移”,这种不自然的滑动破坏了整个场景的真实感。相比之下,S²-Guidance(第二行)则成功渲染出一个稳定且逻辑自洽的场景,物体的运动状态真实可信
  • 复杂指令遵循: 对于“金线编织并环绕她的脸,周围还有发光粒子”这样的复杂描述,CFG不仅忽略了关键的“环绕”动作(光线没有在脸周围运动),还漏掉了“发光粒子”。S²-Guidance则忠实地还原了整个动态、丰富的视觉场景,一个细节都不少。

4 硬核数据:领先的性能表现

这些视觉提升的背后,是HPSv2.1、T2I-CompBench、VBench等权威榜单上实打实的领先成绩。例如,在SD3模型和T2I-CompBench基准上,S²-Guidance在颜色、形状、纹理等维度的得分上均超越了包括CFG-Zero在内的所有对比方法。在VBench视频评测中,S²-Guidance同样在总分、语义一致性等多个关键指标上取得了最优性能。

让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片

HPSv2.1、T2I-CompBench榜单上的对比

让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片

图7:VBench榜单上的对比 图7:VBench榜单上的对比

视觉效果对比

S²-Guidance:

让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片
让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片
让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片
让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片

Baseline:

让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片
让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片
让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片
让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片

四、不只是有效,而且高效

搞这么一套“自我纠错”系统,会不会很慢?答案是几乎不慢

研究者在论文中通过严谨的消融实验证明,哪怕在每个去噪步骤中只分裂出一个“小号”(即N=1),效果也和分裂出几十个小号取平均(Naive S²-Guidance)几乎一样好。

这得益于扩散过程单一步的微小随机抖动,在几十上百步的迭代中会被自然地“平均”掉,最终共同将生成结果稳稳地导向高质量的终点。

一句话总结:S²-Guidance用较小的计算代价,实现了显著的质量提升。

论文: https://arxiv.org/abs/2508.12880
项目主页: https://s2guidance.github.io/
项目代码: https://github.com/AMAP-ML/S2-Guidance

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 8 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...