“甲方快乐模型”诞生,拿下平面设计新SOTA!多条件一键生成,还能独立调整元素 | 复旦&字节

915次阅读
没有评论

“甲方快乐模型”诞生,拿下平面设计新SOTA!多条件一键生成,还能独立调整元素 | 复旦&字节

可实现高精度、多模态、可编辑的AI图形设计生成。

CreatiDesign团队 投稿

量子位 | 公众号 QbitAI

平面设计师有救了!

复旦大学和字节跳动团队联合提出CreatiDesign新模型,可实现高精度、多模态、可编辑的AI图形设计生成。

“甲方快乐模型”诞生,拿下平面设计新SOTA!多条件一键生成,还能独立调整元素 | 复旦&字节

△CreatiDesign能生成各种类型的平面设计图,如电影海报、品牌促销、产品广告和社交媒体图。

AI虽然在文生图领域已取得了很大的突破,但以往方法在处理图形设计时,要么“偏科”,要么缺乏精准的可控性。

而CreatiDesign推出了统一多条件控制的扩散Transformer架构,并配套构建了40万样本的大规模多条件标注数据集,满足实际设计需求。

“甲方快乐模型”诞生,拿下平面设计新SOTA!多条件一键生成,还能独立调整元素 | 复旦&字节

挑战:需求多、数据少、控制难

在真实的平面设计场景中,用户往往会同时提供:

  • 主视觉元素:(如产品图/LOGO,需保持高度一致性)
  • 辅助装饰元素:(如装饰品,用于衬托主体,需按指定位置排版)
  • 文本内容(如Slogan,需按指定位置排版)
“甲方快乐模型”诞生,拿下平面设计新SOTA!多条件一键生成,还能独立调整元素 | 复旦&字节

这种“多条件异质融合”对先前的扩散模型提出了三大挑战:

1.多条件异质信息的统一建模难
以往的可控扩散模型大多针对单一条件(如仅控制主体图或仅控制布局或文本),缺乏将多种异质条件(图像、布局、文本等)进行统一融合和协同建模的能力。

2.多条件之间的精细解耦与区域独立控制难
即便部分最新模型初步实现了多条件输入,依然难以确保每个子控制条件能够精准、独立地控制其对应的图像区域。

3.缺乏大规模高质量、多标注的训练数据
开源的图形设计数据集有限。现有的数据集缺乏精细化、多条件的标注,难以满足模型对多样性和高质量数据的训练需求。

为此,CreatiDesign从模型架构、数据构造等角度出发,提出了系统性的解决方案,旨在赋能扩散模型创意平面设计的能力

方法:条件协同、独立可控、流程全自动

“甲方快乐模型”诞生,拿下平面设计新SOTA!多条件一键生成,还能独立调整元素 | 复旦&字节

统一多模态条件驱动

CreatiDesign基于MM-DiT(Multimodal Diffusion Transformer)框架,采用极简架构调整,实现了多种异质条件的协同控制:

多主体的图像条件:用户可以一次性输入多个主视觉元素(如产品图、LOGO等),并在空白画布上任意摆布,得到多主体的图像条件。然后将此图像送入原生的VAE进行编码,得到一组主视觉token。这些token能完整保留每个主体的细粒度视觉特征,为后续生成提供主体约束。

语义布局条件:每个辅助元素或文本的语义描述,先由T5文本编码器转换为语义特征token,空间位置信息(bounding box坐标)则经过傅立叶变换后,和语义特征拼接,再通过MLP进一步融合,最终得到集成了语义和空间信息的布局token。这种方式实现了对布局元素内容和空间排布的双重精准控制。

全局描述:用户还可以输入整体的描述,同样由T5编码为全局描述token,为全局内容和风格把控提供指导。

最终,所有类型的token(主视觉token、布局token、全局描述token)被拼接后输入到MM-DiT中。在每一层Transformer中,CreatiDesign采用多模态注意力(MM-Attention)机制,使不同模态的token进行深度融合,从而实现多条件的联合建模和控制。

多模态注意力掩码机制

为提升每个条件的独立可控性,CreatiDesign提出两种专属注意力掩码:

Subject Attention Mask:主体token仅与其指定区域内的图像token进行双向交互,且与布局token、全局描述token及无关区域的图像token完全隔离,确保主体内容高度还原、独立于其他条件。

Layout Attention Mask:每个布局token仅与其指定区域内的图像token交互,同时阻断布局token之间、布局token与主视觉或全局描述token之间的交互,防止布局元素之间的语义串扰与不同条件之间的干扰。

这种显式的掩码机制,使每个条件都能精准、独立地调控对应图像区域,极大提升了生成结果的一致性与可控性,保证了多条件复杂设计意图的严格还原。

自动化数据集生成流水线

CreatiDesign还提出了全自动的平面设计数据合成流程,包含:

主题生成:基于设计关键词库,使用LLM(如GPT-4)生成包含主视觉元素、布局元素和文本内容的多要素设计主题;

文本图层渲染:依据分层布局协议(HLG),通过渲染引擎自动生成带精准排版的文本前景图层(RGBA);

基于前景的图像生成:借鉴LayerDiffuse范式,联合LoRA模块,实现基于文本前景和主题描述背景的高质量平面设计图像生成;

实体检测与标注:利用GroundingSAM2检测所有实体(主视觉、辅助装饰),并通过VLM生成细粒度属性描述,实现全要素多条件的自动标注。

最终,CreatiDesign开源了规模达40万组、具备多条件高质量标注的平面设计样本,为多条件可控模型的训练提供数据基础。

实验:SOTA级性能展示

“甲方快乐模型”诞生,拿下平面设计新SOTA!多条件一键生成,还能独立调整元素 | 复旦&字节

在多维度的评估基准上,CreatiDesign在主体保持度、布局遵循度、文本正确率以及图像整体质量等关键指标上均取得了领先的性能。

具体来说,CreatiDesign在主视觉元素的还原(如DINO-I、M-DINO分数)、辅助元素的空间位置与属性一致性、文本内容的准确率(Sen.Acc)和编辑距离(NED),乃至图像整体质量(IR、PickScore)等各项评价指标上,在当前主流的多主体图像驱动、布局驱动及多条件驱动的SOTA模型中,位居第一梯队。

从表格中可以看到,CreatiDesign的平均综合得分高达69.28,相比基础模型FLUX.1-dev的47.50分,提升幅度达到45.9%。这一显著提升仅依赖于基础模型4.1%的额外参数量,高效得提升了基础模型在图形设计上的能力。

“甲方快乐模型”诞生,拿下平面设计新SOTA!多条件一键生成,还能独立调整元素 | 复旦&字节

上图中紫色蒙版代表不一致或位置错误的主体,红色蒙版代表语义或位置不正确的实体,灰色蒙版代表不协调的背景或前景区域。

可视化结果进一步验证了CreatiDesign在生成结果上的优势:与以往的多条件或单条件模型相比,CreatiDesign能够更加严格地遵循用户的设计意图,具体体现在主体元素的高度还原、辅助元素及文本的精准布局,以及整体画面的和谐一致。

对比图中可以清晰地看到,其他模型常常出现主体错位、内容缺失、文本错误等问题,而CreatiDesign能够准确保留各个输入要素,并实现复杂多元素的协调排布。

此外,CreatiDesign无需额外训练即可支持多轮编辑:用户可在已有平面设计结果上灵活插入新文本、新主体,或对文本内容进行修改,模型能够精准编辑指定区域,同时保持非编辑区域的内容不变。

“甲方快乐模型”诞生,拿下平面设计新SOTA!多条件一键生成,还能独立调整元素 | 复旦&字节

相比Gemini2.0等主流大模型在编辑过程中常出现的非编辑区域变化、内容漂移等问题,CreatiDesign展现出更强的编辑灵活性与保持性。

论文地址:https://arxiv.org/pdf/2505.19114
项目主页:https://huizhang0812.github.io/CreatiDesign/
项目代码:https://github.com/HuiZhang0812/CreatiDesign
数据集:https://huggingface.co/datasets/HuiZhang0812/CreatiDesign_dataset

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 6 月
 1
2345678
9101112131415
16171819202122
23242526272829
30  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...