6B文生图模型,上线即登顶抱抱脸

7次阅读
没有评论

6B文生图模型,上线即登顶抱抱脸

梦瑶 发自 凹非寺

量子位 | 公众号 QbitAI

6B小模型,首日下载量高达50万次,上线不到两天直接把HuggingFace两个榜单都冲了个第一

6B文生图模型,上线即登顶抱抱脸

它就是阿里通义的全新图像模型:Z-Image

说它“出道即猛”不算夸张,参数虽小,但是出图质量甚至不输同期发布的FLUX.2,在画质、文本、推理等方面属于是SOTA级别。

先来看看官方给出的效果,Z-Image在语义知识上有点本事,对各国名胜古迹那完全是“老熟人级别”,轻松roll出世界名著:

6B文生图模型,上线即登顶抱抱脸

文本渲染上也同样顶得住,像下面这种包含公式+中英文混排的复杂黑板内容,也能给到相当稳定的输出效果:

6B文生图模型,上线即登顶抱抱脸

网友已经开始玩梗了:“Z-Image最大的特点:能跑在我电脑上……关键是它不烧卡啊兄弟们。”(同期发布的FLUX.2真·欲哭无泪了)

6B文生图模型,上线即登顶抱抱脸

模型表现到底如何,咱接着往下看~

6B小模型的出图水平到底咋样?

咱先来说说Z-Image这个模型的来头。

Z-Image是一个6B参数的高效图像生成基础模型,目前主要有三个版本:

1.Z-Image-Turbo(已开源):当前已公开的主要版本,参数量约为6B,在写实风格图像生成、中英文文本精准渲染等方面表现较好,性能接近或超过当前主流开源模型。

2.Z-Image-Edit(未开源):基于Z-Image基础模型专门针对图像编辑任务进行微调的版本,可上传图片并通过自然语言指令进行精确修改,例如更换背景、调整服饰、添加或移动元素等。

3.Z-Image-Base(未开源):未经过蒸馏压缩的完整基础模型,保留了最完整的生成能力和参数容量,该版本主要面向开发者与研究者开放。

6B文生图模型,上线即登顶抱抱脸

咱直接来实测一把,看看Z-Image的生效果到底能不能打!

官方说Z-Image在真实感、构图、美学、中英文渲染、语义理解都很强,那咱直接来点硬菜。

先来试试美学真实感处理,最近《怪奇物语5》火得不行,我直接让它整了个“颠倒世界”的写实街景,要求有变异生物、咕噜咕噜的光点、氛围感拉满那种~

6B文生图模型,上线即登顶抱抱脸

你别说,从图片效果看,树干和藤蔓被红蓝生物光点覆盖,街道里雾气弥漫,整体效果已经有了很强的电影级真实感,感觉下一秒“魔狗”就跑来抓人了。

但街景不够看纹理细节,咱再拉高难度——来个特写写真级肖像看看模型有没有“塌”:

6B文生图模型,上线即登顶抱抱脸
6B文生图模型,上线即登顶抱抱脸

从出图效果看,皮肤纹理自然、光线柔和均匀,五官细节清晰不失真,整体质感已经接近专业影棚级的写实肖像照。

咱再来试试Z-Image的大招——文字处理能力。

既然NanoBanana2前几天靠旅游攻略海报炸了一波,那我也让Z-Image来一张老北京旅游攻略:

6B文生图模型,上线即登顶抱抱脸

先说优点,如果不细看,一级标题都没有太大的文字问题,色彩、风格和排版都挺有插画海报内味儿。

但小字就不太行了,“港湾”“故宫”这种越小越容易变形的字,模型还是有点hold不住,看得出来文字能力还在进步区间啊~

不过Z-Image主打的不仅是图像渲染,还有语义理解能力。

这次我想考考它的“常识推理”,让它用科普漫画解释“为什么上下文越长,AI的回答反而可能变差”,看看这模型肚子里的知识储备咋样:

6B文生图模型,上线即登顶抱抱脸

首先值得表扬的是,AI确实看懂的题目要让他干什么,漫画形式+科普内容的理解是到位的,并且强调出了AI之所以没办法很好处理过长的上下文内容的原因。

但还是暴露一些小bug,一是文字变形问题,二是可能受限于图像尺寸的原因,科普原理解释的还是太浅,也能理解。

咱再来看看网友们用Z-Image玩出了哪些有意思的玩法:

有网友直接整出了复古电影质感大片,高级绿、高级蓝加梦幻纹理,画面里那种“银幕颗粒感”都给你安排得明明白白!

6B文生图模型,上线即登顶抱抱脸

还有网友玩起了“微观迷你世界”,雪盖屋顶、小人滑冰、灯光点点,是那种看一眼就想当成桌面壁纸的程度:

6B文生图模型,上线即登顶抱抱脸

再看下面这位网友,直接让Z-Image化身摄影界的“生物专家”,生成了显微镜级别下的昆虫特写。

6B文生图模型,上线即登顶抱抱脸

666,这细节都能直接拿去做科普杂志封面了。

Z-Image为啥能跑这么快?

咱转过头再来聊聊Z-Image背后的技术逻辑。

Z-Image之所以能跑那么快,得益于架构优化模型蒸馏技术的结合,让它在不牺牲高质量的前提下,大幅减少计算量。

先从架构说起。

我们传统图像模型常采用双流设计,文本和图像分别处理,然后通过跨注意力机制融合,这会造成参数冗余和计算浪费,导致推理时间长、显存占用高。

Z-Image则换了条更干脆的路子,用的是可扩展的单流DiT(S3-DiT)架构,把文本token、视觉语义token和图像的VAE token直接串成一条统一序列,让模型一次前向就能把所有模态读完。

路径变短、融合更省事,自然跑得更快:

6B文生图模型,上线即登顶抱抱脸

再说加速的另一半——蒸馏。

扩散模型本来就慢,正常要跑20~50步,每一步都要重新算噪声,画质好但时间代价大。

Z-Image是基础版的“提纯模型”,通过Decoupled-DMD把大模型的能力蒸出来,同时把加速所需的CFG Augmentation(加速核心)和保证质量的Distribution Matching(质量稳定)分开优化。

最后做到只需要8次函数评估就能生成一张高清图:

6B文生图模型,上线即登顶抱抱脸

简单说,就是把原来的长流程压成了极短流程,让速度和质量不再是互相牵制。

正是这种“聪明少干活”的设计,让Z-Image在开源模型里跑出了SOTA水平的速度,同时写实质量和中英文本渲染都保持得很稳。

阿里这次上线开源Z-Image的时间也挺“巧”,和FLUX.2一前一后,但看榜单结果,显然不是“谁先发谁赢”这种简单逻辑啊…

目前Z-Image已在魔塔上线,感兴趣的朋友可以试试~

开源地址:https://huggingface.co/Tongyi-MAI/Z-Image-Turbo

生成地址:https://modelscope.cn/aigc/imageGeneration

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy