图像界的DeepSeek!12B参数对标GPT-4o,消费级硬件玩转编辑生成

942次阅读
没有评论

图像界的DeepSeek!12B参数对标GPT-4o,消费级硬件玩转编辑生成

更少的参数,更快的推理

鹭羽 发自 凹非寺

量子位 | 公众号 QbitAI

图像模型开源还得是FLUX!

Black Forest Labs刚刚宣布开源旗舰图像模型FLUX.1 Kontext[dev],专为图像编辑打造,还能直接在消费级芯片上运行。

只有小小的12B,更少的参数,更快的推理,性能更是媲美GPT-image-1等一众闭源模型。

图像界的DeepSeek!12B参数对标GPT-4o,消费级硬件玩转编辑生成

现在FLUX.1 Kontext[dev]可以让小狗迅速离开画面,为小老鼠戴上胡须,添加文字、修改背景也不在话下。

图像界的DeepSeek!12B参数对标GPT-4o,消费级硬件玩转编辑生成

或者多次输入指令,直到让小哥成为酒吧里最靓的崽(bushi),直到让画面符合咱们需求。

图像界的DeepSeek!12B参数对标GPT-4o,消费级硬件玩转编辑生成

具体来说,FLUX.1 Kontext[dev]的主要特点有:

  1. 可以根据编辑指令直接更改现有图像,以及进行精确的本地和全局编辑
  2. 不用做任何微调,就能直接引用里面的人物角色、风格样式和物品元素。
  3. 允许用户通过多次连续编辑优化图像,同时将视觉漂移降到最低。
  4. 专门为NVIDIA Blackwell进行了权重优化

网友们也立马上手试玩,制作了一个旅行的CPU青蛙?

图像界的DeepSeek!12B参数对标GPT-4o,消费级硬件玩转编辑生成

旅行必备的墨镜,还有抗寒的帅气红色毛衣也要准备妥当。(蛙蛙:出片,我势在必行)

图像界的DeepSeek!12B参数对标GPT-4o,消费级硬件玩转编辑生成

或者copy一下自己喜欢的动漫角色。

图像界的DeepSeek!12B参数对标GPT-4o,消费级硬件玩转编辑生成

轻轻松松店铺打烊,结束打工人完美的一天~(doge)

图像界的DeepSeek!12B参数对标GPT-4o,消费级硬件玩转编辑生成

还有网友脑洞大开,试着和LoRA结合,造出了一个Kontext风格化肖像制作APP。

图像界的DeepSeek!12B参数对标GPT-4o,消费级硬件玩转编辑生成

现在FLUX.1 Kontext[dev]还完全支持ComfyUI

温馨提示,官方直接开放了试玩API,只需点击文末链接、上传图片就可以立即爽玩!

图像界的DeepSeek!12B参数对标GPT-4o,消费级硬件玩转编辑生成

网友看罢表示,Black Forest Labs不愧是图像届的DeepSeek

图像界的DeepSeek!12B参数对标GPT-4o,消费级硬件玩转编辑生成

FLUX.1 Kontext的开放权重变体

FLUX.1 Kontext模型上个月一经发布,就因为其强大的上下文生成和编辑功能广受好评。

与现有的文本到图像模型不同,FLUX.1 Kontext系列执行上下文图像生成,可以直接使用文本和图像进行提示,并无缝提取和修改视觉细节。

目前已经发布了适合快速迭代的专业版FLUX.1 Kontext[pro]和高配版FLUX.1 Kontext[max]

图像界的DeepSeek!12B参数对标GPT-4o,消费级硬件玩转编辑生成

FLUX.1 Kontext[dev]作为FLUX.1 Kontext最新发布的开源版本,不仅继承了其图像生成的优势,它还更专注于编辑任务,可以直接在消费类硬件上运行。

首先模型架构上,依旧基于的是FLUX.1模型,它是一种在图像自动编码器的潜在空间中训练的整流流Transformer模型,由双流块单流块混合构建而成。

图像界的DeepSeek!12B参数对标GPT-4o,消费级硬件玩转编辑生成

在此基础上,FLUX.1 Kontext[dev]采用标记序列构建位置信息编码进行优化:

  • 标记序列构建:图像通过冻结的FLUX自动编码器,编码成潜在的上下文图像标记,并输入到模型的视觉流中。
  • 位置信息编码:通过三维旋转位置嵌入(3D RoPE)对位置信息进行编码,为上下文标记的嵌入提供恒定偏移量。并将其视作为虚拟时间步,以清晰分离上下文和目标块,同时保持它们的内部空间结构。
图像界的DeepSeek!12B参数对标GPT-4o,消费级硬件玩转编辑生成

然后使用整流流匹配损失进行训练,在训练时从FLUX.1的文本到图像检查点开始,收集并整理数百万个关系对进行模型优化。

优化后得到的流匹配模型进行潜在对抗扩散蒸馏(LADD),在减少采样步骤的同时提高样本质量,使FLUX.1 Kontext[dev]更高效。

图像界的DeepSeek!12B参数对标GPT-4o,消费级硬件玩转编辑生成

最终得到的FLUX.1 Kontext[dev]模型包含120亿参数,可以更专注于编辑任务,支持迭代编辑,可以在各种场景和环境中保留角色特征,并允许用户进行精确的局部或全局编辑。

图像编辑新标准

实验引入自研的KontextBench基准进行模型性能验证,该基准包含1026个图像-提示对,涵盖局部编辑、全局编辑、角色参考、风格参考和文本编辑五个任务类别。

结果显示FLUX.1 Kontext[dev]在许多类别上都优于现有的开放式图像编辑模型和封闭模型,例如Bytedance Bagel、HiDream-E1-Full以及OpenAI的GPT-image-1等。

图像界的DeepSeek!12B参数对标GPT-4o,消费级硬件玩转编辑生成

另外,FLUX.1 Kontext[dev]还专门针对新的NVIDIA Blackwell架构进行了TensorRT权重优化,可以在保持高质量的图像编辑性能的同时,极大地提高推理速度并减少内存使用量。

图像界的DeepSeek!12B参数对标GPT-4o,消费级硬件玩转编辑生成

官方还提供了BF16、FP8和FP4 TensorRT的权重变体,用户可以自行对其速度、效率和质量进行调整,综合确保FLUX.1 Kontext[dev]充分利用最新的硬件功能。

在实际用户的反馈中,也发现FLUX.1 Kontext[dev]的推理速度较前代提升了4至5倍,模型在NVIDIA H100 GPU上运行,通常5秒内能够完成,在Replicate上的运行成本约为0.0067USD,或每1USD运行149次。

但是也有网友提到,在MacBook Pro的芯片上运行时,迭代时间较长,每次迭代都需要1分钟左右。

图像界的DeepSeek!12B参数对标GPT-4o,消费级硬件玩转编辑生成

那么欢迎你也一起来试一试,并将你的体验分享至评论区~

试玩链接:https://huggingface.co/spaces/black-forest-labs/FLUX.1-Kontext-Dev

论文链接:https://arxiv.org/abs/2506.15742
代码链接:https://github.com/black-forest-labs/flux/blob/main/docs/image-editing.md

参考链接:
[1]https://x.com/bfl_ml/status/1938257909726519640
[2]https://bfl.ai/announcements/flux-1-kontext-dev
[3]https://bfl.ai/models/flux-kontext
[4]https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev
[5]https://x.com/ComfyUI/status/1938259329498681385

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 7 月
 123456
78910111213
14151617181920
21222324252627
28293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...