GitHub一周2000星!国产统一图像生成模型神器升级,理解质量双up,还学会了“反思”

769次阅读
没有评论

GitHub一周2000星!国产统一图像生成模型神器升级,理解质量双up,还学会了“反思”

显著增强上下文理解能力、指令遵循能力和图像生成质量

允中 发自 凹非寺

量子位 | 公众号 QbitAI

国产开源统一图像生成模型,技术重大升级!

新进展来自智源研究院:

一模支持文生图、图像编辑、主题驱动图像生成的OmniGen,2.0新版本正式发布。

具体来说,OmniGen2在保持简洁架构的基础上,显著增强了上下文理解能力、指令遵循能力和图像生成质量

同时,OmniGen2全面继承了其基座多模态大模型在上下文理解与生成方面的能力,同步支持图像和文字生成,进一步打通了多模态技术生态

模型上线即引发开源社区广泛讨论,发布一周GitHub星标突破2000,X上相关话题浏览量数十万

GitHub一周2000星!国产统一图像生成模型神器升级,理解质量双up,还学会了“反思”

现在科研体验版已开放,可抢先尝试图像编辑、上下文参照的图像生成等特色能力(链接见文末)

官方还承诺,OmniGen2模型权重、训练代码及训练数据将全面开源,为社区开发者提供优化与扩展的基础。

多种玩法,提示词就能解锁

OmniGen2的玩法简单,只需要输入提示词,就能解锁丰富的图像编辑与生成能力。

1. 基于自然语言指令的图像编辑

OmniGen2支持基于自然语言指令的图片编辑功能,可实现局部修改操作,包括物体增删、颜色调整、人物表情修改、背景替换等。

GitHub一周2000星!国产统一图像生成模型神器升级,理解质量双up,还学会了“反思”

2. 多模态上下文参考的图像生成

OmniGen2可从输入图像中提取指定元素,并基于这些元素生成新图像。例如,将物品/人物置于新的场景中。当前OmniGen2更擅长保持物体相似度而不是人脸相似度。

GitHub一周2000星!国产统一图像生成模型神器升级,理解质量双up,还学会了“反思”

3. 文生图

OmniGen2能够生成任意比例的图片。

GitHub一周2000星!国产统一图像生成模型神器升级,理解质量双up,还学会了“反思”

从创新架构到图像生成反思机制

再来看看具体技术细节。

分离式架构+双编码器策略

OmniGen2采取了分离式架构解耦文本和图像,同时采用了ViT和VAE的双编码器策略。

不同于其他工作,ViT和VAE独立作用于MLLM和Diffusion Transformer中,提高图像一致性的同时保证原有的文字生成能力。

GitHub一周2000星!国产统一图像生成模型神器升级,理解质量双up,还学会了“反思”

数据生成流程重构

OmniGen2也在探索解决阻碍领域发展的基础数据和评估方面的难题。

相关的开源数据集大多存在固有的质量缺陷,尤其是在图像编辑任务中,图像质量和质量准确度都不高。而对于图片上下文参考生成任务,社区中缺乏相应的大规模多样化的训练数据。这些缺陷极大地导致了开源模型和商业模型之间显著的性能差距。

为了解决这个问题,OmniGen2开发了一个从视频数据和图像数据中生成图像编辑和上下文参考数据的构造流程。

GitHub一周2000星!国产统一图像生成模型神器升级,理解质量双up,还学会了“反思”

图像生成反思机制

受到大型语言模型自我反思能力的启发,OmniGen2还探索了将反思能力整合到多模态生成模型中的策略。

基于OmniGen2的基础模型构建了面对图像生成的反思数据

反思数据由文本和图像的交错序列组成,首先是一个用户指令,接着是多模态模型生成的图像,然后是针对之前生成输出的逐步反思。

每条反思都涉及两个关键方面:

  1. 对与原始指令相关的缺陷或未满足要求的分析;
  2. 为解决前一幅图像的局限性而提出的解决方案。
GitHub一周2000星!国产统一图像生成模型神器升级,理解质量双up,还学会了“反思”

经过训练的模型具备初步的反思能力,未来目标是进一步使用强化学习进行训练。

GitHub一周2000星!国产统一图像生成模型神器升级,理解质量双up,还学会了“反思”

新基准

OmniGen2在已有基准上取得了颇具竞争力的结果,包括文生图,图像编辑。

GitHub一周2000星!国产统一图像生成模型神器升级,理解质量双up,还学会了“反思”

然而,对于图片上下文参考生成(in-context generation)任务,目前还缺乏完善的公共基准来系统地评估和比较不同模型的关键能力。

现有的上下文图像生成基准在捕获实际应用场景方面存在不足。它们不考虑具有多个输入图像的场景,并且受到上下文类型和任务类型的限制。同时,先前的基准使用CLIP-I和DINO指标来评估上下文生成的图像的质量。这些指标依赖于输入和输出之间的图像级相似性,这使得它们不适用于涉及多个主题的场景,并且缺乏可解释性。

为了解决这一限制,团队引入了OmniContext基准,其中包括8个任务类别,专门用于评估个人、物体和场景的一致性

数据的构建采用多模态大语言模型初筛和人类专家手工标注相结合的混合方法。

GitHub一周2000星!国产统一图像生成模型神器升级,理解质量双up,还学会了“反思”

作为首个在该基准上接受评估的模型,OmniGen2取得了7.18的总体得分,超越了BAGEL等其他领先的开源模型,证明其能较好地平衡提示词遵循能力和主体一致性,在多种任务场景下都能稳定发挥 。

此外,OmniGen2依托智源研究院自研的大模型训练推理并行框架FlagScale,开展推理部署优化工作。通过深度重构模型推理链路,并融合TeaCache缓存加速策略,实现32%的推理效率提升,大幅缩短响应时间并强化服务效能。

同时,框架支持一键式跨机多实例弹性部署,有效提升集群资源整体利用率。团队将持续推进软硬协同优化,构建高效推理部署能力体系。

OmniGen2的模型权重、训练代码及训练数据将全面开源,为开发者提供优化与扩展的新基础,推动统一图像生成模型从构想加速迈向现实。

OmniGen2相关链接

Github: https://github.com/VectorSpaceLab/OmniGen2/
论文:https://arxiv.org/abs/2506.18871模型:https://huggingface.co/BAAI/OmniGen2科研体验版链接:https://genai.baai.ac.cn

— 完 —

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 7 月
 123456
78910111213
14151617181920
21222324252627
28293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...