扩散模型更懂复杂提示词!Pika北大斯坦福开源新框架,利用LLM提升理解力

1,506次阅读
没有评论

明敏 发自 凹非寺
量子位 | 公众号 QbitAI

Pika北大斯坦福联手,开源最新文本-图像生成/编辑框架!

无需额外训练,即可让扩散模型拥有更强提示词理解能力。

面对超长、超复杂提示词,准确性更高、细节把控更强,而且生成图片更加自然。

效果超越最强图像生成模型Dall·E 3和SDXL。

比如要求图片左右冰火两重天,左边有冰山、右边有火山。

SDXL完全没有符合提示词要求,Dall·E 3没有生成出来火山这一细节。

扩散模型更懂复杂提示词!Pika北大斯坦福开源新框架,利用LLM提升理解力

还能通过提示词对生成图像二次编辑。

扩散模型更懂复杂提示词!Pika北大斯坦福开源新框架,利用LLM提升理解力

这就是文本-图像生成/编辑框架RPG(Recaption,Plan and Generate),已经在网上引起热议。

扩散模型更懂复杂提示词!Pika北大斯坦福开源新框架,利用LLM提升理解力

它由北大、斯坦福、Pika联合开发。作者包括北大计算机学院崔斌教授、Pika联合创始人兼CTO Chenlin Meng等。

目前框架代码已开源,兼容各种多模态大模型(如MiniGPT-4)和扩散模型主干网络(如ControlNet)。

利用多模态大模型做增强

一直以来,扩散模型在理解复杂提示词方面都相对较弱。

一些已有改进方法,要么最终实现效果不够好,要么需要进行额外训练。

扩散模型更懂复杂提示词!Pika北大斯坦福开源新框架,利用LLM提升理解力

因此研究团队利用多模态大模型的理解能力来增强扩散模型的组合能力、可控能力。

从框架名字可以看出,它是让模型“重新描述、规划和生成”。

扩散模型更懂复杂提示词!Pika北大斯坦福开源新框架,利用LLM提升理解力

该方法的核心策略有三方面:

1、多模态重新描述(Multimodal Recaptioning):利用大模型将复杂文本提示拆解为多个子提示,并对每个子提示进行更加详细的重新描述,以此提升扩散模型对提示词的理解能力。

2、思维链规划(Chain-of-Thought Planning):利用多模态大模型的思维链推理能力,将图像空间划分为互补的子区域,并为每个子区域匹配不同的子提示,将复杂的生成任务拆解为多个更简单的生成任务。

扩散模型更懂复杂提示词!Pika北大斯坦福开源新框架,利用LLM提升理解力

3、互补区域扩散(Complementary Regional Diffusion):将空间划分好后,非重叠的区域各自根据子提示生成图像,然后进行拼接。

扩散模型更懂复杂提示词!Pika北大斯坦福开源新框架,利用LLM提升理解力

最后就能生成出一张更加符合提示词要求的图片。

扩散模型更懂复杂提示词!Pika北大斯坦福开源新框架,利用LLM提升理解力

RPG框架还可以利用姿态、深度等信息进行图像生成。

和ControlNet对比,RPG能进一步拆分输入提示词。

用户输入:在一间明亮的间里,站着一位身穿香槟色长袖正装、正闭着双眼的漂亮黑发女孩。房间左边放着一只插着粉色玫瑰花的精致蓝花瓶,右边有一些生机勃勃的白玫瑰。

基础提示词:一个漂亮女孩站在她的明亮的房间里。

区域0:一个装着粉玫瑰的精致蓝花瓶

区域1:一个身穿香槟色长袖正装的漂亮黑发女孩闭着双眼。

区域2:一些生机勃勃的白玫瑰。

扩散模型更懂复杂提示词!Pika北大斯坦福开源新框架,利用LLM提升理解力

也能实现图像生成、编辑闭环。

扩散模型更懂复杂提示词!Pika北大斯坦福开源新框架,利用LLM提升理解力

实验对比来看,RPG在色彩、形状、空间、文字准确等维度都超越其他图像生成模型。

扩散模型更懂复杂提示词!Pika北大斯坦福开源新框架,利用LLM提升理解力

研究团队

该研究有两位共同一作Ling Yang、Zhaochen Yu,都来自北大。

参与作者还有AI创企Pika联合创始人兼CTO Chenlin Meng

她是斯坦福计算机博士,在计算机视觉、3D视觉方面有着丰富学术经历,参与的去噪扩散隐式模型(DDIM)论文,如今单篇引用已有1700+。并有多篇生成式AI相关研究发表在ICLR、NeurIPS、CVPR、ICML等顶会上,且多篇入选Oral。

去年,Pika凭借AI视频生成产品Pika 1.0一炮而红,2位斯坦福华人女博士创办的背景,使其更加引人注目

扩散模型更懂复杂提示词!Pika北大斯坦福开源新框架,利用LLM提升理解力
左为郭文景(Pika CEO),右为Chenlin Meng

参与研究的还有北大计算机学院副院长崔斌教授,他还是数据科学与工程研究所长。

扩散模型更懂复杂提示词!Pika北大斯坦福开源新框架,利用LLM提升理解力

另外,斯坦福AI实验室博士Minkai Xu、斯坦福助理教授Stefano Ermon共同参与这项研究。

论文地址:https://arxiv.org/abs/2401.11708

代码地址:https://github.com/YangLing0818/RPG-DiffusionMaster

参考链接:
https://twitter.com/pika_research/status/1749956060868387101

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

扩散模型更懂复杂提示词!Pika北大斯坦福开源新框架,利用LLM提升理解力

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 1 月
1234567
891011121314
15161718192021
22232425262728
293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...