DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”

1,379次阅读
没有评论

萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

出场即炸场的DALL·E 3,又有新动向了!

这次直接宣布对ChatGPT Plus企业版用户开放,还连带公开了更多“官方推荐案例”。

DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”

不仅如此,OpenAI还一纸论文透露了DALL·E 3的关键技术细节

相比其他AI,DALL·E 3表现最优秀的地方,应该就要属对提示词的完美遵循了。

无论是整体的环境描写,还是精确到物体数量、着装、颜色这种细节叙述,DALL·E 3都能很好地理解,并生成对应的画作,丝毫不漏重点。

DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”

论文一公开,可以说是解决了“如何让DALL·E 3遵循指令”这一让诸多人困惑的问题,有网友感叹:

OpenAI终于又Open了?

DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”

一起来看看这篇DALL·E 3论文的关键细节,以及它的更多用例。

用数据集让DALL·E 3“唯命是从”

先来看看DALL·E 3论文最大的亮点:提示词遵循(prompt following)。

此前,不少绘画AI会刻意忽略提示词中的某些关键词、或是混淆提示词的含义(多义词如column,列还是柱子),简单来说就是文本提示词和画面细节没对齐。

OpenAI的研究人员在经过一番分析后认为,这是数据集的锅。

现有的图像文本对数据集,文字对图像的描述可以说是“惜字如金”。

尤其是从互联网上扒下来的数据集,大多数对图像的描述只有一句话,更别提细节了。包括环境、物体在内,容易忽略的文本描述主要有4类

  • 场景中物体描述,如厨里的水槽、人行道上的停车标志等;

  • 物体位置和数量描述

  • 物体颜色和大小描述

  • 图像中的文本描述(如呈现在商店招牌上的字母/汉字)

除此之外,还有不少互联网上扒下来图像的文本描述,直接就是错误或不相关的,例如梗图或Alt文本(图像加载失败时网页上呈现的文字描述)。

DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”

为此,有必要将这些图像对应的文本数据重新整理一遍,更准确地描述图像中的场景和物品进行描述。

光靠人力是不太可能的,毕竟要生成的“废话文学”太多了。

和RLHF一样,OpenAI同样将这个过程“自动化”了一波,让AI来完成这件事。

他们训练了一个“图像字幕器”(image captioner),专门用来给数据集中的图像重新生成文本描述。

这是“图像字幕器”给数据集中的部分图片生成文本描述的效果:

DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”

这下子描述就详细多了。

那么,用AI来合成文本,实际训练出来的模型是否真能提升生成效果?

研究人员用开源模型(如CLIP)测试了一波,得出的结论是可以。

DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”

不过也不能完全使用合成的文本描述,毕竟AI生成的内容可能有些“神秘共性”,直接全盘接受容易导致图像过拟合

因此,OpenAI还在CLIP上尝试了一波合成文本描述-图像数据集的效果。

他们发现,数据集中混杂95%的合成文本-图像数据时,CLIP的效果是最好的。

DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”

最终,他们决定95%的图像用合成文本描述,剩下的5%图像依旧使用人工描述,用这个比例的文本-图像数据集重新训练了DALL·E 3,取得了不错的效果。

最后,OpenAI也采用人工评估的方法,对DALL·E 3和其他模型进行了测试。

评估方法大致像这样,询问人类哪个图像能更好地遵循提示词、或生成更好看的图像。

DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”
DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”

结果显示,DALL·E 3相比Midjourney 5.2、SDXL和DALL·E 2,在提示词遵循、风格匹配等任务测试上均取得了不错的效果。

DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”

已向企业版和Plus用户开放

除了这篇论文以外,OpenAI这次还公布了DALL·E 3的另一动向——向ChatGPT Plus企业版开放。

在宣布这一消息的同时,OpenAI也给出了企业和机构使用DALL·E 3的建议,例如做科学项目:

DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”

搞网站设计

DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”

或是帮企业设计LOGO:

DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”

当然,无论是ChatGPT Plus还是企业版,仍然也属于收费项目。

目前唯一可以免费玩到DALL·E 3的地方,应该还是微软的New Bing。

DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”

对于OpenAI带来的DALL·E 3新消息,不少网友感觉振奋。

有网友表示,DALL·E 3的出现真正给设计圈带来了改变,例如设计饮料包装等:

DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”

还有网友已经在催API的到来了:

DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”

但也有网友对这次更新不甚满意,尤其是对DALL·E 3论文涉及的技术信息表示了嘲讽:

直接用谷歌的T5文本编码器和卷积解码器,这就是公司发展太快的结果吗?

DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”

这里是网友提到的DALL·E 3论文细节:

DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”

要是对DALL·E 3的更多技术细节感兴趣,也可以到论文中找找答案~

论文地址:
https://cdn.openai.com/papers/dall-e-3.pdf

参考链接:
[1]https://twitter.com/OpenAI/status/1715050642560151963
[2]https://openai.com/blog/dall-e-3-is-now-available-in-chatgpt-plus-and-enterprise

「量子位2023人工智能年度评选」开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名 

MEET 2024大会已启动!点此了解详情

DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 10 月
 1
2345678
9101112131415
16171819202122
23242526272829
3031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...