DALL·E 3关键技术公开！19页论文揭秘如何对提示词“唯命是从”

萧箫发自凹非寺
量子位 | 公众号 QbitAI

出场即炸场的DALL·E 3，又有新动向了！

这次直接宣布对ChatGPT Plus和企业版用户开放，还连带公开了更多“官方推荐案例”。

不仅如此，OpenAI还一纸论文透露了DALL·E 3的关键技术细节。

相比其他AI，DALL·E 3表现最优秀的地方，应该就要属对提示词的完美遵循了。

无论是整体的环境描写，还是精确到物体数量、着装、颜色这种细节叙述，DALL·E 3都能很好地理解，并生成对应的画作，丝毫不漏重点。

DALL·E 3关键技术公开！19页论文揭秘如何对提示词“唯命是从”

论文一公开，可以说是解决了“如何让DALL·E 3遵循指令”这一让诸多人困惑的问题，有网友感叹：

OpenAI终于又Open了？

DALL·E 3关键技术公开！19页论文揭秘如何对提示词“唯命是从”

一起来看看这篇DALL·E 3论文的关键细节，以及它的更多用例。

用数据集让DALL·E 3“唯命是从”

先来看看DALL·E 3论文最大的亮点：提示词遵循（prompt following）。

此前，不少绘画AI会刻意忽略提示词中的某些关键词、或是混淆提示词的含义（多义词如column，列还是柱子），简单来说就是文本提示词和画面细节没对齐。

OpenAI的研究人员在经过一番分析后认为，这是数据集的锅。

现有的图像文本对数据集，文字对图像的描述可以说是“惜字如金”。

尤其是从互联网上扒下来的数据集，大多数对图像的描述只有一句话，更别提细节了。包括环境、物体在内，容易忽略的文本描述主要有4类：

场景中物体描述，如厨房里的水槽、人行道上的停车标志等；
物体位置和数量描述
物体颜色和大小描述
图像中的文本描述（如呈现在商店招牌上的字母/汉字）

除此之外，还有不少互联网上扒下来图像的文本描述，直接就是错误或不相关的，例如梗图或Alt文本（图像加载失败时网页上呈现的文字描述）。

DALL·E 3关键技术公开！19页论文揭秘如何对提示词“唯命是从”

为此，有必要将这些图像对应的文本数据重新整理一遍，更准确地描述图像中的场景和物品进行描述。

光靠人力是不太可能的，毕竟要生成的“废话文学”太多了。

和RLHF一样，OpenAI同样将这个过程“自动化”了一波，让AI来完成这件事。

他们训练了一个“图像字幕器”（image captioner），专门用来给数据集中的图像重新生成文本描述。

这是“图像字幕器”给数据集中的部分图片生成文本描述的效果：

DALL·E 3关键技术公开！19页论文揭秘如何对提示词“唯命是从”

这下子描述就详细多了。

那么，用AI来合成文本，实际训练出来的模型是否真能提升生成效果？

研究人员用开源模型（如CLIP）测试了一波，得出的结论是可以。

DALL·E 3关键技术公开！19页论文揭秘如何对提示词“唯命是从”

不过也不能完全使用合成的文本描述，毕竟AI生成的内容可能有些“神秘共性”，直接全盘接受容易导致图像过拟合。

因此，OpenAI还在CLIP上尝试了一波合成文本描述-图像数据集的效果。

他们发现，数据集中混杂95%的合成文本-图像数据时，CLIP的效果是最好的。

DALL·E 3关键技术公开！19页论文揭秘如何对提示词“唯命是从”

最终，他们决定95%的图像用合成文本描述，剩下的5%图像依旧使用人工描述，用这个比例的文本-图像数据集重新训练了DALL·E 3，取得了不错的效果。

最后，OpenAI也采用人工评估的方法，对DALL·E 3和其他模型进行了测试。

评估方法大致像这样，询问人类哪个图像能更好地遵循提示词、或生成更好看的图像。

DALL·E 3关键技术公开！19页论文揭秘如何对提示词“唯命是从”

结果显示，DALL·E 3相比Midjourney 5.2、SDXL和DALL·E 2，在提示词遵循、风格匹配等任务测试上均取得了不错的效果。

DALL·E 3关键技术公开！19页论文揭秘如何对提示词“唯命是从”

已向企业版和Plus用户开放

除了这篇论文以外，OpenAI这次还公布了DALL·E 3的另一动向——向ChatGPT Plus和企业版开放。

在宣布这一消息的同时，OpenAI也给出了企业和机构使用DALL·E 3的建议，例如做科学项目：

DALL·E 3关键技术公开！19页论文揭秘如何对提示词“唯命是从”

搞网站设计：

DALL·E 3关键技术公开！19页论文揭秘如何对提示词“唯命是从”

或是帮企业设计LOGO：

DALL·E 3关键技术公开！19页论文揭秘如何对提示词“唯命是从”

当然，无论是ChatGPT Plus还是企业版，仍然也属于收费项目。

目前唯一可以免费玩到DALL·E 3的地方，应该还是微软的New Bing。

DALL·E 3关键技术公开！19页论文揭秘如何对提示词“唯命是从”

对于OpenAI带来的DALL·E 3新消息，不少网友感觉振奋。

有网友表示，DALL·E 3的出现真正给设计圈带来了改变，例如设计饮料包装等：

DALL·E 3关键技术公开！19页论文揭秘如何对提示词“唯命是从”

还有网友已经在催API的到来了：

DALL·E 3关键技术公开！19页论文揭秘如何对提示词“唯命是从”

但也有网友对这次更新不甚满意，尤其是对DALL·E 3论文涉及的技术信息表示了嘲讽：

直接用谷歌的T5文本编码器和卷积解码器，这就是公司发展太快的结果吗？

DALL·E 3关键技术公开！19页论文揭秘如何对提示词“唯命是从”

这里是网友提到的DALL·E 3论文细节：

DALL·E 3关键技术公开！19页论文揭秘如何对提示词“唯命是从”

要是对DALL·E 3的更多技术细节感兴趣，也可以到论文中找找答案~

论文地址：
https://cdn.openai.com/papers/dall-e-3.pdf

参考链接：
[1]https://twitter.com/OpenAI/status/1715050642560151963
[2]https://openai.com/blog/dall-e-3-is-now-available-in-chatgpt-plus-and-enterprise

— 完 —

「量子位2023人工智能年度评选」开始啦！

今年，量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项！欢迎扫码报名

MEET 2024大会已启动！点此了解详情。

DALL·E 3关键技术公开！19页论文揭秘如何对提示词“唯命是从”

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

DALL·E 3关键技术公开！19页论文揭秘如何对提示词“唯命是从”

2023 年 10 月
一	二	三	四	五	六	日
	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

DALL·E 3关键技术公开！19页论文揭秘如何对提示词“唯命是从”

萧箫发自凹非寺
量子位 | 公众号 QbitAI

用数据集让DALL·E 3“唯命是从”

已向企业版和Plus用户开放

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

DALL·E 3关键技术公开！19页论文揭秘如何对提示词“唯命是从”

萧箫 发自 凹非寺量子位 | 公众号 QbitAI

用数据集让DALL·E 3“唯命是从”

已向企业版和Plus用户开放

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

萧箫发自凹非寺
量子位 | 公众号 QbitAI