DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

1,352次阅读
没有评论

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

DALL·E 3限量测试,已由微软Bing抢先开启,看看你是欧皇之一吗?

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究来自WindowsLatest

没收到资格也没关系,再加上第三方研究预览、OpenAI员工的内部试玩,各种测试案例纷纷涌现,包看过瘾。

最夸张的一个,要数“指定画面中出现50个不同物体”,结果足足画出了几百个。

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

除了简单平铺排列,更可以把这些物体组合得更有创意一些。

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

马骑宇航员这种反事实概念,过去OpenAI和谷歌的各种模型都只能画出宇航员骑马

在论文一般当成失败案例,当时还被AI悲观主义者马库斯好一顿嘲讽。

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

现在,DALL·E 3在ChatGPT加持下轻松搞定。

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

DALL·E 3这次这么大进步,不仅仅是OpenAI自己的努力,而是与微软通力合作的结果。

虽然没有明确说明,但贡献名单中研究部分就有至少3位微软工程师与研究员参与,推理优化部分更是大部分成员来自微软DeepSpeed团队。

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

回看GPT-4时还是主要由OpenAI内部研发,再给微软和其他研究机构开放权限一同测试。

这次合作模式的变化,也代表两家公司关系进一步加深

一张画指定50个物体

由微软Bing首席执行官Mikhail Parakhin确认,最幸运的百分之几用户已经获得测试资格了。

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

由于名额着实有限,等不及的网友纷纷在线提出脑洞,请有号的人帮忙测试。

提出画50个不同物体的网友,就是想测试DALL·E 3一张画中能容纳多少物体,类似大语言模型的“上下文窗口”

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

收到研究预览版的第三方设计Nathan Shipley接下了这个挑战。

首先他先让ChatGPT随机列出50个日常物体,然后直接要求把这些物体都画在一幅画里就可以了。完整的提示词是ChatGPT自己补全,再由DALL·E 3画出来。

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

接下来Nathan问:“你能创建一个冲浪者在努力冲浪时将这些物体堆成一堆的图像吗?”

ChatGPT在提示词中补充了一些细节:

一名中年波利尼西亚男性冲浪者有被阳光吻过的皮肤,他举着50种物品,奋力冲浪,其中包括茶杯、自行车、雨伞……海浪在他周围拍打,他的表情充满决心和轻微的恐慌,试图平衡这些物体和他的冲浪板。

结果一次尝试就得到了基本符合要求的图像,只是人物表情看起来更像是非常恐慌,而不是轻微恐慌。

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

后来Nathan又提出换一个更低的视角的要求,这回ChatGPT把提示词中的人物描述换成了“一名西班牙老年女性”。

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

围观网友都觉得非常惊人,但也指出为什么铅笔的大小与其他物体不成比例。

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

有人猜测模型只是知道某样物体长什么样子,但不知道其相对大小,尤其钢笔宣传图片通常会采用近景。

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

此外Nathan还从ChatGPT嘴里拷问出了用户都能控制画面的哪些参数。

ChatGPT回复如下:

  • 描述:您可以提供所需图像的详细描述。您越具体和详细,生成的图像就越接近您的愿望。

  • 风格和媒介:您可以指定图像的风格或媒介,例如“油画”、“照片”、“插画”、“卡通”、“水彩画”、“3D渲染”等。

  • 分辨率:默认情况下,图像以1729×1024分辨率生成。但如果您的描述建议使用全身肖像或更适合高纵横比的内容,则将以1024×1792生成图像。如果需要,您还可以请求正方形分辨率 (1024×1024)。

  • 图片数量:如果您没有指定,我通常会根据您的描述创建四个不同的图片。但是,您可以请求特定数量(最多四个)。

  • 修改:如果您对初始结果不满意,可以提供反馈并请求修改。虽然我无法直接修改现有图像,但我可以使用您的反馈来生成更符合您的愿景的新图像。

  • 随机种子:如果您想修改以前的图像,我可以使用该图像元数据中的种子来生成新版本。这确保了原始图像和修改后的图像之间的一定一致性。

  • 请注意,存在某些限制。例如公众人物的形象,以及最近100年内的艺术家的风格,都无法直接创建。

重点在后面:

然而,我可以提供替代方案或使用形容词来捕捉特定风格的本质,而无需直接引用它。

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

马骑宇航员难题破解

OpenAI内部员工中,Will DePue是最积极公开DALL·E 3试玩结果的了。

在马骑宇航员测试中,他表示其实也不是100%成功。

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

两至三次尝试之内就能搞定,因为GPT-4在与你一起完善提示词,直到写对为止。

只要付出一些努力,你就能得到几乎所有想要的。

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

有网友尝试用MidJourney获得相同的结果,只能说也不是完全不行,就是要费老大劲了。

几乎不可能,需要大量的提示工程,而且很难复现。

如果你是MidJourney资深用户,不妨试试能不能成。

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

网友提出的“8个长颈鹿喝水”挑战中,DALL·E 3再一次展现出很难把数字数准确的弱点

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究数数图中一共有几个长颈鹿

更多错误尝试中还出现了一个双头长颈鹿。

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

让AI正确计数这次没有解决,但至少解决了理解空间关系的问题。

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

网友提出的“四匹斑马在草原上奔跑,一头狮子在后面追赶,上面有一只鹰,图片中没有其他动物”挑战中,空间关系基本正确,但是多了一只斑马。

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

相比之下,DALL·E 2和Stable Diffusion对空间关系的理解都要更差。

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

OpenAI负责ChatGPT企业版的Adam Goldberg也晒出不少高质量结果,不过没有分享提示词。

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

负责AI写代码和调用工具的Jerry Tworek则搞出不少抽象概念画,如“机械细胞的分裂”

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

以及“横跨银河系的计算机程序树”

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

微软OpenAI通力合作

DALL·E 3这次巨大提升,除了整合ChatGPT,图像生成部分具体是怎么做到的呢?

很可惜,鉴于OpenAI越来越Close的趋势,很可能不会像前两代那样公布论文了,只能从贡献名单中略作猜测。

DALL·E 2论文共有5位作者。

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

而DALL·E 3暂且不看产品、安全、公共沟通和法律等团队,光研究部分就有18人参与

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

其中提出一致性模型(Consistency Models)的清华校友宋飏(Yang Song)在列。

一致性模型比当前最流行的扩散模型速度更快,3.5秒就能生成64张256*256的图像。

但宋飏此次属于次要研究贡献,不确定是否DALL·E 3使用了一致性模型,更可能是在改良扩散模型中借鉴了他的方法。

此外,除了DALL·E 2作者和ChatGPT团队的欧阳龙等,至少有3位研究者来自微软。

Jianfeng Wang博士毕业于中科大,在微软任主任研究员。

Lijuan Wang博士毕业于清华大学,在微软任主任研究经理。

两人曾参与无限画布图片生成NUWA-Ininity的研究。

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

李琳婕(Lindsey Li)是北理工校友,分别从普渡大学和UC圣地亚哥获得两个硕士学位,在微软任资深研究员,在多模态领域有多篇顶会论文。

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

除了研究方面,DALL·E 3的推理优化微软DeepSpeed团队深度参与。

Deepspeed是开源的深度学习优化库,减少计算功耗和内存使用,在现有硬件上通过更好的并行来训练和推理大规模分布式模型。

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

其中不少人都表示很高兴能参与这项工作,并对DALL·E 3的发布很激动。

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

最后,在特别贡献中,微软的Bing首席执行官Mikhail ParakhinAzure云首席副总裁Misha Bilenko都在其中。

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

微软之前的发布活动中也确认了Bing会直接集成DALL·E 3。

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

按照现在规则,Bing上的DALL·E 2是免费的。会发放99个加速代币,没代币只是需要更长时间排队。

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

虽然10月份DALL·E 3在ChatGPT Plus要收费每月20美元。

但既然GPT-4在Bing上是免费提供的,将来DALL·E 3免费玩也可以期待一波了~

参考链接:
[1]
https://x.com/willdepue/status/1705005718666158107
[2]https://x.com/CitizenPlain/status/1705248617131291032
[3]https://x.com/MParakhin/status/1704563792645079143

「量子位2023人工智能年度评选」开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名 DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究 

最具影响力的年度智能商业峰会MEET 2024智能未来大会已启动!点此了解详情

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 9 月
 123
45678910
11121314151617
18192021222324
252627282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...