大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

1,150次阅读
没有评论

丰色 发自 凹非寺
量子位 | 公众号 QbitAI

GPT-4V挑战视觉错误图,结果令人“大跌眼镜”。

像这种判断“哪边颜色更亮”的题,一个没做对:

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

读图片中隐藏信息的也傻傻看不出,怎么问都说“没有啊”

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

但是呢,这种人类乍一看绝对会错的图,它又成功答对:

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

以及这样的错位图,它对了又没完全对。。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

(GPT-4V直接看出来头盔是位于男的大腿上的,没有女的,但它还是表示图里有俩人,另一个躲在男的身后戴着那顶头盔==)

看完这些,是不是觉得很迷?

整个一“该对的不对,该错的又对了”。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了
大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

测试者则表示:

在测之前,他以为GPT-4V对这种挑战完全不在话下,谁知结果竟是这样。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

不止是他,网友也都不理解GPT-4V作为一个“精准的”AI系统,按理很智能,为什么还会犯和人类一模一样的错觉??!

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

所以,这到底怎么回事?

GPT-4V五大错觉挑战

下面是来自网友的更多测试案例。

首先是次次都错误的颜色错觉题。

(1)除了开头的两颗小树图,还有这个:

问它哪边的绿色更亮一些,果不其然还是左边亮,右边暗,实际明明都一样。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

(2)还有这张稍微复杂一点的:

两只眼睛其实都是灰色,但让GPT-4V来描述图像时,它回答一只为蓝色,另一只做了灰度处理,无法得知颜色。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

(3)这张就更别提了,直接被糊弄地死死的。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

当然,这确实很难,大部分人类也识别不出来所有的球其实都是棕色

其次是会产生动态错觉的图。

(1)有一点意外,当我们问GPT-4V“你看见了什么?描述细节”时,它直接挑明了这是一张看久了就会让人产生眩晕感的错觉图,本质就是一些波浪线而已。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

(2)这张也没有难倒它。

但奇怪的是问它图中有几种颜色,它怎么都只能识别出黄色和蓝色,看不到黑色和白色。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

接下来是另一类比较平面的错觉图。

(1)如开头所示的这张:

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

一般人类真的表示很懵圈,但是GPT-4V居然对了。

But,别急!!有人拿着测试者的图去问“自己的”GPT-4V,让它再检查一下时,它居然改变了答案。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

然而还没完。评论区惊现套娃操作,有人又拿着这俩人的对话图再问GPT-4V,您猜怎么着?它又改回去了。。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

大伙可是玩上瘾了,又是一次又一次套娃。好在最终GPT-4V坚持了己见。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

总的来说,对于这种错觉陷阱是完全没问题。

(2)我们自己也测了一个长度错觉题:

结果是so easy~

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

再来一组找隐藏信息的图。

很遗憾,这种对于人类来说真的还算轻松的题,GPT-4V是一点也搞不定。

(1)先看这张,“远看”可以看到“NYC”三个大写字母。但它描述了一堆有的没的,就是表示没发现任何隐藏信息。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

(2)如果说上门这个有点隐晦,看不出也罢。但对于这种图形隐藏,它也不行。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

它描述到的只有其中的小女孩,即使测试者让它“往远了看,又没有新发现”,也无济于事。

不过,如果我们把这张图片手动缩小再丢给它,它行了,看到了骷髅。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

最后是一组真实世界的错位图。

(1)除了开头展示的人骑摩托,这张小猫“悬浮”,它居然对了。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

(2)这张惊悚图,也OK。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

(3)但这个就失败了,实际后面是一只狗和小baby的重合,它认成法斗犬幼崽。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

(4)至于这张,它压根儿就没提鞋子的事儿,说了也些不痛不痒的话。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

为什么会这样?

所以,为什么会发生上面这些情况:有的错觉它可以识别出来,有的又表现得很差劲?

首先,对于颜色错觉的图,网友首先认为是提示词的问题。

就像两颗小树那张,我们问它“哪个更亮”,其实就是给了GPT-4V暗示或偏见,它会顺着咱的偏见来回答。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

我们自己的测试也是如此:

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

但如果我们不带立场的问:图中两种颜色一样吗?它完全没问题。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

不过,也有网友指出,当我们问它哪棵树更亮时,如果是非常严谨地对所有像素进行平均,GPT-4V的回答没有毛病。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

甚至有网友还用测色计实测了一把:

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了
大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

但!又有人指出如果只显示一部分时,两者明明一样。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

暂且不再争论这个问题,可以肯定的是,“提示词”的使用方法会对它的判断造成影响是没问题的。

另外,网友发现:

如果我们去追问GPT-4V,让它再仔细确认一下,它也能纠正回答

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

至于无法识别远景图像的问题,有网友认为这可能是因为GPT-4V只会从左往右地读取图像。

而对于“为什么有时它会和人类一样发昏被错觉误导、完全不像个智能AI”的疑问,不少人则表示这毫不意外,是训练问题。

即大模型是根据人类数据、人的反馈、人的注释进行训练的,自然会产生和人一样的错误。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

因此,还有人戏谑:

看来我们人类创造了那么多科幻作品,描述AI是如何冷酷、完美,但当现在我们真正拥有它时,发现它也不过如此。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

(手动狗头)

你认为该如何让GPT-4V的错觉识别能力更强呢?

One More Thing

值得一提的是,我们也测试了其中的一些案例。

发现GPT-4V的表现不大一样,有些题它在“我们这里”是可以的。

比如这张判断球颜色的:

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

还有这个:

尽管把大图认成老女人而非骷髅,但还是表明它可以“远观” 的。

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

参考链接:
[1]
https://twitter.com/fabianstelzer/status/1717131235644875024
[2]https://twitter.com/BeyondTodAI/status/1713279431681118557
[3]https://twitter.com/janbobrowicz/status/1717229335076393350

「量子位2023人工智能年度评选」开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名 

MEET 2024大会已启动!点此了解详情

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 11 月
 12345
6789101112
13141516171819
20212223242526
27282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...