GPT-4o连验证码都解不了??SOTA模型成功率仅40%

500次阅读
没有评论

GPT-4o连验证码都解不了??SOTA模型成功率仅40%

MetaAgentX团队 投稿

量子位 | 公众号 QbitAI

当前最强多模态Agent连验证码都解不了?

MetaAgentX团队推出首个专注于“多模态交互智能体×CAPTCHA(人机验证)问题”的开放式研究平台——Open CaptchaWorld

该平台专门用于测试Agent解验证码的能力。

GPT-4o连验证码都解不了??SOTA模型成功率仅40%

实测结果显示:人类平均成功率达93.3%,SOTA多模态模型平均仅5%-40%不等。

GPT-4o都被难住了。

验证码是现阶段Agent部署的一大瓶颈

在真实网页场景中部署多模态Agent,你是否也被人机验证(CAPTCHA)卡住过?

项目团队发现,不少大型Benchmarks(包括AgentBench、VisualWebArena等)在构建过程中都刻意跳过了含验证码的网页,仿佛这道拦路虎根本不存在。

但现实很骨感:验证码从不是“特例”,而是任何实际任务中不可回避的存在,尤其在电商、登录、票务等高价值网页中更是常见。

于是,Open CaptchaWorld这个测试平台以及Benchmark应运而生:一个针对多模态大模型Agent的CAPTCHA解题平台与评估基准——专为视觉-语言-动作交互任务设计

无论是OpenAI的o3、Anthropic的Claude‑3.7-sonnet、还是Gemini‑2.5-pro,这些最新的多模态大模型Agent尽管在静态感知任务(如图文问答、UI理解)中表现出色,但在真实交互环境中常常卡在了CAPTCHA环节:

  • WebAgent在执行end-to-end任务时,常因验证码而被“卡死”;
  • AgentBench、VisualWebArena等主流评估集普遍过滤掉含CAPTCHA的网页;
  • 过去的验证码研究(如reCAPTCHA、DeepCAPTCHA)更聚焦静态识别,对交互、多步规划与状态跟踪能力评估严重不足

为了系统性地评估Agent在验证码中的真实表现,研究团队设计了一个全新的开放基准与平台——Open CaptchaWorld

这个平台不仅包含最新的现代验证码而且类型丰富(20种),全部在真实 Web 浏览环境中进行操作,真正复现 Agent 实际遇到的挑战:

“解图+理解规则+计划操作+逐步交互” = Agent能力的真实考验。

GPT-4o连验证码都解不了??SOTA模型成功率仅40%

Open CaptchaWorld平台

具体特点

1、 大规模、多样性以及覆盖全面:研究团队创作了商用的最新的20类现代验证码,累计225个样例;类型涵盖点击顺序、滑块对齐、图像选择、数字计数、拖拽匹配等。

GPT-4o连验证码都解不了??SOTA模型成功率仅40%

2、 交互真实:所有验证码均部署在网页环境中,Agent必须通过观察截图、点击、拖动等方式完成操作,模拟真实用户交互流程。

3、 提出新评估指标CAPTCHA Reasoning Depth:用于量化一个验证码背后需要多少步“视觉理解+认知计划+动作控制”的过程;是对传统“静态图像分类”评价方式的重要补充,更贴近Agent真实解题难度。

4、 对比分析详尽:对OpenAI-o3、GPT-4o、Claude-3.7、Gemini2.5-Pro等模型进行系统评估;人类解题成功率高达93.3%,最强模型OpenAI-o3仅为40.0%;并从策略偏差、视觉错误、执行失败等维度剖析失败原因。

数据构造方法

GPT-4o连验证码都解不了??SOTA模型成功率仅40%

Open CaptchaWorld的数据集构建遵循四阶段流程,旨在生成多样化、高质量、可交互的CAPTCHA样本,用于评估多模态智能体在真实网页场景下的表现。

第一步:图像素材构建(Type Related CAPTCHA Image Curation)

根据每类CAPTCHA的设计需求,由人类设计师或者GPT-4o生成具有变化性的图像素材。

包括目标位置、观察角度、对象排布、数字与元素分布等多种视觉因素的系统调整,确保每类任务在结构上具有足够的多样性与泛化性。

第二步:验证码生成(CAPTCHA Generation)

围绕构造好的图像素材,为每个实例配套生成自然语言指令,任务描述由人类设计或由大模型辅助生成,确保语言表达清晰,易于Agent理解。

指令内容涵盖点击、滑动、拖动、计数、比对等典型交互操作,结合网页前端组件实现真实交互逻辑。

第三步:推理深度估计(Reasoning Depth Estimation)

为精确刻画每道CAPTCHA的解题复杂度,引入“CAPTCHA Reasoning Depth”指标。

该指标通过人工注释者对解题过程的逐步分解,记录人类在完成任务时涉及的视觉识别、逻辑判断、记忆操作与交互控制等原子推理步骤,并据此评估任务的综合认知深度。

第四步:标准注释生成(Annotation)

最终由标注人员确认每个CAPTCHA实例的标准答案,包括操作路径、点击位置或数值输入结果。

所有任务均保证为人类易解(成功率高),同时具备统一的判定逻辑和网页反馈接口,为模型训练与评估提供稳定可靠的标签支撑。

多模态Agent在验证码面前“过度思考、频繁失败”

该团队发现,多数先进Agent在CAPTCHA面前显得手足无措,不仅成功率低,而且解题行为远不如人类高效。

例如在“序列点击”任务中:人类通常只需识别图案 → 记住顺序 → 一次性点击完成;

模型(如OpenAI-o3)往往会把操作细化为十余步,比如“记住第一个图标”、“确认当前状态”、“点击后等待反馈”…… 这种“过度分解任务”的现象。不仅拖慢操作流程,还增加了出错概率。

这类现象反映出当前Agent在高交互、高动态场景下的显著劣势:缺乏人类式的抽象、泛化与控制能力。

GPT-4o连验证码都解不了??SOTA模型成功率仅40%

除此之外研究团队还展示了当前主流多模态大模型Agent在Open CaptchaWorld上的成本-性能权衡关系

从下图所示,横轴为评估成本(以对数刻度表示),纵轴为CAPTCHA解题任务中的Pass@1成功率(百分比)。每个点代表一个具体模型的运行结果。

GPT-4o连验证码都解不了??SOTA模型成功率仅40%

从图中可以看出,OpenAI-o3虽然在成功率方面显著领先(达40.0%),但同时也是成本最高的模型,显示出较强的能力但较差的性价比。

而Gemini2.5-Pro和GPT-4.1等模型在保持相对较高成功率(约25%)的同时,成本控制更为合理,展现出较好的“单位预算表现”。

相比之下,Claude-3.5-Sonnet、GPT-4o与OpenAI-o1等模型尽管评估开销中等或偏高,但解题成功率较低,显示出在当前CAPTCHA场景下的适配能力仍较弱。

DeepSeek-V3和Claude-3.5-Haiku成本较低,成功率保持在15%~20%区间,体现出更优的成本效率平衡,适合作为轻量级基线。

总体来看,该图揭示了多模态 Agent 在真实交互任务中并不总是“越贵越强”,也突出了Open CaptchaWorld平台在分析Agent实用性、可部署性方面的重要价值。

未来的模型设计应更加关注效率与性能之间的协同优化。

Open CaptchaWorld平台为Agent开发者、基准设计者提供了新的思路。

也揭示了——

  • 当前Agent的真实“短板”——长序列任务动态交互和规划交互能力;
  • 现有Benchmark评估的盲区——大量省略了真实部署中不可或缺的“人机验证”环节;
  • 新模型设计方向——如何提升Agent在现实网页任务中的自动化与鲁棒性。
  • Agent时代下的新型Captcha设计——目前的Captcha迟早会被Agent能力增长而攻破,我们也需要实时更新设计新的Captcha来顺应技术的发展。

Open CaptchaWorld的提出旨在鼓励研究者在训练和评估Agent时,不再回避CAPTCHA问题,而是勇敢面对它,因为在现实世界中,如果连验证码都通过不了,这个Agent就无法落地。

更多细节欢迎阅读原文。

论文链接:https://arxiv.org/abs/2505.24878
Huggingface Spaces:https://huggingface.co/spaces/YaxinLuo/Open_CaptchaWorld
代码库 & 数据链接: https://github.com/MetaAgentX/OpenCaptchaWorld

— 完 —

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 6 月
 1
2345678
9101112131415
16171819202122
23242526272829
30  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...