多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距

533次阅读
没有评论

多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距

首个聚焦于高分辨率交通图(主要为地铁图)的多模态推理评测基准

ReasonMap团队 投稿

量子位 | 公众号 QbitAI

近年来,大语言模型(LLMs)以及多模态大模型(MLLMs)在多种场景理解和复杂推理任务中取得突破性进展。

然而,一个关键问题仍然值得追问:多模态大模型(MLLMs),真的能“看懂图”了吗?

特别是在面对结构复杂、细节密集的图像时,它们是否具备细粒度视觉理解与空间推理能力,比如挑战一下高清地铁图这种。

多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距

为此,来自西湖大学、新加坡国立大学、浙江大学、华中科技大学的团队提出了一个全新的评测基准ReasonMap

多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距

这是首个聚焦于高分辨率交通图(主要为地铁图)的多模态推理评测基准,专为评估大模型在理解图像中细粒度的结构化空间信息方面的能力而设计

结果发现,当前主流开源的多模态模型在ReasonMap上面临明显性能瓶颈,尤其在跨线路路径规划上常出现视觉混淆或站点遗漏。

而经强化学习后训练的闭源推理模型(如 GPT-o3)在多个维度上显著优于现有开源模型,但与人类水平相比仍存在明显差距。

在面对不同国家地区的地铁图中,四个代表性 MLLM(Qwen2.5-VL-72B-I(蓝色)、 InternVL3-78B(黄色)、 OpenAI o3(绿色)和 Doubao-415(红色) )的准确率如下图所示。左图为短问题,右图为长问题。

多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距

看得出来北京、杭州的地铁图难倒了一大片模型。

每个城市都标有相应的地铁图难度。测试集样本分布如下(奥克兰 32 个样本,洛杉矶 34 个样本,迈阿密 7 个样本,里斯本 35 个样本,日内瓦 18 个样本,北京 40 个样本,杭州 39 个样本,布达佩斯 17 个样本,新加坡 39 个样本,罗马 40 个样本,多伦多 11 个样本)。

评测基准ReasonMap

与传统视觉问答(VQA)不同,ReasonMap 更强调图像中的空间关系和路线推理,具备以下几个特点:

高分辨率挑战:数据集中每张地图图像平均分辨率高达 5839 × 5449,远高于现有视觉推理任务,对模型的图像编码能力提出更高要求。

难度感知设计:我们为图像设置了难度标签,并保证问答对在不同难度层级中的均衡分布,帮助更全面地评估模型能力。

多维度评估体系:不仅考察模型回答的准确性,还对模型路线的质量包含路径合理性和换乘策略等角度进行细粒度评估。

贴近真实使用场景:任务直接基于图像推理,不依赖结构化中间件,更接近人类使用地图时的思维方式。

为了构建这个大规模、高质量的评测数据集,团队设计了一套高效的半自动化标注流程,以极低的人力成本,从国内外多个城市的地铁图中自动生成推理任务和问答对。

具体优势包括,它可以支持题目难度调控,团队为不同问题设计了难度等级,便于模型评估和对比分析;以及多样化问题模板,覆盖单线直达、多线换乘、路径最短、站点经过等多种典型场景;此外,它还具有高效扩展性,标注与验证流程可快速适配新城市,实现低成本规模扩展。

多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距

评估结果

ReasonMap 的核心目标是评估多模态大模型在细粒度视觉推理任务中的真实能力,尤其关注近年来兴起的基于强化学习后训练(Reinforcement Learning Fine-tuning)的长思考模型。

团队在 15 个领先的多模态大模型上进行了系统测试,涵盖了多个开源与闭源体系,包括:

强推理能力模型,如 GPT-o3、Gemini 2.5、Doubao 1.5 Pro、QvQ-72B、Skywork-R1V等;

通用多模态模型,如 GPT-4o、Qwen-VL2.5、InternVL 3等。

通过将高分辨率图像与空间推理任务结合,团队对这些模型的路径规划正确性、合理性和视觉理解粒度进行了深入对比分析。同时,团队进一步将视觉输入mask掉,分析纯文本输入下的模型表现。

多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距

同时也对推理错误案例进行了细致分析,并将其进行系统分类,涵盖视觉混淆、格式错误、幻觉、拒绝回答等多种类型。这些分析揭示了当前多模态大模型在复杂图像理解中的薄弱环节,为未来模型在细粒度视觉推理方向的优化提供了明确的改进方向和实践参考。

多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距

实验发现,ReasonMap 有效放大了多模态模型在真实细粒度视觉推理任务中的差距,其显示出强区分力,成为判断模型是否具备真实视觉-空间推理能力的重要基准工具。

论文链接:https://arxiv.org/abs/2505.18675
项目主页:https://fscdc.github.io/Reason-Map/
代码:https://github.com/fscdc/ReasonMap
数据集:https://huggingface.co/datasets/FSCCS/ReasonMap

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 6 月
 1
2345678
9101112131415
16171819202122
23242526272829
30  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...