GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!

380次阅读
没有评论

GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!

GPT-5模型能力的提升,在宝可梦这个舞台上才被完全体现出来?

henry 发自 凹非寺

量子位 | 公众号 QbitAI

又是一场酣畅淋漓的战斗!

宝可梦主播GPT-5在直播间鏖战一小时,成功击败赤爷(Red),公屏瞬间刷满GG(Good Game)。

GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!

根据推特博主Clad3815的最新战报,GPT-5仅用9517步就放倒了赤爷,通关《宝可梦水晶》。

相比之下,o3则用了27040步,所用步数几乎是GPT-5的三倍。

换句话说,GPT-5不吃不喝连肝一周多一点(202小时)就能通关的《宝可梦水晶》,换成o3需要近一个月。

如果把视角拉回到普通人类玩家身上,通关《宝可梦水晶》的时间通常在5天左右(每天8小时)。

基于此,不少玩家已经开始留言,请继续征战下一代宝可梦!

GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!

那么,GPT-5是怎么做到的?

赤爷不语,GPT-5登顶宝可梦

在《宝可梦水晶》的剧情中,玩家从小镇出发,选择宝可梦,挑战道馆馆主、收集徽章,阻止火箭队的阴谋,最终迎战最强训练家——赤红(《宝可梦红/蓝》的主角)

而这次,GPT-5就化身小智,成为了新的挑战者——并一举击败赤爷,登顶宝可梦。

GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!

除了我们开头提到的,GPT-5仅用了o3三分之一的步数就实现了通关,在《宝可梦水晶》全部的主线任务中,GPT-5也是按照剧情一路平推,效率远超o3好几倍。

(注:在《宝可梦水晶》中,玩家击败boss后仍然可以自由探索收集宝可梦,所以直播还开着。)

例如,在收集全部16枚游戏徽章的主线中,GPT-5仅用了9205步,而o3则耗费了22334步。

更惊人的是,从收集完所有徽章到战胜赤爷,o3还需要近5000步,而GPT-5仅用了312步,加速了十几倍。

GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!

同样的,在四天王和冠军的剧情中,GPT-5也是仅花了7329步,而o3则用了两倍多的步数(18115步)。

GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!

此外,在通关《宝可梦水晶》之前,GPT-5还被用来通关《宝可梦红》(游戏长度约为《宝可梦水晶》的一半)。

GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!

赤爷不语,依旧是3倍的效率碾压。

对此,OpenAI的总裁兼联合创始人Greg Brockman也是亲自转发表示认可!

GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!

看到GPT-5的生猛表现,Clad老哥总结了这么几个原因:

  • 幻觉少,速度快:GPT-5的“幻觉”明显比o3少,这也是它速度提升的主要原因。
  • 空间推理强:o3经常试图硬穿墙,复杂区域容易迷路,而GPT-5能规划较长行动序列,几乎不出错,节省大量时间。
  • 目标规划更好:GPT-5在规划自身目标并执行上表现出色。

难道说,GPT-5模型能力的提升,在宝可梦这个舞台上才被完全体现出来?

GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!

(让子弹多飞一会儿)

不过,必须说明的是——让大模型玩宝可梦并不新鲜。

早在GPT-5之前,Google的Gemini和Anthropic的Claude就曾挑战过宝可梦。

其中,Gemini 2.5 Pro在今年五月的直播中,成功通关了《宝可梦蓝》,而Claude就比较惨了,至今仍被困于火箭队。

GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!

那么问题来了:为啥AI大模型都如此偏爱这款上世纪的怀旧游戏呢?

宝可梦是新的benchmark?

要回答上面的问题,我们得先知道大模型是怎么玩宝可梦的。

一般来说,大模型玩宝可梦的基本步骤如下:

  • 提供一个系统提示,包含关于如何进行游戏的实质性建议
  • 提供带有额外信息叠加的游戏截图
  • 提供来自游戏内存(RAM)的关键信息
  • 提供保存文本以进行规划的能力
  • 提供一个工具,可以将文本指令转换为模拟器中的按键操作
  • 提供路径规划工具
  • 让上下文能够被自动清理并定期总结
  • 一个额外的用来“自我批评”的Critic/Guide模型。它们定期对主模型进行评审,并配备系统提示以帮助主模型避免常见失败模式。
GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!

此外,大模型还会专门构建一个带标记的小地图,帮助其在游戏世界里定位,这类似于人类玩家在玩游戏时脑补地图的方式。

GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!

综上,我们就获得了一个基本印象:在宝可梦游戏中,大模型通过多层信息整合、规划、执行与自我纠错,实现了接近人类玩家的决策能力。

由此,宝可梦游戏就能作为衡量模型上下文能力、决策规划、界面控制能力的指标之一。

可惜的是,这场考试的报名费可并不便宜。

根据网友分析,在GPT-5通关游戏长度仅为《宝可梦水晶》一半的《宝可梦红》中,就花费了约3500美元(约2万五人民币)的GPT-5 API额度。其中,每个token的花费就达到了4块多人民币。

所以,除非你在OpenAI工作,否则想把宝可梦当作benchmark,还得先掂量一下钱包够不够厚。

GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!

参考链接

[1]https://x.com/Clad3815/status/1959856362059387098

[2]https://www.twitch.tv/videos/2549204340?t=0h8m43s

[3]https://gpt-plays-pokemon.clad3815.dev/crystal/game-data

[4]https://www.techradar.com/ai-platforms-assistants/chatgpt/gpt-5-just-completed-pokemon-red-in-a-new-world-record-time-claude-gemini-and-chatgpt-o3-arent-even-close

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 8 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了 一水 2025-12-12 13:56:19 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了 一水 2025-12-12 13:56:19 ...
IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别

IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别

IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别 量子位的朋友们 2025-1...