o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

463次阅读
没有评论

o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

测评负责人还是大模型竞技场顾问

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

推箱子、俄罗斯方块……这些人类的经典怀旧小游戏,也成大模型benchmark了。

o3-pro刚刚也挑战了这两款游戏,而且表现还都不错,直接突破了benchmark上限。

o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

具体来说,benchmark中推箱子一共就只做到了被o3-pro突破的第六关;俄罗斯方块则是强行终止的结果,实际上o3-pro根本停不下来。

如果和前SOTA——o3比较,o3-pro的成绩也是直接翻倍。

o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

还有网友直言,比起大模型竞技场,这套标准才更适合做测试大模型的基准。

o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

经典小游戏成为新Benchmark

o3-pro挑战的这两个游戏,出自一套名为Lmgame的benchmark,顾名思义就是让大模型玩游戏。

o3-pro挑战的推箱子是从1989年的版本修改而来,在o3-pro之前,评估指标是游戏结束之前推动到目标位置的箱子总数。

不过这次o3-pro直接把所有关卡都通了,颇有种“得一百分是因为卷面只有一百分”的感觉。

但也不必担心,测试基准会动态更新,GItHub仓库中半个月前更新的游戏地图还只有四关,原版游戏更是有足足50多个关卡。

而在o3-pro挑战之前,表现最好的是o3,o4-mini紧随其后,再然后是DeepSeek-R1的最新版本(0528)。

o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

俄罗斯方块的得分计算方式则是将放置的方块数量与清除行数的10倍相加,直到游戏结束。

在o3-pro之前,表现最好的模型同样是o3,但后面R1和o4-mini的排名和推箱子相比交换了位置。

o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

不过在时间上,o3-pro的操作相当耗时,每走一步都要花上好几分钟。

o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

另外还有网友认为,如果让大模型编写程序而不是直接挑战,结果可能会更好。

o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

除了o3-pro玩的推箱子和俄罗斯方块,Lmgame中还包括四款游戏——2048、糖果传奇、马里奥兄弟和逆转裁判。

测试过程中通过一种迭代交互循环模式进行,游戏环境会持续地向大模型提供游戏状态,模型根据状态生成动作,这些动作随后在游戏环境中被执行,并根据执行结果计算奖励,接着游戏状态会更新以进行下一轮决策。

o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

同时还引入了智能体框架作为辅助工具,其中包含了感知、记忆、推理等模块;为了确保评估结果的稳定性和可比性,该模式还实施了提示标准化,以减少提示提示词带来的性能波动。

o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

根据游戏的特性和规则,具体到每个游戏的评价方式也有所区别:

  • 超级马里奥兄弟:衡量标准是马里奥在所有关卡中累积的水平移动距离(以游戏单位计算),直到失去所有三条生命或完成最终关卡为止。
  • 2048:评估指标是所有合并方块值的总和,记录直到棋盘停滞(连续十回合没有合并或棋盘变化)为止,取以2为底的对数后乘10即为最终分数。
  • 糖果传奇:评价标准是在固定的 50 回合内消除的糖果总数。
  • 逆转裁判:通过所有案件关卡中正确动作(例如提交证据、选择对话)的总计数来衡量,直到犯下五次错误决策(即生命值用尽)为止。

不过这些游戏表现的衡量标准当中,都没有将时间作为考量因素。

另外这套benchmark是开源的,有兴趣的话也可以自己下载下来对模型进行测试。

o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

还有网友留言说想看宝可梦的结果,团队表示马上安排。

o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

说到宝可梦,Gemini一直在全网直播当中进行挑战,并且在今年5月初成功通关了宝可梦·蓝。

当时谷歌CEO劈柴哥第一时间兴奋官宣,还放出了通关时刻的珍贵影像:

o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

大模型竞技场顾问课题组出品

这个项目来自UCSD的Hao AI Lab,附属于USCD的机器学习系统实验室和NLP实验室,负责人是Halıcıoğlu数据科学研究所的助理教授张昊。

张昊本硕博分别就读于华南理工、上海交大和卡内基梅隆大学,之后到UC伯克利从事博士后研究,结束后加入UCSD。

o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

此外张昊也参与过创立LMSYS,并担任大模型竞技场顾问。

LMSYS是一个非营利组织,大模型竞技场和知名模型框架SGLang、vLLM都是由LMSYS研发的。

说回Hao AI Lab,该实验室创立了多个开源项目,其中GitHub星标数最多的是视频生成加速框架FastVideo,已获得1.5k星。

o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

Hao AI Lab还接受谷歌和英伟达的资助,今年4月英伟达给该实验室捐赠了一台DGX B200。

o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

参考链接:
https://x.com/haoailab/status/1933614723507106226
项目仓库:
https://github.com/lmgame-org/GamingAgent
榜单:
https://huggingface.co/spaces/lmgame/lmgame_bench
论文:
https://arxiv.org/abs/2505.15146

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 6 月
 1
2345678
9101112131415
16171819202122
23242526272829
30  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...