大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark火了

1,378次阅读
没有评论

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

让大模型直接操纵格斗游戏《街霸》里的角色,捉对PK,谁更能打?

GitHub上一种你没有见过的船新Benchmark火了。

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark火了

与llmsys大模型竞技场中,两个大模型分别输出答案,再由人类评分不同——街霸Bench引入了两个AI之间的交互,且由游戏引擎中确定的规则评判胜负。

这种新玩法吸引了不少网友来围观。

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark火了

由于项目是在Mistral举办的黑客马拉松活动上开发,所以开发者只使用OpenAI和Mistral系列模型进行了测试。

排名结果也很出人意料。

经过342场对战后,根据棋类、电竞常用的ELO算法得出的排行榜如下:

最新版gpt-3.5-turbo成绩断崖式领先,Mistral小杯排第二。更小的模型超过了更大的GPT-4和Mistral中杯大杯

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark火了

开发者认为,这种新型基准测试评估的是大模型理解环境并根据特定情况采取行动的能力。

与传统的强化学习也有所不同,强化学习模型相当于根据奖励函数“盲目地”采取不同行动,但大模型完全了解自身处境并有目的的采取行动。

考验AI的动态决策力

AI想在格斗游戏里称王,需要哪些硬实力呢?开发者给出几个标准:

  • 反应要快:格斗游戏讲究实时操作,犹豫就是败北

  • 脑子要灵:高手应该预判对手几十步,未雨绸缪

  • 思路要野:常规套路人人会,出奇制胜才是制胜法宝

  • 适者生存:从失败中吸取教训并调整策略

  • 久经考验:一局定胜负不说明问题,真正的高手能保持稳定的胜率

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark火了

具体玩法如下:

每个大模型控制一个游戏角色,程序向大模型发送屏幕画面的文本描述,大模型根据双方血量、怒气值、位置、上一个动作、对手的上一个动作等信息做出最优决策。

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark火了

第一个挑战是定位人物在场景中的位置,通过检测像素颜色来判断。

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark火了

由于目前大模型数学能力还都不太行,直接发送坐标值效果不好,最终选择了将位置信息改写成自然语言描述

所以对于AI来说,实际上他们在玩的是一种奇怪的文字冒险游戏。

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark火了

把大模型生成的动作招式映射成按键组合,就能发送给游戏模拟器执行了。

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark火了

在试验中发现,大模型可以学会复杂的行为,比如仅在对手靠近时才攻击可能的情况下使用特殊招式,以及通过跳跃来拉开距离

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark火了

从结果上可以看出,与其他测试方法不同,在这个规则下似乎更大的模型表现越差

开发者对此解释到:

目标是评估大模型的实时决策能力,规则上允许AI提前生成3-5个动作,更大的模型能提前生成更多的动作,但也需要更长的时间。

在推理上的延迟差距是有意保留的,但后续或许会加入其他选项。

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark火了

后续也有用户提交了流行开源模型的对战结果,在7B及以下量级的战斗中,还是7B模型排名更靠前。

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark火了

从这个角度看,这种新型基准测试为评估大模型的实用性提供了新思路。

现实世界的应用往往比聊天机器人复杂得多,需要模型具备快速理解、动态规划的本领。

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark火了

正如开发者所说,想要赢,要在速度和精度之间做好权衡

GitHub项目:
https://github.com/OpenGenerativeAI/llm-colosseum

参考链接:
[1]
https://x.com/nicolasoulianov/status/1772291483325878709
[2]https://x.com/justinlin610/status/1774117947235324087

【🔥 火热报名中】中国AIGC产业峰会

定档4月17日

峰会已经邀请到数位代表技术产品、投资、用户等领域嘉宾,共论生成式AI产业最新变革趋势。

目前首批确认参会嘉宾包括:微软陶然昆仑万维方汉美图公司吴欣鸿联想创投宋春雨通义千问林俊旸逐际动力张力人大卢志武北大袁粒小冰公司徐元春金山办公姚冬FusionFund张璐通义大模型徐栋DCM曾振宇澜码科技周健得到快刀青衣实验电影海辛等。了解更多

欢迎报名峰会 ⬇️

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark火了峰会将全程线上下同步直播,欢迎预约直播 ⬇️


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark火了

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 4 月
1234567
891011121314
15161718192021
22232425262728
2930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手 十三 2025-12-09 18:18:41 来源:量子位...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东 Jay 2025-12-09 08:26:01 来源...
梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物! 一水 2025-12-09 09:46:23 来源:量子位 来自安...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布 思邈 2025-12-09 15:46:09 来源:量子位 国内首个聚焦...
极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」 henry 2...