战报:马斯克Grok4笑傲AI象棋大赛,DeepSeek没干过o4-mini,Kimi K2被喊冤

437次阅读
没有评论

战报:马斯克Grok4笑傲AI象棋大赛,DeepSeek没干过o4-mini,Kimi K2被喊冤

谷歌和Kaggle搞了个AI国际象棋对战。

不圆 奕然 发自 凹非寺
量子位 | 公众号 QbitAI

最新战报最新战报:首届AI国际象棋对战……马斯克家的Grok 4“遥遥领先”了。

是的,谷歌给大模型整了个国际象棋比赛:Kaggle AI象棋竞赛。

在首日对决之后,参赛选手中OpenAI的o3和o4-mini、DeepSeek R1、Kimi K2 Instruct、Gemini 2.5 Pro和2.5 Flash、Claude Opus 4、Grok 4都有了第一轮较量,结果——

Grok 4表现最佳,DeepSeek R1表现强劲,但不敌o4-mini,Kimi K2最惨——都让网友喊冤了。

战报:马斯克Grok4笑傲AI象棋大赛,DeepSeek没干过o4-mini,Kimi K2被喊冤

眼见自家Grok 4表现出色,马斯克当然不会错过PR良机,不过回应略显凡尔赛:

我们没有刻意去训练,这只是一个副作用。

战报:马斯克Grok4笑傲AI象棋大赛,DeepSeek没干过o4-mini,Kimi K2被喊冤

u1s1谁又能为这么个“无厘头”比赛专门刻意训练呢?

当然,让AI对战国际象棋,过程比输赢重要多了,毕竟谷歌发起这次比赛的初衷,就是测试“涌现”能力。

首届Kaggle AI国际象棋竞赛

本次比赛由谷歌发布,作为推广Kaggle游戏竞技场的一个环节。首次比赛以国际象棋开始。

参赛“选手”包括OpenAI的o3和o4-mini、DeepSeek R1、Kimi K2 Instruct、Gemini 2.5 Pro和2.5 Flash、Claude Opus 4、Grok 4。

8月5日至8月7日每天10:30(太平洋时间)准时直播赛况。

战报:马斯克Grok4笑傲AI象棋大赛,DeepSeek没干过o4-mini,Kimi K2被喊冤

除了各个顶级模型的象棋对决,直播还邀请了国际象棋特技大师中村光(Hikaru Nakamura)作为讲解。

他于7岁那年开始学习国际象棋,到15岁时成为全美国际象棋冠军并拿到GM头衔,也是本届EWC国际象棋(迄今为止规模最大的国际象棋锦标赛)的季军。

战报:马斯克Grok4笑傲AI象棋大赛,DeepSeek没干过o4-mini,Kimi K2被喊冤

在一天的角逐后,目前挺入半决赛圈的是Gemini 2.5 Pro、Grok 4、ChatGPT的o4-mini和o3。

吃瓜群众坐等看ChatGPT的o4-mini和o3的“内斗”,以及Gemini 2.5 Pro对战Grok 4。

战报:马斯克Grok4笑傲AI象棋大赛,DeepSeek没干过o4-mini,Kimi K2被喊冤

并且,所有在八分之一决赛中的比赛都以完美的4-0结束。实力差距非常明显。

网友们分析了这次赛况,表示Grok 4在这次基准测试中“在战术策略和速度上超越了所有其他模型”。

战报:马斯克Grok4笑傲AI象棋大赛,DeepSeek没干过o4-mini,Kimi K2被喊冤

可是等等,现在不是才八进四么?这么快就下结论了?

让我们一起看看各模型的具体表现,是什么让网友作出了如此高的评价:

Grok 4 vs Gemini 2.5 Flash

Grok4如同猛兽, 它轻松的表现就像“真正的GM”一样下棋,成为当天最佳。

另一方面,Gemini Flash从一开始就处于劣势,包括开局时吃王。

战报:马斯克Grok4笑傲AI象棋大赛,DeepSeek没干过o4-mini,Kimi K2被喊冤

OpenAI o4-mini vs DeepSeek R1

在OpenAI o4-mini对阵DeepSeek R1的赛程中,R1开局强劲,但最终输给了o4-mini。

比赛中双方都犯了不少错误,但o4-mini率先抓住了R1犯下的失误。

R1提供的推理虽然自信却错误,而且对棋盘局势的缺乏洞察导致它留下了棋子给o4-mini率先拿走。

战报:马斯克Grok4笑傲AI象棋大赛,DeepSeek没干过o4-mini,Kimi K2被喊冤

Gemini 2.5 Pro vs Claude Opus 4

这场Gemini 2.5 Pro和Claude Opus 4的对阵是当天最佳对局,两个模型都展示了高水平的棋艺。

Claude出现一些失误,而Gemini Pro展现了强大的战术视野,但给出的分析有时过于冗长。

战报:马斯克Grok4笑傲AI象棋大赛,DeepSeek没干过o4-mini,Kimi K2被喊冤

Kimi K2 对阵o3

这是最快的四分之一决赛,Kimi K2被“碾压”,主要是因为它反复坚持走非法棋步,o3以弃权获胜,没有太多值得分析的表现。

不过也有人替Kimi鸣不平:因为Kimi不是推理模型,长思考才能有更好的性能,步骤越往后,越需要长思考。

战报:马斯克Grok4笑傲AI象棋大赛,DeepSeek没干过o4-mini,Kimi K2被喊冤

为什么是国际象棋?

所以为什么要选国际象棋来让AI对战?

这么说吧,国际象棋规则明确但复杂度高(10^120种可能局面),是测试AI决策能力的理想场景。

虽然有网友会产生误读,认为它是“越大越优”,但实际上,这个数字已经远超穷举法的适用范畴。

战报:马斯克Grok4笑傲AI象棋大赛,DeepSeek没干过o4-mini,Kimi K2被喊冤

前些时间,陶哲轩在Lex访谈中提到:有些数学问题无法直接通过暴力计算来解决。例如国际象棋排列的数量,我们至今无法用计算机完全解决,但我们现在有AI,它们不会探索博弈树中的每个位置,而是寻求近似值。

战报:马斯克Grok4笑傲AI象棋大赛,DeepSeek没干过o4-mini,Kimi K2被喊冤

换句话讲,让AI去下国际象棋,考验的其实是AI的涌现能力

有位网友也关注到了这点,并对这次Grok 4的表现做出了总结:

战报:马斯克Grok4笑傲AI象棋大赛,DeepSeek没干过o4-mini,Kimi K2被喊冤

这位网友表示,在传统AI中,模型实力源于领域特定训练模(为任务量身定制);而在前沿AI中,模型实力源于一致性泛化(进化出能够映射到一切事物的内部世界结构)。国际象棋只是其中一种投射。

网友们普遍认为,国际象棋是一种很可靠的评估AI能力的方式。

战报:马斯克Grok4笑傲AI象棋大赛,DeepSeek没干过o4-mini,Kimi K2被喊冤

也有网友对AI的下一个竞技游戏进行了预测:或许会是UNO?(当然是开玩笑)

战报:马斯克Grok4笑傲AI象棋大赛,DeepSeek没干过o4-mini,Kimi K2被喊冤
战报:马斯克Grok4笑傲AI象棋大赛,DeepSeek没干过o4-mini,Kimi K2被喊冤

哪个AI最被看好?

在Kaggle AI象棋竞赛正式开始之前,有网友在Manifold上发起了一个投票:谁会是这场AI象棋竞赛的最终胜者?

起初,Gemini 2.5 Pro是最受欢迎的,o4紧随其后。

战报:马斯克Grok4笑傲AI象棋大赛,DeepSeek没干过o4-mini,Kimi K2被喊冤

但在八进四比赛后,该投票发生了明显变化,Grok 4呈现压倒性优势。

战报:马斯克Grok4笑傲AI象棋大赛,DeepSeek没干过o4-mini,Kimi K2被喊冤

不过越是这样就越让人期待,会不会出现什么抓马的意外呢?

参考链接:
[1]https://x.com/elonmusk/status/1952814912839008347
[2]https://www.youtube.com/watch?v=-nByurcQHDI
[3]https://x.com/_The_Prophet__/status/1952855259841478657
[4]https://x.com/richardcsuwandi/status/1952828128998699335

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 8 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...