OpenAI o3封王，4比0横扫马斯克Grok 4！全球大模型对抗赛完美收官

编辑：英智

在Kaggle AI国际象棋锦标赛中，OpenAI o3以摧枯拉朽之势横扫大热门Grok 4，勇夺首届AI国际象棋表演赛冠军！

这不仅是一场代码与算法的较量，更被视为科技巨头OpenAI与xAI之间的一场「代理人战争」。

稍早的季军战中，Gemini 2.5 Pro击败o4-mini，将铜牌收入囊中。

全球顶尖的生成式AI模型，通过国际象棋，展开了一场关乎战略与推理核心能力的巅峰对决。

本次大赛由谷歌旗下平台Kaggle主办，目的是摆脱传统基准测试的束缚，在真实、复杂的游戏环境中，检验大模型的批判性思维、战略规划和临场应变能力。

参赛的AI棋手阵容堪称豪华：

OpenAI：o3, o4 mini

xAI：Grok 4

Google：Gemini 2.5 Pro, Flash

Anthropic：Claude 4

DeepSeek：R1

Moonshot：Kimi K2

比赛规则极具挑战性，旨在模拟更接近人类的思考方式：

禁止使用专业象棋引擎：所有决策必须源于模型自身的通用推理能力。

君子动口不动手：模型必须以完整的自然语言句子来下达指令，而非直接操作棋盘。

时间限制：每步棋有60分钟的思考时间。

防错机制：连续三次给出无法执行的错误指令，直接判负。

四分之一决赛呈现出强弱分明的态势。

OpenAI的o3、xAI的Grok 4、谷歌的Gemini Pro等顶尖模型均以4-0的悬殊比分横扫对手，轻松晋级。

半决赛中，Grok 4与谷歌Gemini Pro的对决成为了整个赛事唯一的悬念。双方你来我往，异常胶着。

最终，Grok 4在决胜局中凭借更胜一筹的推理能力，以3-2惊险胜出。

o3则以绝对优势，再次4-0轻松击败了同门师弟o4 mini。

万众瞩目的决赛：o3 4-0 Grok 4

直到半决赛结束，Grok 4看上去都势不可挡，冠军似乎已是其囊中之物。

Grok极少在代码中输出下棋思路，这种沉默被视为一种信号：一个精准、致命、无需向任何人解释的冷酷杀手。

这场决赛因奥特曼和马斯克两位创始人的恩怨情仇而备受瞩目。

然而，决赛日风云突变，Grok的强者光环轰然破碎。

OpenAI的o3从开局就展现出系统、稳定的策略，棋路清晰，步步为营。

最终，o3以4-0的压倒性比分干净利落地击败Grok 4，从开赛到夺冠未失一局，成就了真正的不败王者。

Grok的失误来得又早又频繁，而o3则毫不手软，招招致命。

第一局： 刚一开局，Grok 就毫无征兆地送了一个关键的象。在子力处于劣势的情况下，Grok还主动找对手兑子——这完全违背了落后不兑子的象棋常识。几个回合的低级失误后，o3轻松将杀，先下一城。

第二局： 双方进入了著名的西西里防御毒兵变例。如果说b2兵对人类棋手是毒药，那a2兵对AI来说简直是致命病毒。Grok走出了一步惊天大漏，吃掉了一个有白方骑士守护的兵。送上如此大礼，o3自然轻松笑纳胜局。

第三局： Grok 执白首次在比赛中摆出马洛奇结构，局面一度非常理想，让人以为那个强大的Grok又回来了——难道它前两局是在演戏吗？然而，一步直接送掉了自己的骑士，让所有幻想化为泡影。随后，Grok接连送掉了皇后、一个车，最终输掉了比赛。

第四局： 这是最富戏剧性的一局。开局不久，轮到o3犯下大错，白送了皇后，局面岌岌可危。但正如解说嘉宾、特级大师Hikaru Nakamura所说，棋盘上依然暗藏杀机。

o3展现了惊人的韧性，通过一个精彩的战术组合技，奇迹般地夺回了皇后。

比赛拖入残局，尽管o3仅多一个兵，本是和棋局面。但Grok再次暴露了它在残局计算上的致命弱点，o3对残局的理解显然更深，步步紧逼，最终将兵升变为皇后，完成了绝杀。

凭借这场标志性的胜利，o3成为了首届Kaggle AI象棋赛的王者，Grok 4则遗憾地与冠军失之交臂。

季军战：o4-mini 1.5-2.5 Gemini 2.5 Pro

谷歌自家的Gemini 2.5 Pro与o4-mini的季军争夺战，虽然不像决赛那样一边倒，但也但也远非势均力敌。

最终，Gemini 以三胜一和的战绩，稳稳地站上了领奖台。

尽管比分悬殊，但Gemini的对局堪称一团糟，棋局质量远不及冠军o3。

Gemini的表现时好时坏，第一局的进攻还算有模有样，但第三局的和棋则更像是整场比赛的缩影：双方都下得稀里糊涂，失误不断，即使手握巨大优势也迟迟无法转化为胜势，局面如过山车般起伏。

不过，瑕不掩瑜，凭借更强的综合实力，Gemini为东道主谷歌赢得了一枚宝贵的铜牌。

谷歌将如何通过这次比赛来改进其AI，令人期待。

赛后声音与反思

世界棋王Magnus Carlsen一针见血：「o3的棋力大约相当于国际等级分1200分，Grok 4只有800分左右。」

1200分是业余俱乐部棋手的平均水准，而800分基本是刚入门的初学者。

这与世界顶尖人类棋手超过2700分的水平相去甚远。

Carlsen认为，这次比赛让我们得以一窥AI真实的思考过程。

面对Grok 4的惨败，马斯克迅速在X上挽尊：「xAI基本没在象棋上花功夫，下棋对Grok来说只是个附加功能。」

Kaggle的雄心不止于此。

AI象棋锦标赛将作为一个持续性的评估标准，未来还将扩展到围棋、狼人杀、模拟经营等更复杂的游戏。

游戏正在成为衡量和驱动下一代AI发展的最佳试验场。

参考资料：

https://www.youtube.com/watch?v=WSiu1et3P7M

https://x.com/kaggle/status/1953542585412153369

https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-3

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签