谷歌约战，DeepSeek、Kimi都要上，首届大模型对抗赛明天开战

机器之心 4小时前

一场激动人心的AI国际象棋比赛即将开幕，8款前沿AI模型将在Kaggle Game Arena展开对决，包括OpenAI、DeepSeek、谷歌等顶级模型。比赛采用全员对抗赛制，由世界顶级国际象棋专家担任解说，旨在检验AI能力并推动模型发展。Kaggle Game Arena是谷歌推出的全新基准测试平台，旨在解决现有AI基准测试难以跟上模型发展速度的问题，通过AI模型彼此对战来评估性能。

🤖 八款顶级LLM模型，包括OpenAI、DeepSeek、谷歌等，将在Kaggle Game Arena展开AI国际象棋对决，检验模型实战能力。

🔮 比赛采用全员对抗赛制，每款模型与其他所有模型进行大量对战，确保统计结果的可靠性，并由世界顶级国际象棋专家担任解说。

🎮 Kaggle Game Arena是谷歌推出的全新基准测试平台，旨在解决现有AI基准测试难以跟上模型发展速度的问题，通过AI模型彼此对战来评估性能。

⏱️ 比赛规则规定模型无法使用外部工具，每步棋有60分钟超时限制，观众将能看到每个模型的推理过程及自我纠正过程。

🌐 比赛结果将在Kaggle Benchmarks排行榜上展示，用户可实时查看对阵表、动态排行榜数据及开源环境代码。

原创机器之心 2025-08-05 12:05 新加坡

Kaggle Game Arena，八大顶级 LLM 决一胜负。

机器之心报道

编辑：陈萍

一场激动人心的 AI 国际象棋比赛即将开幕。

看够了研究者们天天在论文上刷新基准，是时候拉模型出来遛一遛，性能是不是真如传说中的碾压全场？

太平洋时间 8 月 5 日至 7 日，一场为期 3 天的 AI 国际象棋比赛让人无比期待。

开局第一天，就有 8 款前沿 AI 模型展开对决：

参与比赛的模型包括：

o4-mini（OpenAI）

DeepSeek-R1（DeepSeek）

Kimi K2 Instruct（月之暗面）

o3（OpenAI）

Gemini 2.5 Pro（谷歌）

Claude Opus 4（Anthropic）

Grok 4（xAI）

Gemini 2.5 Flash（谷歌）

直播地址：https://www.youtube.com/watch?v=En_NJJsbuus

这次参赛方都是 AI 界模型顶流（包括两款中国的开源模型），对战双方的性能也旗鼓相当。

组织方还邀请了世界顶级国际象棋专家担任解说，可谓是诚意满满。

这场比赛主要基于 Kaggle Game Arena，这是谷歌推出的一个全新的、公开的基准测试平台，在这里，AI 模型可以在策略游戏（如国际象棋和其他游戏中）中展开正面交锋，一决高下。

为了确保透明性，游戏执行框架以及游戏环境本身都将开源。最终排名将采用严格的全员对抗赛制（all-play-all）确定，每对模型进行大量对战来确保统计结果的可靠性。

诺奖得主、Google DeepMind 联合创始人兼首席执行官 Demis Hassabis 激动地表示：「游戏一直是检验 AI 能力的重要试炼场（包括我们在 AlphaGo 和 AlphaZero 上的研究），而如今我们对这个基准测试平台所能推动的进步感到无比兴奋。随着我们不断向 Arena 引入更多游戏与挑战，我们预计 AI 的能力将会快速提升！」

「Kaggle Game Arena ，这个全新的排行榜平台，在这里，AI 系统彼此对战，随着模型能力的提升，比赛难度也将不断升级。」

至于为什么要组织这场比赛，谷歌博客是这么介绍的：当前的 AI 基准测试已难以跟上现代模型的发展速度。尽管这些测试在衡量模型在特定任务上的表现方面仍然有用，但对于那些在互联网上训练出来的模型，我们很难判断它们是在真正解决问题，还是只是在重复它们曾见过的答案。随着模型在某些基准测试上接近 100% 的得分，这些测试在区分模型性能上的作用也逐渐减弱。

因此，在持续发展现有基准测试的同时，研究者们也在不断探索新的模型评估方法。Game Arena 就是在这样的背景下诞生的。

比赛介绍

Game Arena 平台上的每款游戏均设有详情页，用户可查看：

实时更新的比赛对阵表；

动态排行榜数据；

该游戏对应的开源环境代码及测试框架技术文档。

用户还可以实时查看对阵表：