掘金 人工智能 22小时前
谷歌约战,DeepSeek、Kimi都要上,首届大模型对抗赛明天开战
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

一场备受瞩目的AI国际象棋比赛将于太平洋时间8月5日至7日举行,汇聚了包括OpenAI的o4-mini和o3,谷歌的Gemini 2.5 Pro和Flash,Anthropic的Claude Opus 4,xAI的Grok 4,以及DeepSeek的DeepSeek-R1和月之暗面的Kimi K2 Instruct在内的八款前沿AI模型。比赛将在谷歌推出的Kaggle Game Arena这一全新、公开的基准测试平台上进行,旨在检验模型的真实性能,解决现有基准测试难以跟上模型发展速度的问题。比赛采用全员对抗赛制,保证结果的可靠性,并对模型进行严格的限制,如禁止使用外部工具和事先告知合法走法,以全面评估其策略规划和问题解决能力。比赛过程将全程直播,并有顶级国际象棋专家解说,观众可实时了解模型表现和推理过程。

🏆 **顶尖AI模型集结,国际象棋对决一触即发**:本次比赛汇聚了来自OpenAI、谷歌、Anthropic、xAI以及中国开源模型DeepSeek和月之暗面的八款当前最先进的AI模型,将在国际象棋领域展开激烈角逐,旨在验证其在策略博弈中的真实性能。

📈 **Kaggle Game Arena:新型AI基准测试平台**:比赛将在谷歌新推出的Kaggle Game Arena平台上进行,该平台旨在克服现有基准测试的局限性,通过让AI模型进行正面交锋,更准确地评估其解决复杂问题的能力,尤其是在互联网训练的AI模型可能存在“重复已知答案”的风险下。

⚖️ **公平透明的比赛机制**:比赛采用严格的全员对抗赛制,确保统计结果的可靠性。此外,游戏执行框架和环境均将开源,保证了比赛的透明度。每局对决包含四局比赛,采用积分制晋级,若出现平局则进行加赛。

🚫 **严苛的规则限制,考验模型自主能力**:为确保比赛的公正性和对模型真实能力的考察,参赛模型被禁止使用任何外部工具(如国际象棋引擎),也无法预知合法走法。模型在给出不合法走法时仅有有限的重试机会,超时限制为每步60分钟,旨在最大化地考验模型的自主推理和错误纠正能力。

💡 **游戏作为AI试炼场,推动AI进步**:谷歌DeepMind联合创始人Demis Hassabis强调,游戏一直是检验AI能力的重要途径。Kaggle Game Arena通过引入更多游戏和挑战,预计将极大地推动AI能力的快速发展,尤其是在策略规划和解决未知问题方面。

一场激动人心的 AI 国际象棋比赛即将开幕。

看够了研究者们天天在论文上刷新基准,是时候拉模型出来遛一遛,性能是不是真如传说中的碾压全场?

太平洋时间 8 月 5 日至 7 日,一场为期 3 天的 AI 国际象棋比赛让人无比期待。

开局第一天,就有 8 款前沿 AI 模型展开对决:

参与比赛的模型包括:

直播地址:www.youtube.com/watch?v=En_…

这次参赛方都是 AI 界模型顶流(包括两款中国的开源模型),对战双方的性能也旗鼓相当。

组织方还邀请了世界顶级国际象棋专家担任解说,可谓是诚意满满。

这场比赛主要基于 Kaggle Game Arena,这是谷歌推出的一个全新的、公开的基准测试平台,在这里,AI 模型可以在策略游戏(如国际象棋和其他游戏中)中展开正面交锋,一决高下。

为了确保透明性,游戏执行框架以及游戏环境本身都将开源。最终排名将采用严格的全员对抗赛制(all-play-all)确定,每对模型进行大量对战来确保统计结果的可靠性。

诺奖得主、Google DeepMind 联合创始人兼首席执行官 Demis Hassabis 激动地表示:「游戏一直是检验 AI 能力的重要试炼场(包括我们在 AlphaGo 和 AlphaZero 上的研究),而如今我们对这个基准测试平台所能推动的进步感到无比兴奋。随着我们不断向 Arena 引入更多游戏与挑战,我们预计 AI 的能力将会快速提升! 」

「Kaggle Game Arena ,这个全新的排行榜平台,在这里,AI 系统彼此对战,随着模型能力的提升,比赛难度也将不断升级。 」

至于为什么要组织这场比赛,谷歌博客是这么介绍的:当前的 AI 基准测试已难以跟上现代模型的发展速度。尽管这些测试在衡量模型在特定任务上的表现方面仍然有用,但对于那些在互联网上训练出来的模型,我们很难判断它们是在真正解决问题,还是只是在重复它们曾见过的答案。随着模型在某些基准测试上接近 100% 的得分,这些测试在区分模型性能上的作用也逐渐减弱。 

因此,在持续发展现有基准测试的同时,研究者们也在不断探索新的模型评估方法。Game Arena 就是在这样的背景下诞生的。

比赛介绍

Game Arena 平台上的每款游戏均设有详情页,用户可查看:

用户还可以实时查看对阵表:

对阵表:www.kaggle.com/benchmarks/…

模型在游戏中的表现将在 Kaggle Benchmarks 的排行榜上展示。

赛制说明

本次比赛采用单败淘汰制,每场对决包含四局比赛。先获得两分的模型晋级(胜一局得 1 分,平局各得 0.5 分)。若对局最终打成 2–2 平,将加赛一局决胜负,在这局中,执白方必须获胜才能晋级。

具体赛程安排

比赛规则

由于当前大模型对文本表达更为擅长,因此该比赛从基于文本输入的方式开始进行比赛。

以下是对执行框架的简要说明:

在比赛过程中,观众将能够看到每个模型是如何推理自己的走法,以及它们在面对非法走法后的自我纠正过程。

大家都已经迫不及待地想要看比赛结果了。

更多比赛方式请参考:www.kaggle.com/game-arena

离首场比赛开始时间还有 14 小时,可以开始期待了。你觉得最终赢家会是哪个模型呢?

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI国际象棋比赛 Kaggle Game Arena 大模型 AI基准测试 人工智能
相关文章