36kr 08月07日 14:18
首届大模型象棋争霸赛:Grok 4与o3挺进决赛,DeepSeek、Kimi落败
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

在Kaggle平台举办的“棋局竞技场”AI国际象棋表演赛半决赛中,xAI的Grok 4和OpenAI的o3分别击败了谷歌的Gemini 2.5 Pro和OpenAI的o4-mini,成功晋级决赛。本次比赛共有八个大型语言模型参与,采用单败淘汰制,重点考察AI对棋局的理解力和问题解决能力。比赛中,Grok 4与Gemini 2.5 Pro的对决尤为激烈,最终Grok 4通过加赛获胜。OpenAI的o3则以压倒性优势淘汰了其轻量版o4-mini。尽管AI模型在比赛中展现了高超的棋艺,但也暴露出在语境理解和战术执行方面仍存在不足。决赛将于8月7日(美国东部时间)举行,Grok 4将对阵o3。

🎯 AI国际象棋表演赛半决赛已结束,xAI的Grok 4和OpenAI的o3从八个大型语言模型(LLM)中脱颖而出,成功晋级决赛。参赛模型包括来自谷歌、OpenAI、Anthropic和DeepSeek等公司的顶级AI。

🏆 Grok 4与Gemini 2.5 Pro的半决赛是一场焦点之战,双方在常规赛中以2-2战平,最终Grok 4在“阿马格顿”加赛中获胜晋级。比赛过程跌宕起伏,双方均出现失误与精彩表现。

🌟 OpenAI的o3展现了强大的实力,以4-0的绝对优势横扫了同门的o4-mini,其中一局仅用12步就完成“绝杀”,精准度评分高达100,显示了其在棋局理解和执行上的优势。

🤔 尽管AI模型在比赛中表现出高超的棋艺,但也暴露出一些问题,例如全球最大的国际象棋平台Chess.com指出,AI模型整体上缺乏语境理解能力,难以执行复杂战术序列,这表明AI在实际应用中仍有提升空间。

🗓️ 决赛将于美国东部时间8月7日13时举行,由Grok 4对阵o3,争夺本次AI国际象棋表演赛的冠军。同时,Gemini 2.5 Pro将与o4-mini争夺第三名。

8月7日消息,今日凌晨1点左右,在Google旗下Kaggle平台主办的“棋局竞技场”中,上演了一场AI国际象棋表演赛半决赛。最终,Grok 4和o3分别击败Gemini 2.5 Pro和o4-mini,晋级决赛

这场比赛为期三天,“参赛者”是八个大型语言模型(LLM):Grok 4(xAI)、Gemini 2.5 Pro(谷歌)、o4-mini(OpenAI)、o3(OpenAI)、Claude 4 Opus(Anthropic)、Gemini 2.5 Flash(谷歌), 以及两位“中国选手”——DeepSeek R1(DeepSeek)和Kimi k2(月之暗面)。

比赛采用单败淘汰制,每一回合,AI有最多4次尝试机会来下出一个合法的棋步。如果它在这4次尝试中都没能走出合法的一步棋,就被判定为输掉这场比赛。规则不比算力,主要聚焦在AI对棋局的理解力与问题解决能力。

在首日的决赛中,Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash和Kimi K2未能胜出,无缘半决赛。

半决赛:Grok 4、o3胜出

在8月5日的首日四场对决中,Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的战绩分别击败 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2,晋级半决赛。

在第二场半决赛中,OpenAI的o3首先以4-0完胜其轻量版o4-mini,展现了压倒性优势。

第二局中,o3以12步完成迷你对局,呈现类似Puzzle Rush(由Chess.com推出的在线国际象棋训练模式)的“绝杀“,精准度评分高达100。

第三局中,o3连续走出12...Bb4+(在第12回合,黑方将象移动到b4格,并造成将军)和19...e3+(黑方在第19回合将e兵推到e3并将军)两招妙棋。o4-mini在比赛中多次失误,未能跟上o3的节奏。

Grok 4与Gemini 2.5 Pro的对决是本轮焦点,常规赛以2-2平局结束,进入“阿马格顿”加赛(Armageddon tiebreak,用于快速决出胜负的特殊对局形式,通常在常规比赛平局后使用,以避免进一步延长比赛)。Grok执黑棋在55步平局中获胜(因平局胜权)。

在双方的首局比赛中,Grok频频失误,丢马、丢车后被Gemini将死。第二局双方遵循开局理论至第11步,Grok脱离理论后失误丢马,但Gemini出现“幻觉”走错棋丢后,Grok扳回一局。第三局Grok取胜领先,第四局Gemini反击追平。加赛中,Gemini错过单步绝杀机会,最终因丢后导致平局,Grok晋级。

首日比赛回顾

首日比赛结果

8月5日,八款AI模型展开的首场激烈对决,四场比赛均以“4-0“的比分尘埃落定。晋级半决赛的模型表现如下:

Gemini 2.5 Pro(谷歌)以4-0完胜Claude 4 Opus(Anthropic)。这场对决是首日唯一以“将死”为主的比赛,Claude 4 Opus因关键失误(如第十步g5导致丢子及王位暴露)落败,Gemini 2.5 Pro展现了稳健的棋盘掌控力。

o4-mini(OpenAI)以4-0击败DeepSeek R1。比赛初期双方棋风稳健,但DeepSeek R1随后频频“幻觉”,出现连续失误,o4-mini则两次成功“将死”,显示出较强的全局把握能力。

马斯克发帖评论Grok 4首日表现

Grok 4(xAI)以4-0击败了Gemini 2.5 Flash(谷歌)。Grok 4展现了出色的棋艺,捕捉到了对手未受保护的棋子。其表现甚至引发xAI创始人埃隆·马斯克(Elon Musk)在X平台上的转发和热议。

o3(OpenAI)以4-0战胜Kimi k2(Moonshot AI),Kimi k2因连续四次无法作出合法移动而连输四局。

从这次的比赛中,仍能看出大模型有不少失误之处。全球最大的国际象棋平台Chess.com撰文指出,此次赛事暴露出AI模型整体缺乏语境理解,难以执行基本战术序列等问题。

比赛仍在继续,下一场决赛将于美国东部时间8月7日13时(北京时间8月8日1时)举行,由xAI的Grok 4对阵OpenAI的o3,Gemini 2.5 Pro与o4-mini将争夺三、四名。

本文来自“腾讯科技”,作者:无忌,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI国际象棋 Grok 4 o3 Kaggle 大型语言模型
相关文章