36氪 - 科技频道 9小时前
爆冷,首届大模型争霸,Grok 4下出“神之一手”?DeepSeek、Kimi惨遭淘汰
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

谷歌Kaggle首次推出全球AI象棋争霸赛,八款顶级语言模型(包括Gemini 2.5 Pro、o4-mini、Grok 4、o3、Claude 4 Opus、Gemini 2.5 Flash、DeepSeek R1和Kimi K2 Instruct)展开正面较量。比赛采用谷歌Kaggle的“Game Arena”平台,该平台专为评估通用大模型与智能体的能力而设计,具有无限扩展性和思维可视化等特点。首轮淘汰赛中,Gemini 2.5 Pro、o4-mini、Grok 4和o3以4-0的成绩晋级半决赛,而Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash和Kimi K2则未能胜出。比赛过程暴露了模型在理解棋局、战略规划和应对复杂情况方面的差异,例如Kimi K2因非法走子被判负,DeepSeek R1在脱离开局模板后频繁出错。Grok 4表现出色,被评为全场最佳。此次赛事不仅是象棋技术的比拼,更是对AI通用智能、推理能力和适应性的深度检验。

🤖 **AI象棋争霸赛展现模型真实力**:谷歌Kaggle推出的首届全球AI象棋争霸赛,汇聚了Gemini 2.5 Pro、o4-mini、Grok 4、o3、Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash和Kimi K2 Instruct等八款顶级语言模型。比赛旨在通过国际象棋这一复杂策略游戏,评估和衡量AI的通用智能、推理能力和战略规划水平,为AI发展提供了一个新的测试维度。

🏆 **头部模型表现亮眼,晋级半决赛**:在首轮8进4淘汰赛中,Gemini 2.5 Pro、o4-mini、Grok 4和o3展现出压倒性优势,以4-0的战绩轻松横扫对手,成功晋级半决赛。这几款模型在比赛中展现了更强的棋局理解能力和稳定的策略执行力,证明了其在复杂推理任务上的优越表现。

📉 **部分模型暴露短板,意外退场**:Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash和Kimi K2 Instruct则在比赛中遭遇挑战。Kimi K2因多次非法走子被判负,显示出在规则理解和棋局跟踪上的不足;DeepSeek R1在棋局进入复杂阶段后频繁出现失误,暴露了其在脱离模板后的应变能力不足;Claude 4 Opus虽拼尽全力,但在关键时刻仍不敌对手。这些表现凸显了当前AI在策略深度和稳定性方面仍有提升空间。

⭐ **Grok 4表现卓越,被赞为全场最佳**:Grok 4在比赛中展现出“杀疯了”般的精准打击能力,能准确识别对手弱点并果断出击,其对局被认为最富有“棋感”。它不仅稳定地走完了所有棋局,还被业内人士评为开赛以来的最佳表现。马斯克的低调转发,更衬托出其作为一项“顺手完成的功能调用”的强大实力,暗示xAI的重心并不在此,但其成果已足够惊艳。

💡 **游戏平台是AI智能评估的理想场域**:谷歌Kaggle推出的“Game Arena”平台,为通用大模型提供了理想的竞技和评估环境。游戏具有无限扩展性、思维可视化、明确的成功信号以及清晰可衡量的结果等特点,能够迫使模型展现策略推理、长期规划和动态适应能力,从而为衡量AI的通用问题解决智能提供可靠依据。

AI国际象棋对抗?这次玩真的!谷歌Kaggle推出首届全球AI象棋争霸赛,八款顶级语言模型正面对抗,胜负只在一步之间! 

国际象棋全球AI争霸赛来了!

首战即放狠招:让全球八款最强语言模型,国际象棋正面对抗:

闭源的大模型:Gemini 2.5 Pro、OpenAI o4-mini、Grok 4、OpenAI  o3、Claude 4 Opus、Gemini 2.5 Flash;

开源的大模型:DeepSeek R1和Kimi K2 Instruct。

首战落幕

今日凌晨1点,这场大赛正式打响了8进4淘汰战:

Gemini 2.5 Pro、o4-mini、Grok 4、和o3,以4-0的碾压式战绩横扫对手,进入半决赛。

而Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash和Kimi K2没能撑过中盘,就已纷纷崩溃退场。

第二天的半决赛,OpenAI的o3-mini和o3将「自相残杀」,而Gemini 2.5 Pro和Grok 4则狭路相逢

整场赛事由谷歌旗下的Kaggle举办。为此,他们专为通用大模型打造了竞技平台——「Game Arena」。

谷歌表示游戏是评估模型与智能体的理想平台,是通用智能可靠的衡量标准。游戏作为基准测试的价值更体现在:

无限扩展性:对手越强,难度阶梯式攀升;

思维可视化:可完整追踪模型的「决策链」,窥见其战略思维过程。

对AI来说,下好一盘棋,比你想象的更难。

比赛共有3场,首赛中DeepSeek R1对阵o4-mini,Kimi-K2对阵o3。

半决赛将在明天太平洋时间上午10:30举行。

下面,一起回顾一下首场战况吧。

Kimi K2犯规出局,o3不战而胜顺利晋级

四局比赛,Kimi  K2每一局都因非法走子被系统判负,最短的对局甚至不到8个回合。

对局开始还能跟着开局理论下几步,但一旦脱离熟悉的套路,Kimi  K2就像突然「失明」一般,误读棋盘布局,走出错误的棋子。

面对这样的对手,o3不费吹灰之力,轻松晋级半决赛。

DeepSeek R1中盘掉线,o4-mini轻松将死两局

这是一场「开局唬人,中间崩盘」的比赛。

如果你只看每盘棋的前几回合,你会发现,在开局两个模型都走得无懈可击,仿佛两个国际象棋大师在对弈。

但到了某一节点,棋局的质量就会急转直下。

一旦脱离「开局模板」,DeepSeek就开始频频出错:瞄准不存在的棋子、防守并无威胁的空格,甚至走出将自己逼入死角的「自爆式操作」。

相比之下,o4-mini虽然不够惊艳,但是稳扎稳打、不犯大错,还顺利完成了两次将杀收尾,赢得理所当然。

Claude 4 Opus血战到底,仍不敌Gemini 2.5 Pro

如果说Kimi  K2的比赛是「自动退出」,那Claude 4 Opus的落败,则是拼尽全力后的溃败。

在第一局,双方在前九个回合都走得有板有眼,直到Claude 4 Opus贸然下出10...g5,主动敞开防线,为Gemini送上突破口。

在第四局还出现了一个让人哭笑不得的场面:Gemini 2.5 Pro手握两只皇后,总子力优势高达32分,本该将Claude「一波带走」,结果他却在进攻过程中挂掉几枚关键棋子。

尽管如此,胜利还是属于Gemini。

而这场对局,也是四场比赛中最接近真正象棋对抗的一场。

Gork 4杀疯了,精准打击,专挑软肋

前三场像是在训练模式,Gork 4一登场,比赛才终于像个「战场」

面对Gemini 2.5 Flash的频繁错漏和无人防守的棋子,Gork 4精准识破、果断出击。

它不是在「模仿下棋」,而是真的能看懂弱点、消灭威胁,最终以4-0终结比赛。

Gork的「四连超凡」不仅打出了目前最有「棋感」的对局,还被不少业内人士评为开赛以来全场最佳表现。

马斯克在X上转发了Gork的战绩,只留下一句简单的回应:

订单这只是副作用。xAI几乎没在国际象棋上花什么精力。

没有炫耀,没有过度评价,只是随手转发,仿佛这场胜利只是系统顺手完成的一次功能调用。

但在这场模型犯错频繁、认知失误频出的混战中,Gork 4是少数能「看清棋局并稳定走完」的存在。

从棋盘到智力测试

比赛只是表面,挑战才刚开始。

这场比赛的意义,从来不只是看谁赢了、谁走了更漂亮的一步棋。

它考验的不是棋艺,而是AI的整体理解能力。

游戏为强大的人工智能评估提供了绝佳的基础,帮助我们了解在复杂推理任务中哪些方法真正有效。

游戏能提供明确无误的成功信号:不是赢就是输,或者平局。

它们结构清晰且结果可衡量,是评估模型的理想试验场。游戏迫使模型展现出多种技能,包括策略推理、长期规划以及面对智能对手时的动态适应能力,从而为衡量其通用问题解决智能提供了一个可靠的依据。

就在上个月,世界冠军卡尔森在旅行中途虐了ChatGPT一局,一子未损。赛后他轻描淡写道「我有时旅途中会无聊」。

AI甚至没意识到对面是谁——这比输棋更值得警惕。

Kaggle官方也透露,真正的评分标准,其实藏在「幕后数百场未公开对局」的排行榜里。

眼下这场棋,不过是一块测试通用智能的开局小盘。

参考资料:

https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1 

https://x.com/dotey/status/1952883220149657849 

https://blog.google/technology/ai/kaggle-game-arena/ 

https://www.kaggle.com/blog/introducing-game-arena 

本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI象棋 语言模型 谷歌Kaggle 通用人工智能 Grok 4
相关文章