掘金 人工智能 07月12日 10:39
全面刷新榜单,“全球最强 AI” Grok 4 评测:真实实力与局限性解析
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

xAI 的 Grok 4 模型以“全球最强大 AI”之姿横空出世,在多项基准测试中刷新纪录。302.AI 团队随即进行实测,对比 Gemini 2.5 Pro、Claude-opus-4、o3 和 DeepSeek-R1,结果显示 Grok 4 在数学和逻辑推理方面表现出色,但在常识和编程方面仍有进步空间。文章深入分析了 Grok 4 的优劣势,为用户提供了模型选择的参考。

🧠 Grok 4 在数学推理方面表现优异,例如在高考数学题和逻辑思维题中均展现出卓越的解题能力,验证了其在基准测试中的出色成绩。

🧐 在常识判断方面,Grok 4 表现出与 Claude 系列模型相似的局限性,解释看似逻辑自洽,但答案却与事实相悖,这提示在需要高度依赖现实世界知识的场景中,仍需谨慎。

💻 在编程能力测试中,Grok 4 的表现中规中矩,未能达到与其在其他领域相匹配的卓越水平,游戏界面粗糙,障碍物设置不合理。

💡 综合考量性能与成本,Grok 4 并非所有场景下的“必选”模型,用户应根据具体应用需求和预算,权衡其在特定优势领域的价值,而非盲目追求“最强”之名。

2025 年 7 月 10 日,全球 AI 领域再次迎来一场震撼级的技术革新。埃隆·马斯克旗下的 xAI 公司,在这一天正式向世界揭开了其最新一代大型语言模型 —— Grok 4 的神秘面纱。xAI 大胆宣称 Grok 4 是“全球最强大 AI”,并用一系列令人咋舌的基准测试成绩,强有力地支撑了这一论断。

Grok 4 不仅推出了强大的单智能体版本,更带来了突破性的多智能体协作版本 Grok 4 Heavy。在被誉为“人类最后考试”(HLE)的严苛测试中,Grok 4 Heavy 取得了高达 44.4% 的惊人分数(使用工具后更是达到了 50.7%),将此前领先的 Gemini 2.5 Pro(21%)远远甩在身后。不仅如此,Grok 4 在其他多项关键基准测试中也全面刷新榜单,甚至取得了满分成绩:

面对如此强大的新晋挑战者,302.AI 团队自然不会错过。为了第一时间验证 Grok 4 的真实实力及其在实际应用中的表现,我们已完成了 Grok 4 模型的接入工作。今天将带来一场聚焦 Grok 4 的实测对比,参与此次对决的选手包括:Gemini 2.5 Pro、Claude-opus-4、o3 以及 DeepSeek-R1。究竟 Grok 4 能否如其所言,真正改写 AI 性能的定义?我们拭目以待。

I. 实测对比


各模型所支持的上下文长度一览表:

测评使用工具:302.AI 的模型竞技场与聊天机器人

实测 1:数学能力

提示词:一个箱子里有5个相同的球,分别以1~5标号,从中有放回地取三次,记至少取出一次的球的个数X。则数学期望E(X)=?

题目解析:高考数学填空题,正确答案为61/25 ≈ 2.44

Grok 4 :答案正确

o3:答案正确

Claude-opus-4:答案正确

Gemini 2.5 pro:答案正确

DeepSeek-R1:答案正确

实测 2:逻辑思维

提示词:如果我现在有两个沙漏:一个可以漏11分钟,另一个可以漏7分钟。请问是否可以用他们计时15分钟?(翻转沙漏所用的时间不计)

题目解析:答案合理即可

参考答案:

(1)同时启动两个沙漏:当7分钟沙漏完成时,11分钟沙漏还有4分钟的沙子未漏完。

(2)立即翻转7分钟沙漏:在这4分钟内,11分钟沙漏会漏完,而7分钟沙漏下面保存了4分钟的沙子。

(3)当11分钟沙漏完成时,立即将7分钟沙漏翻转,以漏完保存的4分钟沙子。

(4)当7分钟沙漏第二次漏完时,总时间为15分钟(7分钟+4分钟+4分钟=15分钟)。

Grok 4:解析合理,答案正确。

o3:答案存在瑕疵,比如按照所提供的解析,“把7分钟的沙漏立刻翻回去”这一动作没意义。

Claude-opus-4:答案不合理,按照所解析的方法需要借助其他工具才能精准控制7分钟的沙漏漏了一分钟,所以答案并不正确。

Gemini 2.5 pro:虽然答案解析过程中存在瑕疵,但总体解析正确,且提供的“更清晰的解法”也是合理的。

DeepSeek-R1:方法合理,答案正确。

实测 3:常识思考

提示词:6.5根筷子共有多少个端头?

题目解析:这里0.5根筷子可以视作半截,即使半截筷子也会有两个端头,正确答案是14。

Grok 4:解释正确,但是答案错误。

o3:回答正确。

Claude-opus-4:解释正确,但是答案错误。

Gemini 2.5 pro:回答正确。

DeepSeek-R1:回答正确。

实测 4:编程测试

提示词:请生成一个跑酷游戏,界面必须包含游戏操作说明,开始游戏按钮

Grok 4:游戏界面较粗糙,障碍物设置不合理,难度过高。

o3:界面简洁,但是整体逻辑没有大问题。

Claude-opus-4:开始游戏后无法响应,给了第一次机会修改代码后依旧无法响应。

Gemini 2.5 pro:界面简洁,障碍物设置难度过高。

DeepSeek-R1:仅展示了静态页面,无任何交互,点击开始游戏无响应跳转。

II. 实测总结

1. 实测结果整理

2. 实测结论

通过本次实测对比,我们对 Grok 4 的实际表现有了较为清晰的认知,并得以总结出以下关键洞察:

综合考量其性能表现与潜在的使用成本,我们认为 Grok 4 并非所有场景下的“必选”模型。尽管其在特定领域展现出领先优势,但其在常识和编程方面的不足,以及可能的价格因素,意味着用户在选择时,应根据具体的应用需求和预算,权衡其在特定优势领域的价值,而非盲目追求“最强”之名。选择最适合自身业务场景的模型,才是真正明智的决策。


Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Grok 4 xAI AI 评测 大模型
相关文章