Grok 4一口气刷爆所有高难榜单！全球首个考满分、又能赚钱的AI

原创 R.Zen 2025-07-10 16:10 北京

期待了两周的 Grok 4 终于来了！

一大早 family 群里的小伙伴们已经启动好倒计时。

原定北京时间 7.10 号 11 点，结果硬生生迟到 1 个小时。。12 点才开始。

不愧是你鸽王。

直播现场马斯克用一句话开场：

“它是世界上最聪明的 AI”。

上一次这句话出现还是 Anthropic 发布 Claude 4，这次听上去也毫不夸张。

xAI 发布了两个版本，分别是 Grok 4 和 Grok 4 Heavy。

你光看名字可能会以为 Grok 4 Heavy 是加了参数的 plus 版，no，Grok 4 是单体模型， Heavy 是多智能体协作版。

当然，价格也是真贵。Grok 4 放在了 30 刀每月的 SuperGrok 套餐里，Grok 4 Heavy 则要300 刀，名字也干脆叫 SuperGrok Heavy。

全榜单第一老规矩，先来看榜单成绩。

上来就是大模型的魔鬼榜单—— Humanity’s Last Exam（HLE），也被称为大模型的终极闭卷，包含 2500 道高难度题目，覆盖超过 100 个学科，从数学、化学、语言学到人文社科，能把任何一个博士搞破防的那种。

Grop 4 和 Grok 4 Heavy 拿下了这个榜单的第一和第二，Grok 4 Heavy 得分 44.4%，几乎是第二名 Gemini 2.5 Pro 的 2 倍。2024 年底，多数模型在 HLE 还不到 10 %，OpenAI o3 做到 20 % 已被称为“巨跃”，Grok 4 这相当于直接跳过一整代。

这张图我必须好好解释一下。这是「Scaling HLE – Test time」曲线图。

乍一看 Grok 4 Heavy 在 HLE 上达到了 50.7%，非常牛笔。

注意这里纵轴（Text-only）是 HLE 文本子集的准确率，HLE 全集里还有图表的视觉题目，这里刨除了视觉题，排除视觉弱点，用纯文字题代表模型的“深度推理 + 专业知识”能力。

只靠训练算力能把模型推到 30 ~ 40 %，而在推理阶段再加算力＋工具＋多智能体，可以把 Grok 4 Heavy 送上 50 % + 的门槛。在 32× 推理算力 + 工具 条件下达到顶点 50.7 %。

这里 32× 并非 32 台 GPU，而是一次并发 32 个推理分支，Groq 的做法是多智能体 + 深度搜索。

每个分支里可反复调用检索、代码执行、符号推导等外部 API，从 1 并行开到->32 倍，一次拉起 32 个智能体，彼此之间互相比对思路，找出突破口 Agent，然后得出全局最优答案。官方比喻“就像博士生团队结组做题”一样，比单体准确率提升明显。

要知道在 HLE 这种博士级卷子里，50 % 可以代表进入高阶专家水平了，这可是 LLM 第一次到达半卷线，第一次实现「答对多于答错」，意味着 AI 输出开始具备可采信的程度。

然后，再来看其他榜单。

一眼望过去，几乎所有你能叫得出名字的 benchmark，Grok 4 Heavy 全部榜一。

在 AIME25 和 HMMT25 这种偏奥数题型的数据集上，Grok 的表现尤其激进，Grok 4 Heavy 拿到了 100% 和 96.7%，甚至普通 Grok 4（无工具）都接近满分，看来它在数学方向是有针对性优化的。

ARC-AGI：代表认知能力上限可能有朋友不太了解这个，ARC-AGI 是业界最严苛、最接近 AGI 能力的测试之一（之前 OpenAI 搞出来的）。比“考试题”更贴近真实工作流：它要求模型先读说明、再查资料、写脚本、验证结果——整个链条必须自洽。

图的左侧是性能 vs 成本。

纵轴：模型在 ARC-AGI v2 上的得分，越高代表越能在陌生任务上自我规划并正确完成。

横轴：每个任务的执行成本（越靠左越便宜）。

你会发现，GPT-4、Claude、Gemini 都集中在中间区域，而 Grok 4 不仅得分最高（15.9%），还位于相对成本低的区间。这代表同等成本，单位美元智力翻倍。

图的右侧是模型排行榜。

ARC-AGI v1 （v1 题集规模小（26 题），已被多数模型刷过）上，Grok 4 的准确率为 66.6%，明显高于 Claude Opus（35.7%）和 GPT-4（60.8%）。

在 v2 版本（更难，半私有）中，Grok 4 依然领先，得分为 15.9%，同样远超其他模型。DeepSeek R1 仅 1.3 %，证明 v2 对“纯语言答题”模型几乎是硬墙。

16 % ≠ AGI，但意义不小：过去 18 个月，从 3 % → 8 % → 16 %，曲线跟 HLE 一样在指数抬升，说明“会用工具解陌生问题”这一能力正快速进阶。

Vending-Bench：Grok 4 还会赚钱这张图展示的是 xAI 内部最新设计的“自动售货机基准测试”（Vending-Bench），用来衡量不同 AI 模型在模拟真实商业任务时的表现。

Net worth (mean)：期末现金＋余货按成本计价

Units sold (mean)：总售出商品数

从这个测试结果看，在 300 步、近 5 小时的模拟里，Grok 4 的净资产和销量都甩开第二名 2 倍，把“会做题的 AI”拉进了“能赚钱的 AI”序列。

Grok 4 在这类“怎么卖得更多”这种模拟商业任务里，做得比人类更冷静、也更能拿分。

但是，Claude 你小子不是刚卖货赔了吗，怎么还比人类强这么多。。

与 GPT 或 Claude 的“后插工具”不同，Grok 4 把工具调用 写进训练环节，不止是会考试，会用工具，会赚钱，会协作，今年下半年将接入与 Tesla Optimus 协作，实现“现实世界 RL 闭环”。

训练规模与算力xAI 称训练量遵循“每代 ×10”规律：Grok 2 → 3 → 4，未来版本仍按此节奏扩张。

xAI 自建 AI 超算集群代号是「Colossus」，Grok 4 计算量比 Grok 2 增大了 100 倍，用了 ≈10 万张 H100；RL 计算量超同类模型 10 倍，≈20 万张 H100/A100 混合算力。

Grok Voice这个可能是 Grok-3 发布后最火的功能之一了，因为他们在默认语音体验里，内置了两个带有 18+ 暗示的互动场景。。。

别家都在强调延迟、连贯、准确率，Grok Voice 更在意听起来有没有感情、够不够自然。

现在，Grok Voice 的整体语音响应速度比以前快了整整两倍，从你说完话到 AI 开口回应几乎没有卡顿；语音风格也拓展到了 5 种不同类型。

日均交互时长比原来提升了 10 倍。

最后他们也在最后非常实诚的说出 Grok 当前的多模态能力其实很差。

但这块短板，很快就要补上了，并提出了月更计划。

8 月将推出专门的代码模型，9 月上线具备自主感知与任务协同能力的多模态 Agent，10 月则发布重量级视频生成模型。

下一代模型重点在三个方向：图像理解、视频理解和用户感知（audience awareness），将具备全套工具调用能力，可以与其他代理协同完成任务。也就是多模态 Agent。

视频生成在接下来的 3-4 周内，将启动一个 超 10 万 GB 训练规模的视频模。，模型单体大小预计超过 200GB。看来 xAI 正在快速补位 OpenAI、Google 在视频生成上的领先优势。

而最终的目标，是让 AI 不再只是内容生成器，而是内容的合作者：你可以在 X 平台上干预剧情、切换角色、重写走向，生成你自己的冒险故事。信息流、内容流、生成流、互动流，这一串链条正在 xAI 手里打通。

敬请期待，我只希望别再迟到了。。

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签