原创 R.Zen 2025-07-10 16:10 北京
期待了两周的 Grok 4 终于来了!
“它是世界上最聪明的 AI”。上一次这句话出现还是 Anthropic 发布 Claude 4,这次听上去也毫不夸张。xAI 发布了两个版本,分别是 Grok 4 和 Grok 4 Heavy。你光看名字可能会以为 Grok 4 Heavy 是加了参数的 plus 版,no,Grok 4 是单体模型, Heavy 是多智能体协作版。当然,价格也是真贵。Grok 4 放在了 30 刀每月的 SuperGrok 套餐里,Grok 4 Heavy 则要300 刀,名字也干脆叫 SuperGrok Heavy。全榜单第一老规矩,先来看榜单成绩。上来就是大模型的魔鬼榜单—— Humanity’s Last Exam(HLE),也被称为大模型的终极闭卷,包含 2500 道高难度题目,覆盖超过 100 个学科,从数学、化学、语言学到人文社科,能把任何一个博士搞破防的那种。Grop 4 和 Grok 4 Heavy 拿下了这个榜单的第一和第二,Grok 4 Heavy 得分 44.4%,几乎是第二名 Gemini 2.5 Pro 的 2 倍。2024 年底,多数模型在 HLE 还不到 10 %,OpenAI o3 做到 20 % 已被称为“巨跃”,Grok 4 这相当于直接跳过一整代。这张图我必须好好解释一下。这是「Scaling HLE – Test time」曲线图。乍一看 Grok 4 Heavy 在 HLE 上达到了 50.7%,非常牛笔。注意这里纵轴(Text-only)是 HLE 文本子集的准确率,HLE 全集里还有图表的视觉题目,这里刨除了视觉题,排除视觉弱点,用纯文字题代表模型的“深度推理 + 专业知识”能力。只靠训练算力能把模型推到 30 ~ 40 %,而在推理阶段再加算力 + 工具 + 多智能体,可以把 Grok 4 Heavy 送上 50 % + 的门槛。在 32× 推理算力 + 工具 条件下达到顶点 50.7 %。这里 32× 并非 32 台 GPU,而是一次并发 32 个推理分支,Groq 的做法是多智能体 + 深度搜索。每个分支里可反复调用检索、代码执行、符号推导等外部 API,从 1 并行开到->32 倍,一次拉起 32 个智能体,彼此之间互相比对思路,找出突破口 Agent,然后得出全局最优答案。官方比喻“就像博士生团队结组做题”一样,比单体准确率提升明显。要知道在 HLE 这种博士级卷子里,50 % 可以代表进入高阶专家水平了,这可是 LLM 第一次到达半卷线,第一次实现「答对多于答错」,意味着 AI 输出开始具备可采信的程度。然后,再来看其他榜单。一眼望过去,几乎所有你能叫得出名字的 benchmark,Grok 4 Heavy 全部榜一。在 AIME25 和 HMMT25 这种偏奥数题型的数据集上,Grok 的表现尤其激进,Grok 4 Heavy 拿到了 100% 和 96.7%,甚至普通 Grok 4(无工具)都接近满分,看来它在数学方向是有针对性优化的。ARC-AGI:代表认知能力上限可能有朋友不太了解这个,ARC-AGI 是业界最严苛、最接近 AGI 能力的测试之一(之前 OpenAI 搞出来的)。比“考试题”更贴近真实工作流:它要求模型先读说明、再查资料、写脚本、验证结果——整个链条必须自洽。图的左侧是性能 vs 成本。纵轴:模型在 ARC-AGI v2 上的得分,越高代表越能在陌生任务上自我规划并正确完成。横轴:每个任务的执行成本(越靠左越便宜)。你会发现,GPT-4、Claude、Gemini 都集中在中间区域,而 Grok 4 不仅得分最高(15.9%),还位于相对成本低的区间。这代表同等成本,单位美元智力翻倍。图的右侧是模型排行榜。ARC-AGI v1 (v1 题集规模小(26 题),已被多数模型刷过)上,Grok 4 的准确率为 66.6%,明显高于 Claude Opus(35.7%)和 GPT-4(60.8%)。在 v2 版本(更难,半私有)中,Grok 4 依然领先,得分为 15.9%,同样远超其他模型。DeepSeek R1 仅 1.3 %,证明 v2 对“纯语言答题”模型几乎是硬墙。16 % ≠ AGI,但意义不小:过去 18 个月,从 3 % → 8 % → 16 %,曲线跟 HLE 一样在指数抬升,说明“会用工具解陌生问题”这一能力正快速进阶。Vending-Bench:Grok 4 还会赚钱这张图展示的是 xAI 内部最新设计的“自动售货机基准测试”(Vending-Bench),用来衡量不同 AI 模型在模拟真实商业任务时的表现。Net worth (mean):期末现金 + 余货按成本计价Units sold (mean):总售出商品数从这个测试结果看,在 300 步、近 5 小时的模拟里,Grok 4 的净资产和销量都甩开第二名 2 倍,把“会做题的 AI”拉进了“能赚钱的 AI”序列。Grok 4 在这类“怎么卖得更多”这种模拟商业任务里,做得比人类更冷静、也更能拿分。但是,Claude 你小子不是刚卖货赔了吗,怎么还比人类强这么多。。与 GPT 或 Claude 的“后插工具”不同,Grok 4 把工具调用 写进训练环节,不止是会考试,会用工具,会赚钱,会协作,今年下半年将接入与 Tesla Optimus 协作,实现“现实世界 RL 闭环”。训练规模与算力xAI 称训练量遵循“每代 ×10”规律:Grok 2 → 3 → 4,未来版本仍按此节奏扩张。xAI 自建 AI 超算集群代号是「Colossus」,Grok 4 计算量比 Grok 2 增大了 100 倍,用了 ≈10 万张 H100;RL 计算量超同类模型 10 倍,≈20 万张 H100/A100 混合算力。Grok Voice这个可能是 Grok-3 发布后最火的功能之一了,因为他们在默认语音体验里,内置了两个带有 18+ 暗示的互动场景。。。别家都在强调延迟、连贯、准确率,Grok Voice 更在意听起来有没有感情、够不够自然。现在,Grok Voice 的整体语音响应速度比以前快了整整两倍,从你说完话到 AI 开口回应几乎没有卡顿;语音风格也拓展到了 5 种不同类型。日均交互时长比原来提升了 10 倍。最后他们也在最后非常实诚的说出 Grok 当前的多模态能力其实很差。但这块短板,很快就要补上了,并提出了月更计划。