夕小瑶科技说 07月17日 03:09
Grok 4一口气刷爆所有高难榜单!全球首个考满分、又能赚钱的AI
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

xAI 发布的 Grok 4 备受瞩目,其性能在多个基准测试中表现出色。Grok 4 Heavy 在 Humanity’s Last Exam (HLE) 中取得优异成绩,远超其他模型。Grok 4 在 ARC-AGI 测试中也展现出强大的解决问题的能力,并且在“自动售货机基准测试”中表现出色,展现了其在模拟商业任务中的潜力。xAI 计划在未来几个月内推出多模态 Agent 和视频生成模型,旨在实现 AI 内容创作的合作。

🚀 在HLE(Humanity’s Last Exam)测试中,Grok 4 Heavy 获得了 44.4% 的高分,几乎是第二名 Gemini 2.5 Pro 的两倍,展示了其在复杂问题解决方面的强大能力。

💡 Grok 4 在ARC-AGI v2 测试中得分领先,证明其在陌生任务上的自我规划和执行能力,并且在同等成本下,智力水平翻倍,其在ARC-AGI v1 上的准确率为 66.6%,远超 Claude Opus 和 GPT-4。

💰 在内部设计的 Vending-Bench 测试中,Grok 4 的净资产和销量都远超其他模型,证明了其在模拟商业任务中的出色表现,展现了“能赚钱的 AI”的潜力。

🗣️ Grok Voice 在语音响应速度和语音风格上进行了改进,日均交互时长提升了 10 倍,表明 xAI 致力于提升用户体验。

🗓️ xAI 计划在未来几个月内推出多模态 Agent 和视频生成模型,并计划与 Tesla Optimus 协作,实现“现实世界 RL 闭环”,旨在让 AI 成为内容创作的合作者。

原创 R.Zen 2025-07-10 16:10 北京

期待了两周的 Grok 4 终于来了!

期待了两周的 Grok 4 终于来了!

一大早 family 群里的小伙伴们已经启动好倒计时。

原定北京时间 7.10 号 11 点,结果硬生生迟到 1 个小时。。12 点才开始。

不愧是你鸽王。

直播现场马斯克用一句话开场:

“它是世界上最聪明的 AI”。

上一次这句话出现还是 Anthropic 发布 Claude 4,这次听上去也毫不夸张。

xAI 发布了两个版本,分别是 Grok 4 和 Grok 4 Heavy。

你光看名字可能会以为 Grok 4 Heavy 是加了参数的 plus 版,no,Grok 4 是单体模型, Heavy 是多智能体协作版。

当然,价格也是真贵。Grok 4 放在了 30 刀每月的 SuperGrok 套餐里,Grok 4 Heavy 则要300 刀,名字也干脆叫 SuperGrok Heavy。

全榜单第一老规矩,先来看榜单成绩。

上来就是大模型的魔鬼榜单—— Humanity’s Last Exam(HLE),也被称为大模型的终极闭卷,包含 2500 道高难度题目,覆盖超过 100 个学科,从数学、化学、语言学到人文社科,能把任何一个博士搞破防的那种。

Grop 4 和 Grok 4 Heavy 拿下了这个榜单的第一和第二,Grok 4 Heavy 得分 44.4%,几乎是第二名 Gemini 2.5 Pro 的 2 倍。2024 年底,多数模型在 HLE 还不到 10 %,OpenAI o3 做到 20 % 已被称为“巨跃”,Grok 4 这相当于直接跳过一整代。

这张图我必须好好解释一下。这是「Scaling HLE – Test time」曲线图。

乍一看 Grok 4 Heavy 在 HLE 上达到了 50.7%,非常牛笔。

注意这里纵轴(Text-only)是 HLE 文本子集的准确率,HLE 全集里还有图表的视觉题目,这里刨除了视觉题,排除视觉弱点,用纯文字题代表模型的“深度推理 + 专业知识”能力。

只靠训练算力能把模型推到 30 ~ 40 %,而在推理阶段再加算力 + 工具 + 多智能体,可以把 Grok 4 Heavy 送上 50 % + 的门槛。在 32× 推理算力 + 工具 条件下达到顶点 50.7 %。

这里 32× 并非 32 台 GPU,而是一次并发 32 个推理分支,Groq 的做法是多智能体 + 深度搜索。

每个分支里可反复调用检索、代码执行、符号推导等外部 API,从 1 并行开到->32 倍,一次拉起 32 个智能体,彼此之间互相比对思路,找出突破口 Agent,然后得出全局最优答案。官方比喻“就像博士生团队结组做题”一样,比单体准确率提升明显。

要知道在 HLE 这种博士级卷子里,50 % 可以代表进入高阶专家水平了,这可是 LLM 第一次到达半卷线,第一次实现「答对多于答错」,意味着 AI 输出开始具备可采信的程度。

然后,再来看其他榜单。

一眼望过去,几乎所有你能叫得出名字的 benchmark,Grok 4 Heavy 全部榜一。

在 AIME25 和 HMMT25 这种偏奥数题型的数据集上,Grok 的表现尤其激进,Grok 4 Heavy 拿到了 100% 和 96.7%,甚至普通 Grok 4(无工具)都接近满分,看来它在数学方向是有针对性优化的。

ARC-AGI:代表认知能力上限可能有朋友不太了解这个,ARC-AGI 是业界最严苛、最接近 AGI 能力的测试之一(之前 OpenAI 搞出来的)。比“考试题”更贴近真实工作流:它要求模型先读说明、再查资料、写脚本、验证结果——整个链条必须自洽。

图的左侧是性能 vs 成本。

纵轴:模型在 ARC-AGI v2 上的得分,越高代表越能在陌生任务上自我规划并正确完成。

横轴:每个任务的执行成本(越靠左越便宜)。

你会发现,GPT-4、Claude、Gemini 都集中在中间区域,而 Grok 4 不仅得分最高(15.9%),还位于相对成本低的区间。这代表同等成本,单位美元智力翻倍。

图的右侧是模型排行榜。

ARC-AGI v1 (v1 题集规模小(26 题),已被多数模型刷过)上,Grok 4 的准确率为 66.6%,明显高于 Claude Opus(35.7%)和 GPT-4(60.8%)。

在 v2 版本(更难,半私有)中,Grok 4 依然领先,得分为 15.9%,同样远超其他模型。DeepSeek R1 仅 1.3 %,证明 v2 对“纯语言答题”模型几乎是硬墙。

16 % ≠ AGI,但意义不小:过去 18 个月,从 3 % → 8 % → 16 %,曲线跟 HLE 一样在指数抬升,说明“会用工具解陌生问题”这一能力正快速进阶。

Vending-Bench:Grok 4 还会赚钱这张图展示的是 xAI 内部最新设计的“自动售货机基准测试”(Vending-Bench),用来衡量不同 AI 模型在模拟真实商业任务时的表现。

Net worth (mean):期末现金 + 余货按成本计价

Units sold (mean):总售出商品数

从这个测试结果看,在 300 步、近 5 小时的模拟里,Grok 4 的净资产和销量都甩开第二名 2 倍,把“会做题的 AI”拉进了“能赚钱的 AI”序列。

Grok 4 在这类“怎么卖得更多”这种模拟商业任务里,做得比人类更冷静、也更能拿分。

但是,Claude 你小子不是刚卖货赔了吗,怎么还比人类强这么多。。

与 GPT 或 Claude 的“后插工具”不同,Grok 4 把工具调用 写进训练环节,不止是会考试,会用工具,会赚钱,会协作,今年下半年将接入与 Tesla Optimus 协作,实现“现实世界 RL 闭环”。

训练规模与算力xAI 称训练量遵循“每代 ×10”规律:Grok 2 → 3 → 4,未来版本仍按此节奏扩张。

xAI 自建 AI 超算集群代号是「Colossus」,Grok 4 计算量比 Grok 2 增大了 100 倍,用了 ≈10 万张 H100;RL 计算量超同类模型 10 倍,≈20 万张 H100/A100 混合算力。

Grok Voice这个可能是 Grok-3 发布后最火的功能之一了,因为他们在默认语音体验里,内置了两个带有 18+ 暗示的互动场景。。。

别家都在强调延迟、连贯、准确率,Grok Voice 更在意听起来有没有感情、够不够自然。

现在,Grok Voice 的整体语音响应速度比以前快了整整两倍,从你说完话到 AI 开口回应几乎没有卡顿;语音风格也拓展到了 5 种不同类型。

日均交互时长比原来提升了 10 倍

最后他们也在最后非常实诚的说出 Grok 当前的多模态能力其实很差。

但这块短板,很快就要补上了,并提出了月更计划。

8 月将推出专门的代码模型,9 月上线具备自主感知与任务协同能力的多模态 Agent,10 月则发布重量级视频生成模型。

下一代模型重点在三个方向:图像理解、视频理解和用户感知(audience awareness),将具备全套工具调用能力,可以与其他代理协同完成任务。也就是多模态 Agent。

视频生成在接下来的 3-4 周内,将启动一个 超 10 万 GB 训练规模的视频模。,模型单体大小预计超过 200GB。看来 xAI 正在快速补位 OpenAI、Google 在视频生成上的领先优势。

而最终的目标,是让 AI 不再只是内容生成器,而是内容的合作者:你可以在 X 平台上干预剧情、切换角色、重写走向,生成你自己的冒险故事。信息流、内容流、生成流、互动流,这一串链条正在 xAI 手里打通。

敬请期待,我只希望别再迟到了。。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Grok 4 xAI 人工智能 AI 模型
相关文章