性能:继续屠榜,各项得分超过o3/Gemini 2.5 Pro/Claude 4。 本次跑分重点都放在了Humanity Last Exam(之前的题都被刷爆了,各种模型分差不大),一般人类拿不了几分。Grok 4在Tool调用和Test time(也就是加reasoning算力)加成下,分数提升到50.7%(之前模型最高是Gemini 2.5 Pro的27%),提升非常显著。 算力:Grok 4在预训练算力相比Grok 2提升10x;推理算力相比Grok 3提升10x。RL是Grok 4的重点