令人难以置信！AI大神评Grok 3：性能媲美OpenAI最强模型，略优于DeepSeek-R1

华尔街见闻 - 资讯 - undefined 02月18日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

AI大牛Andrej Karpathy对Grok 3发布后第一时间进行了点评，认为其思维模型先进，大致等同于o1-pro，领先于DeepSeek-R1。Grok 3在卡坦岛定居者问题上表现出色，但未能解决“表情符号之谜”。DeepSearch约等于Perplexity DeepResearch，但不及OpenAI的“深度研究”。Karpathy初步体验表明，Grok 3 + Thinking接近OpenAI最强模型，优于DeepSeek-R1和Gemini 2.0 Flash Thinking。他强调，考虑到Grok团队在一年内从零开始取得的进展，达到如此领先水平实属不易，但最终结论仍需更多评估。

🧠 Karpathy认为Grok 3拥有先进的思维模型，在解决卡坦岛定居者问题上表现出色，这方面优于DeepSeek-R1、Gemini 2.0 Flash Thinking和Claude。

🤔 Grok 3未能解决“表情符号之谜”，即使提供了Rust代码提示，也未能成功解码。DeepSeek-R1曾部分解码该信息，是Karpathy见过的最大进展。

🚀 Karpathy评估Grok 3 + Thinking的初步体验，认为其接近OpenAI的最强模型（o1-pro），略优于DeepSeek-R1和Gemini 2.0 Flash Thinking，展现了强大的竞争力。

在大模型Grok3正式发布后，曾担任特斯拉人工智能和自动驾驶视觉总监的AI大牛Andrej Karpathy在第一时间做了点评，其认为Grok 3大致等于o1-pro ，领先于DeepSeek-R1。

Karpathy表示，Grok 3显然有一个最先进的思维模型，并且在卡坦岛定居者问题上做得很好。很少有模型能够可靠地做到这一点。顶级的 OpenAI 思维模型（例如 o1-pro，每月 200 美元）也能做到这一点，但 DeepSeek-R1、Gemini 2.0 Flash Thinking 和 Claude 的所有模型都没有。

但模型并没有解决“表情符号之谜”问题，即使以 Rust 代码的形式给出了有关如何解码它的强烈提示，Karpathy称其见过的最大进展来自 DeepSeek-R1，它曾经部分解码了消息。

Karpathy认为，DeepSearch大约等于Perplexity DeepResearch 的产品，但还没有达到 OpenAI 最近发布的“深度研究”的水平。

Karpathy表示，就目前短暂上手的体验而言，Grok 3 + Thinking 感觉在 OpenAI 最强模型（o1-pro，200 美元/月）的艺术领域附近，略好于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。

考虑到团队在 ~1 年前从头开始，这是相当令人难以置信的，达到最先进领域的时间跨度是前所未有的。

但目前得出完整结论还为时过早，需要在在接下来的几天/几周内等待更多的评估。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签