华尔街见闻 - 资讯 - undefined 02月18日
令人难以置信!AI大神评Grok 3:性能媲美OpenAI最强模型,略优于DeepSeek-R1
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

AI大牛Andrej Karpathy对Grok 3发布后第一时间进行了点评,认为其思维模型先进,大致等同于o1-pro,领先于DeepSeek-R1。Grok 3在卡坦岛定居者问题上表现出色,但未能解决“表情符号之谜”。DeepSearch约等于Perplexity DeepResearch,但不及OpenAI的“深度研究”。Karpathy初步体验表明,Grok 3 + Thinking接近OpenAI最强模型,优于DeepSeek-R1和Gemini 2.0 Flash Thinking。他强调,考虑到Grok团队在一年内从零开始取得的进展,达到如此领先水平实属不易,但最终结论仍需更多评估。

🧠 Karpathy认为Grok 3拥有先进的思维模型,在解决卡坦岛定居者问题上表现出色,这方面优于DeepSeek-R1、Gemini 2.0 Flash Thinking和Claude。

🤔 Grok 3未能解决“表情符号之谜”,即使提供了Rust代码提示,也未能成功解码。DeepSeek-R1曾部分解码该信息,是Karpathy见过的最大进展。

🚀 Karpathy评估Grok 3 + Thinking的初步体验,认为其接近OpenAI的最强模型(o1-pro),略优于DeepSeek-R1和Gemini 2.0 Flash Thinking,展现了强大的竞争力。

在大模型Grok3正式发布后,曾担任特斯拉人工智能和自动驾驶视觉总监的AI大牛Andrej Karpathy在第一时间做了点评,其认为Grok 3大致等于o1-pro ,领先于DeepSeek-R1。

Karpathy表示,Grok 3显然有一个最先进的思维模型,并且在卡坦岛定居者问题上做得很好。很少有模型能够可靠地做到这一点。顶级的 OpenAI 思维模型(例如 o1-pro,每月 200 美元)也能做到这一点,但 DeepSeek-R1、Gemini 2.0 Flash Thinking 和 Claude 的所有模型都没有。

但模型并没有解决“表情符号之谜”问题,即使以 Rust 代码的形式给出了有关如何解码它的强烈提示,Karpathy称其见过的最大进展来自 DeepSeek-R1,它曾经部分解码了消息。

Karpathy认为,DeepSearch大约等于Perplexity DeepResearch 的产品,但还没有达到 OpenAI 最近发布的“深度研究”的水平。

Karpathy表示,就目前短暂上手的体验而言,Grok 3 + Thinking 感觉在 OpenAI 最强模型(o1-pro,200 美元/月)的艺术领域附近,略好于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。

考虑到团队在 ~1 年前从头开始,这是相当令人难以置信的,达到最先进领域的时间跨度是前所未有的。

但目前得出完整结论还为时过早,需要在在接下来的几天/几周内等待更多的评估。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Grok 3 Andrej Karpathy AI模型评估
相关文章