半夜真地震了！DeepSeek V3新版本，官方发布跑分，击溃 GPT-4.5、Claude-3.7

原创夕小瑶编辑部 2025-03-26 03:08 北京

昨天，DeepSeek 在毫无预告的情况下，悄悄上线了 DeepSeek-V3-0324——看似“小版本更新”的模型，经过一天的发酵，已经引发了一波地震。

但我没想到的是，就在刚刚，发生了一波真的地震——

好家伙，坐标北京海淀的我，都快写稿子写睡着了，结果突然感觉到有人在晃我的床。

翻了翻朋友圈才知道，这 DeepSeek-V3 的震感这次是真的从精神层面传导到我的肉体层面了...

当然，以上纯瞎扯，物理地震与 DeepSeek 新模型发布无任何关联。但愿震中地区的家人们无人受伤...

下面进入正题。

先贴官方给出的评测结果——

新版 DeepSeek-V3-0324 模型的百科知识（MMLU-Pro, GPQA）、数学（MATH-500, AIME 2024）和代码任务（LiveCodeBench）表现均有提升。

划重点——

全面超越 Claude-3.7-Sonnet

在数学、代码类相关评测集上超过 GPT-4.5

作为一个没有思维链的非推理模型，DeepSeek-V3-0324 模型在推理类任务上的表现可圈可点。

根据第三方评测，新版的 DeepSeek-V3 模型与 Grok-3 打平，并列传统对话类模型榜首。

在真实世界编程基准 Arena 榜单上，有热心网友整理了最新排名——

DeepSeek-V3-0324 模型在该测试基准上，表现仅次于 Claude-3.7-Sonnet-Thinking 和 Claude-3.5-Sonnet。领先 OpenAI o1、Gemini-2.0-Pro、Grok-3-Reasoning 等一众海外知名的推理类&传统对话类模型，当然，也包括 DeepSeek-R1。

如果你觉得 DeepSeek-V3-0324 模型在推理类任务上比肩 Claude-3.7-Sonnet，GPT-4.5 等海外模型还不够刺激，那么算一笔账就明白为什么这个模型会引发地震了。