反超 DeepSeek-V3，新发布的 Qwen2.5-Max 到底有多牛？

原创特工少女 2025-02-06 19:16 浙江

登上大模型盲测榜单全球前十，数学及编程能力夺冠。

内容编辑丨特工少女

模型测评丨特工小鹏

春节假期期间，除了万众瞩目的 DeepSeek 之外，还有一款模型的发布也不容忽视，它就是 Qwen2.5-Max。

https://qwenlm.github.io/blog/qwen2.5-max/

该模型采用 MoE 架构，预训练数据量达 20 万亿 tokens，基座模型在 11 项基准测试中全面领先开源模型，指令模型则在多项任务中与 Claude-3.5-Sonnet 持平。

模型发布后，阿里巴巴港股在 2 月 3 日至 4 日期间上涨近 12%。市场普遍认为，Qwen2.5-Max 的性能是超越预期的。

虽然得知发布的时间很早，但由于适逢佳节，我们没有投入足够的时间去关注这款模型。不过！这两天 Qwen2.5-Max 登上某大模型盲测榜单全球前十，超越了 Claude-3.5-Sonnet、GPT-4o、DeepSeek-V3 等一众模型的消息，在圈内又掀起了一番热度，也让我们重新重视起了它。

又一高光时刻

Qwen2.5-Max 在 Chatbot Arena 盲测榜单中以 1332 分位列全球第七，超越 DeepSeek V3、Claude-3.5-Sonnet 等国际主流模型。

Chatbot Arena 是业内非常权威且重磅的竞技平台，其含金量体现在：

1. 用户基数大：由于采用众包评估，数据量巨大，提供了高信度和高效度的评估结果。

2. 多维度评估：除了 Elo 评分外，还包括 MT-Bench、MMLU 等多种基准测试，提供了对模型性能的多角度理解。

3. 公信力：由于其开放、匿名的评测机制，避免了主观偏见，被视为一个相对公正的评估平台。

此外，诸多大佬曾经都引用、认可过该榜单。

1. OpenAI 的 Greg Brockman，在他被 OpenAI 开除前的最后一条 Twitter 上，他分享了Chatbot Arena的排行榜，显示 GPT-4-Turbo 超越了 GPT-4。

2. Andrej Karpathy，OpenAI 创始团队成员，在讨论大模型评测时特别提到他只相信两个基准：Chatbot Arena 和 r/LocalLlama。

3. Jan Leike，OpenAI 的超级对齐团队主管，提出了“评价比生成更容易”的理论，并认为 Chatbot Arena 的评测方式符合这种理念。

值得一提的是，官方还表示，Qwen2.5-Max 在数学、编程、硬提示（Hard Prompts）等专业领域表现尤为突出。在榜单中可以看到，Qwen2.5-Max 在数学和编程领域拿下了第一。

实测效果如何？

也是近段时间，阿里云上线了 QwenChat 平台，可以免费使用 Qwen 系列热门模型，还支持不同模型对战。

于是我们在 QwenChat 上进行了一番测试，来实际体验一下 Qwen2.5-Max 的魅力。

https://chat.qwenlm.ai/

我们先拿 2024 考研数学一的所有填空题进行了测试，Qwen2.5-Max 全部回答正确，且思路清晰，计算没有冗余。

今年，首个外国组合 OneRepublic 登上春晚，献唱了一首《Counting Star》，许多网友对这一信号和歌词做了有趣的解读。

我们就让 Qwen2.5-Max 尝试做了一个歌词翻译，先来考验下文学能力。细细看下来还是蛮信达雅的，不逊于春晚官方翻译的美感。

紧接着是一个逻辑推理相关的测试：有 23 枚硬币在桌上，10 枚正面朝上。蒙住你的眼睛（你无法分清正反），如何分成两组，让两组硬币正面朝上的一样多？Qwen2.5-Max 正确的回答出了最优解。

然后是编程算法测试，我们让 Qwen2.5-Max 生成了一个广度搜索算法的教学，效果很优雅。Qwen2.5-Max 是支持 Artifacts 的，通过 Qwen，可以实现交互式的展示搜索过程，并且实时解答。

还有编程开发测试，我们魔改了传统贪吃蛇游戏的规则，变成了双人竞技游戏，Qwen 正确生成代码并可以直接在线游玩。

最后，弱智吧问题、热门数字母个数的问题也不在话下。

国产大模型集体崛起

在榜单中，我们能清楚的看到，Qwen2.5-Max，DeepSeek-V3，还有智谱 GLM-4-Plus、阶跃星辰的 Step-2-16k-exp 纷纷上榜，名列前十。

Chatbot Arena 官方也表示：中美 AI 差距正在快速缩小。

这是一个令人激动的时间节点，Qwen2.5-Max 的发布与走红，不仅是阿里云的技术里程碑，更是中国在全球 AI 竞赛中确立话语权的关键一步。

这也不仅仅是一个个国产大模型的性能突破，也更折射出中国 AI 从“跟跑者”向“规则制定者”的跃迁逻辑。全球 AI 产业的天平正悄然倾斜，这场技术革命的涟漪正在重构资本流向、技术路径与国际话语权。

对于下一步规划，Qwen 模型团队在技术博客中写道：通过规模化强化学习技术的创新应用，我们致力于持续提升大语言模型的思维与推理能力，为实现模型智能超越人类认知边界开辟道路。

近段时间 DeepSeek 团队展示了从 V3 到 R1 的演进路径，其中 DeepSeek-R1-Zero 是一个通过大规模强化学习训练的模型，无需 SFT，即可具备较强的推理能力。DeepSeek 的思路是基于强大的基础模型衍生出专注于推理的模型，证明了强化学习在模型 Scaling 中的重要性。在保持基础模型通用能力的同时，针对复杂推理任务进行定向突破。

当强化学习的规模化效应叠加在优质基模之上，完全可能催生指数级的能力跃迁。因此，按照这个思路，我们更加期待基于 Qwen2.5-Max 开发的推理模型了！

我们相信，Qwen 等国产大模型，在接下来会带给我们更多惊喜。

一起期待，一起见证。

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签