阿里Qwen3第一时间评测，表现真得与benchmark分数一致？

背景

2025-04-29，阿里通益向全球AI爱好者发布了他们最新的大语言模型--Qwen3.这是 Qwen 系列大型语言模型的最新成员。我们的旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中，与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比，表现出极具竞争力的结果。此外，小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%，表现更胜一筹，甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。

核心亮点

1）多种思考模式

Qwen3 模型支持两种思考模式：

思考模式：在这种模式下，模型会逐步推理，经过深思熟虑后给出最终答案。这种方法非常适合需要深入思考的复杂问题。非思考模式：在此模式中，模型提供快速、近乎即时的响应，适用于那些对速度要求高于深度的简单问题。

这种灵活性使用户能够根据具体任务控制模型进行“思考”的程度。例如，复杂的问题可以通过扩展推理步骤来解决，而简单的问题则可以直接快速作答，无需延迟。至关重要的是，这两种模式的结合大大增强了模型实现稳定且高效的“思考预算”控制能力。如上文所述，Qwen3 展现出可扩展且平滑的性能提升，这与分配的计算推理预算直接相关。这样的设计让用户能够更轻松地为不同任务配置特定的预算，在成本效益和推理质量之间实现更优的平衡。

2）多语言

Qwen3 模型支持 119 种语言和方言。这一广泛的多语言能力为国际应用开辟了新的可能性，让全球用户都能受益于这些模型的强大功能。

3）增强的 Agent 能力

我们优化了 Qwen3 模型的 Agent 和代码能力，同时也加强了对 MCP 的支持。原生支持MCP、FunctionCalling的调用

技术亮点

1）混合专家（MoE）架构： 部分Qwen3模型采用了MoE架构，可以在保持高性能的同时，显著降低激活参数量，提高计算效率。

2）四阶段训练流程： 为了开发具备思考推理和快速响应能力的混合模型，Qwen3采用了包括长思维链冷启动、长思维链强化学习、思维模式融合和通用强化学习在内的四阶段训练流程。

3）海量训练数据： Qwen3的预训练数据量达到了36T，并在后训练阶段进行了多轮强化学习，以优化模型的性能和对齐。

实战测试

那么Qwen3真得犹如上述描述的那么强吗，本文通过chat.qwen.ai/ 网页端来测试

Qwen3-235B-A22B（均开启推理模式）Qwen3-32B（均开启推理模式）

两款模型，并采用《# Claude 3.7 Sonnet & DeepSeek R1& Qwen2.5-Max 不严谨测试》文章相同的问题，以方便与业界领先的模型进行对比。选择Qwen3-235B-A22B是因为目前此模型代表了Qwen3系列最强的推理模型，而且Qwen3-32B作为本地很多机器能部署的稠密模型，也是大家作为研究、学习的不二选择。

编程测试

经典的弹力小球编程，

题目：实现一个弹力小球游戏：

环境设置：创建一个旋转的六边形作为小球的活动区域。物理规律：小球需要受到重力和摩擦力的影响。碰撞检测：小球与六边形墙壁碰撞时，需要按照物理规律反弹。

在给出最终答案之前，请自行运行代码检查是否有语法错误后再发送正确答案（由于开始测试过程经常会出现语法错误，所以加上此句提示词）

Qwen3-235B-A22B

开启了推理模式，效果非常好，一次过关，真的让我对Qwen系列有所改观。

Qwen3-32B

效果略有出路，但程序能运行，初次可以弹跳

编程结论

	Qwen3-235B-A22B	Qwen3-32B
弹力小球编程	✔️	❎

算法测试

本次算法测试题均来自edabit.com/，有兴趣的朋友可以自行选取任意难度的算法题进行测试

本次选取的算法难度为“非常难”

算法题为edabit.com/challenge/K…

Create a function that returns all pairs of numbers in an array that sum to a target. Sort the pairs in ascending order with respect to the smaller number, then order each pair in this order: [smaller, larger].

Examples

allPairs([2, 4, 5, 3], 7) ➞ [[2, 5], [3, 4]]// 2 + 5 = 7, 3 + 4 = 7allPairs([5, 3, 9, 2, 1], 3) ➞ [[1, 2]]allPairs([4, 5, 1, 3, 6, 8], 9) ➞ [[1, 8], [3, 6], [4, 5]]// Sorted: 1 < 3 < 4; each pair is ordered [smaller, larger]

Qwen3-235B-A22B

生成的代码，一次性通过

def all_pairs(lst, target):    lst.sort()    res = []    i, j = 0, len(lst) - 1    while i < j:        a, b = lst[i], lst[j]        s = a + b        if s == target:            res.append([a, b])            i += 1            j -= 1        elif s < target:            i += 1        else:            j -= 1    return res

Qwen3-32B

生成代码，一次性通过

def all_pairs(lst, target):    lst.sort()    result = []    left, right = 0, len(lst) - 1    while left < right:        current_sum = lst[left] + lst[right]        if current_sum == target:            result.append([lst[left], lst[right]])            left += 1            right -= 1        elif current_sum < target:            left += 1        else:            right -= 1    return result

	Qwen3-235B-A22B	Qwen3-32B
算法测试	✔️	❎

推理测试

问题：

你有两个沙漏，一个是 7 分钟的沙漏，一个是 11 分钟的沙漏。如何用这两个沙漏来测量 15 分钟？

参考答案：

同时启动两个沙漏七分钟的沙漏结束后，翻转它十一分钟的沙漏结束后，翻转七分钟的沙漏；此时七分钟的沙漏已经走过四分钟，翻转它会再走四分钟而不是三分钟七分钟沙漏结束后是11+4=15分钟

Qwen3-235B-A22B

成功推理出答案！ 这个推理题在之前的测试中，均未有大模型推理成功，仅有网友传闻中o3-mini和grok3可以推理成功（笔者未测试）

### ✅ Step-by-Step Instructions1.  **Start both sandglasses simultaneously.**    -   Begin timing from this moment.1.  **When the 7-minute sandglass runs out (at 7 minutes):**    -   **Flip both sandglasses** immediately.    -   The 11-minute sandglass now has **4 minutes** of sand remaining in the top half.1.  **When the 11-minute sandglass runs out (at 11 minutes total):**    -   The 7-minute sandglass has been running for **4 minutes** since step 2, so it now has **3 minutes** of sand left in the top half.    -   **Flip both sandglasses again.**    -   The 7-minute sandglass now has **4 minutes** of sand in the top half (because it was flipped with 3 minutes remaining, and now it's reversed).1.  **Let the 7-minute sandglass run to completion (4 minutes):**    -   This brings the total time to **11 + 4 = 15 minutes.**

Qwen3-32B

无法推理出正确答案，一直死循环推理中

总结

	编程：弹力小球	算法问题	推理：沙漏问题
QwQ-32B	首次：运行脱模了❎第二次：运行效果不错✔️	一次性成功✔️	长时间推理,无法产生结果❎
Claude 3.7 Sonnet	首次：成功运行，弹跳效果不错✔️	一次性成功✔️	有结论，但错误❎
DeepSeek R1	首次：运行后小球脱模了❎	长时间推理,无法产生结果❎	长时间推理,无法产生结果❎
Qwen3-235B-A22B	首次：成功运行，弹跳效果不错✔️	一次性成功✔️	一次性成功✔️
Qwen3-32B	首次：运行后小球脱模了❎	一次性成功✔️	长时间推理,无法产生结果❎

从之前几篇文章的测试情况综合来看，Qwen3-235B-A22B确实在推理能力，编程方面有明显的提升，甚至在推理问题上超越Claude 3.7 Sonnet，实属国产之光，但上述测试仅供参考，欢迎大家来交流使用心得~

背景

核心亮点

技术亮点

实战测试

编程测试

Qwen3-235B-A22B

Qwen3-32B

编程结论

算法测试

Qwen3-235B-A22B

Qwen3-32B

推理测试

Qwen3-235B-A22B

Qwen3-32B

总结

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签