背景
2025-04-29,阿里通益向全球AI爱好者发布了他们最新的大语言模型--Qwen3.这是 Qwen 系列大型语言模型的最新成员。我们的旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比,表现出极具竞争力的结果。此外,小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%,表现更胜一筹,甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。
核心亮点
1)多种思考模式
Qwen3 模型支持两种思考模式:
- 思考模式:在这种模式下,模型会逐步推理,经过深思熟虑后给出最终答案。这种方法非常适合需要深入思考的复杂问题。非思考模式:在此模式中,模型提供快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题。
这种灵活性使用户能够根据具体任务控制模型进行“思考”的程度。例如,复杂的问题可以通过扩展推理步骤来解决,而简单的问题则可以直接快速作答,无需延迟。至关重要的是,这两种模式的结合大大增强了模型实现稳定且高效的“思考预算”控制能力。如上文所述,Qwen3 展现出可扩展且平滑的性能提升,这与分配的计算推理预算直接相关。这样的设计让用户能够更轻松地为不同任务配置特定的预算,在成本效益和推理质量之间实现更优的平衡。
2)多语言
Qwen3 模型支持 119 种语言和方言。这一广泛的多语言能力为国际应用开辟了新的可能性,让全球用户都能受益于这些模型的强大功能。
3)增强的 Agent 能力
我们优化了 Qwen3 模型的 Agent 和 代码能力,同时也加强了对 MCP 的支持。原生支持MCP、FunctionCalling的调用
技术亮点
1)混合专家(MoE)架构: 部分Qwen3模型采用了MoE架构,可以在保持高性能的同时,显著降低激活参数量,提高计算效率。
2)四阶段训练流程: 为了开发具备思考推理和快速响应能力的混合模型,Qwen3采用了包括长思维链冷启动、长思维链强化学习、思维模式融合和通用强化学习在内的四阶段训练流程。
3)海量训练数据: Qwen3的预训练数据量达到了36T,并在后训练阶段进行了多轮强化学习,以优化模型的性能和对齐。
实战测试
那么Qwen3真得犹如上述描述的那么强吗,本文通过chat.qwen.ai/ 网页端来测试
- Qwen3-235B-A22B(均开启推理模式)Qwen3-32B(均开启推理模式)
两款模型,并采用《# Claude 3.7 Sonnet & DeepSeek R1& Qwen2.5-Max 不严谨测试》文章相同的问题,以方便与业界领先的模型进行对比。选择Qwen3-235B-A22B是因为目前此模型代表了Qwen3系列最强的推理模型,而且Qwen3-32B作为本地很多机器能部署的稠密模型,也是大家作为研究、学习的不二选择。
编程测试
经典的弹力小球编程,
题目:实现一个弹力小球游戏:
- 环境设置:创建一个旋转的六边形作为小球的活动区域。物理规律:小球需要受到重力和摩擦力的影响。碰撞检测:小球与六边形墙壁碰撞时,需要按照物理规律反弹。
在给出最终答案之前,请自行运行代码检查是否有语法错误后再发送正确答案(由于开始测试过程经常会出现语法错误,所以加上此句提示词)
Qwen3-235B-A22B
开启了推理模式,效果非常好,一次过关,真的让我对Qwen系列有所改观。
Qwen3-32B
效果略有出路,但程序能运行,初次可以弹跳
编程结论
Qwen3-235B-A22B | Qwen3-32B | |
---|---|---|
弹力小球编程 | ✔️ | ❎ |
算法测试
本次算法测试题均来自edabit.com/,有兴趣的朋友可以自行选取任意难度的算法题进行测试
本次选取的算法难度为“非常难”
Create a function that returns all pairs of numbers in an array that sum to a target. Sort the pairs in ascending order with respect to the smaller number, then order each pair in this order: [smaller, larger].
Examples
allPairs([2, 4, 5, 3], 7) ➞ [[2, 5], [3, 4]]// 2 + 5 = 7, 3 + 4 = 7allPairs([5, 3, 9, 2, 1], 3) ➞ [[1, 2]]allPairs([4, 5, 1, 3, 6, 8], 9) ➞ [[1, 8], [3, 6], [4, 5]]// Sorted: 1 < 3 < 4; each pair is ordered [smaller, larger]
Qwen3-235B-A22B
生成的代码,一次性通过
def all_pairs(lst, target): lst.sort() res = [] i, j = 0, len(lst) - 1 while i < j: a, b = lst[i], lst[j] s = a + b if s == target: res.append([a, b]) i += 1 j -= 1 elif s < target: i += 1 else: j -= 1 return res
Qwen3-32B
生成代码,一次性通过
def all_pairs(lst, target): lst.sort() result = [] left, right = 0, len(lst) - 1 while left < right: current_sum = lst[left] + lst[right] if current_sum == target: result.append([lst[left], lst[right]]) left += 1 right -= 1 elif current_sum < target: left += 1 else: right -= 1 return result
Qwen3-235B-A22B | Qwen3-32B | |
---|---|---|
算法测试 | ✔️ | ❎ |
推理测试
问题:
你有两个沙漏,一个是 7 分钟的沙漏,一个是 11 分钟的沙漏。如何用这两个沙漏来测量 15 分钟?
参考答案:
- 同时启动两个沙漏七分钟的沙漏结束后,翻转它十一分钟的沙漏结束后,翻转七分钟的沙漏;此时七分钟的沙漏已经走过四分钟,翻转它会再走四分钟而不是三分钟七分钟沙漏结束后是11+4=15分钟
Qwen3-235B-A22B
成功推理出答案! 这个推理题在之前的测试中,均未有大模型推理成功,仅有网友传闻中o3-mini和grok3可以推理成功(笔者未测试)
### ✅ Step-by-Step Instructions1. **Start both sandglasses simultaneously.** - Begin timing from this moment.1. **When the 7-minute sandglass runs out (at 7 minutes):** - **Flip both sandglasses** immediately. - The 11-minute sandglass now has **4 minutes** of sand remaining in the top half.1. **When the 11-minute sandglass runs out (at 11 minutes total):** - The 7-minute sandglass has been running for **4 minutes** since step 2, so it now has **3 minutes** of sand left in the top half. - **Flip both sandglasses again.** - The 7-minute sandglass now has **4 minutes** of sand in the top half (because it was flipped with 3 minutes remaining, and now it's reversed).1. **Let the 7-minute sandglass run to completion (4 minutes):** - This brings the total time to **11 + 4 = 15 minutes.**
Qwen3-32B
无法推理出正确答案,一直死循环推理中
总结
编程:弹力小球 | 算法问题 | 推理:沙漏问题 | |
---|---|---|---|
QwQ-32B | 首次:运行脱模了❎第二次:运行效果不错✔️ | 一次性成功✔️ | 长时间推理,无法产生结果❎ |
Claude 3.7 Sonnet | 首次:成功运行,弹跳效果不错✔️ | 一次性成功✔️ | 有结论,但错误❎ |
DeepSeek R1 | 首次:运行后小球脱模了❎ | 长时间推理,无法产生结果❎ | 长时间推理,无法产生结果❎ |
Qwen3-235B-A22B | 首次:成功运行,弹跳效果不错✔️ | 一次性成功✔️ | 一次性成功✔️ |
Qwen3-32B | 首次:运行后小球脱模了❎ | 一次性成功✔️ | 长时间推理,无法产生结果❎ |
从之前几篇文章的测试情况综合来看,Qwen3-235B-A22B确实在推理能力,编程方面有明显的提升,甚至在推理问题上超越Claude 3.7 Sonnet,实属国产之光,但上述测试仅供参考,欢迎大家来交流使用心得~