掘金 人工智能 05月03日 10:13
阿里Qwen3第一时间评测,表现真得与benchmark分数一致?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里通义发布的Qwen3系列大语言模型在多项基准测试中展现出强大的竞争力,尤其是在代码、数学和通用能力方面表现出色。本文通过实测Qwen3-235B-A22B和Qwen3-32B,对比编程和推理能力,结果显示Qwen3-235B-A22B在解决复杂问题上表现优异,在编程和推理方面都有显著提升,甚至在推理问题上超越了Claude 3.7 Sonnet,展现出国产大模型的强大实力。

💡 Qwen3系列模型具有多种思考模式,用户可以根据任务需求选择“思考模式”或“非思考模式”,实现对模型推理的灵活控制,平衡成本效益与推理质量。

🌐 Qwen3模型支持119种语言,拓展了国际应用的可能性,能够服务全球用户。

🛠️ Qwen3模型在Agent和代码能力上有所增强,并原生支持MCP和FunctionCalling调用。

💻 实测结果显示,Qwen3-235B-A22B在编程和推理方面表现出色,Qwen3-32B模型也具备一定的竞争力,但推理能力略逊于前者。

背景

2025-04-29,阿里通益向全球AI爱好者发布了他们最新的大语言模型--Qwen3.这是 Qwen 系列大型语言模型的最新成员。我们的旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比,表现出极具竞争力的结果。此外,小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%,表现更胜一筹,甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。

核心亮点

1)多种思考模式

Qwen3 模型支持两种思考模式:

这种灵活性使用户能够根据具体任务控制模型进行“思考”的程度。例如,复杂的问题可以通过扩展推理步骤来解决,而简单的问题则可以直接快速作答,无需延迟。至关重要的是,这两种模式的结合大大增强了模型实现稳定且高效的“思考预算”控制能力。如上文所述,Qwen3 展现出可扩展且平滑的性能提升,这与分配的计算推理预算直接相关。这样的设计让用户能够更轻松地为不同任务配置特定的预算,在成本效益和推理质量之间实现更优的平衡。

2)多语言

Qwen3 模型支持 119 种语言和方言。这一广泛的多语言能力为国际应用开辟了新的可能性,让全球用户都能受益于这些模型的强大功能。

3)增强的 Agent 能力

我们优化了 Qwen3 模型的 Agent 和 代码能力,同时也加强了对 MCP 的支持。原生支持MCP、FunctionCalling的调用

技术亮点

1)混合专家(MoE)架构: 部分Qwen3模型采用了MoE架构,可以在保持高性能的同时,显著降低激活参数量,提高计算效率。

2)四阶段训练流程: 为了开发具备思考推理和快速响应能力的混合模型,Qwen3采用了包括长思维链冷启动、长思维链强化学习、思维模式融合和通用强化学习在内的四阶段训练流程。

3)海量训练数据: Qwen3的预训练数据量达到了36T,并在后训练阶段进行了多轮强化学习,以优化模型的性能和对齐。

实战测试

那么Qwen3真得犹如上述描述的那么强吗,本文通过chat.qwen.ai/ 网页端来测试

两款模型,并采用《# Claude 3.7 Sonnet & DeepSeek R1& Qwen2.5-Max 不严谨测试》文章相同的问题,以方便与业界领先的模型进行对比。选择Qwen3-235B-A22B是因为目前此模型代表了Qwen3系列最强的推理模型,而且Qwen3-32B作为本地很多机器能部署的稠密模型,也是大家作为研究、学习的不二选择。

编程测试

经典的弹力小球编程,

题目:实现一个弹力小球游戏:

    环境设置:创建一个旋转的六边形作为小球的活动区域。物理规律:小球需要受到重力和摩擦力的影响。碰撞检测:小球与六边形墙壁碰撞时,需要按照物理规律反弹。

在给出最终答案之前,请自行运行代码检查是否有语法错误后再发送正确答案(由于开始测试过程经常会出现语法错误,所以加上此句提示词)

Qwen3-235B-A22B

开启了推理模式,效果非常好,一次过关,真的让我对Qwen系列有所改观。

Qwen3-32B

效果略有出路,但程序能运行,初次可以弹跳

编程结论
Qwen3-235B-A22BQwen3-32B
弹力小球编程✔️

算法测试

本次算法测试题均来自edabit.com/,有兴趣的朋友可以自行选取任意难度的算法题进行测试

本次选取的算法难度为“非常难”

算法题为edabit.com/challenge/K…

Create a function that returns all pairs of numbers in an array that sum to a target. Sort the pairs in ascending order with respect to the smaller number, then order each pair in this order: [smaller, larger].

Examples

allPairs([2, 4, 5, 3], 7) ➞ [[2, 5], [3, 4]]// 2 + 5 = 7, 3 + 4 = 7allPairs([5, 3, 9, 2, 1], 3) ➞ [[1, 2]]allPairs([4, 5, 1, 3, 6, 8], 9) ➞ [[1, 8], [3, 6], [4, 5]]// Sorted: 1 < 3 < 4; each pair is ordered [smaller, larger]

Qwen3-235B-A22B

生成的代码,一次性通过

def all_pairs(lst, target):    lst.sort()    res = []    i, j = 0, len(lst) - 1    while i < j:        a, b = lst[i], lst[j]        s = a + b        if s == target:            res.append([a, b])            i += 1            j -= 1        elif s < target:            i += 1        else:            j -= 1    return res

Qwen3-32B

生成代码,一次性通过

def all_pairs(lst, target):    lst.sort()    result = []    left, right = 0, len(lst) - 1    while left < right:        current_sum = lst[left] + lst[right]        if current_sum == target:            result.append([lst[left], lst[right]])            left += 1            right -= 1        elif current_sum < target:            left += 1        else:            right -= 1    return result
Qwen3-235B-A22BQwen3-32B
算法测试✔️

推理测试

问题:

你有两个沙漏,一个是 7 分钟的沙漏,一个是 11 分钟的沙漏。如何用这两个沙漏来测量 15 分钟?

参考答案:

    同时启动两个沙漏七分钟的沙漏结束后,翻转它十一分钟的沙漏结束后,翻转七分钟的沙漏;此时七分钟的沙漏已经走过四分钟,翻转它会再走四分钟而不是三分钟七分钟沙漏结束后是11+4=15分钟

Qwen3-235B-A22B

成功推理出答案! 这个推理题在之前的测试中,均未有大模型推理成功,仅有网友传闻中o3-mini和grok3可以推理成功(笔者未测试)

### ✅ Step-by-Step Instructions1.  **Start both sandglasses simultaneously.**    -   Begin timing from this moment.1.  **When the 7-minute sandglass runs out (at 7 minutes):**    -   **Flip both sandglasses** immediately.    -   The 11-minute sandglass now has **4 minutes** of sand remaining in the top half.1.  **When the 11-minute sandglass runs out (at 11 minutes total):**    -   The 7-minute sandglass has been running for **4 minutes** since step 2, so it now has **3 minutes** of sand left in the top half.    -   **Flip both sandglasses again.**    -   The 7-minute sandglass now has **4 minutes** of sand in the top half (because it was flipped with 3 minutes remaining, and now it's reversed).1.  **Let the 7-minute sandglass run to completion (4 minutes):**    -   This brings the total time to **11 + 4 = 15 minutes.**

Qwen3-32B

无法推理出正确答案,一直死循环推理中

总结

编程:弹力小球算法问题推理:沙漏问题
QwQ-32B首次:运行脱模了❎第二次:运行效果不错✔️一次性成功✔️长时间推理,无法产生结果❎
Claude 3.7 Sonnet首次:成功运行,弹跳效果不错✔️一次性成功✔️有结论,但错误❎
DeepSeek R1首次:运行后小球脱模了❎长时间推理,无法产生结果❎长时间推理,无法产生结果❎
Qwen3-235B-A22B首次:成功运行,弹跳效果不错✔️一次性成功✔️一次性成功✔️
Qwen3-32B首次:运行后小球脱模了❎一次性成功✔️长时间推理,无法产生结果❎

从之前几篇文章的测试情况综合来看,Qwen3-235B-A22B确实在推理能力,编程方面有明显的提升,甚至在推理问题上超越Claude 3.7 Sonnet,实属国产之光,但上述测试仅供参考,欢迎大家来交流使用心得~

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Qwen3 大语言模型 编程能力 推理能力
相关文章