原创 夕小瑶编辑部 2025-04-29 10:42 北京
Qwen3 开源了。
刚刚,Qwen3 开源了。
强的离谱,DeepSeek 这次真的要坐不住了。
先贴一张图。
从这些主流的学术测试结果来看,Qwen3 全面超越了DeepSeek R1。
注意我用的词——“全面”。这不只是在一两个单项上领先,而是在数学、推理、代码等核心能力上,全面超越。
尤其是代码能力,LiveCodeBench 和 Codeforces 两个榜单,高于所有其它模型,包括当前最强的 Gemini2.5-Pro。
在 ArenaHard(综合测试)上, Qwen3-235B-A22B 紧追最强闭源模型 Gemini2.5-Pro ,显著优于 OpenAI-o1 和 Deepseek-R1 。而在 AIME’24/25(美国数学竞赛)、MultiIF(多语言推理)测试基准上,Qwen3 的表现更是全面超越 DeepSeek-R1,坐稳了全球第一开源霸主的名号。
原生支持 MCP,为 Agent 时代而生
我尤其注意到,Qwen3 在专门评估模型 Agent 能力的 BFCL 评测中,全面刷新了榜单记录,不仅以 70.8 的分数完爆了 DeepSeek-R1(56.9),甚至大幅超越了闭源模型 Gemini2.5-Pro。
Qwen3 在 Agentic 能力方面做了大量的优化,包括不限于任务执行效率、响应结构和工具泛化能力等。也就是说,Qwen3 的设计理念,不再局限于传统的 ChatBot 问答对话视角,而是面向 Agent 化的任务型应用提供了模型层支撑。
甚至,Qwen3 还原生支持了 MCP 协议。
我们来看下官方放出的 Demo 展示:
在大模型如今“从对话走向执行”的关键节点,Qwen3 大幅强化了 Agent 能力,我觉得这是非常值得点赞的。
附 Qwen3 体验传送门(MCP 功能,也即将上线):
Qwen3 全家桶开源
需要强调的是,Qwen3 不是单个模型,而是一个全家桶,包含了 8 款不同尺寸的模型——
6 款 Dense 模型: 最小参数 0.6B,依次是 1.7B、4B、8B、14B,到32B****,覆盖了从端侧到云端的各种需求。
2 款 MoE 模型:
实力最强的Qwen3-235B-A22B,也是这次发布的旗舰模型。前面性能拉爆的就是这款。
当然,不只是旗舰版能打。其他 7 个模型在各自的量级里,都是 SOTA 级别的存在。
关于开源,我还扒出一组数据——
阿里通义已开源 200 余个模型,全球下载量超 3 亿次,千问衍生模型数超 10 万个,已超越美国 Llama,成为全球第一开源模型。
附 Qwen3 开源传送门:
huggingface:
https://huggingface.co/Qwen/Qwen3-235B-A22B
魔搭社区:
Qwen3 新特性——混合推理
这次 Qwen3 还有一个新特性——混合推理,是国内首个支持这种机制的模型。
熟悉 Claude 的朋友都知道,Claude 3.7 Sonnet 是市场上首个“混合推理模型”,把快速响应和深入推理整合在一个模型中,用户可以根据问题和任务灵活选择是否要思考。
混合推理,简单来说,就是一脑双模,天生就会两种工作模式:
怎么切换这两种模式呢?
这里阿里设计得很灵活,一种是硬开关控制, 你可以在调用模型的时候,直接设置一个参数 enable_thinking=True
;还可以软开关控制,在 enable_thinking=True
基础上,通过/think 和/no_think 指令来开启推理模式。
是不是有很多人和我一样,有的时候着急要结果,只能看着巨长的思维链干着急。这下解决了,我可以自己控制思考的最大 token 数。
只能说,这个设计太懂用户痛点了。
把这两种看似矛盾的能力和谐地统一在一个模型里,看似简单,实则一点儿不容易,否则就不用刻意分成俩模型了。
阿里自己也说了,这背后需要非常精密的训练策略、巧妙的数据设计和复杂的损失函数调度,才能在同一模型中稳定掌握两种截然不同的输出分布,最重要的是,模式切换时基本不损失性能。
这个是实打实地考验在模型训练方法论上积累的功力。
划重点: 这次开源的 8 个模型,全部都支持“混合推理”机制!
除了效果之外,还有一个很值得关注的信息。
根据官方放出的消息,只需要 4 张英伟达的 H20 GPU,就能在本地把 235B 的 Qwen3 旗舰版 MoE 模型跑起来,直接把部署成本干到了 DeepSeek-R1 的 35%。
H20 虽然不便宜,但相比之前动辄需要几十上百张才能伺候的同级别巨兽,这个门槛可以说是快被按到地板上了。
除了自行部署外,也可通过阿里云百炼直接调用 API 服务。
阿里云百炼(Qwen3 即将上线):
结语
综合来看,Qwen3 的发布不仅是一次榜单突破,我觉得更是国产 AI 大模型从“对话”走向“执行”的一次关键跃迁。
无论是全面超越 DeepSeek R1 的硬核性能,还是原生支持 MCP 协议的 Agent 能力,亦或是混合推理机制和超低部署成本,Qwen3 都展现了一次恰到好处的升级迭代。
未来,随着 Agent 时代的加速到来,Qwen3 或许将成为推动 AI 应用落地的核心引擎。
我们拭目以待。