夕小瑶科技说 21小时前
Qwen3 终于来了!全面超越 DeepSeek R1,原生支持 MCP
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Qwen3 全面开源,性能强势超越 DeepSeek R1,尤其在代码能力上表现突出,领先包括 Gemini2.5-Pro 在内的众多模型。Qwen3 在 Agent 能力方面也进行了大量优化,原生支持 MCP 协议,为 Agent 时代而生。此次开源包含 8 款不同尺寸的模型,覆盖各种需求。Qwen3 还引入了国内首个混合推理机制,可灵活切换快问快答和深度思考模式。更令人惊喜的是,Qwen3 降低了部署成本,只需少量GPU即可运行。

🚀 Qwen3 在多个学术测试中全面超越 DeepSeek R1,尤其在代码能力方面,LiveCodeBench 和 Codeforces 两个榜单均高于其他模型,包括 Gemini2.5-Pro。

🤖 Qwen3 原生支持 MCP 协议,在 BFCL 评测中,Agent 能力远超 DeepSeek-R1 和 Gemini2.5-Pro,这意味着 Qwen3 的设计理念面向 Agent 化的任务型应用提供了模型层支撑。

🧠 Qwen3 引入混合推理机制,支持快问快答和深度思考两种模式,用户可灵活选择,并通过硬开关或软开关控制推理模式,解决长思维链的痛点。

💰 Qwen3 降低了部署成本,只需 4 张英伟达 H20 GPU 即可在本地运行 235B 的旗舰版 MoE 模型,部署成本远低于 DeepSeek-R1。

原创 夕小瑶编辑部 2025-04-29 10:42 北京

Qwen3 开源了。

刚刚,Qwen3 开源了。

强的离谱,DeepSeek 这次真的要坐不住了。

先贴一张图。

从这些主流的学术测试结果来看,Qwen3 全面超越了DeepSeek R1

注意我用的词——“全面”。这不只是在一两个单项上领先,而是在数学、推理、代码等核心能力上,全面超越。

尤其是代码能力,LiveCodeBench 和 Codeforces 两个榜单,高于所有其它模型,包括当前最强的 Gemini2.5-Pro。

在 ArenaHard(综合测试)上, Qwen3-235B-A22B 紧追最强闭源模型 Gemini2.5-Pro ,显著优于 OpenAI-o1 和 Deepseek-R1 。而在 AIME’24/25(美国数学竞赛)、MultiIF(多语言推理)测试基准上,Qwen3 的表现更是全面超越 DeepSeek-R1,坐稳了全球第一开源霸主的名号。

原生支持 MCP,为 Agent 时代而生

我尤其注意到,Qwen3 在专门评估模型 Agent 能力的 BFCL 评测中,全面刷新了榜单记录,不仅以 70.8 的分数完爆了 DeepSeek-R1(56.9),甚至大幅超越了闭源模型 Gemini2.5-Pro。

Qwen3 在 Agentic 能力方面做了大量的优化,包括不限于任务执行效率、响应结构和工具泛化能力等。也就是说,Qwen3 的设计理念,不再局限于传统的 ChatBot 问答对话视角,而是面向 Agent 化的任务型应用提供了模型层支撑。

甚至,Qwen3 还原生支持了 MCP 协议。

我们来看下官方放出的 Demo 展示:

在大模型如今“从对话走向执行”的关键节点,Qwen3 大幅强化了 Agent 能力,我觉得这是非常值得点赞的。

附 Qwen3 体验传送门(MCP 功能,也即将上线):

https://www.tongyi.com/

Qwen3 全家桶开源

需要强调的是,Qwen3 不是单个模型,而是一个全家桶,包含了 8 款不同尺寸的模型——

    6 款 Dense 模型: 最小参数 0.6B,依次是 1.7B、4B、8B、14B,到32B****,覆盖了从端侧到云端的各种需求。

    2 款 MoE 模型:

      Qwen3-30B-A3B: 300 亿总参数,激活参数 30 亿。
      Qwen3-235B-A22B: 2350 亿参数,激活参数 220 亿。

实力最强的Qwen3-235B-A22B,也是这次发布的旗舰模型。前面性能拉爆的就是这款。

当然,不只是旗舰版能打。其他 7 个模型在各自的量级里,都是 SOTA 级别的存在。

关于开源,我还扒出一组数据——

阿里通义已开源 200 余个模型,全球下载量超 3 亿次,千问衍生模型数超 10 万个,已超越美国 Llama,成为全球第一开源模型。

附 Qwen3 开源传送门:

huggingface:

https://huggingface.co/Qwen/Qwen3-235B-A22B

魔搭社区:

https://modelscope.cn/models/Qwen/Qwen3-235B-A22B

Qwen3 新特性——混合推理

这次 Qwen3 还有一个新特性——混合推理,是国内首个支持这种机制的模型。

熟悉 Claude 的朋友都知道,Claude 3.7 Sonnet 是市场上首个“混合推理模型”,把快速响应和深入推理整合在一个模型中,用户可以根据问题和任务灵活选择是否要思考。

混合推理,简单来说,就是一脑双模,天生就会两种工作模式:

    快问快答模式(非推理模式), 比如问一些简单的问题,不需要逻辑推理,这种模式反应快、计算量小,主打一个效率,省时省力省算力。
    深度思考模式(推理模式),适合比较复杂,要拆解成小步骤,一步步地推演、论证的问题。

怎么切换这两种模式呢?

这里阿里设计得很灵活,一种是硬开关控制, 你可以在调用模型的时候,直接设置一个参数 enable_thinking=True;还可以软开关控制,在 enable_thinking=True 基础上,通过/think 和/no_think 指令来开启推理模式。

是不是有很多人和我一样,有的时候着急要结果,只能看着巨长的思维链干着急。这下解决了,我可以自己控制思考的最大 token 数。

只能说,这个设计太懂用户痛点了。

把这两种看似矛盾的能力和谐地统一在一个模型里,看似简单,实则一点儿不容易,否则就不用刻意分成俩模型了。

阿里自己也说了,这背后需要非常精密的训练策略、巧妙的数据设计和复杂的损失函数调度,才能在同一模型中稳定掌握两种截然不同的输出分布,最重要的是,模式切换时基本不损失性能。

这个是实打实地考验在模型训练方法论上积累的功力。

划重点: 这次开源的 8 个模型,全部都支持“混合推理”机制!

除了效果之外,还有一个很值得关注的信息。

根据官方放出的消息,只需要 4 张英伟达的 H20 GPU,就能在本地把 235B 的 Qwen3 旗舰版 MoE 模型跑起来,直接把部署成本干到了 DeepSeek-R1 的 35%。

H20 虽然不便宜,但相比之前动辄需要几十上百张才能伺候的同级别巨兽,这个门槛可以说是快被按到地板上了。

除了自行部署外,也可通过阿里云百炼直接调用 API 服务。

阿里云百炼(Qwen3 即将上线):

https://www.aliyun.com/product/tongyi

结语

综合来看,Qwen3 的发布不仅是一次榜单突破,我觉得更是国产 AI 大模型从“对话”走向“执行”的一次关键跃迁。

无论是全面超越 DeepSeek R1 的硬核性能,还是原生支持 MCP 协议的 Agent 能力,亦或是混合推理机制和超低部署成本,Qwen3 都展现了一次恰到好处的升级迭代。

未来,随着 Agent 时代的加速到来,Qwen3 或许将成为推动 AI 应用落地的核心引擎。

我们拭目以待。


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Qwen3 开源模型 Agent能力 混合推理 AI大模型
相关文章