全球AI巨头都开始选边站了，但他们选的是一个国产模型。。

公子龙 2025-05-15 14:13 浙江

最近看到英伟达的新动作，我一开始还以为又是哪个模型刷榜了，结果点进去一看，居然是他们自家的代码推理模型——O

最近看到英伟达的新动作，我一开始还以为又是哪个模型刷榜了，结果点进去一看，居然是他们自家的代码推理模型——OpenCodeReasoning，一口气开源了 7B、14B、32B 三个规格，性能据说已经逼近 o3-mini 和 o1。

但真正让我感到惊讶的，不是这个模型本身，而是一个我没想到的细节：

它们全系的底座模型，居然都是 Qwen。

其实这已经不是我第一次在榜单里看到 Qwen 的身影了。

从 DeepSeek、李飞飞团队到英伟达，越来越多企业相中了Qwen 的基模能力。

尤其是英伟达这款 32B，在 LiveCodeBench 上交出 61.8% 的 pass@1，超越了 o3-mini 和 o1，

不光是成绩好，更像是一次发「实打实用出来」的认可。

如果说之前我对 Qwen3 的感觉还停留在国产选项、性能可圈可点，

那现在我不得不承认，它的行业地位已经不只是出圈了。

在如今的大模型格局里，有没有「Qwen血统」，似乎正在成为一种隐形的参考线。

1、技术选型背后的「默契投票」

和很多模型「静悄悄上线」不同，Qwen 每次更新，我都能在开发者社区里感受到明显的波动。

不管是 Hugging Face 的更新日志，还是 X 平台上的讨论热度，它总能带起一些新的技术话题。

比如李飞飞团队那次用 Qwen 训出 S1-32B 的事，我是后来看到研究者讨论才注意到的——

6 块 H100，26 分钟的训练时间，性能直接对标 OpenAI 的 o1，那种效率其实挺难忽视。

DeepSeek 也公开表示过，他们的 R1 系列里，有 4 个蒸馏模型就是在 Qwen 上做的。

而关于苹果，外媒报道他们已经把通义 Qwen 纳入了核心 AI 战略，甚至用于 MLX 框架的底层搭建。

苹果 MLX 的负责人提到，「性能，确实让人眼前一亮」。

这些事对我来说，比起「站台」更像是技术层面的真实投票。

你很难说这是不是某种趋势，但当越来越多团队都在不动声色地选它作为底模，

我开始觉得，这背后大概已经有一种共识在慢慢形成了。

一些评价也很值得关注：

滑铁卢大学的陈文虎说，「同样的数据，只有千问有效」；

清华的孙茂松教授则认为，「Qwen 在开源领域已经超越 LLaMA」。

这些话可能各自有语境，但从我自己的观察看，确实越来越多专业团队在技术选型时把 Qwen 列入了核心考虑。

我也在 Hugging Face 和 X 上看到不少工程师的说法，有人称它是「开放模型中的平衡选手」，

2、一切最终都要看数据

说到底，模型的实力最后还是要看数据。

我最近翻了一些榜单，印象比较深的是 Qwen3 在 Artificial Analysis 上的表现，

它和闭源的 Grok3-mini 打得不相上下，而像 DeepSeek R1、V3 这类开源模型，确实被它拉开了一个身位。

在 5 月 6 日的 LiveBench 测评里，Qwen3 拿下了开源模型的综合第一，

尤其在指令遵循能力上，超过了 o3 High 和 o4-Mini High，这个成绩说不上「碾压」，但已经非常稳定。

它在代码方面的表现也是延续了一贯的高水准。

Qwen2.5-Coder 之前就在 LiveCodeBench 的六大榜单上都进了前列，

而到了 Qwen3-235B-A22B，这个成绩在当前模型体系里其实已经很难再靠参数规模去轻松超越。

我记得李开复在一次采访里提到过一句话：「如果闭源模型的优势只是微弱领先，那说明闭源路线的长期可持续性仍需重新评估」。

当时我没太在意，但现在看来，或许他是在提醒我们：有些技术路径正在悄悄转弯。

3、一种更「克制」的智能推理方式

我对 Qwen3 印象比较深的，还有它在推理方式上的一个调整。

它采用的是一种叫「混合推理（Hybrid Reasoning）」的机制：

面对简单任务，它可以快速给出结果；而遇到复杂问题时，又能一步步拆解、逐步求解。

这种切换方式让我想到了「快思考」和「慢思考」的动态组合，只不过它背后连着的是成本控制。

开发者可以直接通过 API 设定「思考预算」，在响应速度和计算资源之间做出平衡。

据测算，在部分任务中，它的推理成本可以压到一些闭源模型的 1/6 左右，这对企业落地来说确实是个很有实用性的点。

4、被「持续打磨」的开源模型

这就不得不提到Qwen3 的另一个优势——开源生态。

上线不久，像英伟达、英特尔、高通、昇腾这些硬件平台就迅速完成了兼容适配；

vLLM、SGLang、苹果 MXL 等主流推理框架也同步跟进。

我当时刷 Hugging Face 时看到一句话挺戳我：「Qwen 是目前最不妥协的开源模型」。

那不是夸，而更像是一种调试后的总结。

我还查了下它的开源数据：全球衍生模型超过 10 万个，下载量突破 3 亿；

在 Hugging Face 2024 年的统计里，Qwen 占了近 30%，而到了 2025 年初，榜单前十几乎清一色是 Qwen 的二次开发版本。

这其实说明了一件事——Qwen 不只是「能用」，更是在被开发者持续打磨、衍生和验证。

从我自己的使用经验来说，它在「实战友好」这件事上确实下了功夫。

比如语言覆盖上，支持 119 种语言，连粤语、斯瓦西里语、亚美尼亚语这种相对冷门的语种也能兼容，

这对做本地化模型调优或区域部署的开发者来说挺实用的。

它的部署门槛也相对可控。旗舰版本 Qwen3-235B-A22B 只需要 4 张 H20 GPU 就能跑起来，

很多团队实测下来，推理成本比 DeepSeek R1 低 60~70%。这点我听不少企业提起过，确实能降低落地压力。

我还用过它配套的 Qwen-Agent 框架 和 MCP 协议，

几行代码就能构建出浏览器助手、代码解释器这种小型 Agent 应用。

而像阿里云的「百炼」平台、魔搭社区，也对 MCP 提供了原生支持，这类集成工具让原型验证的效率提升挺明显的。

再加上国家电网、中科院、国家天文台这些机构项目，以及 OPPO、vivo、荣耀、文石等终端厂商的持续接入，

甚至包括英国 OxValue.AI、日本 Lightblue 这种海外开发者团队也开始选它做底座。

5、写在最后：不是最响的那个，但走得很深

从我接触的项目和数据来看，Qwen3 已经不是「试试看」的模型了，而是真正进入了被大规模使用的阶段。

它更像是在悄悄地，重塑整个 AI 世界的默认答案。

我不觉得它是为了热度而生的产品，也从来没看到它刻意去制造什么对立。

它的存在感，是一点点被用出来的，不高调，但也没被埋没。

如果说之前我们总在讨论「中国大模型什么时候能真正被世界接纳」，那 Qwen3 或许已经给出了一个还不错的答案。

它不是一个喊口号的例子，而是技术实践中，真正有人在用、用得下去的那个。

对我来说，Qwen3像一把钥匙。

它打开的，不只是一个模型能力的接口，更是我们有没有机会参与全球 AI 生态搭建的那扇门。

> 本期主编：贺先生 & 公子龙

> 公子龙是谁：AI重度上瘾者，毕业于中科院，全国AI大赛冠军，大厂资深算法工程师

阅读原文

跳转微信打开

1、技术选型背后的「默契投票」

2、一切最终都要看数据

3、一种更「克制」的智能推理方式

4、被「持续打磨」的开源模型

5、写在最后：不是最响的那个，但走得很深

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签