公子龙 2025-05-15 14:13 浙江
最近看到英伟达的新动作,我一开始还以为又是哪个模型刷榜了,结果点进去一看,居然是他们自家的代码推理模型——O
最近看到英伟达的新动作,我一开始还以为又是哪个模型刷榜了,结果点进去一看,居然是他们自家的代码推理模型——OpenCodeReasoning,一口气开源了 7B、14B、32B 三个规格,性能据说已经逼近 o3-mini 和 o1。
但真正让我感到惊讶的,不是这个模型本身,而是一个我没想到的细节:
它们全系的底座模型,居然都是 Qwen。
其实这已经不是我第一次在榜单里看到 Qwen 的身影了。
从 DeepSeek、李飞飞团队到英伟达,越来越多企业相中了Qwen 的基模能力。
尤其是英伟达这款 32B,在 LiveCodeBench 上交出 61.8% 的 pass@1,超越了 o3-mini 和 o1,
不光是成绩好,更像是一次发「实打实用出来」的认可。
如果说之前我对 Qwen3 的感觉还停留在国产选项、性能可圈可点,
那现在我不得不承认,它的行业地位已经不只是出圈了。
在如今的大模型格局里,有没有「Qwen血统」,似乎正在成为一种隐形的参考线。
1、技术选型背后的「默契投票」
和很多模型「静悄悄上线」不同,Qwen 每次更新,我都能在开发者社区里感受到明显的波动。
不管是 Hugging Face 的更新日志,还是 X 平台上的讨论热度,它总能带起一些新的技术话题。
比如李飞飞团队那次用 Qwen 训出 S1-32B 的事,我是后来看到研究者讨论才注意到的——
6 块 H100,26 分钟的训练时间,性能直接对标 OpenAI 的 o1,那种效率其实挺难忽视。
DeepSeek 也公开表示过,他们的 R1 系列里,有 4 个蒸馏模型就是在 Qwen 上做的。
而关于苹果,外媒报道他们已经把通义 Qwen 纳入了核心 AI 战略,甚至用于 MLX 框架的底层搭建。
苹果 MLX 的负责人提到,「性能,确实让人眼前一亮」。
这些事对我来说,比起「站台」更像是技术层面的真实投票。
你很难说这是不是某种趋势,但当越来越多团队都在不动声色地选它作为底模,
我开始觉得,这背后大概已经有一种共识在慢慢形成了。
一些评价也很值得关注:
滑铁卢大学的陈文虎说,「同样的数据,只有千问有效」;
清华的孙茂松教授则认为,「Qwen 在开源领域已经超越 LLaMA」。
这些话可能各自有语境,但从我自己的观察看,确实越来越多专业团队在技术选型时把 Qwen 列入了核心考虑。
我也在 Hugging Face 和 X 上看到不少工程师的说法,有人称它是「开放模型中的平衡选手」,
2、一切最终都要看数据
说到底,模型的实力最后还是要看数据。
我最近翻了一些榜单,印象比较深的是 Qwen3 在 Artificial Analysis 上的表现,
它和闭源的 Grok3-mini 打得不相上下,而像 DeepSeek R1、V3 这类开源模型,确实被它拉开了一个身位。
在 5 月 6 日的 LiveBench 测评里,Qwen3 拿下了开源模型的综合第一,
尤其在指令遵循能力上,超过了 o3 High 和 o4-Mini High,这个成绩说不上「碾压」,但已经非常稳定。
它在代码方面的表现也是延续了一贯的高水准。
Qwen2.5-Coder 之前就在 LiveCodeBench 的六大榜单上都进了前列,
而到了 Qwen3-235B-A22B,这个成绩在当前模型体系里其实已经很难再靠参数规模去轻松超越。
我记得李开复在一次采访里提到过一句话:「如果闭源模型的优势只是微弱领先,那说明闭源路线的长期可持续性仍需重新评估」。
当时我没太在意,但现在看来,或许他是在提醒我们:有些技术路径正在悄悄转弯。
3、一种更「克制」的智能推理方式
我对 Qwen3 印象比较深的,还有它在推理方式上的一个调整。
它采用的是一种叫「混合推理(Hybrid Reasoning)」的机制:
面对简单任务,它可以快速给出结果;而遇到复杂问题时,又能一步步拆解、逐步求解。
这种切换方式让我想到了「快思考」和「慢思考」的动态组合,只不过它背后连着的是成本控制。
开发者可以直接通过 API 设定「思考预算」,在响应速度和计算资源之间做出平衡。
据测算,在部分任务中,它的推理成本可以压到一些闭源模型的 1/6 左右,这对企业落地来说确实是个很有实用性的点。
4、被「持续打磨」的开源模型
这就不得不提到Qwen3 的另一个优势——开源生态。
上线不久,像英伟达、英特尔、高通、昇腾这些硬件平台就迅速完成了兼容适配;
vLLM、SGLang、苹果 MXL 等主流推理框架也同步跟进。
我当时刷 Hugging Face 时看到一句话挺戳我:「Qwen 是目前最不妥协的开源模型」。
那不是夸,而更像是一种调试后的总结。
我还查了下它的开源数据:全球衍生模型超过 10 万个,下载量突破 3 亿;
在 Hugging Face 2024 年的统计里,Qwen 占了近 30%,而到了 2025 年初,榜单前十几乎清一色是 Qwen 的二次开发版本。
这其实说明了一件事——Qwen 不只是「能用」,更是在被开发者持续打磨、衍生和验证。
从我自己的使用经验来说,它在「实战友好」这件事上确实下了功夫。
比如语言覆盖上,支持 119 种语言,连粤语、斯瓦西里语、亚美尼亚语这种相对冷门的语种也能兼容,
这对做本地化模型调优或区域部署的开发者来说挺实用的。
它的部署门槛也相对可控。旗舰版本 Qwen3-235B-A22B 只需要 4 张 H20 GPU 就能跑起来,
很多团队实测下来,推理成本比 DeepSeek R1 低 60~70%。这点我听不少企业提起过,确实能降低落地压力。
我还用过它配套的 Qwen-Agent 框架 和 MCP 协议,
几行代码就能构建出浏览器助手、代码解释器这种小型 Agent 应用。
而像阿里云的「百炼」平台、魔搭社区,也对 MCP 提供了原生支持,这类集成工具让原型验证的效率提升挺明显的。
再加上国家电网、中科院、国家天文台这些机构项目,以及 OPPO、vivo、荣耀、文石等终端厂商的持续接入,
甚至包括英国 OxValue.AI、日本 Lightblue 这种海外开发者团队也开始选它做底座。
5、写在最后:不是最响的那个,但走得很深
从我接触的项目和数据来看,Qwen3 已经不是「试试看」的模型了,而是真正进入了被大规模使用的阶段。
它更像是在悄悄地,重塑整个 AI 世界的默认答案。
我不觉得它是为了热度而生的产品,也从来没看到它刻意去制造什么对立。
它的存在感,是一点点被用出来的,不高调,但也没被埋没。
如果说之前我们总在讨论「中国大模型什么时候能真正被世界接纳」,那 Qwen3 或许已经给出了一个还不错的答案。
它不是一个喊口号的例子,而是技术实践中,真正有人在用、用得下去的那个。
对我来说,Qwen3像一把钥匙。
它打开的,不只是一个模型能力的接口,更是我们有没有机会参与全球 AI 生态搭建的那扇门。
> 本期主编:贺先生 & 公子龙
> 公子龙是谁:AI重度上瘾者,毕业于中科院,全国AI大赛冠军,大厂资深算法工程师