原创 夕小瑶编辑部 2025-07-25 22:11 北京
三连发!
我宣布,这周的 AI 圈只姓“通义”!
真的,给你们看看阿里这周是怎么玩的。
大前天先上了个 Qwen3 非思考版,把开源基础模型的标杆拉高一截。
前天凌晨大半夜甩出个 Qwen3-Coder 专攻代码,让海内外整个社区直接沸腾。
中间留了一天悄悄上了个翻译模型,还没等大家消化完,今天直接把桌子给掀了——推出最强的“思考版”Qwen3。
我总结一下就是,周二开胃,周三加码,今天直接掀了桌子。。
三天,三个顶级 Qwen 模型,这套操作下来,就一个感觉:那个最强的 Qwen 又回来了。而且这哪是抢回王座,这感觉更像是回来在边上巡视了一圈,一步两步三步,然后稳稳地坐在最强开源模型王座。
被卡皮坤秀到了!
我们从最热乎的模型讲起,也就是刚刚释放的 Qwen3-235B-A22B-Thinking-2507。
当好多人的眼光还在 Kimi K2 身上时,这个全新的 Qwen3 推理模型,又重新定义了一次最强开源。
这个表现真的强的没话说了。
最左侧的红色条状是最新版本 2507 的成绩,比上一版本 Qwen3 强了一大截,而且和闭源的 Gemini-2.5 pro、o4-mini 比,在很多硬核能力上,比如 AIME25、LiveCodeBench、Arena-Hard 上,已经开始反超 Gemini-2.5 pro、o4-min 这些顶级闭源模型。
这是更详细的榜单表现,咱们直接上对比表格(除了 R1,其他都是顶尖闭源模型)。包括知识、推理、数学、编码、对齐、代理、多语言能力。千问 3 推理模型的表现毫不逊色。
现在在 qwen chat 网页端 https://chat.qwen.ai/,已经可以体验了。
开源地址传送门在此:
Huggingface 地址:
https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507
ModelScope地址:https://www.modelscope.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507
再来说下 Qwen3-Coder,这两天被赞爆了,收割了巨佬们的赏识。
推特创始人 Jack Dorsey 语出惊人。
Huggingface CEO clem 不仅点赞了 Qwen3-Coder 新模型,而且刷屏瀑布流地夸 Qwen3-Coder。
还有 PerplexityCEO Aravind Srinivas 也认可 Qwen3-coder 实力。
Qwen3-Coder 的开源,引爆了 AI 编程话题热潮。我们的社群里反应比我还快,各种测试反馈已经满天飞了。我必须说,这个热度是真的好高。评论区里都是清一色的要干掉 Claude。
OpenRouter 数据显示,阿里千问的 API 调用量暴涨,过去几天已经超过了 1000 亿 tokens,包揽最热门调用模型的前三。
Coder 模型全称是 Qwen3-Coder-480B-A35B-Instruct,基于 MoE 架构,拥有 480B 参数量,实际激活只有 35B。原生支持 256K 上下文长度,可通过 yarn 等方式扩展至 1M。这对于编程场景至关重要。而且,可以灵活地接入到 Claude Code、Cline 这些已经有的工具里。
终于让社区有了一个能在复杂工作流中担当重任的开源代码“特种兵”。
Qwen3-Coder 在智能体编程、浏览器使用和工具调用这三项核心任务的基准测试中,均达到了开源模型顶尖水平,性能和代码能力闻名的 Claude 3.5 Sonnet 媲美。
为啥 Qwen3-Coder 这么强?
我发现他们为零应对 SWE-Bench 这类模拟真实世界的多轮交互任务,在 Qwen3-Coder 训练中融合了长时程强化学习(Agent RL),并突破性地构建了一个能同时运行 20,000 个虚拟环境的训练系统。通过大规模实战训练,Qwen3-Coder 在 SWE-Bench 基准上取得了开源模型的最佳战绩。
Qwen3-Coder 的核心能力与训练范式也有新的突破,比如:
Token 规模: 7.5 万亿 token 海量训练(其中包含 70% 代码数据)。
上下文长度: 原生 256K,YaRN 扩展至 1M,高效处理大规模代码库及动态数据。
合成数据: 利用 Qwen2.5-Coder 清理重写含噪声数据,提升质量。
来一个简单的小测试。
我让 Qwen3-Coder 生成一个扫雷游戏,发送完我的要求后,刚拿起手机正准备刷个抖音摸鱼,还没等我打开应用,游戏就已经生成好了。。。。过程非常丝滑,还支持一键部署:
在官网上,可以直接测试试用。
除了推理模型和编码模型,基模也是全球最强。
就是 Qwen3-235B 的 Non-thinking 版本,模型全称为 Qwen3-235B-A22B-Instruct-2507,已经在 7 月 22 日更新上线。
作为 Qwen3-235B 系列中一款专注于非推理模式(Non-thinking)的更新版本,Qwen3-235B(Non-thinking)模型参数配置与此前的 Qwen3-235B-A22B 基本一致,但是性能却显著提升。
绝大部分榜单的表现比闭源的 Claude Opus 4 非思考版本还要好。
依旧先放模型开源地址的传送门
Huggingface地址:
https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507
ModelScope地址:https://www.modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507
模型在通用能力基准测试中表现非常能打,而且因为模型对多语言长尾知识的加强训练,它的“外语”水平直接突破天花板。
Artificial Analysis 非常直接的表达出
“千问3是全球最智能的非思考基础模型”。
结语
这周,Qwen 用一套“三箭齐发”的组合拳,覆盖了通用、代码和深度思考的全场景,直接宣告:这周,是当之无愧的“通义时刻”!
但这波三连发真正厉害的地方,不只在于性能登顶,更在于它展现的格局:当一些海外巨头忙着建造“围墙花园”,把技术越锁越紧时,Qwen 还是坚持反其道而行之,选择把最顶尖的成果直接开源给全世界。
最顶尖的 AI 生产力工具,不是少数人的特权,而是直接送到了你我这样的普通开发者手中。
当最强的工具握在了最多的创造者手中,真正的精彩,才刚刚拉开序幕 ~