夕小瑶科技说 18小时前
阿里AI三连发刷屏,那个最强的Qwen又回来了!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里本周发布了三款顶级AI模型Qwen3系列,包括通用型Qwen3-235B-A22B-Thinking-2507、代码型Qwen3-Coder-480B-A35B-Instruct和通用非思考型Qwen3-235B-A22B-Instruct-2507,在多个基准测试中超越闭源模型,展现开源AI的强大实力。

🔥Qwen3-235B-A22B-Thinking-2507在知识、推理、数学、编码等能力上超越闭源模型,成为最强开源推理模型。

🛠️Qwen3-Coder-480B-A35B-Instruct专为代码设计,融合长时程强化学习,在SWE-Bench基准测试中取得开源模型最佳战绩,性能媲美Claude 3.5 Sonnet。

🌐Qwen3-235B-A22B-Instruct-2507非思考版本在通用能力基准测试中表现优异,多语言长尾知识训练使其外语水平突破天花板。

💡阿里坚持开源,将顶尖AI成果分享给全球开发者,推动AI技术民主化进程。

🚀Qwen3系列模型覆盖通用、代码和深度思考全场景,展现阿里在开源AI领域的强大实力和前瞻布局。

原创 夕小瑶编辑部 2025-07-25 22:11 北京

三连发!

我宣布,这周的 AI 圈只姓“通义”!

真的,给你们看看阿里这周是怎么玩的。

大前天先上了个 Qwen3 非思考版,把开源基础模型的标杆拉高一截。

前天凌晨大半夜甩出个 Qwen3-Coder 专攻代码,让海内外整个社区直接沸腾。

中间留了一天悄悄上了个翻译模型,还没等大家消化完,今天直接把桌子给掀了——推出最强的“思考版”Qwen3。

我总结一下就是,周二开胃,周三加码,今天直接掀了桌子。。

三天,三个顶级 Qwen 模型,这套操作下来,就一个感觉:那个最强的 Qwen 又回来了。而且这哪是抢回王座,这感觉更像是回来在边上巡视了一圈,一步两步三步,然后稳稳地坐在最强开源模型王座。

被卡皮坤秀到了! 

我们从最热乎的模型讲起,也就是刚刚释放的 Qwen3-235B-A22B-Thinking-2507。

当好多人的眼光还在 Kimi K2 身上时,这个全新的 Qwen3 推理模型,又重新定义了一次最强开源。

这个表现真的强的没话说了。

最左侧的红色条状是最新版本 2507 的成绩,比上一版本 Qwen3 强了一大截,而且和闭源的 Gemini-2.5 pro、o4-mini 比,在很多硬核能力上,比如 AIME25、LiveCodeBench、Arena-Hard 上,已经开始反超 Gemini-2.5 pro、o4-min 这些顶级闭源模型。

这是更详细的榜单表现,咱们直接上对比表格(除了 R1,其他都是顶尖闭源模型)。包括知识、推理、数学、编码、对齐、代理、多语言能力。千问 3 推理模型的表现毫不逊色。

现在在 qwen chat 网页端 https://chat.qwen.ai/,已经可以体验了。

开源地址传送门在此:

Huggingface 地址

https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507
ModelScope地址:

https://www.modelscope.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507

再来说下 Qwen3-Coder,这两天被赞爆了,收割了巨佬们的赏识。

推特创始人 Jack Dorsey  语出惊人。

Huggingface CEO clem 不仅点赞了 Qwen3-Coder 新模型,而且刷屏瀑布流地夸 Qwen3-Coder。

还有 PerplexityCEO  Aravind Srinivas 也认可 Qwen3-coder 实力。

Qwen3-Coder 的开源,引爆了 AI 编程话题热潮。我们的社群里反应比我还快,各种测试反馈已经满天飞了。我必须说,这个热度是真的好高。评论区里都是清一色的要干掉 Claude。

OpenRouter 数据显示,阿里千问的 API 调用量暴涨,过去几天已经超过了 1000 亿 tokens,包揽最热门调用模型的前三。

Coder 模型全称是 Qwen3-Coder-480B-A35B-Instruct,基于 MoE 架构,拥有 480B 参数量,实际激活只有 35B。原生支持 256K 上下文长度,可通过 yarn 等方式扩展至 1M。这对于编程场景至关重要。而且,可以灵活地接入到 Claude Code、Cline 这些已经有的工具里。

终于让社区有了一个能在复杂工作流中担当重任的开源代码“特种兵”。

Qwen3-Coder 在智能体编程、浏览器使用和工具调用这三项核心任务的基准测试中,均达到了开源模型顶尖水平,性能和代码能力闻名的 Claude 3.5 Sonnet 媲美。

为啥 Qwen3-Coder 这么强?

我发现他们为零应对 SWE-Bench 这类模拟真实世界的多轮交互任务,在 Qwen3-Coder 训练中融合了长时程强化学习(Agent RL),并突破性地构建了一个能同时运行 20,000 个虚拟环境的训练系统。通过大规模实战训练,Qwen3-Coder 在 SWE-Bench 基准上取得了开源模型的最佳战绩。

Qwen3-Coder 的核心能力与训练范式也有新的突破,比如:

Token 规模: 7.5 万亿 token 海量训练(其中包含 70% 代码数据)。

上下文长度: 原生 256K,YaRN 扩展至 1M,高效处理大规模代码库及动态数据。

合成数据: 利用 Qwen2.5-Coder 清理重写含噪声数据,提升质量。

来一个简单的小测试。

我让 Qwen3-Coder 生成一个扫雷游戏,发送完我的要求后,刚拿起手机正准备刷个抖音摸鱼,还没等我打开应用,游戏就已经生成好了。。。。过程非常丝滑,还支持一键部署:

在官网上,可以直接测试试用。

网址:https://chat.qwen.ai/

除了推理模型和编码模型,基模也是全球最强。

就是 Qwen3-235B 的 Non-thinking 版本,模型全称为 Qwen3-235B-A22B-Instruct-2507,已经在 7 月 22 日更新上线。

作为 Qwen3-235B 系列中一款专注于非推理模式(Non-thinking)的更新版本,Qwen3-235B(Non-thinking)模型参数配置与此前的 Qwen3-235B-A22B 基本一致,但是性能却显著提升。

绝大部分榜单的表现比闭源的 Claude Opus 4 非思考版本还要好。

依旧先放模型开源地址的传送门

Huggingface地址:

https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507
ModelScope地址:https://www.modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507

模型在通用能力基准测试中表现非常能打,而且因为模型对多语言长尾知识的加强训练,它的“外语”水平直接突破天花板。

Artificial Analysis 非常直接的表达出

“千问3是全球最智能的非思考基础模型”。

结语这周,Qwen 用一套“三箭齐发”的组合拳,覆盖了通用、代码和深度思考的全场景,直接宣告:这周,是当之无愧的“通义时刻”!

但这波三连发真正厉害的地方,不只在于性能登顶,更在于它展现的格局:当一些海外巨头忙着建造“围墙花园”,把技术越锁越紧时,Qwen 还是坚持反其道而行之,选择把最顶尖的成果直接开源给全世界。

最顶尖的 AI 生产力工具,不是少数人的特权,而是直接送到了你我这样的普通开发者手中。

当最强的工具握在了最多的创造者手中,真正的精彩,才刚刚拉开序幕 ~

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

阿里AI Qwen3 开源模型 AI技术
相关文章