原创 橘子OrangeAI 2025-04-29 09:39 北京
从 R1 到 Qwen3,不知不觉已经进步了那么多。
全世界等了一个月,Qwen3 今天终于发布了。
为什么大家都在等 Qwen3?
因为自上次 DeepSeek R1 发布之后,国内模型在智能方面就没有太多实质进展。
海外Meta 开源的 Llama4 全面拉胯,还因为刷分导致了一些风波。
而最近很火的 AI Coding、Agent、MCP 应用,全都依赖模型的智能提升。
大家对 Qwen3 的期待,不仅是对模型的智能有一个短板补齐,更是因为 Qwen 系列覆盖了大中小全尺寸规格,可以根据自己的业务场景微调。
今天 Qwen3 发布,是否能满足大家的期待?
模型特色:思深,行速
- Qwen3 是全球最强开源模型,性能全面超越 DeepSeek R1,国内第一个敢说全面超越 R1 的模型,之前都是比肩Qwen3 是国内首个混合推理模型,复杂答案深度思考,简单答案直接秒回,自动切换,提升智力+节省算力双向奔赴模型部署要求大幅降低,旗舰模型仅需4张H20就能本地部署,部署成本估算下来是能比R1下降超6成Agent 能力大幅提升,原生支持 MCP 协议,提升了代码能力,国内的 Agent 工具都在等它支持119种语言和方言,包括爪哇语、海地语等地方性语言,全世界都可以用上 AI训练数据 36 万亿 token,相比 Qwen2.5 直接翻倍,不仅仅是网络内容,还大量提取 PDF 的内容、大量合成代码片段
模型性能:
旗舰版 Qwen3 的数学、代码的各项指标超强。
全面超越 OpenAI o1 和 o3 mini、 DeepSeek R1、Grok3。
模型家族:
本次总共开源 8 款模型,包括 2 款 MoE 模型和 6 款 Dense 模型。
2 款 MoE 模型:
旗舰版 Qwen3-235B-A22B,激活参数仅22B,部署成本为 DeepSeek R1 的三分之一。
迷你版 Qwen3-30B-A3B,激活参数仅3B,整体性能堪比 Qwen3-32B,适合消费级显卡部署。
6 款 Dense 模型:0.6B、1.7B、4B、8B、14B、32B
0.6B的,可在手机等端侧部署。
混合思考模式
Qwen3 支持了类似 Claude 3.7 的混合思考模式。
允许用户在“深度推理”和“极速响应”之间灵活切换,兼顾复杂任务的思考力和简单任务的效率:
1. 思考模式(深度推理)
在这个模式下,模型会像一个真正的思考者一样,逐步推理、分析问题,最后给出经过深思熟虑的答案。适合处理复杂、需要逻辑推理或多步骤分析的任务,比如数学题、代码生成、复杂决策等。这种模式下,模型会花更多“脑力”和时间,追求答案的准确性和深度。
2. 非思考模式(极速响应)
当你需要的是速度而不是深度,比如简单问答、日常对话、快速检索信息时,可以切换到非思考模式。模型会直接、快速地给出答案,几乎没有延迟,效率极高。
灵活切换与“思考预算”控制
你可以根据任务的复杂度,动态选择模式,甚至在多轮对话中随时切换。比如,先用非思考模式快速获取信息,再用思考模式深入分析。这种“思考预算”理念,像是在管理团队资源:复杂项目投入更多精力,简单任务则追求效率。
多语言支持
Qwen3 支持 119 种语言和方言,从英语、法语、德语、俄语,到中文(简体、繁体、粤语)、阿拉伯语、日语、韩语、泰语、越南语、土耳其语、芬兰语、斯瓦希里语等,几乎囊括了全球主流语言。
让全世界各国人民都能够用上 AI 。
训练亮点
1. 超大规模多样化数据集
Qwen3 的预训练数据量高达 36 万亿 tokens,几乎是上一代 Qwen2.5 的两倍。
不局限于爬取网络数据,还使用 Qwen2.5-VL 从各种 PDF 文档中提取文本,并用 Qwen2.5 改进提取内容的质量。
为了增加数学和代码数据的数量,利用 Qwen2.5-Math 和 Qwen2.5-Coder 合成数据,合成了包括教科书、问答对以及代码片段等多种形式的数据。
2. 多阶段精细化训练流程
三阶段预训练
四阶段后训练
3. 架构创新与成本优化
- Dense + MoE 混合架构:既有 Dense 模型的稳定性,也有 MoE(专家混合)模型的高效性。比如 Qwen3-30B-A3B 只用 10% 激活参数就能媲美更大模型,推理成本大幅降低。思考预算灵活分配:用户可以根据任务复杂度,动态切换“深度推理”与“极速响应”,让 AI 既聪明又高效。
模型实测
测试1,让 Qwen3 写一篇诗歌,总结上面的所有内容
要融合各种技术术语,非常难。
测试2,让 Qwen3 模仿 Orange 的写作风格写一篇公众号
你喜欢它写的还是我写的这篇?
测试3,让 Qwen3 把 PDF 转为报告网页
Prompt:
帮我将这个文件生成一个 HTML 动态网页,具体要求是:1.使用Bento Grid风格的视觉设计,纯黑色底配合橙色FF813A作为高亮
2.强调超大字体或数字突出核心要点,画面中有超大视觉元素强调重点,与小元素的比例形成反差
3.中英文混用,中文大字体粗体,英文小字作为点缀
4.简洁的勾线图形化作数据可视化或者配图元素
5.运用高亮色自身透明度渐变制造科技感,但是不同高亮色不要互相渐变
6.模仿 apple 官网的动效,向下滚动鼠标配合动效
7.数据可以引用在线的图表组件,样式需要跟主题一致
8.使用 Framer Motion(通过CDN引入)
9.使用HTML5、TailwindCsS 3.0+(通过CDN引入)和必要的JavaScript
(通过CDN引入)
10.使用专业图标库如Font Awesome或Material Icons(通过CDN引入)
11.避免使用emoji作为主要图标
12.不要省略内容要点
网页结构尚可,审美方面还需要提高。
测试4,MCP 调用能力测试
Prompt:
创建一个网页,网页的核心内容是一篇讲述 Qwen3 的童话故事,先生成故事,然后根据故事生成一张图片,然后附加一张杭州市区的地图,然后生成故事的tts音频。最后附上时间和日期。Qwen3 在思考中分析了任务所需要用到的工具,看到这里就比较稳了。
然后挨个调用,最后生成了网页,各个 MCP 都调用成功了。
而我用 R1 跑同样的 Prompt 效果是这样的:
图片、音频、地图MCP调用失败,连时间MCP调用都失败了。
不知不觉, 从 R1 到 Qwen3 ,已经进步了这么多。
如何使用
目前 Qwen3 已经上线到官网,大家可以在 Qwen 网页版和通义 APP 中直接体验:
Qwen.AI
官方博客: https://qwenlm.github.io/blog/qwen3/
魔搭社区: https://modelscope.cn/collections/Qwen3-9743180bdc6b48
GitHub: https://github.com/QwenLM/Qwen3
Hugging Face: https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
其他云平台今天也会陆续上线。
结语
Qwen 系列模型,因为开源、小巧、好微调的特点,已经成为很多开发者的首选模型。
很多强化学习研究也都依赖 Qwen 系列的高质量基座,因为基座模型的质量决定了后续强化学习的上限。
Qwen3 这次升级,延续了 Dense 模型的精巧好用,同时也通过探索 MoE 提高了模型的上限,成为全球最强的开源模型。
36万亿的训练 token,混合推理模式、Agent 能力提升、119种语言的支持、下降6成的部署成本。
这些都是非常扎实的稳步提升,必将成为很多使用实际场景下的默认模型。
好了,以上就是今天的橘子汽水铺分享的全部内容了。
我们,下次再见。