橘子汽水铺 06月12日 10:32
全世界等了一个月,Qwen3 今天终于发布了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Qwen3作为全球最强开源模型,在万众期待下正式发布,其性能全面超越DeepSeek R1。Qwen3在智能、Agent能力、多语言支持等方面实现了显著提升,并降低了部署成本。该模型拥有36万亿token的训练数据,支持混合推理模式,能够灵活应对复杂任务和快速响应需求。Qwen3的发布,为开发者提供了更强大、更灵活的AI模型选择,有望成为实际应用场景中的首选模型。

💡 **性能卓越,超越R1**:Qwen3在各项指标上全面超越DeepSeek R1,成为国内首个敢于公开宣称全面超越R1的模型,标志着国内开源模型的新突破。

⚙️ **混合推理模式,灵活高效**:Qwen3引入类似Claude 3.7的混合思考模式,用户可在“深度推理”和“极速响应”之间灵活切换,兼顾复杂任务的思考力和简单任务的效率。

🌐 **多语言支持,覆盖广泛**:Qwen3支持119种语言和方言,覆盖全球主流语言,使得全球用户都能便捷地使用AI,拓展了AI的应用范围和影响力。

📉 **部署成本降低,更易使用**:Qwen3优化了模型架构,降低了部署成本,旗舰模型仅需4张H20即可本地部署,部署成本预计下降超过6成,降低了使用门槛。

🚀 **Agent能力提升,拓展应用**:Qwen3原生支持MCP协议,大幅提升了Agent能力,增强了代码能力,为AI Agent工具的发展提供了更强大的支持。

原创 橘子OrangeAI 2025-04-29 09:39 北京

从 R1 到 Qwen3,不知不觉已经进步了那么多。

全世界等了一个月,Qwen3 今天终于发布了。

为什么大家都在等 Qwen3?

因为自上次 DeepSeek R1 发布之后,国内模型在智能方面就没有太多实质进展。

海外Meta 开源的 Llama4 全面拉胯,还因为刷分导致了一些风波。

而最近很火的 AI Coding、Agent、MCP 应用,全都依赖模型的智能提升。

大家对 Qwen3 的期待,不仅是对模型的智能有一个短板补齐,更是因为 Qwen 系列覆盖了大中小全尺寸规格,可以根据自己的业务场景微调。

今天 Qwen3 发布,是否能满足大家的期待?


模型特色:思深,行速


模型性能:

旗舰版 Qwen3 的数学、代码的各项指标超强。

全面超越 OpenAI o1 和 o3 mini、 DeepSeek R1、Grok3。


模型家族:

本次总共开源 8 款模型,包括 2 款 MoE 模型和 6 款 Dense 模型。

2 款 MoE 模型:

旗舰版 Qwen3-235B-A22B,激活参数仅22B,部署成本为 DeepSeek R1 的三分之一。

迷你版 Qwen3-30B-A3B,激活参数仅3B,整体性能堪比 Qwen3-32B,适合消费级显卡部署。

6 款 Dense 模型:0.6B、1.7B、4B、8B、14B、32B

0.6B的,可在手机等端侧部署。

混合思考模式

Qwen3 支持了类似 Claude 3.7 的混合思考模式。

允许用户在“深度推理”和“极速响应”之间灵活切换,兼顾复杂任务的思考力和简单任务的效率:

1. 思考模式(深度推理)

在这个模式下,模型会像一个真正的思考者一样,逐步推理、分析问题,最后给出经过深思熟虑的答案。适合处理复杂、需要逻辑推理或多步骤分析的任务,比如数学题、代码生成、复杂决策等。这种模式下,模型会花更多“脑力”和时间,追求答案的准确性和深度。

2. 非思考模式(极速响应)

当你需要的是速度而不是深度,比如简单问答、日常对话、快速检索信息时,可以切换到非思考模式。模型会直接、快速地给出答案,几乎没有延迟,效率极高。

灵活切换与“思考预算”控制

你可以根据任务的复杂度,动态选择模式,甚至在多轮对话中随时切换。比如,先用非思考模式快速获取信息,再用思考模式深入分析。这种“思考预算”理念,像是在管理团队资源:复杂项目投入更多精力,简单任务则追求效率。


多语言支持

Qwen3 支持 119 种语言和方言,从英语、法语、德语、俄语,到中文(简体、繁体、粤语)、阿拉伯语、日语、韩语、泰语、越南语、土耳其语、芬兰语、斯瓦希里语等,几乎囊括了全球主流语言。

让全世界各国人民都能够用上 AI 。

训练亮点

1. 超大规模多样化数据集

Qwen3 的预训练数据量高达 36 万亿 tokens,几乎是上一代 Qwen2.5 的两倍。

不局限于爬取网络数据,还使用 Qwen2.5-VL 从各种 PDF 文档中提取文本,并用 Qwen2.5 改进提取内容的质量。

为了增加数学和代码数据的数量,利用 Qwen2.5-Math 和 Qwen2.5-Coder 合成数据,合成了包括教科书、问答对以及代码片段等多种形式的数据。

2. 多阶段精细化训练流程

三阶段预训练

    1. 基础能力打底:先用 30 万亿 tokens 训练基础语言和通用知识。
    2. 知识密集型强化:再用 5 万亿 tokens 加强 STEM、推理、编程等高难度任务。
    3. 长上下文适应:最后用高质量长文本,把上下文长度扩展到 32K,模型能处理更长、更复杂的输入。

四阶段后训练

    1. 长思维链冷启动:用多样化推理数据微调,打下推理基础。
    2. 强化学习提升:用规则奖励机制,提升模型探索和钻研能力。
    3. 思考模式融合:把“思考模式”和“极速模式”无缝整合,兼顾深度与效率。
    4. 通用能力强化:在 20 多个领域用 RL 纠正模型行为,提升指令遵循和 Agent 能力。

3. 架构创新与成本优化


模型实测

测试1,让 Qwen3 写一篇诗歌,总结上面的所有内容

要融合各种技术术语,非常难。

测试2,让 Qwen3 模仿 Orange 的写作风格写一篇公众号

你喜欢它写的还是我写的这篇?

测试3,让 Qwen3 把 PDF 转为报告网页

Prompt:

帮我将这个文件生成一个 HTML 动态网页,具体要求是:
1.使用Bento Grid风格的视觉设计,纯黑色底配合橙色FF813A作为高亮
2.强调超大字体或数字突出核心要点,画面中有超大视觉元素强调重点,与小元素的比例形成反差
3.中英文混用,中文大字体粗体,英文小字作为点缀
4.简洁的勾线图形化作数据可视化或者配图元素
5.运用高亮色自身透明度渐变制造科技感,但是不同高亮色不要互相渐变
6.模仿 apple 官网的动效,向下滚动鼠标配合动效
7.数据可以引用在线的图表组件,样式需要跟主题一致
8.使用 Framer Motion(通过CDN引入)
9.使用HTML5、TailwindCsS 3.0+(通过CDN引入)和必要的JavaScript
(通过CDN引入)
10.使用专业图标库如Font Awesome或Material Icons(通过CDN引入) 
11.避免使用emoji作为主要图标
12.不要省略内容要点 

网页结构尚可,审美方面还需要提高。

测试4,MCP 调用能力测试

Prompt:

创建一个网页,网页的核心内容是一篇讲述 Qwen3 的童话故事,先生成故事,然后根据故事生成一张图片,然后附加一张杭州市区的地图,然后生成故事的tts音频。最后附上时间和日期。 

Qwen3 在思考中分析了任务所需要用到的工具,看到这里就比较稳了。

然后挨个调用,最后生成了网页,各个 MCP 都调用成功了。

而我用 R1 跑同样的 Prompt 效果是这样的:

图片、音频、地图MCP调用失败,连时间MCP调用都失败了。

不知不觉, 从 R1 到 Qwen3 ,已经进步了这么多。

如何使用

目前 Qwen3 已经上线到官网,大家可以在 Qwen 网页版和通义 APP 中直接体验:

Qwen.AI

官方博客: https://qwenlm.github.io/blog/qwen3/

魔搭社区: https://modelscope.cn/collections/Qwen3-9743180bdc6b48

GitHub: https://github.com/QwenLM/Qwen3

Hugging Face: https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

其他云平台今天也会陆续上线。


结语

Qwen 系列模型,因为开源、小巧、好微调的特点,已经成为很多开发者的首选模型。

很多强化学习研究也都依赖 Qwen 系列的高质量基座,因为基座模型的质量决定了后续强化学习的上限。

Qwen3 这次升级,延续了 Dense 模型的精巧好用,同时也通过探索 MoE 提高了模型的上限,成为全球最强的开源模型。

36万亿的训练 token,混合推理模式、Agent 能力提升、119种语言的支持、下降6成的部署成本。

这些都是非常扎实的稳步提升,必将成为很多使用实际场景下的默认模型。


好了,以上就是今天的橘子汽水铺分享的全部内容了。

我们,下次再见。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Qwen3 开源模型 人工智能 模型发布
相关文章