知乎全站热榜 前天 08:39
阿里通义千问 Qwen3 系列模型正式发布,该模型有哪些技术亮点?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里巴巴发布新一代通义千问Qwen3模型,成为全球最强开源模型。Qwen3是国内首个“混合推理模型”,集成“快思考”与“慢思考”,节省算力。阿里云开源了Qwen3-235B-A22B等MoE模型和Qwen3-32B等Dense模型,均在Apache 2.0许可下开源。Qwen3-235B-A22B在各项测试中表现出竞争力,小型MoE模型Qwen3-30B-A3B表现更胜一筹,Qwen3模型支持119种语言和方言,为国际应用开辟了新的可能性。

🧠 **混合推理模式:** Qwen3模型支持“快思考”与“慢思考”两种模式,前者快速响应简单问题,后者深度推理复杂问题,用户可根据任务需求控制模型“思考”程度,提升效率和精度。

🌐 **多语言支持:** Qwen3模型支持119种语言和方言,包括简体中文、繁体中文、粤语等,为全球用户提供了便利,扩展了模型的应用范围和国际影响力。

💡 **模型开源策略:** 阿里云开源多个MoE模型(如Qwen3-235B-A22B,Qwen3-30B-A3B)和Dense模型(如Qwen3-32B),均采用Apache 2.0许可,降低了使用门槛,促进了AI技术的普及和发展。

4 月 29 日消息,今日凌晨,阿里巴巴发布了新一代通义千问 Qwen3 模型,一举登顶全球最强开源模型。 这是国内首个“混合推理模型”,将“快思考”与“慢思考”集成进同一个模型,大大节省算力消耗。 经过后训练的模型,例如 Qwen3-30B-A3B,以及它们的预训练基座模型(如 Qwen3-30B-A3B-Base)已在各大平台上开放使用。同时,阿里云开源了两个 MoE 模型的权重:Qwen3-235B-A22B,一个拥有 2350 多亿总参数和 220 多亿激活参数的大模型Qwen3-30B-A3B,一个拥有约 300 亿总参数和 30 亿激活参数的小型 MoE 模型。 此外,六个 Dense 模型也已开源,包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B,均在 Apache 2.0 许可下开源。 据阿里云介绍,其旗舰模型Qwen3-235B-A22B在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比,表现出极具竞争力的结果。此外,小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%,表现更胜一筹,甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。核心亮点多种思考模式 Qwen3 模型支持两种思考模式:思考模式:在这种模式下,模型会逐步推理,经过深思熟虑后给出最终答案。这种方法非常适合需要深入思考的复杂问题。非思考模式:在此模式中,模型提供快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题。 这种灵活性使用户能够根据具体任务控制模型进行“思考”的程度。例如,复杂的问题可以通过扩展推理步骤来解决,而简单的问题则可以直接快速作答,无需延迟。 至关重要的是,这两种模式的结合大大增强了模型实现稳定且高效的“思考预算”控制能力。如上文所述,Qwen3 展现出可扩展且平滑的性能提升,这与分配的计算推理预算直接相关。这样的设计让用户能够更轻松地为不同任务配置特定的预算,在成本效益和推理质量之间实现更优的平衡。多语言 Qwen3 模型支持 119 种语言和方言,例如简体中文、繁体中文、粤语等。这一广泛的多语言能力为国际应用开辟了新的可能性,让全球用户都能受益于这些模型的强大功能阿里发布国内首个“混合推理模型”Qwen3 并开源:支持两种思考模式,预训练约 36 万亿个 token、119 种语言和方言

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

通义千问Qwen3 混合推理模型 开源模型 多语言支持
相关文章