PaperAgent 05月15日 20:07
阿里Qwen3技术报告核心要点解读!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里正式发布Qwen3技术报告,详细介绍了模型架构、预训练及后训练过程等关键技术细节。Qwen3包含多种尺寸的量化模型,已在开源社区上架。模型架构包括密集模型和混合专家模型,预训练数据量是之前的两倍,涵盖119种语言和方言,总计36万亿tokens。预训练分为三个阶段,后训练分为四个阶段,并采用从强到弱的蒸馏方法。评估结果显示,Qwen3系列模型在通用知识、推理能力等多方面表现优异,旗舰模型性能领先。

🧠 **模型架构**:Qwen3包含密集模型和混合专家模型,前者架构与Qwen2.5相似,后者沿用Qwen2.5-MoE架构,并加入细粒度专家分段设计,共128个专家,每个token激活8个专家。

📚 **预训练数据**:预训练token数量是Qwen2.5的两倍,涵盖119种语言和方言,总计36万亿tokens,包含多个领域的高质量内容,并通过多种方式扩展预训练语料库。

🚀 **三阶段预训练**:分为通用知识学习、推理能力强化和长上下文扩展三个阶段,分别侧重于语言结构、推理能力和序列长度容量的提升。

⚙️ **四阶段后训练**:包括长链式思维冷启动、推理强化学习、思考模式融合和通用强化学习四个阶段,全面增强模型在各种场景下的能力与稳定性。

💡 **从强到弱蒸馏**:通过Off-policy和On-policy两个阶段的蒸馏,提升轻量级模型的推理能力,赋予其稳健的模式切换能力。

2025-05-14 23:50 湖北

阿里Qwen3技术报告正式发布,相关的模型架构、预训练及后训练过程等技术细节都有披露。

近期Qwen3的各种尺寸更小的量化模型也在各开源社区上架,有需要可关注。

模型架构

预训练

后训练

更多信息:《动手设计AI Agents:CrewAI版》、《高级RAG之36技》、新技术实战:中文Lazy-GraphRAG/Manus+MCP/GRPO+Agent、大模型日报/月报、最新技术热点追踪解读(GPT4-o/数字人/MCP/Gemini 2.5 Pro)

    报告下载:

    https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf

    推荐阅读


      欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

      阅读原文

      跳转微信打开

      Fish AI Reader

      Fish AI Reader

      AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

      FishAI

      FishAI

      鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

      联系邮箱 441953276@qq.com

      相关标签

      Qwen3 技术报告 大模型 预训练 后训练
      相关文章