论文
arxiv.org/pdf/2505.09… 2025年5月
贡献
- 发布密集模型和混合专家(MoE)架构的模型,参数规模从 0.6B 到 235B 。将思考模式(用于复杂、多步骤推理)和非思考模式(用于快速、基于上下文的响应)集成到一个统一框架中。消除了不同模型切换的需要,并允许根据用户查询或聊天模板进行动态模式切换。引入了思考预算机制,允许用户在推理过程中自适应地分配计算资源,从而根据任务复杂度平衡延迟和性能。此外,通过利用旗舰模型的知识,我们显著减少了构建较小规模模型所需的计算资源,同时确保其具有高度竞争力的性能。
引言
- 预训练过程遵循三阶段策略。在第一阶段,模型在大约 30 万亿个标记上进行训练,以建立强大的通用知识基础。在第二阶段,它进一步在知识密集型数据上进行训练,以增强科学、技术、工程和数学(STEM)和编码等领域的推理能力。在第三阶段,模型在长语境数据上进行训练,将最大语境长度从 4096 个标记增加到32768个标记采用多阶段的后训练处理方法,该方法同时增强思考(推理)和非思考模式。在前两个阶段,我们专注通过长思维链(CoT)冷启动微调和强化学习,重点是数学和编码任务,以挖掘强大的推理能力。在最后的两个阶段,我们将带有和没有推理过程的数据组合成一个统一的数据集进行进一步的微调,使模型能够有效处理这两种类型的输入,然后应用通用领域强化学习来提高在各种下游任务上的表现。对于较小的模型,我们使用从强到弱的蒸馏,利用从较大模型中获得的离线策略和在线策略知识转移,以增强其能力。从先进教师模型中蒸馏在性能和训练效率上显著优于强化学习。
架构
Qwen3密集模型的架构与 Qwen2.5 类似,包括使用 GQA 、SwiGLU 、RoPE 和预归一化的 RMSNorm 。此外,我们删除了Qwen2 中使用的 QKV-bias ,并在注意力机制中引入了QK-Norm 以确保 Qwen3 的稳定训练。
Qwen3 MoE模型与Qwen3密集模型共享相同的基本架构。 Qwen2.5-MoE 并实现了精细的专家分割共有 128 个专家,每个 token 激活 8 个专家。与 Qwen2.5-MoE 不同,Qwen3-MoE 设计去掉了共享专家。此外,我们采用全局批量负载平衡损失来鼓励专家专业化。这些架构和训练创新在下游任务的模型性能上取得了显著的改进。
Qwen3 模型使用 Qwen 的分词器,该分词器实现了字节级别的字节对编码(BBPE),词汇量为151,669。
预训练数据
- 所有 Qwen3 模型都训练了 36 万亿个标记,包括编码、STEM(科学、技术、工程和数学)、推理任务、书籍、多语言文本和合成数据等领域。使用 Qwen2.5-VL 模型对大量类似 PDF 的文件进行文本识别,然后使用 Qwen2.5 模型对识别出的文本进行细化,以提高其质量,获得额外数万亿个优质文本 token。 使用 Qwen2.5 、Qwen2.5-Math 和 Qwen2.5-Coder 模型合成不同格式的数万亿个文本标记,包括教科书、问答、说明和代码片段等领域。整合多语言数据语言数量已从 29 增加到 119 。我们开发了一个多语言数据注释系统,旨在提高训练数据的质量和多样性。该系统已应用于我们的大规模预训练数据集,在多个维度(s educational value, fields, domains, and safety)上注释了超过30万亿个 token ,这些详细的注释支持更有效的过滤和数据合成。
三个阶段预训练
类似于 Qwen2.5 ,我们基于三个预训练阶段开发了最佳超参数(如学习率调度器和批次大小)预测的缩放定律。为每个密集或 MoE 模型设定了预测的最佳学习率和批次大小策略。
- 通用阶段:在第一个预训练阶段,所有 Qwen3 模型使用 4,096 的序列长度在超过 30T 个 token 上进行训练。在这个阶段,模型已经在语言能力和一般世界知识上进行了全面预训练。推理阶段:为了进一步提高推理能力,我们增加了预训练数据中 STEM、编码、推理和合成数据的数据比例。模型进一步预训练了约 5T 的高质量数据,序列长度为 4,096 个标记。我们还加速了该阶段的学习率衰减。长上下文阶段: 在预训练的最后阶段,我们收集高质量的长上下文语料库以扩展 Qwen3 模型上下文的长度。所有模型在 32768 的序列长度上预训练了数千亿个 token 。长上下文语料库包括 75% 的长度在 16384 到 32768 之间的文本,以及 25%的长度在 4096 到 16384 之间的文本。遵循 Qwen2.5 ,我们使用 ABF 技术将 RoPE 的基频率从 10000 增加到 1000000 。同时我们引入了 YARN 和 DCA 在推理期间实现了序列长度能力的四倍提升。
后训练
核心目标
(1)思维控制:这涉及到两种不同模式的整合,即“非思维”和“思维”模式,为用户提供灵活性,选择模型是否参与推理,并通过为思维过程指定 token 预算来控制思维的深度。
(2)从强到弱蒸馏:这旨在简化和优化轻量级模型的后训练过程。通过利用大型模型的知识,我们大大减少了构建较小规模模型所需的计算成本和开发工作。
Qwen3 系列的旗舰模型遵循一个复杂的四阶段训练过程。前两个阶段专注于发展模型的“思考”能力。接下来的两个阶段旨在将强大的“非思考”功能集成到模型中。
实验表明直接从教师模型中蒸馏输出 logits 到轻量级学生模型可以有效提高它们的性能,同时保持对推理过程的精细控制。这种方法消除了为每个小模型单独执行详尽的四阶段训练过程的必要性。它带来了更好的即时性能,也提高了模型的探索能力。此外训练效率大大提高,只需要四阶段 1/10 的 GPU 时间。
Long-CoT Cold Start
整理了包括数学、代码、逻辑推理和一般的 STEM 问题的数据集。数据集中的每个问题都与经过验证的参考答案或基于代码的测试用例配对,该数据集是长思维链(long-CoT)训练“冷启动”阶段的基础。
数据集构建涉及严格的两阶段过滤过程:查询过滤和响应过滤。在查询过滤阶段,我们使用 Qwen25-72B-Instruct 来识别和删除不易验证的查询。这包括包含多个子问题或要求生成普通文本的查询。此外我们删除了 Qwen2.5-72 B-Instruct 可以在不经过 CoT 推理能正确回答的查询。这有助于防止模型依赖肤浅的猜测,并确保只包含需要更深层次推理的复杂问题。此外我们使用 Qwen2.5-72B-Instruct 对每个查询的领域进行注释,以在数据集上保持领域的数据平衡。
在保留验证查询集后,我们使用 QwQ-32B 为每个剩余的查询生成 N 个候选响应。当 QwQ-32B 始终无法生成正确解决方案时,人工注释人员手动评估响应的准确性。对于 Pass@N 为正的查询,将应用更严格的过滤标准来删除以下响应:(1)产生错误最终答案,(2)包含大量重复,(3)明显表明猜测而没有充分推理,(4)显示思维与摘要内容不一致,(5)涉及不适当的语言混合或文体变化,(6)涉嫌与潜在验证集过于相似。随后从精炼的数据集中精心选取一个子集,用于推理模式的初始冷启动训练。此阶段的目的是在模型中植入基础的推理模式,而不过于强调即时的推理性能,最好在这个准备阶段将训练样本数量和训练步骤都减少到最少。
Reasoning RL
推理 RL 阶段中使用的查询验证对必须满足以下四个标准:(1)它们没有在冷启动阶段使用过。(2)它们对冷启动模型是可学习的。(3)它们尽可能地具有挑战性。(4)它们涵盖了广泛的子领域。我们最终收集了总共 3995 对查询验证对,并使用 GRPO 来更新模型参数。我们观察到使用大的 batch size 和每个查询的较高的轮数,以及改进样本效率的离线训练,对训练过程是有益的。 我们还探讨了如何通过控制模型熵的稳定增长或保持稳定来平衡探索和利用,这对于维持稳定的训练至关重要。因此,我们在单次强化学习运行过程中实现了训练奖励和验证性能的持续提升,而无需对超参数进行任何手动干预。例如,在总共 170 个强化学习训练步骤中,Qwen3-235B-A22B 模型的 AIME'24 得分从 70.1 提升至 85.1。
Thinking Mode Fusion
思考模式融合阶段的目标是整合“非思考”能力到之前开发的“思考”模型中。这种方法允许开发人员管理和控制推理行为,同时降低为思考和非思考任务部署不同模型的成本和复杂性。为了实现这一目标,我们对推理 RL 模型进行持续的监督微调(SFT),并设计了一个聊天板来融合两种模式。此外我们发现能够熟练处理两种模式的模型在不同思考预算下表现一致良好。
SFT数据的构建。SFT 数据集结合了“思考”和“非思考”数据。为了确保 Stage2 模型的性能不受额外 SFT 的影响,“思考”数据是通过在 Stage 1 查询上使用 Stage 2 模型本身进行拒绝采样生成的,“非思考”数据经过精心筛选,涵盖了各种任务,包括编码、数学、指令遵循、多语言任务、创意写作、问题回答和角色扮演。此外,我们使用自动生成的检查清单来评估“非思考”数据的响应质量。为了提高在低资源语言任务上的表现,我们特别增加了翻译任务的比例。
聊天模板设计。为了更好地整合两种模式并使用户能够动态切换模型的思想过程,我们为 Qwen3 设计了聊天模板,如表所示。具体来说,对于处于思考模式和非思考模式的样本,我们在用户查询或系统消息中分别引入了 /think 和 /no think 标志。这使得模型能够跟随用户的输入并相应地选择适当的思想模式。对于非思考模式的样本,我们在助手的响应中保留一个空的思想块。这种设计确保了模型内部格式的统一性,并允许开发人员通过在聊天模板中连接一个空思考块来防止模型参与思考行为。默认情况下,模型以思考模式运行,因此,我们添加了一些思考模式训练样本,其中用户查询不包含 /think 标志。对于更复杂的多轮对话,我们随机在用户查询中插入多个 /think 和 /no_think 标志,模型响应遵循遇到的最后一个标志。
思考预算。思考模式融合的另一个优势是,一旦模型学会在非思考和思考模式下响应,它自然会发展出处理中间情况的能力--基于不完全的思考生成响应。这种能力为对模型的思考过程实施预算控制奠定了基础。具体来说,当模型的思考长度达到用户定义的阈值时,我们手动停止思考过程并插入停止思考指令:“Considering the limited time by the user, I have to give the solution based on the thinking directly now.\n.\n\n"。插入此指令后,模型会根据其积累到该点的推理生成最终响应。值得注意的是,这种能力不是显式训练出来的,而是通过应用思考模式融合自然产生的。
General RL
通用 RL 的阶段旨在广泛增强模型在各种场景下的能力和稳定性。为了促进这一点,我们建立了一个复杂的奖励系统涵盖了超过 20 个不同的任务,每个任务都有定制的评分标准。这些任务特别针对以下核心能力的提升:
- 指令遵循:这种能力确保模型能够准确解释和遵循用户指令,包括与内容、格式、长度和结构化输出使用相关的要求,提供与用户期望一致的响应。格式遵循:除了明确的指示,我们期望模型遵循特定的格式规范。例如,它应该通过切换思考和非思考模式来适当地响应 /think 和 /no think 标志,并且始终使用指定的标记(例如,和)在最终输出中分隔思考和回答部分。偏好对齐:对于开放式查询,偏好对齐专注于提高型的有用性、参与度和风格,最终提供更自然和满意的用户体验。代理能力:这涉及到训练模型通过指定接口正确调用工具。在RL的推出过程中,模型被允许与真实环境执行反馈进行完整的多轮交互循环,从而提高了其在长期决策任务中的表现和稳定性。针对特定场景的能力:在更专业的场景中,我们设计任务以适应特定情境。例如,在检索增强生成(RAG)任务中,我们引入奖励信号来引导模型生成准确且符合语境的响应,从而最小化幻觉的风险。
为了提供上述任务的反馈,我们使用了三种不同的奖励类型:
- 基于规则的奖励:基于规则的奖励在推理RL阶段已被广泛使用,对于指令遵循和格式遵守等通用任务也很有用。设计良好的基于规则的奖励可以以高精确度评估模型输出的正确性,防止奖励黑客等问题。基于模型的奖励与参考答案:在这种方法中,我们为每个查询提供一个参考答案,并提示 Qwen2.5-72B-Instruct 根据这个参考对模型的回答进行评分。这种方法允许更灵活地处理各种任务,而无需严格的格式化,避免了纯基于规则的奖励可能出现的假阴性。基于模型的奖励没有参考答案:利用人类偏好数据,我们训练一个奖励模型,为模型响应分配标量分数。这种方法不依赖于参考答案,可以处理更广泛的查询,同时有效地提高型的参与度和有用性。
Strong-to-Weak Distillation
从强到弱的蒸馏机制专门设计用于优化轻量级模型,包括 5 个密集模型(Qwen3-0.6B、1.7B、4B、8B和14B)和一个MoE模型(Qwen3-30B-A3B)。这种方法提高了模型性能同时有效地赋予了强大的模式切换能力。蒸馏过程分为两个主要阶段:
(1)离线蒸馏: 在这个初始阶段,我们结合教师模型在 /think 和 /no think 模式下生成的输出进行响应蒸馏。这有助于轻量级学生模型开发基本的推理技能和在不同思维模式之间切换的能力,为下一个在线训练阶段奠定坚实的基础。
(2)在线蒸馏: 在这个阶段,学生模型生成在线序列进行微调。具体来说采样 prompt 让学生模型以 /think 或 /no think 模式生成响应。然后通过将学生模型的输出与教师模型( Qwen3-32B 或 Qwen3-235B-A22B )的输出对齐来微调学生模型,以最小化 KL 散度。
总结
Qwen3 具有思考模式和非思考模式,允许用户动态管理用于复杂思考任务的 token 数量。该模型在包含 36 万亿个 token 的广泛数据集上进行预训练,使其能够理解和生成119种语言和方言的文本。通过一系列综合评估,Qwen3 在预训练和后训练模型的一系列标准基准上展示了强大的性能,包括与代码生成、数学、推理和代理相关的任务。