掘金 人工智能 15小时前
Qwen3术语解密:读懂大模型黑话
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文深入浅出地介绍了Qwen3开源的8款混合推理模型,重点解析了MoE模型与Dense模型的区别。MoE模型通过将大模型拆分成多个“小专家”,每次推理动态选择部分专家参与计算,实现了大容量和低计算成本。文章还阐述了大模型的预训练与后训练过程,前者让模型掌握基础知识和通用逻辑,后者则使模型适应具体任务需求。此外,还介绍了大模型的两种思考模式:逐步推理的深度分析模式和即问即答的快速模式,以及模型如何判断问题复杂度并选择合适的思考模式。

🧠MoE模型将大模型拆分为多个“小专家”,每次推理仅激活部分参数,实现高效灵活。不同于Dense模型每次推理需激活所有参数,MoE模型能根据任务类型调用不同专家,降低计算成本。

📚预训练使模型掌握语言规则、基础知识和通用逻辑,通过海量数据输入和分阶段学习,让模型具备初步的理解能力。后训练则通过长思维链冷启动、强化学习探索和模式融合,将模型从“知识库”转变为“问题解决专家”。

🤔大模型具备两种思考模式:深度分析模式和快速模式。深度分析模式适用于复杂问题,通过逐步推理和深度分析得出结论;快速模式则适用于简单问题,即问即答,节省计算资源。模型会根据问题类型、文本结构、上下文关联度和用户指令等因素判断问题复杂度,选择合适的思考模式。

今天Qwen3 正式发布并将 8 款「混合推理模型」开源,作为工程同学,在阅读学习文章的时候其实有很多的专业术语没搞明白,这里借助大模型和网上资料自己整理了一部分分享给大家,希望能帮到同样有需求的同学

MoE模型与Dense模型

稠密模型(Dense Model)

混合专家模型(MoE, Mixture of Experts)

对比表格

特性稠密模型MoE模型
参数激活方式全部激活按需激活部分专家
计算效率低(参数越多越慢)高(只计算需要的部分)
适用场景通用任务、资源充足多样化任务、资源有限
例子Qwen3-32B(320亿全激活)Qwen3-235B(激活220亿)

MoE模型如何知道激活哪部分参数?

在MoE(混合专家)模型中,“应该激活哪部分参数”其实就是“每次推理时,如何选择要用哪些专家子网络”。

    谁来决定激活哪些参数?

门控网络(Gating Network):

    选择过程是怎样的?
    为什么这样做?
    举个简单例子

大模型的预训练与后训练

预训练(Pre-training)

类比:像婴儿学说话 + 学生上课学知识

后训练(Post-training)

类比:像运动员针对性训练 + 医生实习积累经验

    长思维链冷启动:教模型“分步骤解题”(如数学题先列公式再计算)。强化学习探索:模拟考试+老师批改,模型通过试错学会最优解法(类似学生刷题提分)。模式融合:整合“深度思考”和“快速回答”两种模式,用户可自由切换(像医生问诊时,简单问题速答,复杂病情详细分析)。通用能力强化:在20多个领域(如指令遵循、工具调用)反复优化,纠正错误行为(如避免胡编乱造)。
阶段预训练后训练
学习方式自学(无监督)教练指导(有监督/强化学习)
目标掌握语言和常识适应任务,精准输出
类比学课本知识实习、专项培训
成果知道“草莓的拼写”能数出“草莓有2个r”

大模型的思考模式

思考模式

形象比喻:一位戴眼镜的老教授,在黑板前边写边推导,嘴里念念有词:“已知A,所以B,因此C……”

示例输出

嗯,用户问“草莓(strawberry)有几个字母r”?  首先,我需要正确拼写“strawberry”:s-t-r-a-w-b-e-r-r-y。  然后逐个字母检查:第3个是r,第9个也是r。  所以答案是2个r。  答案:草莓(strawberry)中有2个字母r。

非思考模式

形象比喻:一位语速极快的客服,秒回问题:“您好!答案马上给您!”

示例输出

答案:草莓(strawberry)中有2个字母r。

如何判断问题复杂度

大模型判断问题复杂度,类似医院分诊台护士快速评估患者病情。核心思路是多维度信号综合决策,而非单一标准。以下是大模型的常用“分诊术”:

    问题类型识别
    文本结构分析
    上下文关联度
    用户显式指令

从用户侧来说我们也有一些方法来帮助大模型更好的识别:

    清晰表述问题类型
    结构化输入
【背景】现有Python代码(见附件)运行缓慢。  【问题】如何优化循环部分的性能?

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Qwen3 MoE模型 预训练 后训练 大模型
相关文章