原创 小黑羊 2025-04-29 18:11 北京
.
今天,阿里发布并开源了Qwen3,又把各种榜刷爆了。
大家注意到没有,Qwen3这一组模型被称作「混合推理模型」。
啥是混合推理模型?
混合推理模型的核心思想是:像人类一样灵活地处理问题,既能「快速反应」解决简单任务,也能「慢工出细活」深入分析复杂问题。
这种设计让推理模型不再“一根筋”,可以根据任务需求灵活切换思考模式↓
1. 快思考模式面对简单问题,AI只需要快速调用已有知识库,给出即时答案,比如翻译句子、回答一般常识。
既缩短用户等待时间,又节省推理开销。用户省了tokens,模型运营方省了算力。
面对复杂问题,AI会像人类一样「打草稿」,一步步拆解复杂问题,比如解数学题、写代码、制定战略计划、星盘命理解读等等。
所以你要知道喽,大模型算命很消耗算力(tokens)哦
举个例子,大家打游戏刷怪,传统“一根筋”推理模型无论碰见杂兵小怪还是BOSS,都一律放大招,威力大但是很快就没蓝了。
而混合推理模型就不一样,懂得看人下菜单。
碰见小怪就平A,碰见BOSS才开大,这样就能省蓝。
如何实现双模式切换?
以目前公开的混合推理模型(如Qwen3、 Claude 3.7)为例,其切换的方式有两种:
1. 算法识别:同一模型内的智能分配通过特殊算法设计,让模型内部自动识别任务复杂度。
简单问题 → 直接调用浅层网络模块,快速输出结果
复杂问题 → 激活深层推理思维链,逐步拆解问题并验证中间步骤
用户可通过指令(如“请详细分析”或“快速回答”)手动切换模式。
快速模式:类似普通聊天机器人的即时响应
深思模式:AI会显示「思维过程」,例如列出推导公式、代码调试步骤
以刚刚上线的Qwen3为例,用户可以通过页面上开关来切换模式,而且还可以设置思考预算,避免过多的Tokens消耗。
(注:DeepSeek官方界面关闭深度思考时,模型会切换到v3模型,实际上是R1和V3两个模型轮换服务)
回想阿里QwQ刚上线的时候,曾被人吐槽思维链太长,“过度思考”,这一版,Qwen3就来了一个大大的改进。
这种方式无需额外训练两个独立模型,用户也无需部署两个独立模型,节省开发成本和部署成本。
混合推理有啥实用价值?
传统“一根筋”深度推理模型需要消耗大量算力,而混合模型能按需分配资源,降低部署门槛。
比如Qwen3仅需4张H20显卡(96G版本)即可部署完整版(235B-FP8版本)。
同时,混合推理模型根据问题难易来选择思考的模式,并可以动态设置思考深度。
当大模型思考可以量(tokens)预算而行,不仅提升了AI实用性,也减少了不必要的算力浪费。
过去大模型要么擅长快速响应(如Meta Llama系列),要么专精复杂推理(如OpenAI o1),但难以兼顾。
混合模型首次实现了两者融合,一个模型既会“平A”输出也能“放大招”,落地打怪的场景就会更加丰富。
扩展阅读:
本文所讲只是狭义「混合推理模型」,广义上讲,以下也算「混合推理模型」。
1、模型混合:一个小模型处理常规问题,一个大模型处理复杂问题。
2、硬件混合:用异构算力来同时完成推理,比如CPU+GPU+NPU协同推理。
3、精度混合:部分推理用FP16,部分用INT8(先混合精度量化,再混合精度推理,这种尤其适合当下很多国产卡不支持FP8的情况)
4、算法混合:加入RAG,先检索后推理。
不管怎么混,目的都是为了提高速度、降低成本、提升灵活性。