掘金 人工智能 04月30日 17:08
Qwen3 初测,小尺寸 MOE 利好小玩家
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Qwen3系列模型发布,主打深度思考和速度快。在常见推理问题上表现不错,但在复杂推理和知识密度依赖问题上与大参数量模型仍有差距。Qwen3-30B-A3B在中杯模型规格中性能远超Qwen3-32B,达到个人单机部署级别,推理速度快,对小玩家友好。Qwen3在模型能力上并非跨级别产品,但在推理性能上,Qwen3-30B-A3B尺寸的模型能力不弱且推理性能好,对算力不足的玩家是惊喜。

🧠 **深度思考加持,推理能力提升:** Qwen3全系列在深度思考的加持下,在一些常见的推理类问题上表现不错,打榜成绩较好,但面对复杂推理和高知识密度问题时,与DeepSeek等大模型仍有差距。

🚀 **MoE模型优化,推理性能飞跃:** Qwen3-30B-A3B远超Qwen3-32B,这主要归功于激活参数量小,以及主流框架对MoE模型的优化。Qwen3-30B-A3B已达到个人单机部署级别,并提供极快的推理速度,对小玩家极度利好。

🔄 **思维链动态切换,资源高效利用:** Qwen3支持动态切换thinking模式的开关,允许在深度思考和快速思考场景间灵活切换,只需部署一套模型即可满足不同需求,提高资源利用率,对算力有限的用户十分友好。

🛠️ **灵活部署,支持Function Call和YARN外推:** 部署Qwen3需使用vllm最新版本,并可通过参数加载思维链和Function Call能力。同时,Qwen3支持YARN外推,可扩展上下文超过32K,满足更长文本处理需求。

结论

还是先聊结论,Qwen3 发布 blog 的标题是“思深,行速”。其实这个已经总结了这次版本的两大特性了,一个是全员深度思考,另一个就是速度快。

是的,你看他自己也没好意思再加上“智远”是吧——此处应手动狗头。

和 QwQ-32B 一样,在一些常见的推理类问题上,Qwen3 全系列在深度思考的加持下都表现的还不错(所以打榜成绩挺好)。在复杂一些的推理问题,以及依赖知识密度的问题上相比 deepseek 等大参数量模型依然有一定差距。在中杯规格里,稠密模型的 Qwen3-32B 相比 Qwen3-30B-A3B 的表现要更出色一些。(我一直觉得预训练阶段赋予的知识密度才是决定模型能力上限的因素,后训练阶段赋予的思维链能力只提高了能力的稳定性。这或许也是一种佐证。)

在性能方面,在中杯模型的规格里, Qwen3-30B-A3B 远超 Qwen3-32B,这主要应该是因为激活参数量小,结合 deepseek 的巨大影响力,现在主流框架对 MoE 模型的优化做的相当到位。Qwen3-30B-A3B 已经达到了个人单机部署的级别,并且单机上可以提供非常快的推理速度,对小玩家极度利好。

总的而言,Qwen3 从模型能力上而言,并非跨级别的产品,相比 r1 横空出世的震撼,以及 gemini 2.5 pro 断档的全能,Qwen3 并没有在这个层面带来足够的惊喜。然而从推理性能上而言,得益于更小的激活参数量和推理框架们对 MoE 的优化,Qwen3-30B-A3B 这个尺寸在模型能力不弱的前提下,推理性能非常之好,对缺卡的小玩家而言这是真正的惊喜。

部署

必须用 vllm 最新的 Release v0.8.5 · vllm-project/vllm 来部署 Qwen3,与部署所有思维链模型一样,通过 --enable-reasoning--reasoning-parser deepseek_r1 来加载思维链。

Qwen3 是支持 function call 的,如果需要启用 function call 能力,则应该通过 --enable-auto-tool-choice--tool-call-parser hermes 来加载 functiona call 能力。

如果希望默认的参数用模型预设的推荐参数来加载,则需要 --generation-config auto 来开启功能,此时 vllm 会从模型所在目录的 generation_config.json 加载默认参数,而非 vllm 自己的默认参数方案。

如果需要扩展上下文超过 32K,则和所有的 qwen 系列一样,开启 YARN 外推即可,修改 config.json 文件。

{    ...,    "rope_scaling": {        "rope_type": "yarn",        "factor": 4.0,        "original_max_position_embeddings": 32768    }}

思维链开关

Qwen3 有个非常好的特性,就是可以动态的切换 thinking 模式的开关。这意味提供深度思考的场景和快思考的场景我们只需要部署一套模型就可以了,这显然可以提高资源的利用率,对卡少的小玩具当然更就更友好了。

默认 thinking 是开启的,要关闭 thinking 模式,可以参考 vLLM - Qwen 文档,通过在 API 请求内增加 "chat_template_kwargs": {"enable_thinking": false} 来关闭当前对话中的深度思考能力。

另一种简单的方式是在提示词的后面增加 /think 或者 /nothink 来切换 thinking 模式,例如这样:

在关闭 thinking 模式的时候,他会输出一个 <think>\n\n</think>parsereasoning_content 内就是 2 个 \n 。如果要忽略掉这个东西,可能需要在展示上做一些额外的处理。

推理性能

Qwen3-30B-A3B 的推理性能是 Qwen3-32B 的 2-3 倍。在支持 FP8 的显卡上,选用 FP8 量化的模型能再提高 40%左右的性能,但选择 FP8 量化有模型性能损失,模型能力会有所下降。

在 2xL20 的环境上做了一个压测,得到这样一个测试结果。由于测试脚本的题库太少,KV cache 命中率极高,这个测试数据相比真实环境是是有所偏高的,不能直接当作生产的并发数据评估。

主观测试

相比“客观”的打榜,我们还是来点儿“主观”的测试用例来看看在 30B/32B 这个模型尺寸上,Qwen3 的两个模型表现吧。我们还是分别来看一个逻辑推理题和一个文学创作题。

逻辑推理

提问:小红有两个姐姐和四个妹妹,她的四个妹妹中年龄排第三的小青总共有几个姐姐?

这个问题在中杯尺寸上,之前的 QwQ-32B 无法答对的,Qwen3-32B 有概率答对,但是不太稳定,Qwen3-30B-A3B 则完全无法答对。

和曾经那些困扰大模型的问题(strawberry)啥的一样,AI 总是在正确问题上反复的自我怀疑,就像这里的 Qwen3-32B 一样,思维链的推理已经给出了完全正确的序列,但是可能由于知识密度的不足,他会反复的纠结在一些非常低端的错误上,并且在某些情况上否定自己选择错误的答案。

从这里来看,模型终究不是真正的掌握了推理能力,知识密度对模型的能力影响依然深远。小参数量模型的刷榜的高分,可能更多是由于训练过程得到了更多的相似示例。

文学创作

需求:你现在是魔兽争霸中的角色阿尔萨斯,正在面临斯坦索姆的困境,你最终决定屠城,然而你必须要对士兵发起动员讲话,鼓舞士兵的士气。写一个鼓舞动员的讲话稿,题目自拟。

我们来看两个模型的输出对比

观察这两者的区别,最大的区别在于思考过程中,是否意识到了阿尔萨斯在屠城斯坦索姆的时候,他可能还保留着一些人性这一知识。这直接导致后续的写作立意和立场的差异。

发现没有,还是知识密度的问题。实际上两个模型在这里的表现都不是非常稳定,但总的而言 Qwen3-32B 要更容易意识到这个知识点一些。

PS:即便意识到了这个知识点,文笔上也还是逊色 deepseek 太多了。这里其实也是文化方面的知识密度在更多的起作用吧。

测试总结

单纯从模型的能力测试来看,Qwen3-32B 要略强于 Qwen3-30B-A3B,优势部分可能主要是由知识密度带来的。这也是和测评打榜的排名是匹配的,Qwen3-32B 确实要更好一些。

所以结合前面的推理性能,问题的关键就在于用户愿不愿意选择 2-3 倍以上的推理性能提升,还是愿意选择在少数场景下的模型智力提升了。

从我个人看法而言,模型能力上的不足可以通过提示词,通过检索增强来进行补强,甚至可以调整业务的应用场景和设计来匹配模型的能力。但推理性能上的差距是无法弥补的,特别是在一些利用 AI 进行批处理数据,批处理标注的场景里,速度才是王道。对于算力严重不足,存量算力满负荷运转的小玩家而言,这个选择并不难做。

小尺寸的 MoE 真香啊!

以上

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Qwen3 MoE 推理性能 思维链 深度学习
相关文章