原创 陈财猫 2025-05-03 20:08 北京
说实话,如果你看 AI 新闻多了,总会觉得有些腻味,最后几乎是有点烦,甚至是反胃。
当一个行业发展得相当繁荣的时候,里面就会有很多水分。
特别的,信息上的水分则尤其多,几乎每个月都有大量的“炸裂,颠覆,今天睡不着,太牛逼了兄弟们”的标题。
这些文章乍一看虎躯一震,点进去一看满满的都是情绪,今天颠覆那个,明天颠覆那个,让人感觉AGI已经实现,所有人明天立刻就不用上班,或者会遭遇灭顶之灾。
当然,这件事并不是全然的不好,稍微炒作炒作也有利于生态的繁荣。毕竟连 OpenAI 的CEO Sam Altman 也不能免俗。
然而说到底,这件事带来了一些信息上的杂音,内行无法信任网上的信息,外行容易被误导。虽然说确实利好我这种有点脑子,愿意去上手实测的人(扭曲的杂音中获取到的真实信息也算信息差)。但是总的来说,你会觉得吵得有点心烦,期待一些在踏实地做一些实在的贡献的人。
确实有些玩家在认认真真的做些事情,而他们的口碑和信任也是在长年累月中积累出来的,例如通义千问团队。我自己开发的很多程序中也内嵌了这款模型。
阿里巴巴在 4月29日 凌晨5点发布了最新的Qwen3模型,许多 AI 圈的同学都在熬夜等待。
看完发布的东西,我的评价是相当稳健,通义团队并没有辜负大家对它的期待。
01
模型的开销主要有二:时间与金钱。
对于时间来说,许多服务需要非常及时的响应,需要模型推理快一些,参数大的模型推理就慢。
对于金钱来说,越大的模型就要越贵的设备,推理也就更花钱。
Qwen的模型尺寸覆盖很广,相当全能。与此同时,它的能力也足够强,能够支撑起实际的业务。
举个例子,前段时间很火的 R1 模型。
这个模型非常强,虽然贵有贵的道理,确实值这个价,但是671B还是太大了。
要本地部署它,并真正落地到业务,你需要价值两百万多万的设备。
两百多万仅仅是部署一台设备的钱,是入场券,如果你的用量更大,你需要更多的两百万。
大多数企业并负担不起这个价格,只好舍而求其次,部署更小的模型。
例如基于 qwen 和 llama 的 DeepSeek-R1-Distill 系列。
这次发布的 Qwen3 在尺寸上非常全能。包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B。从适合手机跑的 0.6B 到中间各种尺寸,一共 8 款,丰俭由人。
特别是这次发布中的旗舰模型: Qwen3-235B-A22B。
这是个非常妙的参数量,不大,不小,刚刚好。实际上与Claude的sonnet系列模型的参数平齐。
参数量只有同级别 DeepSeek-R1 的1/3左右,部署成本大幅度降低,但是性能却可以和DeepSeek扳手腕。
02
通义的模型性能很强,实际上在开发者中甚至可以称得上是有口皆碑。
如果一个大模型应用开发者没有听说过,甚至是没有上手试过通义千问,你甚至可以说他算不上特别称职。
有时候,甚至你可能以为自己用的是deepseek,实际上用的是qwen。
例如,deepseek 他们同时开源了一系列蒸馏出来的小模型,叫做 DeepSeek-R1-Distill。
但你仔细去看他们的官方说明就会发现,这 6 个蒸馏模型里,有 4 个的基础模型(Base Model)写的都是 Qwen。
比如:
DeepSeek-R1-Distill-Qwen-1.5B (基于 Qwen2.5-Math-1.5B)
DeepSeek-R1-Distill-Qwen-7B (基于 Qwen2.5-Math-7B)
DeepSeek-R1-Distill-Qwen-14B (基于 Qwen2.5-14B)
DeepSeek-R1-Distill-Qwen-32B (基于 Qwen2.5-32B)
当你在说“部署DeepSeek-R1-32B”时,你部署的其实是魔改版本的qwen。
通义系列模型在世界的各个角落都有出现。例如,manus就使用了通义的系列模型。
另外,Qwen3-235B-A22B又开源,够强,能用,原生支持function call与MCP,这让它能够很好地支持agent的开发,这在目前不太好找第二家。
这次发布中,Qwen3 还有一个特点值得注意:它似乎在努力用更小的模型尺寸,达到更好的性能。
Qwen3-235B-A22B,虽然参数量大约只有 DeepSeek R1 的三分之一,但在不少benchmark中的表现比DeepSeek更强。这种效率的提升,对于需要平衡性能和部署成本的开发者来说,确实提供了更多的选择空间。
而且,这种追求效率的思路似乎也体现在 Qwen3 的其他模型尺寸上。和通义自家的上一代 Qwen2.5 相比,也能看到类似的进步:
比如,Qwen3-8B 的性能可以达到甚至超过 Qwen2.5-14B 的水平,而 Qwen3-32B 的目标则是要超过 Qwen2.5-72B。这意味着开发者可能用更小的模型,就能满足以前需要更大模型才能达到的要求。
03
我在之前的工作中角色很多样,又是产品经理,又是开发者。很多时候我自己设计的功能,我也要负责开发。
由于我不只是动动嘴皮子,真的要上手用,甚至还要付钱,你会在意模型能不能用,强不强,工程的成本有多少,用起来贵不贵。选型选得好,我就可以少受一些痛苦,少掏一点钱。
开发者选择Qwen是真正的用脚投票。
大多数吹得天花乱坠的“颠覆,起猛了,今天睡不着,太牛逼了兄弟们”,事实上,最后什么也没有改变。
市场需要多一些Qwen这样长期主义的,默默积累的玩家,何况模型确实是真的好用。
就像阿里云 CTO 在接受晚点采访的时候回答的那样:
“但长远看,如果真认为 AGI 是最终目的地,当前的你追我赶都只是阶段性过程。”
“更重要的是,要知道自己在正确的方向上,以及要持续、长期创新。所以不用太纠结,今天或明天,是不是比别人又多了一个身位。”