聊聊吵闹的AI圈，以及新发布的 Qwen3

原创陈财猫 2025-05-03 20:08 北京

说实话，如果你看 AI 新闻多了，总会觉得有些腻味，最后几乎是有点烦，甚至是反胃。

当一个行业发展得相当繁荣的时候，里面就会有很多水分。

特别的，信息上的水分则尤其多，几乎每个月都有大量的“炸裂，颠覆，今天睡不着，太牛逼了兄弟们”的标题。

这些文章乍一看虎躯一震，点进去一看满满的都是情绪，今天颠覆那个，明天颠覆那个，让人感觉AGI已经实现，所有人明天立刻就不用上班，或者会遭遇灭顶之灾。

当然，这件事并不是全然的不好，稍微炒作炒作也有利于生态的繁荣。毕竟连 OpenAI 的CEO Sam Altman 也不能免俗。

然而说到底，这件事带来了一些信息上的杂音，内行无法信任网上的信息，外行容易被误导。虽然说确实利好我这种有点脑子，愿意去上手实测的人（扭曲的杂音中获取到的真实信息也算信息差）。但是总的来说，你会觉得吵得有点心烦，期待一些在踏实地做一些实在的贡献的人。

确实有些玩家在认认真真的做些事情，而他们的口碑和信任也是在长年累月中积累出来的，例如通义千问团队。我自己开发的很多程序中也内嵌了这款模型。

阿里巴巴在 4月29日凌晨5点发布了最新的Qwen3模型，许多 AI 圈的同学都在熬夜等待。

看完发布的东西，我的评价是相当稳健，通义团队并没有辜负大家对它的期待。

以可接受的成本进行本地部署时

Qwen是几乎唯一的选择

模型的开销主要有二：时间与金钱。

对于时间来说，许多服务需要非常及时的响应，需要模型推理快一些，参数大的模型推理就慢。

对于金钱来说，越大的模型就要越贵的设备，推理也就更花钱。

Qwen的模型尺寸覆盖很广，相当全能。与此同时，它的能力也足够强，能够支撑起实际的业务。

举个例子，前段时间很火的 R1 模型。

这个模型非常强，虽然贵有贵的道理，确实值这个价，但是671B还是太大了。

要本地部署它，并真正落地到业务，你需要价值两百万多万的设备。

两百多万仅仅是部署一台设备的钱，是入场券，如果你的用量更大，你需要更多的两百万。

大多数企业并负担不起这个价格，只好舍而求其次，部署更小的模型。

例如基于 qwen 和 llama 的 DeepSeek-R1-Distill 系列。

这次发布的 Qwen3 在尺寸上非常全能。包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B。从适合手机跑的 0.6B 到中间各种尺寸，一共 8 款，丰俭由人。

特别是这次发布中的旗舰模型： Qwen3-235B-A22B。

这是个非常妙的参数量，不大，不小，刚刚好。实际上与Claude的sonnet系列模型的参数平齐。

参数量只有同级别 DeepSeek-R1 的1/3左右，部署成本大幅度降低，但是性能却可以和DeepSeek扳手腕。

通义在目前大模型的生态中的布局

使其有不可替代的位置

通义的模型性能很强，实际上在开发者中甚至可以称得上是有口皆碑。

如果一个大模型应用开发者没有听说过，甚至是没有上手试过通义千问，你甚至可以说他算不上特别称职。

有时候，甚至你可能以为自己用的是deepseek，实际上用的是qwen。

例如，deepseek 他们同时开源了一系列蒸馏出来的小模型，叫做 DeepSeek-R1-Distill。

但你仔细去看他们的官方说明就会发现，这 6 个蒸馏模型里，有 4 个的基础模型（Base Model）写的都是 Qwen。

比如：

DeepSeek-R1-Distill-Qwen-1.5B (基于 Qwen2.5-Math-1.5B)

DeepSeek-R1-Distill-Qwen-7B (基于 Qwen2.5-Math-7B)

DeepSeek-R1-Distill-Qwen-14B (基于 Qwen2.5-14B)

DeepSeek-R1-Distill-Qwen-32B (基于 Qwen2.5-32B)

当你在说“部署DeepSeek-R1-32B”时，你部署的其实是魔改版本的qwen。

通义系列模型在世界的各个角落都有出现。例如，manus就使用了通义的系列模型。

另外，Qwen3-235B-A22B又开源，够强，能用，原生支持function call与MCP，这让它能够很好地支持agent的开发，这在目前不太好找第二家。

这次发布中，Qwen3 还有一个特点值得注意：它似乎在努力用更小的模型尺寸，达到更好的性能。

Qwen3-235B-A22B，虽然参数量大约只有 DeepSeek R1 的三分之一，但在不少benchmark中的表现比DeepSeek更强。这种效率的提升，对于需要平衡性能和部署成本的开发者来说，确实提供了更多的选择空间。

而且，这种追求效率的思路似乎也体现在 Qwen3 的其他模型尺寸上。和通义自家的上一代 Qwen2.5 相比，也能看到类似的进步：

比如，Qwen3-8B 的性能可以达到甚至超过 Qwen2.5-14B 的水平，而 Qwen3-32B 的目标则是要超过 Qwen2.5-72B。这意味着开发者可能用更小的模型，就能满足以前需要更大模型才能达到的要求。

开发者需要

实用的，生产的模型

我在之前的工作中角色很多样，又是产品经理，又是开发者。很多时候我自己设计的功能，我也要负责开发。

由于我不只是动动嘴皮子，真的要上手用，甚至还要付钱，你会在意模型能不能用，强不强，工程的成本有多少，用起来贵不贵。选型选得好，我就可以少受一些痛苦，少掏一点钱。

开发者选择Qwen是真正的用脚投票。

大多数吹得天花乱坠的“颠覆，起猛了，今天睡不着，太牛逼了兄弟们”，事实上，最后什么也没有改变。

市场需要多一些Qwen这样长期主义的，默默积累的玩家，何况模型确实是真的好用。

就像阿里云 CTO 在接受晚点采访的时候回答的那样：

“但长远看，如果真认为 AGI 是最终目的地，当前的你追我赶都只是阶段性过程。”

“更重要的是，要知道自己在正确的方向上，以及要持续、长期创新。所以不用太纠结，今天或明天，是不是比别人又多了一个身位。”

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签