智谱发布国内最快的推理模型！效果比肩 DeepSeek R1，速度快 8 倍，高达 200 Tokens/s

原创夕小瑶编辑部 2025-04-15 10:06 北京

我发现，AI 领域的竞争越来越多元化了。

以前，大家往往比拼模型的参数规模、模型效果；后来，大家开始卷价格；就在今天，智谱 AI 这位老哥，突然开源了一个速度起飞的推理模型，直接把“速度”这张牌打成了王炸。

有多快呢？

推理速度最高达到 200 Tokens/s，是 DeepSeek-R1 常规速度的 8 倍。

这还没完。

这只是智谱刚推出的推理模型 GLM-Z1-AirX，还有一个高性价比版本 GLM-Z1-Air，不仅在效果上硬刚 671B 参数的 DeepSeek-R1，而且价格卷到了后者的 1/30。

感觉空气中都弥漫着一股“内卷终结者”的气息。

GLM-Z1-Air 效果表现

先来看一下 GLM-Z1-Air 在一系列学术测试基准上的效果表现。

在 AIME 24/25 (数学推理)、LiveCodeBench (代码生成)、GPQA (科学问答) 这些硬核基准测试中，GLM-Z1-32B 基本上做到了对 671B 参数量 DeepSeek-R1 的效果打平。考虑到两者参数量级的巨大差异，这表现堪称不错了。

此外，我注意到，GLM-Z1-32B 与同等参数量的 QwQ-32B 模型相比，其在综合工具调用、科学测试基准上表现更优，其他测试基准上整体持平。

根据官方的描述，这个模型通过冷启动和扩展强化学习，专门针对数学、代码、逻辑推理等任务进行了深度优化。智谱还引入了基于“对战排序反馈”（Battle Rank Feedback）的通用强化学习，让它在解决复杂问题上的能力有了显著提升。

一句话总结——

非常值得将其拿来上手实测一下。

一手实测

先来一道物理场景推理的题目开开胃。

（科学题）：密闭房间内有冰块悬浮于水面上的杯子，室温恒为 25°C。当冰块完全融化后，水面高度如何变化？若冰块中含一枚铁钉，结果是否不同？

Z1-Air 的结果——

手拿把掐，轻松通过。

这两天，夕小瑶 family 群里对一种类型的题讨论尤其激烈，就是设定几组规则，推理出一组数字，当然数字越多推理难度越大，算是一道非常单纯的逻辑题，这里我们来测一下。

甲、乙、丙三个海盗发现了一个巨大的保险柜，可惜保险柜上挂着一把密码锁。锁的密码由 5 个不同的数字组成。于是，他们胡乱猜了起来（如下所示）。他们每人都猜对了位置不相邻的两个数。根据 3 个已知条件，推断出密码是多少！
猜测：
甲：8 4 2 6 1
乙：2 6 0 4 8
丙：4 9 2 8 0

Z1-Air 的结果——

我顺便测了下 R1——

我自己尝试着算了算，一分钟后果断放弃看答案。。给两个模型都是只有一次机会，Z1-Air 正确，R1 却翻车了。这是我没想到的。

接着，我准备了一道陷阱题——

五斤花生可以榨四两油，现在有十斤花生，可以榨的花生有多少？

不出意外，它没能绕开。但我不死心试了几乎所有主流在用的模型，包括 R1、2.5 Pro、grok，这道题全挂，暂且划到对于 reasoning 类模型来说属于超纲吧。

此外需要提一嘴，这个 GLM-Z1-Air 模型不仅开源，而且在智谱 AI 开放平台中，分成了三个版本可供 API 调用：

GLM-Z1-Air：高性价比版本，价格只有 DeepSeek-R1 的 1/30

GLM-Z1-AirX：速度天花板版本，虽然价格更贵，但 200 Tokens/s 的推理速度很难让人拒绝，而且提速后依然比 DeepSeek-R1 便宜不少。

GLM-Z1-Flash：免费版本。推理模型都发布了免费版本的 API，这个我确实没想到。

老规矩，贴一下传送门：

https://www.bigmodel.cn/dev/api/normal-model/glm-4

智谱 GLM-4-32B-0414 全家桶

除了上面的推理模型 GLM-Z1-Air 系列之外，其实智谱这次还一口气开源了包括对基座 Chat 模型以及前段时间发布不久的沉思模型，且分了 9B 和 32B 两个尺寸。

全家桶细节可以见下表——

先来说说 GLM-4-32B-0414 这个对话模型。

虽然 GLM-4-32B-0414 不是推理模型，但智谱不仅给它喂了 15T 的高质量数据进行预训练，而且还塞了不少推理类的合成数据。 因此，这个 GLM-4-32B 模型的代码生成能力得到了不错的改善，据说能够直接搞定更复杂的单文件代码生成了。

从学术测试基准来看，GLM-4-32B-0414（蓝色柱子）在指令遵循 (IFEval)、综合工具调用 (BFCL-Overall)、智能体工具调用 (TAU-Bench)、搜索问答 (SimpleQA/HotpotQA) 等多个维度上，都表现出了非常强的竞争力，部分指标甚至超越了 DeepSeek-R1 和 GPT-4o-1120。

比如官方贴了一个测试 case，让它设计一个移动端机器学习平台——