GLM-4.5发布，全网最全测评和使用教程来了！

筱可 2025-07-29 12:02 浙江

作者：筱可，Datawhale贡献者

就在刚刚，智谱正式发布新一代旗舰模型 GLM-4.5，专为智能体应用打造的基础模型。Hugging Face 与 ModelScope 平台同步开源，模型权重遵循 MIT License。

开源地址：https://github.com/zai-org/GLM-4.5

以下是一些官方信息，省流整理版：

GLM-4.5 在包含推理、代码、智能体的综合能力达到开源 SOTA，在真实代码智能体的人工对比评测中，实测国内最佳；

采用混合专家（MoE）架构，包括 GLM-4.5：总参数量 3550 亿，激活参数 320 亿；GLM-4.5-Air：总参数 1060 亿，激活参数 120 亿；

两种模式：用于复杂推理和工具使用的思考模式，及用于即时响应的非思考模式；

高速、低成本：API 调用价格低至输入 0.8 元/百万tokens、输出 2 元/百万tokens；高速版最高可达 100 tokens/秒。

我们 Datawhale 提前拿到了内测资格，在周末进行了深度的体验与测评。

本次测评主要来测试下它和国内外的一些模型在多种场景下的表现如何，会测试两道代码题、一道概念可视化题、两道小说能力测试题、两道数学题、一道逻辑题，最后也会测试下 Claude code 在实际开发里面的体验如何。

文章篇幅较长，可以根据自己的兴趣挑选部分测评阅读。如果想直接看总结，请移步文末。

目录：
-- GLM-4.5全网最全测试
- 生命游戏模拟器
- 小说创作《气味调配师的最后订单》
- 2004年数学一选择题 - 2004年数学一概率题
- 神经网络“梯度消失”交互式可视化 - 明天的前天，是昨天的后天么？ - “推箱子”游戏 - 小说创作《退一步，圣宠倾天》-- GLM-4.5 接入 Claude Code 保姆教程与实战对比 - 保姆级接入 Claude Code 教程 - Kimi K2 接入 Claude Code - GLM 接入 Claude Code-- 总结

GLM-4.5 全网最全测试

一、生命游戏模拟器

这道题需要处理状态更新和循环，但侧重于算法逻辑和二维数据处理，这是许多科学计算和数据分析任务的核心。它不涉及复杂的物理引擎和图形库，能更纯粹地考察模型的算法思维。

这题会考察大模型的以下能力：

算法理解与实现：能否准确理解并用代码翻译“生命游戏”的规则。

二维数组/矩阵操作：如何高效地存储和遍历棋盘状态。

边界条件处理：如何处理棋盘边缘细胞的邻居计算。

状态同步更新：能否意识到所有细胞的状态必须基于“上一代”来计算，避免在单次迭代中混合新旧状态。这是此问题的关键难点。

题目提示词如下：

请使用 html js编写一个“生命游戏”（Conway's Game of Life）的模拟器。要求如下：  
  基于终端输出： 无需图形化界面，直接在命令行/终端中打印出每一代生命演化的状态。  
  可定制化： 程序启动时，可以接受参数来设置棋盘（世界）的大小（例如，宽50个单元，高20个单元）。  
  初始状态： 棋盘的初始状态应该是随机生成的。  
  核心逻辑： 严格遵循康威生命游戏的三个基本规则：  
  存活： 对于一个活细胞，如果它的邻居（周围八个位置）活细胞数量为2或3，则该细胞在下一代继续存活。  
  死亡： 对于一个活细胞，如果它的邻居活细胞数量小于2（孤单致死）或大于3（拥挤致死），则该细胞在下一代死亡。  
  诞生： 对于一个死细胞，如果它的邻居活细胞数量正好为3，则该细胞在下一代变为活细胞。  
  持续演化： 程序应能持续打印出世界的下一代状态，每次打印之间有短暂的延时（例如0.1秒），直到用户手动中断程序。

GLM-4.5 的回答

Claude Sonnet 4 的回答

Qwen3-coder 的回答

三个模型都把“生命游戏”做出来了，而且都做得挺好。如果从第一印象来看，我觉得 GLM 的表现更好，因为视觉方面的设计比较符合我的视觉感官，而从超预期的角度评价，则 Qwen3 coder 做的比较好，添加了很多的预设模式。

二、小说创作《气味调配师的最后订单》

这个测试旨在评估模型在创意写作，特别是长篇故事开篇构建上的综合能力。它不仅仅是简单的文本生成，而是对一个高概念、强设定世界的具象化考验。它主要考察，世界观构建与氛围渲染，人物深度塑造，悬念设置与情节推动，遵循复杂指令的能力。

题目提示词如下：

标题： 《气味调配师的最后订单》
故事背景： 在一个近未来的赛博都市里，科技高度发达到可以数字化、存储和复制几乎所有的感官体验，唯独“气味”除外。气味因其与记忆和情感的原始连接过于复杂，始终无法被完全解析和编码。因此，诞生了一个古老而尊贵的职业——气味调配师 (Olfactory Composer)。他们像调香师，又像药剂师，通过采集真实的、带有情感故事的物质，为客户手工调配出独一无二的“情感气味”，用于唤醒记忆、治疗创伤或仅仅是奢侈的享受。
核心设定：
主角： 你是这座城市里最后一位坚守传统的气味调配师。你的技艺登峰造极，但生意惨淡，因为人们越来越依赖虚拟现实和速食化的感官刺激。你性格孤僻，对气味有着超乎常人的敏感，并相信每一种气味背后都封存着一个独一无二的灵魂瞬间。
关键物品：“原始样本” (Primary Samples): 这是你用来调配气味的原材料。它们不是简单的精油，而是一些充满故事的物件，例如：一截在初雪中被折下的松枝、一张夹在旧书里早已泛黄的电影票、一块老式机械手表停摆时生锈的齿轮。你靠这些样本中残留的微弱气味来工作。
写作任务：
一个雨夜，一位神秘的客户通过加密渠道给你下了一张订单。这张订单非常奇怪，酬金高得离谱，但要求调配的气味却极为抽象和矛盾。
订单要求： “请为我调配出‘希望’的气味。它闻起来必须像是‘在彻底的绝望中诞生的、不属于自己的希望’。”
客户没有提供任何用来参考的“原始样本”。
请你作为小说家，撰写这个故事的开篇部分（约800-1200字），需要包含以下内容：
场景与氛围描写： 描绘你那间古老、昏暗、堆满各种奇怪瓶罐和样本的工作室。窗外是连绵的酸雨和闪烁的霓虹灯，与你工作室的静谧和陈旧形成鲜明对比。
主角的内心独白与塑造： 通过你对这份订单的反应，展现你的专业、你的骄傲，以及对现代社会的疏离感。你是如何理解这个“不可能完成”的任务的？
核心悬念的引入： 详细描写你收到并解读这张加密订单的过程。这个订单的诡异之处在哪里？为什么它让你感到不安，甚至是一种久违的挑战感？
开启行动的决定： 故事的结尾，你需要做出一个决定：如何着手寻找调制这种“希望”气味的第一个“原始样本”？你决定去往城市的哪个角落，寻找一个什么样的故事，来捕捉这种复杂而矛盾的气味？这个决定将开启整个故事的旅程。

题目提示词如下：

GLM-4.5 的回答

Claude Sonnet 4 的回答

Qwen3-coder 的回答

题目提示词如下：

GLM-4.5 的回答

Gemini 2.5 pro 的回答

Qwen3-235B-A22B-2507 的回答

三、2004年数学一选择题

题目如下：

GLM-4.5 的答案是 D

Gemini2.5-Pro 的答案是 D

Claude Sonnet 4 的回答是 D

KIMI K2 的答案是 D

Qwen3-235B-A22B-2507 的答案是 C

Qwen3-235B-A22B-2507 的答案是 D（开启思考模式后）

最后公布答案：选择 D！

四、2004年数学一概率题

题目如下：

GLM-4.5 的答案正确

gemini 2.5 pro 的答案正确

Qwen3-235B-A22B-2507 的答案错误

开启深度思考模式下的 Qwen3-235B-A22B-2507 的答案正确

Claude Sonnet 4 的答案正确

最终答案：

五、神经网络“梯度消失”交互式可视化

题目提示词如下：

GLM-4.5 的回答：

Gemini 2.5 Pro 的回答：

Claude Sonnet 4 的回答：

Qwen3-Coder 的回答：

六、明天的前天，是昨天的后天么？

题目提示词如下：

GLM-4.5 的回答正确

Gemini 2.5 Pro 的回答正确

Claude Sonnet 4 的回答错误

Qwen3-235B-A22B-2507 的回答正确

七、“推箱子”游戏

题目提示词如下：

GLM-4.5 的回答：

Claude Sonnet 4 的回答：

Qwen3-Coder 的回答：

八、小说创作《退一步，圣宠倾天》

题目提示词如下：

GLM-4.5 的回答：

保姆级接入Claude code教程

项目克隆

glm-cc 安装脚本说明

关于两种执行方式的区别：

Kimi K2 接入 Claude code

GLM 接入 Claude code

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签