掘金 人工智能 前天 11:10
GLM-4.5 发布,50块钱包月爽玩。真实测评:六大模型混战,谁能一键生成“真·可用”的应用?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文作者“饼干哥哥”对当前六款热门大模型:Claude Sonnet 4、DeepSeek R1、Kimi K2、ChatGPT o3、Gemini 2.5pro、GLM-4.5进行了一场硬核的实测。测试围绕“一句话提示词,一次生成可用应用”的核心原则展开,重点考察模型在实际应用落地中的意图理解、自主规划、代码生成、UI美学及交互设计等方面的能力。测试结果显示,GLM-4.5在功能实现、可靠性和工程思维方面表现突出,被誉为“最务实的AI应用工程师”和开源模型中的“实干家”,其Agentic能力尤为亮眼,能将AI从被动生成代码片段进化为初级应用架构师,真正实现AI普惠。

💡 **Agentic能力进化:从“代码片段生成器”到“初级应用架构师”** 文章强调,真正有价值的大模型应具备Agentic能力,能够像工程师一样主动理解用户意图,规划路径,整合外部服务(如JavaScript、API),并自主完成闭环任务,而不仅仅是生成静态代码。GLM-4.5在这方面表现出色,能够独立完成“谷歌搜索”和“微信对话截图生成”等复杂应用,标志着AI正向更高级别的应用架构能力迈进。

🏆 **GLM-4.5实测表现亮眼,多维度领跑** 在“一句话提示词,一次生成可用应用”的严格测试中,GLM-4.5在功能实现、可靠性、速度和成本方面均展现出领先优势。尤其在生成微信对话截图工具时,其UI质感和用户体验设计(如预设头像)均优于其他模型,并且下载功能可用。在数据分析仪表盘任务中,GLM-4.5也提供了比需求更丰富的功能,如多时间段走势展示。

📊 **多维度能力雷达图揭示模型定位** 通过功能实现、代码质量、UI美学和交互设计四个维度的能力雷达图,文章清晰地描绘了各模型的优势与劣势。GLM-4.5在功能实现和交互设计上表现最佳,DeepSeek R1在UI美学上表现突出,Claude 4和DeepSeek R1在代码质量上表现稳健。整体而言,GLM-4.5以其“务实”和“可靠”的特点,在实际应用落地方面脱颖而出。

🚀 **AI普惠的关键在于“可用性”与“效率”** 作者认为,AI的真正价值在于能否被普通用户轻松使用并产生实际效益,而非仅仅依赖华丽的UI或复杂的提示词。他提出的“一句话提示词”和“只跑一次”的测试原则,旨在模拟真实用户场景,检验大模型的意图理解和自主规划能力,并强调AI应服务于人,而非人去适应AI。GLM-4.5在这些方面的表现,为实现AI普惠提供了可行的路径。

💰 **成本效益与性能优势凸显GLM-4.5的商业价值** 除了强大的Agentic能力,GLM-4.5在实际部署中还具备显著的成本优势,API调用价格远低于主流模型。同时,其高速版本实测生成速度可达100 tokens/秒,支持低延迟、高并发的实际部署需求,这使得GLM-4.5在商业应用场景中具有强大的竞争力,尤其是在对成本和效率有较高要求的领域。

又又又有新的大模型发布了,实话说,饼干哥哥有点审美疲劳了。

之前测完 Kimi K2,对国产大模型信心倍增;结果前两天就被号称开源第一的Qwen3 给坑了。

这不,昨天智谱清言带来了它的GLM-4.5,宣传综合平均分,取得了全球模型第三、国产模型第一,开源模型第一

😅 真的要这样玩吗

其实,看参数一向不是饼干哥哥的风格,我从来都是看「落地」不看数据的, dddd:多少大模型网上没输过,现实没赢过。。所以实力如何,就来实例测测。

顺便把另外 5 个热门大模型拉来一起看看各自的能力边界到哪里了:Claude Sonnet 4、DeepSeek R1、Kimi K2、ChatGPT o3、Gemini 2.5pro、GLM-4.5

但在开始之前,不知道大家有没发现一个问题,很多大模型发布后,各种评测文章放的都是华丽的UI界面,因为这是最能迷惑小白的。试问谁的生产力是靠产品外表?更不用说真正在在业务中落地产生价值了。

所以我今天的测试就要按我真正「用得上」的方式来。

    从“谷歌的样子”到“真的能搜索”

什么叫「用得上」?最好的例子就是做一个“谷歌搜索网站”。

Z.ai版本“谷歌搜索”体验地址:n0x9f6733jm1-deploy.space.z.ai

消息地址: chat.z.ai/s/2bd291ba-…

它内嵌的JavaScript代码,展现了一种全新的能力——它像一个真正的工程师一样思考

    理解意图: 用户想要“搜索”。

    规划路径: “搜索”需要获取输入框内容,并访问搜索URL。 - 执行构建: 它编写JS代码,监听按钮点击,获取搜索词,然后动态构建一个真实的搜索URL

    完成闭环: 最后,操作浏览器跳转到这个URL,完成一次真实的搜索。

还有更离谱的,在Z.ai页面上就把前后端给包圆了:

做一个共享功德箱,点击+1点功德 ,保存到数据库,再写一个管理员页面的功能, 可以手动编辑修改这个总功德数

Z.ai版本“共享功德箱”对话:chat.z.ai/s/1914383a-…

前端页面:j0ua06ybtfj1-deploy.space.z.ai/

后端管理页面:j0ua06ybtfj1-deploy.space.z.ai/admin

这“前端实现后端逻辑”的魔力,这标志着AI正从一个被动的“代码片段生成器”,进化为一名 “初级应用架构师”

它不再需要你手把手地教,而是能主动理解你的目标,并自主寻找、整合外部服务(一个URL、一个API、一个JS库)来完成任务。

这,正是Agentic能力的精髓。

    横向测评:真正落地有用的应用

接下来,正式开始测试。

我设计了2个很严格的原则:

    「一句话提示词」,而不是传统大篇幅的结构化提示词

这是在测试大模型的意图理解自主规划能力,迫使AI不能只依赖详细的指令按部就班,而是要像一个真正的「初级应用架构师」一样,去思考“用户到底想要什么”以及“如何分步实现它”。

    「只跑一次」

我知道这很苛刻,平时大家用 AI 都是先设计好一百多行的提示词,然后反复调试,最终出来满意的结果。但这个过程,似乎变成了,我们在为 AI 服务,而不是让 AI 为我们所用。

更不用说这么多小白,根本没办法去调试这么多轮,要是这样,「AI 普惠」始终只是个谎言。

所以,我才决定一次生成,成败立现。

数据分析仪表盘

饼干哥哥是 10 年数据分析师,所以就先从我老本行入手。这是一个典型的 BI 需求,很考验AI整合API与前端图表库的能力:

帮我做一个能看黄金最近30天价格走势的网页,要用折线图展示出来。

Claude 4

AI 老大哥先开始:

生成的效果稳得一批。

DeepSeek R1

国产之光 DeepSeek 也参战:

效果更加可以了:不仅界面美观,还附带了相关新闻推荐,产品思维更胜一筹。

Kimi K2

前段时间上线的模型,借助 Claude Code 算是重新回到一线的视野。在我之前的使用中,确实可以当做 Claude 的平替。

但在做这次测试的时候,很不幸,报错数据没跑出来。

ChatGPT o3

o3 实际上已经不算是一个常规模型了,这是一个 Agent,它背后可以调用多个工具来回复用户,日常用于规划很好用。

这次也拿来跑跑看:

可能是因为这个测试限制,o3 需要我自己去注册一个 api 来跑真实数据。确实很落地,但无奈这次无法看出来它的效果。

Gemini 2.5

谷歌的大模型是我最高频使用的没有之一,但说实话在代码方面还是略输 Claude 和 o3 的。

看看这次效果:

确实 100% 还原了我的需求,但也仅如此,没有像 Claude 那样额外给我一些指标卡片之类的惊喜。

GLM4.5

最后是这次要测的主角 GLM4.5

你还真别说,整体结构跟 Claude 差不多,配色和样式上要略胜一些,功能上也给的更多:能拆开 30天、7 天、24 小时的走势。说实话,有点惊喜了。

真·一句话、一次生成:chat.z.ai/s/1019218d-…

第一轮的结果:

DeepSeek > GLM4.5 > Claude 4 > ****Gemini 2.5 > ChatGPT o3、Kimi K2

实用工具:微信对话截图生成

需求升级,这是我教育赛道业务很高频用到的功能,也是小红书上爆款封面,我之前就在本地做过一个这样的工具,很多人找我要,其实现在,在网页端直接就生成:

生成一个微信聊天对话截图生成网站,用户可以自定义对话内容、设置头像,最后点击保存后生成 3:4 的微信截图,或者不限制比例展示完整对话的长截图。

这是一个需求复杂、考验CSS还原能力和DOM操作能力的“真工具”任务。

看看大家效果如何。

Claude4

老规矩,Claude 先来。

虽然丑了点,但确实能看出来是微信界面,导出 3:4 截图功能可用,但导出完整截图出来的是局部图,有问题。

DeepSeek R1

在用户体验上要比 Claude 好不少,自动生成了一些示例,在下载图片功能上也是更接近一个「产品经理」的设计。

Kimi K2

Kimi 在网页版是咋了,并没有给我代码。。

ChatGPT o3

GPT 给的是真多,设置了很多参数供用户选择,在下载 3:4截图上也是可以选择位置。

但,要命的是下载功能不可用。

Gemini 2.5

一顿操作猛如虎,结果给个报错。不多说了,遵循「一次运行」原则,淘汰。

GLM 4.5

最后是GLM4.5,又给我整惊喜了。

虽然页面上没那么像微信对话框,但整体界面UI 上要比 DeepSeek 质感要好一些。

更绝的是,预设了头像,这点用户体验很好。

图片可正常下载,功能可用。

真·一句话、一次生成: chat.z.ai/s/6f6757a3-…

第二轮的结果:

GLM4.5 > DeepSeek > ChatGPT o3 > Claude 4 > Gemini 2.5、Kimi K2

    总结

综合两轮硬核测试,尤其是从“应用能否跑起来”这个核心标准出发,各模型的定位已然清晰。

我们从“功能实现”、“代码质量”、“UI美学”、“交互设计”四个维度绘制能力雷达图:

甚至连这图都是 GLM 生成的,其他大模型跑的拉跨

功能实现维度(顶部):

GLM-4.5表现最佳(5分),在两轮测试中均展现了强大的功能实现能力

DeepSeek R1次之(4.5分),在第一轮测试中表现突出

Claude 4和ChatGPT o3表现中等(3.5分)

Gemini 2.5和Kimi K2表现较弱(2.5分和1分)

代码质量维度(右侧):

GLM-4.5和Claude 4结构清楚、工程能力强(4.3分和4.6分)

DeepSeek R1和ChatGPT o3表现中等(4.0分和3.5分)

Gemini 2.5表现较弱(2.5分)

Kimi K2表现最弱(1分)

UI美学维度(底部):

DeepSeek R1表现最佳(4.5分),界面美观且附带额外功能

GLM-4.5表现良好(4分),配色和样式略胜一筹

ChatGPT o3表现中等(3.5分)

Claude 4和Gemini 2.5表现一般(3分)

Kimi K2表现较弱(2分)

交互设计维度(左侧):

GLM-4.5表现最佳(4.5分),预设头像等用户体验优秀

DeepSeek R1表现良好(4分),自动生成示例

Claude 4和ChatGPT o3表现中等(3分)

Gemini 2.5表现较弱(2分)

Kimi K2表现最弱(1分)

其实还有个数据没体现,就是每次多个工具同时跑任务的时候,GLM4.5 是最快完成的。 据官方数据,高速版本实测生成速度最高可至 100 tokens/秒,支持低延迟、高并发的实际部署需求

同时还有远低于主流模型定价:API 调用价格低至输入 0.8 元/百万 tokens,输出 2 元/百万 tokens

这次测评,在“一键生成可用应用”这个战场上,GLM-4.5展现了SOTA级别的Agentic能力。它不再是一个只会纸上谈兵的“助理”,而是一名 “初级应用架构师”

它最突出的优势在于 “可靠性”和“工程思维” 相比其他模型时而惊艳、时而掉链子的表现,GLM-4.5总能给出一个虽然朴素但一定能用的解决方案。 它深刻理解“完成比完美更重要”的工程信条。

因此,我们可以给GLM-4.5一个清晰的定位:最务实的AI应用工程师,以及开源模型中的 “实干家”

在AI的世界里,能炫技的“艺术家”很多,但能让你把项目跑起来的“工程师”却弥足珍贵。

而GLM-4.5,正是后者。

最后,智谱还带来一个足以让 Claude 和 kimi 瞳孔地震的活动:在 Claude Code,“50块就能包月爽用GLM-4.5,调用量无上限”

名额有限,抓紧扫码抢一波。

本文由稀土掘金作者【饼干哥哥】,微信公众号:【饼干哥哥AGI】,原创/授权 发布于稀土掘金,未经许可,禁止转载。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GLM-4.5 大模型 Agentic能力 AI应用 模型评测
相关文章