爱范儿 前天 07:48
被 OpenAI 点名后,智谱刚刚发布新开源模型:国产最全能,一句话造出搜索引擎
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

智谱AI正式发布其最新旗舰模型GLM-4.5,该模型专为Agent应用打造,并延续开源原则,已在Hugging Face与ModelScope平台同步开源,遵循MIT License,支持商用。GLM-4.5在推理、代码、智能体综合能力上达到了开源模型的SOTA水平,采用混合专家(MoE)架构,提供GLM-4.5(3550亿总参数,320亿激活参数)和GLM-4.5-Air(1060亿总参数,120亿激活参数)两个版本。模型支持混合推理模式,包括思考模式和非思考模式,API调用价格极具竞争力,输入0.8元/百万tokens,输出2元/百万tokens,高速版可达100 tokens/秒。

🚀 **Agent能力SOTA,多模态融合创新**:GLM-4.5模型首次在单个模型中原生融合了推理、编码和智能体能力,打破了传统模型在单一领域擅长的局限。在Agent Coding的实战测试中,GLM-4.5在工具调用可靠性和任务完成度方面表现突出,甚至公开了测试题目和Agent轨迹,欢迎同行“打假”,展现了其对自身能力的信心。模型还能自主搜索资料、寻找配图,以HTML形式直接生成图文并茂的网页,支持多种尺寸和社交媒体卡片格式。

💡 **混合专家架构与高效参数**:GLM-4.5采用了混合专家(MoE)架构,分为GLM-4.5(3550亿总参数,320亿激活参数)和GLM-4.5-Air(1060亿总参数,120亿激活参数)两个版本。GLM-4.5-Air在参数量相对较少的情况下,推理能力已逼近Gemini 2.5 Flash与Claude 4 Sonnet,并在性能/参数比上达到了帕累托前沿,体现了更高的参数效率和性价比。

🌐 **全面开源与广泛兼容**:智谱延续一贯的开源原则,将GLM-4.5模型及其权重遵循MIT License同步开源至Hugging Face与ModelScope平台,为开发者和企业提供了极大的便利性和商业化机会。模型兼容Claude Code、Cline、Roo Code等主流代码智能体,并提供了详尽的使用指南,降低了开发者的使用门槛。

💰 **成本与效率双重突破**:GLM-4.5在API调用成本上实现了显著降低,输入价格低至0.8元/百万tokens,输出价格为2元/百万tokens。同时,其高速版本实测生成速度最高可达100 tokens/秒,支持低延迟、高并发的实际部署需求,成为“价格屠夫”,极具市场竞争力。

📈 **行业认可与稳健发展**:GLM-4.5在多个权威评测基准上取得了优异成绩,位列全球模型第二、国产模型第一、开源模型第一。OpenAI在其报告中也点名智谱在AI竞赛中取得显著进展,显示出其在全球AI领域的影响力。智谱AI在模型迭代、开源尺度和发展方向上展现出稳定的增长势头,有望成为“AI六小龙”中率先IPO的企业。

国产大模型厂商的开源,还在提速。

就在刚刚,智谱正式发布最新旗舰模型 GLM-4.5。按照智谱官方说法,这是一款「专为 Agent 应用打造的基础模型」。

延续一贯的开源原则,目前这款模型已经在 Hugging Face 与 ModelScope 平台同步开源,模型权重遵循 MIT License,商用也没问题。

省流版:

GLM-4.5 这次比较大的技术卖点,是首次在单个模型原生融合了推理、编码和智能体能力。别人家的模型要么擅长推理,要么擅长写代码,要么擅长当助手,而 GLM-4.5 说自己全都要。

老规矩,先来看看新模型「跑分」环节。

智谱选了 12 个最具代表性的评测基准来「秀肌肉」,包括 MMLU Pro、AIME 24、MATH 500、SciCode、GPQA、HLE 等等,这些也都是我们的「老熟人」了。结果综合平均分,GLM-4.5 交出了一份全球模型第二、国产模型第一、开源模型第一的成绩单。

当然,光跑分没用,还是更实战的测试才有说服力。

为了证明 GLM-4.5 在真实场景 Agent Coding 中的实力,智谱干脆直接接入了 Claude Code,与 Claude-4-Sonnet、Kimi-K2、Qwen3-Coder 等模型一较高下。

测试方案相当硬核:总共 52个编程开发任务,涵盖六大开发领域,全部在独立容器环境中进行多轮交互测试,主打一个真刀真枪地干。结果显示,虽然在面对 Claude-4-Sonnet 时仍有较大的提升空间,但 GLM-4.5 在工具调用可靠性和任务完成度方面的表现还是相当突出。

甚至智谱还把测试题目和 Agent 轨迹全部公开了(https://huggingface.co/datasets/zai-org/CC-Bench-trajectories),给我一种欢迎同行来「打假」的即视感。

再来看看几个比较有说服力的 Demo,含金量也不低。

在 z.ai 官方网站简单输入提示词「做一个 Google 搜索网站。」,GLM-4.5 真就能一句话生成一个真的能用的搜索引擎。

由 GLM-4.5 打造的量子功能箱各项功能齐全,充分展示了模型的综合能力。

更复杂一点的,还能让它生成一个可点击缩放的 3D 地球页面。用户可以点击地点查看详情,并伴有平滑的缩放动画。

▲提示词:Build a webpage using Three.js and JavaScript that creates a 3D world displaying places I’ve visited, based on an array. Clicking markers on the 3D globe will animate a zoom effect and open detailed trip information with photos.

与传统 AI PPT 工具使用模板填充信息不同,GLM-4.5 会自主搜索资料、寻找配图,根据实际材料直接以 HTML 形式编写图文。除了常规的 16:9 比例,还能灵活支持社媒封面、长图、小红书卡片、甚至个人简历。

开发者体验这块,国产厂商也开始学会「卷起来」了。比如 GLM-4.5 就兼容 Claude Code、Cline、Roo Code 等主流代码智能体。完整使用指南看这里:

如果说前面都是「面子」,那技术内核才是 GLM-4.5 真正的「里子」。

冷知识,GLM-4.5 的参数量仅为 DeepSeek-R1 的 1/2、Kimi-K2 的 1/3,但性能却不打折,而这背后正是归功于 GLM 模型更高的参数效率。

尤其是 GLM-4.5-Air,用 106B 总参数 / 12B 激活参数,在推理评测中已经逼近 Gemini 2.5 Flash 与 Claude 4 Sonnet。在 SWE-bench Verified 榜单上,它还位列性能/参数比的帕累托前沿——换句话说,用更少的体量,跑出了更优的性价比。

性能提升的背后,则离不开训练过程的「大力出奇迹」。

GLM-4.5 和 GLM-4.5-Air 使用了相似的训练流程:首先在 15 万亿 token 的通用数据上进行了预训练。然后在代码、推理、Agent 等领域的 8 万亿 token 数据上进行了针对性训练,最后通过强化学习进一步增强了模型的推理、代码与智能体能力。有钱有资源,确实可以为所欲为。

此外,GLM-4.5 在成本和效率上的突破可能更具杀伤力。API 调用价格低至输入 0.8 元/百万 tokens,输出 2 元/百万 tokens,同时,高速版本实测生成速度最高可至 100 tokens/秒,支持低延迟、高并发的实际部署需求,真·价格屠夫。

目前,API 已上线开放平台 BigModel.cn,一键兼容 Claude Code 框架。普通用户也可以上智谱清言 (chatglm.cn) 和 Z.ai 体验满血版 GLM-4.5。

值得一提的是,上个月,OpenAI 在旗下的 Global Affairs 账号发表的报告中,也是直接点名智谱,称其在全球 AI 竞赛中取得了显著进展,语气可以说是罕见直白。

回过头来看,智谱算是增长势头比较稳定的厂商,节奏一直没乱,模型迭代跟得上、开源尺度放得开,方向感也不飘。这么看来,它能成为「AI 六小龙」中第一个启动 IPO 的玩家,也就不那么意外了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

智谱AI GLM-4.5 开源模型 Agent 混合专家架构
相关文章