IT之家 04月15日 09:13
智谱发布新一代开源 AI 模型 GLM-4-32B-0414 系列,效果比肩 GPT 系列和 DeepSeek-V3 / R1
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

智谱AI于4月14日发布新一代GLM-4-32B系列模型,该系列包含四款模型,参数量为320亿,性能可与OpenAI的GPT系列和DeepSeek的V3/R1系列媲美,并支持本地部署。GLM-4-32B-Base-0414在预训练和后训练阶段均有优化,尤其在指令遵循、代码生成、函数调用等方面表现出色。GLM-Z1系列模型则侧重于深度思考和推理能力,其中GLM-Z1-32B-0414提升了数理和复杂任务解决能力,GLM-Z1-Rumination-32B-0414具备沉思能力,GLM-Z1-9B-0414则是一款小尺寸开源模型,性能优异。GLM-4系列在多项基准测试中表现出色,代码修复能力也达到较高水平。

🚀 GLM-4-32B-Base-0414: 该模型在预训练阶段采用15T高质量数据,并针对对话场景进行人类偏好对齐。通过强化学习等技术,提升了模型在指令遵循、工程代码、函数调用等方面的效果,增强了智能体任务所需的原子能力。

💡 GLM-Z1-32B-0414: 该模型在GLM-4-32B-0414的基础上,通过冷启动、扩展强化学习以及在数学、代码和逻辑等任务上的进一步训练,显著提升了数理能力和解决复杂任务的能力。在训练过程中,引入基于对战排序反馈的通用强化学习,增强了模型的通用能力。

🧠 GLM-Z1-Rumination-32B-0414: 这是一个具有沉思能力的深度推理模型,对标OpenAI的Deep Research。该模型通过长时间的深度思考来解决更开放和复杂的问题,结合搜索工具处理复杂任务,并利用多种规则型奖励来指导和扩展端到端强化学习训练。

✨ GLM-Z1-9B-0414: 这是一个开源9B小尺寸模型,在数学推理和通用任务中展现出优秀能力,整体表现处于同尺寸开源模型中的领先水平。

✅ 性能测试:GLM-4系列在IFEval指令遵循测试中得分87.6,在TAU-Bench任务自动化测试中表现出色,在SimpleQA搜索增强问答测试中得分88.1。在SWE-bench测试中,代码修复成功率达到33.8%。

IT之家 4 月 15 日消息,智谱昨日(4 月 14 日)发布博文,宣布推出新一代 GLM-4-32B-0414 系列模型,320 亿参数,效果比肩 OpenAI 的 GPT 系列和 DeepSeek 的 V3 / R1 系列,且支持非常友好的本地部署特性。

该系列模型共有 GLM-4-32B-Base-0414、GLM-Z1-32B-0414、GLM-Z1-Rumination-32B-0414 和 GLM-Z1-9B-0414 四款模型。

GLM-4-32B-Base-0414

在预训练阶段,该模型采用 15T 高质量数据,其中包含大量推理类的合成数据,这为后续的强化学习扩展打下了基础。

在后训练阶段,除了针对对话场景进行了人类偏好对齐外,团队还通过拒绝采样和强化学习等技术强化了模型在指令遵循、工程代码、函数调用方面的效果,加强了智能体任务所需的原子能力。

GLM-4-32B-0414 在工程代码、Artifacts 生成、函数调用、搜索问答及报告等方面都取得了不错的效果,部分 Benchmark 甚至可以媲美更大规模的 GPT-4o、DeepSeek-V3-0324(671B)等模型。

GLM-Z1-32B-0414 

该模型是具有深度思考能力的推理模型,在 GLM-4-32B-0414 的基础上,通过冷启动和扩展强化学习,以及在数学、代码和逻辑等任务上对模型的进一步训练得到的。

相对于基础模型,GLM-Z1-32B-0414 显著提升了数理能力和解决复杂任务的能力。在训练的过程中,该团队还引入了基于对战排序反馈的通用强化学习,进一步增强了模型的通用能力。

GLM-Z1-Rumination-32B-0414

该模型是具有沉思能力的深度推理模型(对标 Open AI 的 Deep Research)。

沉思模型通过更长时间的深度思考来解决更开放和复杂的问题(例如:撰写两个城市 AI 发展对比情况,以及未来的发展规划),结合搜索工具处理复杂任务,并经过利用多种规则型奖励来指导和扩展端到端强化学习训练得到。

GLM-Z1-9B-0414 

这是一个开源 9B 小尺寸模型,在数学推理和通用任务中依然展现出极为优秀的能力,其整体表现已处于同尺寸开源模型中的领先水平。

测试结果

GLM-4 系列在多项基准测试中表现优异。例如,在 IFEval 指令遵循测试中得分 87.6;在 TAU-Bench 任务自动化测试中,零售场景得分 68.7,航空场景得分 51.2;在 SimpleQA 搜索增强问答测试中得分 88.1。

模型IFEvalBFCL-v3 (Overall)BFCL-v3 (MultiTurn)TAU-Bench (Retail)TAU-Bench (Airline)SimpleQAHotpotQA
Qwen2.5-Max85.650.930.558.322.079.052.8
GPT-4o-112081.969.641.062.846.082.863.9
DeepSeek-V3-032483.466.235.860.732.482.654.6
DeepSeek-R184.357.512.433.037.383.963.1
GLM-4-32B-041487.669.641.568.751.288.163.8

代码修复方面,GLM-4 在 SWE-bench 测试中的成功率达 33.8%。采用 MIT 许可的 GLM-4 降低了计算成本,为研究和企业提供了高性能 AI 解决方案。

模型框架SWE-bench VerifiedSWE-bench Verified mini
GLM-4-32B-0414Moatless[1]33.838.0
GLM-4-32B-0414Agentless[2]30.734.0
GLM-4-32B-0414OpenHands[3]27.228.0

IT之家附上参考地址

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GLM-4 智谱AI 大模型 本地部署
相关文章