在新一轮AI变化中,海外模型Agent从以读屏操作的computer use为主,转变为编程控制,Claude的出现推动了这一趋势,且越来越多第三方应用支持程序控制。国内众多公司在追赶,智谱是第一家跟进的,沉思模型在这一背景下具有重要研究价值,而思维链模型和对话模型在市面上已较为常见。
2025-04-01 22:35 广东
事件:昨天智谱发布了新一代智能体应用AutoGLM沉思,成为全球首个集深度研究和操作执行于一体的Agent,可以“一边思考、一边干活”,实现具备深度研究能力和实际操作能力的AI Agent,推动AI与人类协同进一步从“副驾”到“主驾”。
亮点:
- 不是期货:3月31日发布后直接上线;
- 开源:Agent背后的大模型全面开源;
- 免费:与OpenAI的Deep research一个月200美金的价格,智谱面向C端用户,无注册门槛,免费可用;
- 能力优秀:直接现场演示极其泛化的工作任务“帮我挣100块钱”,大模型可以分析出来自己擅长写稿子,在知乎等网站搜寻哪里可以投稿,并且学习如何提高投稿成功率,最终实现撰写并发送邮件投稿。
- 算力消耗巨大:从token输出数量来看,相比问答方式有百倍以上的算力需求。
1、首次实现深度研究大脑与工具操作能力结合
近期LLM进展可以分为两类:
1)推理模型进展,例如OpenAI的o系列模型和DeepSeek的R1模型等,通过强化微调让模型具备思维链深度思考能力,提升推理能力上限,是构建DeepResearch类产品的核心;
2)Agent产品化,工程上通过感知、规划、行动让LLM能够自主完成大部分工作,例如此前Anthropic发布的类人电脑使用、智谱此前发布的跨APP操作等产品。
本次智谱发布首次将类DeepResearch和Agent工作流结合,实现边思考边干:
1)强推理模型体现于Agent规划过程,是LLM智能、逻辑水平的核心体现环节。智谱Agent AutoGLM沉思基于底座推理模型GLM-Z1-Air强化学习训练,模型根据不同任务自主规划和动态决策,根据反馈调整计划。
2)感知体现于GUI阅读能力,通过调用API和类人打开浏览网页的方式,结合视觉理解能力理解屏幕内容,完成搜索、筛选、总结等任务。
3)行动能力体现在工具调用,例如根据规划结果自动调用小红书、知乎等。
2、背后是更强性能的推理模型和视觉理解能力
AutoGLM沉思背后为智谱全栈自主研发大模型系列:
1)基座提升:重新训练的320亿参数基座模型GLM-4-Air-0414,预训练阶段加入更多代码、推理类数据,对齐阶段针对智能体能力优化,在工具调用、联网搜索、代码等智能体任务能力增强。
2)推理模型:基于基座模型的新版推理模型GLM-Z1-Air性能上媲美DeepSeek-R1,同时在推理速度上相比R1提升8倍,成本降低至1/30,支持消费级卡运行。
3)沉思模型:GLM-Z1-Rumination通过在Z1上扩展强化学习训练提升模型结合工具使用完成长程推理能力,结合环境交互能够自主反思,动态调整方案,形成完整自主流程。
视觉理解能力为核心,不依赖API。传统GUI方案多依赖于解析网页代码或者软件API接口,受平台限制且容易失效,当前主流端侧Agent通过视觉理解方式绕过,对于无权限读取数据的资源网站,能够通过模拟人类读取屏幕的方式来获取,比如智谱AutoGLM沉思搜索时,会在B站读取视频以及在小红书读取大量图片为主的帖子并进行理解。
3、发布启示
1)模型推理能力的提升仍是Agent发展重点
智谱AutoGLM沉思发布看到将具备思维链强思考能力的推理模型和工具调用相结合展现的潜能,过去初阶的Agent需要依赖于预定义规则和执行顺序是因为模型推理能力仍较低,多个步骤的复杂任务完成率低,AutoGLM沉思此次发布看到在强化学习提升推理能力下Agent能够更自主动态的完成任务,从“副驾”靠近“主驾”。
Agent能力目前处于类似GPT3到ChatGPT阶段。真实计算机环境中开放式任务的多模态代理基准测试OSWorld能够较好反应Agent真实计算机任务执行水平,人类专家水平benchmark是72%左右,而LLM目前最高得分是OpenAI CUA,得分仅38.1%,仍有跃升空间。
2)发现Agent Scaling Law,对算力需求提升
智谱发布会提出Agent存在推理计算的Scaling Law,即通过扩展生成答案时的计算优化,能够看到Agent任务完成准确度提升以及出现涌现,例如智谱在训练过程中从未教给AutoGLM沉思访问巨潮资讯网,AutoGLM沉思能够自行规划处通过访问巨潮资讯解决问题的方案。直观体现是更长时间的计算需求,例如经实测,AutoGLM沉思完成一个简单任务平均需要十来分钟,而较复杂任务平均需要20-30分钟,中间通过大量多次自主重新设计搜索关键词、阅读理解总结、再搜索等步骤确保研究深度和准确度,对算力的需求会大幅提升。
3)更轻量化的趋势,利于端侧使用
此次智谱GLM-Z1-Air能够做到DeepSeek-R1价格的1/30,预计主要是更轻量化的原因,通过高质量的数据加强化学习训练更够让模型在更小参数量的增强性能,同时需要针对任务设计更细致、多阶段的奖励函数。而GLM-Z1-Air能够在一张消费级卡运行,更有利于AI端侧的发展,我们认为这也是2025年模型发展的趋势。
4)核心链路的模型和技术将开源,AI应用有望继续爆发
AutoGLM沉思的核心链路模型和技术将于2025年4月14日全面开源,25年初至今看到DeepSeek的低成本高性能带动AI应用爆发,我们认为沉思开源有望进一步带动AI应用热潮,推动AI主驾继续渗透科研、编程软件开发、办公流程自动化、医疗健康、金融等场景。
5)Agent有望从L2跨越至L3/L4阶段,看好25年实现大模型应用的0-1落地
从deepresearch到Manus再到智谱AutoGLM沉思,我们看到模型的自主规划和反思能力越来越强,就像自动驾驶从L2逐步跨越到更高层级的L3/L4,同时可使用的工具能力也越来越多,包括设备交互、多模态识别和MCP带来的更宽泛的工具箱,我们预计Agent在25年往后能够实现更强的性能,看好25年Agent在B和C端的落地。