GLM大模型 01月26日
GLM-PC v1.1 发布!「GUI认知+代码规划」深度融合
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

GLM-PC是基于智谱多模态大模型CogAgent的全球首个面向公众的电脑智能体,它能像人类一样观察和操作计算机,协助用户高效完成各类任务。新版本GLM-PC引入了“深度思考”模式,增强了逻辑推理和代码生成能力,并支持Windows系统。该智能体通过融合CogAgent和CodeGeex模型,实现了视觉感知和代码执行的深度结合,具备规划、循环执行和动态反思能力。GLM-PC的“左脑”负责逻辑推理和任务执行,而“右脑”专注于图像和GUI认知,二者协作实现了更高效的任务处理。它不仅能处理复杂逻辑任务,还能在开放性问题上展现更高的适应性和创造力,并通过动态优化和情境感知,帮助用户探索更高效的解决方案。

🧠GLM-PC 借鉴人类左右脑分工,通过代码生成与图形界面理解,实现逻辑推理与感知认知的结合,从而辅助人类完成复杂任务。

💻GLM-PC的“左脑”具备规划能力,能根据任务需求制定详细方案,并将大型任务分解为子任务;同时具备循环执行能力,通过代码生成模块逐步完成任务,实现从输入到输出的闭环。

👁️GLM-PC的“右脑”专注于GUI图像理解,准确识别界面元素,并理解其功能与交互逻辑;同时能进行用户行为认知,结合历史操作信息,为用户提供智能推荐操作;还能进行图像语义解析,提取关键信息,并融合图像与文字信息形成全面感知结果。

🔄GLM-PC通过左右脑协作,不仅能处理复杂逻辑任务,还能在开放性问题上展现更高的适应能力和创造力,通过动态优化和情境感知,帮助用户探索更高效的解决方案。

GLM技术团队 2025-01-23 12:29 北京

GLM-PC 是基于智谱多模态大模型 CogAgent,全球首个面向公众、回车即用的电脑智能体。它能像人类一样「观察」和「操作」计算机,协助用户高效完成各类电脑任务。 


自2024年11月29日发布GLM-PC v1.0并开放内测以来,我们不断优化升级,最新推出了「深度思考」模式,并增加了专用来做逻辑推理和代码生成的功能。此外,我们也提供了对 Windows 系统的支持。 

 

?

下载&体验:https://cogagent.aminer.cn 


GLM-PC 架构

近年来,关于Agent在模型与架构层面的探讨日益深入。 

 

大型语言模型(LLM)的工具调用能力首次展示了LLM如何作为Agent与人类生产有机结合,具备良好的泛化性与小样本学习能力,但其应用范围受限于能以文本形式交互的、可公开访问的工具类型。 

 

以CogAgent为代表的一系列基于视觉语言模型(VLM)的图形界面智能体(GUI Agent)提出了新路径,通过多模态感知实现全GUI空间交互。这些GUI Agent,类似人类,能以视觉形式感知界面元素与布局,模拟人类进行点击、键盘输入等元操作,极大拓展了Agent在虚拟交互空间的应用边界。 

 

同时,多智能体系统如SWE-agent等,也展示了多智能体协作的潜力,其融合了各种模型的优势,从而来探索基于多模型的规划、反思与自我迭代。 

 

我们认为,智能体的发展可归结为模型能力提升与协作架构优化。 

 

一个完备的Agent需满足以下条件: 

 

基于此种思考,2023年,我们推出CogAgent开源模型,填补了GUI Agent在多模态感知的空白;2024年11月,GLM-PC v1.0进一步强化了感知、规划、创造能力,并实现有限的自我纠正。 

 

如今,新版GLM-PC借鉴人类「左脑」与「右脑」分工,通过代码生成与图形界面理解,实现逻辑推理与感知认知的深度结合,赋予其在逻辑性与创造性间平衡的能力,从而能够辅助人类完成复杂任务。 

 

其背后是智谱自主研发的多模态模型CogAgent与代码模型CodeGeex的深度融合。新版GLM-PC 以代码形式指挥工作流程和工具调用,并强化了深度思考模式下的规划、推理、反思能力,从而能够稳定高效地应对复杂场景与任务。实际执行时,GLM-PC能感知多层环境反馈,协助反思,以有效自我纠正与优化。 

 

值得一提的是,为促进预训练GUI Agent的研究,我们于2024年12月开源了全面提升后的模型 CogAgent-9B-20241220。 

 

CogAgent-9B-20241220: 

 

Agent左脑:代码生成与逻辑执行

GLM-PC的「左脑」负责严谨的逻辑推理与任务执行。其主要功能包括: 


1、规划(Planning) 

GLM-PC 能够根据用户的任务需求,迅速制定出详细的任务规划方案。它会综合分析目标以及可用资源,生成执行路线图,并将大型任务自动分解为可管理的子任务,以构建出清晰的执行路径。 


2、循环执行(Looping Execution) 

规划阶段结束后,GLM-PC 将启动代码生成模块,执行逻辑循环,逐步推进任务完成。该循环机制确保了任务的精确执行与高度自动化,从而实现从输入到输出的完整闭环,无需人工干预。 


实例展示:一站式购物流程 

以获取商品信息为例,GLM-PC能够自动提取图片中的商品数据,存储至Excel,并自动将商品加入淘宝购物车,从而实现一站式购物流程。 

 

操作指令:获取图片中的商品信息,在桌面新建excel存储信息,把商品信息加入淘宝购物车 


(文中视频做了一定加速处理) 

 

3、长思考能力:动态反思、纠错与优化

GLM-PC的「左脑」功能,不仅能够生成静态计划,还能在执行过程中根据新环境信息进行实时调整、反思修正和自我纠错,从而持续优化解决方案。具体表现如下: 

 

实例展示:高效信息处理与社交互动 

例如,在帮助用户处理小红书上的「春节贺岁档电影」信息时,GLM-PC能快速查找并提取相关数据,同时撰写代码将信息存储在电脑上。若生成的代码出现错误,它能够根据报错信息进行自我修正。 

 

操作指令:在小红书搜索「春节贺岁档电影」,引用第一篇图文贴的贴子图片,把图片发送到微信上的{GGG}群聊,问他们想看哪一部电影。 

 

Agent右脑:图像与GUI认知

GLM-PC的「右脑」专注于深度感知与交互体验。其核心功能涵盖: 

 

实例演示:高效数据整理与存档 

例如,GLM-PC能够在小红书中搜索并提取「AI排行榜」相关图文内容。随后,通过自主编写的代码,将公司信息存储至桌面新建的Excel文件,同时将帖子文字内容保存至指定Word文档,确保用户数据的高效整理和存档,提升信息管理效率。 

 

操作指令在小红书上搜索“新能源汽车排行榜”的第一篇图文贴,引用第一篇贴子的图片内容和文本内容,获取图片中的信息列表并存储在桌面新建的excel,把帖子的文字内容放进一个叫new-energy的桌面新建word文档中

 

Agent of Agents:左、右脑协作

这种借鉴左右脑协作的模式,使GLM-PC不仅能够处理复杂逻辑任务,还能在开放性问题上展现更高的适应能力、创造力和泛化能力。更能通过动态优化和情境感知,帮助用户探索更高效的解决方案,特别是在循环任务处理多步推理执行以及长链条任务管理等方面。 


实例展示:六级英语词汇学习辅助 

GLM-PC作为六级英语词汇学习助理,能够从指定网站自动提取六级词汇,根据这些词进行造句,并将词汇及其造句自动保存至新建Word文档,文档命名为「六级英语词汇学习」。 

 

在这个「https://www.dxsbb.com/news/277.html」六级词汇里面找3个,然后把给每个词造句,把词汇和对应的造句粘贴到新建Word文档中,保存命名为「六级英语词汇学习" 

 

实例展示:个性化微信祝福语与新春祝贺图片群发 

GLM-PC 能够自动为微信群好友定制个性化新春祝福语及祝贺图片/视频,并通过一键操作实现群发,高效完成节日问候。 

 

操作指令:在微信上引用「GGG」群成员列表,给每个人发送2025新春祝福语和一张蛇年主题图片 

 

实例展示:智能航班查询与日程安排 

GLM-PC 能为用户快速查询航班信息,筛选最经济机票,并同步设置飞书日历提醒,实现航班查询、购票筛选到日程安排的一站式服务。 

 

操作指令:帮我在携程上找1月21日上海到北京最便宜的机票;帮我设置一个飞书日历,时间是飞机起飞前6小时,主题是出发去机场,持续时间半小时 


实例展示:PDF数学题提取与整理流程 

GLM-PC可以自动打开PDF文件,提取指定内容,并将信息整理存储到Word文档中。 

 

操作指令:帮我把桌面的 排列组合与二项式定理练习.pdf文件打开, 引用总结当前界面的前几条数学题 ,放到桌面新建word文档中 

 

合作

我们正与联想、华硕等知名 PC 厂商展开深度合作探讨,共同推动AIPC(AI个人电脑)的创新与发展。 


逻辑驱动执行,感知赋能决策。AIPC不仅是一台电脑,更是AI agent在个人计算领域的全新应用,能够为用户提供更高效、更智能的工作与生活体验。 




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GLM-PC CogAgent AI Agent 多模态模型 AIPC
相关文章