GLM大模型 06月12日 11:46
GLM-PC v1.1 发布!「GUI认知+代码规划」深度融合
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

GLM-PC是基于智谱多模态大模型CogAgent的电脑智能体,它能够像人类一样理解和操作计算机,帮助用户高效完成各类任务。最新版本增加了“深度思考”模式,并支持Windows系统。GLM-PC通过“左脑”的代码生成与逻辑推理和“右脑”的图形界面理解,实现了逻辑推理与感知认知的深度结合,能够辅助人类完成复杂任务,例如一站式购物、信息处理与社交互动等,极大地提升了用户的工作效率和体验。

🧠 GLM-PC的核心在于其“左脑”和“右脑”的协同工作模式。其中,“左脑”负责规划、循环执行和长思考能力,类似于人类的逻辑思维和任务规划能力,能够制定详细的任务规划方案,进行逻辑循环,并根据环境反馈进行实时调整、反思修正和自我纠错。

👁️‍🗨️ “右脑”则专注于GUI图像理解和用户行为认知,类似于人类的感知和操作能力。它能够准确识别图形界面元素,理解其功能与交互逻辑,并结合对用户界面的学习及历史操作信息的理解,为用户提供智能推荐操作。

💡 GLM-PC通过多模态信息融合,如融合图像与文字信息,形成全面感知结果。例如,在用户界面中同时识别按钮位置与文字标签,助力“左脑”制定精准操作计划,从而实现高效的数据整理、存档以及其他复杂任务。

🤝 GLM-PC的Agent of Agents模式,借鉴左右脑协作,能够处理复杂逻辑任务,并在开放性问题上展现更高的适应能力、创造力和泛化能力。目前,GLM-PC正与联想、华硕等知名PC厂商展开深度合作,共同推动AIPC的创新与发展。

GLM技术团队 2025-01-23 12:29 北京

GLM-PC 是基于智谱多模态大模型 CogAgent,全球首个面向公众、回车即用的电脑智能体。它能像人类一样「观察」和「操作」计算机,协助用户高效完成各类电脑任务。 


自2024年11月29日发布GLM-PC v1.0并开放内测以来,我们不断优化升级,最新推出了「深度思考」模式,并增加了专用来做逻辑推理和代码生成的功能。此外,我们也提供了对 Windows 系统的支持。 

 

🌀
下载&体验:https://cogagent.aminer.cn 


GLM-PC 架构近年来,关于Agent在模型与架构层面的探讨日益深入。 

 

大型语言模型(LLM)的工具调用能力首次展示了LLM如何作为Agent与人类生产有机结合,具备良好的泛化性与小样本学习能力,但其应用范围受限于能以文本形式交互的、可公开访问的工具类型。 

 

以CogAgent为代表的一系列基于视觉语言模型(VLM)的图形界面智能体(GUI Agent)提出了新路径,通过多模态感知实现全GUI空间交互。这些GUI Agent,类似人类,能以视觉形式感知界面元素与布局,模拟人类进行点击、键盘输入等元操作,极大拓展了Agent在虚拟交互空间的应用边界。 

 

同时,多智能体系统如SWE-agent等,也展示了多智能体协作的潜力,其融合了各种模型的优势,从而来探索基于多模型的规划、反思与自我迭代。 

 

我们认为,智能体的发展可归结为模型能力提升与协作架构优化。 

 

一个完备的Agent需满足以下条件: 

在感知层面,能接收文字、图像、视频、音频等多元信号;

在思维层面,具备逻辑思维、任务规划能力(类似左脑)及高效感知、灵活操作能力(类似右脑);

在执行层面,能完成全GUI空间操作,接收环境反馈并自我纠正。

 

基于此种思考,2023年,我们推出CogAgent开源模型,填补了GUI Agent在多模态感知的空白;2024年11月,GLM-PC v1.0进一步强化了感知、规划、创造能力,并实现有限的自我纠正。 

 

如今,新版GLM-PC借鉴人类「左脑」与「右脑」分工,通过代码生成与图形界面理解,实现逻辑推理与感知认知的深度结合,赋予其在逻辑性与创造性间平衡的能力,从而能够辅助人类完成复杂任务。 

 

其背后是智谱自主研发的多模态模型CogAgent与代码模型CodeGeex的深度融合。新版GLM-PC 以代码形式指挥工作流程和工具调用,并强化了深度思考模式下的规划、推理、反思能力,从而能够稳定高效地应对复杂场景与任务。实际执行时,GLM-PC能感知多层环境反馈,协助反思,以有效自我纠正与优化。 

 

值得一提的是,为促进预训练GUI Agent的研究,我们于2024年12月开源了全面提升后的模型 CogAgent-9B-20241220。 

 

CogAgent-9B-20241220: 

论文:Hong et al. "Cogagent: A visual language model for gui agents." (CVPR 2024 Highlight 🏆)

博客:https://cogagent.aminer.cn/blog#/articles/cogagent-9b-20241220-technical-report

Huggingface: https://huggingface.co/THUDM/cogagent-9b-20241220

GitHub:https://github.com/THUDM/CogAgent

 

Agent左脑:代码生成与逻辑执行GLM-PC的「左脑」负责严谨的逻辑推理与任务执行。其主要功能包括: 


1、规划(Planning) GLM-PC 能够根据用户的任务需求,迅速制定出详细的任务规划方案。它会综合分析目标以及可用资源,生成执行路线图,并将大型任务自动分解为可管理的子任务,以构建出清晰的执行路径。 


2、循环执行(Looping Execution) 规划阶段结束后,GLM-PC 将启动代码生成模块,执行逻辑循环,逐步推进任务完成。该循环机制确保了任务的精确执行与高度自动化,从而实现从输入到输出的完整闭环,无需人工干预。 


实例展示:一站式购物流程 

以获取商品信息为例,GLM-PC能够自动提取图片中的商品数据,存储至Excel,并自动将商品加入淘宝购物车,从而实现一站式购物流程。 

 

操作指令:获取图片中的商品信息,在桌面新建excel存储信息,把商品信息加入淘宝购物车 


(文中视频做了一定加速处理)  

3、长思考能力:动态反思、纠错与优化GLM-PC的「左脑」功能,不仅能够生成静态计划,还能在执行过程中根据新环境信息进行实时调整、反思修正和自我纠错,从而持续优化解决方案。具体表现如下: 

灵活应对中断:当流程因外部因素中断时,GLM-PC能迅速重构逻辑路径,确保任务顺利进行。

主动信息完善:遇到信息缺失时,GLM-PC会主动与用户进行交互,通过提问来完善任务执行方案。

 

实例展示:高效信息处理与社交互动 

例如,在帮助用户处理小红书上的「春节贺岁档电影」信息时,GLM-PC能快速查找并提取相关数据,同时撰写代码将信息存储在电脑上。若生成的代码出现错误,它能够根据报错信息进行自我修正。 

 

操作指令:在小红书搜索「春节贺岁档电影」,引用第一篇图文贴的贴子图片,把图片发送到微信上的{GGG}群聊,问他们想看哪一部电影。 

 

Agent右脑:图像与GUI认知GLM-PC的「右脑」专注于深度感知与交互体验。其核心功能涵盖: 

GUI图像理解:准确识别图形界面元素(如按钮、图标、布局等),并理解其功能与交互逻辑。

用户行为认知:结合对用户界面的学习及历史操作信息的理解,为用户提供当前界面的智能推荐操作。

图像语义解析:对复杂图像进行深入语义分析,提取关键信息如文字、标识符及数据可视化图表中的趋势和指标。

多模态信息融合:融合图像与文字信息,形成全面感知结果。例如,在用户界面中同时识别按钮位置与文字标签,助力「左脑」制定精准操作计划。

 

实例演示:高效数据整理与存档 

例如,GLM-PC能够在小红书中搜索并提取「AI排行榜」相关图文内容。随后,通过自主编写的代码,将公司信息存储至桌面新建的Excel文件,同时将帖子文字内容保存至指定Word文档,确保用户数据的高效整理和存档,提升信息管理效率。 

 

操作指令:在小红书上搜索“新能源汽车排行榜”的第一篇图文贴,引用第一篇贴子的图片内容和文本内容,获取图片中的信息列表并存储在桌面新建的excel,把帖子的文字内容放进一个叫new-energy的桌面新建word文档中

 

Agent of Agents:左、右脑协作这种借鉴左右脑协作的模式,使GLM-PC不仅能够处理复杂逻辑任务,还能在开放性问题上展现更高的适应能力、创造力和泛化能力。更能通过动态优化和情境感知,帮助用户探索更高效的解决方案,特别是在循环任务处理、多步推理执行以及长链条任务管理等方面。 


实例展示:六级英语词汇学习辅助 

GLM-PC作为六级英语词汇学习助理,能够从指定网站自动提取六级词汇,根据这些词进行造句,并将词汇及其造句自动保存至新建Word文档,文档命名为「六级英语词汇学习」。 

 

在这个「https://www.dxsbb.com/news/277.html」六级词汇里面找3个,然后把给每个词造句,把词汇和对应的造句粘贴到新建Word文档中,保存命名为「六级英语词汇学习" 

 

实例展示:个性化微信祝福语与新春祝贺图片群发 

GLM-PC 能够自动为微信群好友定制个性化新春祝福语及祝贺图片/视频,并通过一键操作实现群发,高效完成节日问候。 

 

操作指令:在微信上引用「GGG」群成员列表,给每个人发送2025新春祝福语和一张蛇年主题图片 

 实例展示:智能航班查询与日程安排 

GLM-PC 能为用户快速查询航班信息,筛选最经济机票,并同步设置飞书日历提醒,实现航班查询、购票筛选到日程安排的一站式服务。 

 

操作指令:帮我在携程上找1月21日上海到北京最便宜的机票;帮我设置一个飞书日历,时间是飞机起飞前6小时,主题是出发去机场,持续时间半小时 


实例展示:PDF数学题提取与整理流程 

GLM-PC可以自动打开PDF文件,提取指定内容,并将信息整理存储到Word文档中。 

 

操作指令:帮我把桌面的 排列组合与二项式定理练习.pdf文件打开, 引用总结当前界面的前几条数学题 ,放到桌面新建word文档中 

 

合作我们正与联想、华硕等知名 PC 厂商展开深度合作探讨,共同推动AIPC(AI个人电脑)的创新与发展。 


逻辑驱动执行,感知赋能决策。AIPC不仅是一台电脑,更是AI agent在个人计算领域的全新应用,能够为用户提供更高效、更智能的工作与生活体验。 




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GLM-PC 电脑智能体 CogAgent AIPC AI
相关文章