IT之家 01月23日
自主操作电脑的多模态 Agent 升级,智谱 GLM-PC 开放体验
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

智谱华章发布了其多模态Agent GLM-PC的升级版本,该Agent基于CogAgent大模型,能像人类一样操作电脑。GLM-PC具备代码生成、逻辑执行规划、循环执行、长思考能力等,可将大型任务分解为子任务,并自动执行。它还支持实时调整和自我纠错,能在外部因素干扰下重构逻辑,并能主动与用户交互。此外,GLM-PC具备强大的GUI图像理解能力,能识别图形界面元素、理解用户行为,并进行图像语义解析和多模态信息融合,从而实现精准操作。

💻GLM-PC基于智谱多模态大模型CogAgent,是全球首个面向公众、回车即用的电脑智能体,能够像人类一样观察和操作计算机,协助用户完成各类电脑任务。

🧠GLM-PC具备强大的代码生成与逻辑执行规划能力,支持综合分析目标和可用资源,生成执行路线图,并将大型任务分解为可管理的子任务,构建清晰的执行路径,并能通过循环执行机制确保任务的精确执行和高度自动化。

💡GLM-PC拥有长思考能力,支持实时调整、反思修正和自我纠错,在流程中断时可重构逻辑路径,遇到信息缺失时可主动与用户交互,完善任务执行方案。

🖼️GLM-PC具备强大的GUI图像理解能力,能准确识别图形界面元素,理解其功能与交互逻辑,并结合用户历史操作信息提供智能推荐,同时还能进行图像语义解析和多模态信息融合。

IT之家 1 月 23 日消息,北京智谱华章科技有限公司今日发文宣布,旗下智谱 GLM-PC 开放体验,宣称“自主操作电脑的多模态 Agent 再升级”。

据介绍,GLM-PC 是基于智谱多模态大模型 CogAgent,全球首个面向公众、回车即用的电脑智能体(agent)。它能像人类一样「观察」和「操作」计算机,协助用户完成各类电脑任务。GLM-PC v1.0 于 2024 年 11 月 29 日发布并开放内测,目前最新推出「深度思考」模式、增加专用于做逻辑推理和代码生成的功能、并提供了对 Windows 系统的支持。

IT之家从智谱官方获悉,GLM-PC 具备如下能力:

代码生成与逻辑执行

    规划:支持综合分析目标以及可用资源,生成执行路线图,并将大型任务自动分解为可管理的子任务,以构建出清晰的执行路径。

    循环执行:规划阶段结束后,支持启动代码生成模块,执行逻辑循环,逐步推进任务完成。该循环机制确保了任务的精确执行与高度自动化,从而实现从输入到输出的完整闭环,无需人工干预

    长思考能力:支持实时调整、反思修正和自我纠错,持续优化解决方案。具体表现为:流程因外部因素中断时,可重构逻辑路径;遇到信息缺失时,可主动与用户进行交互,通过提问来完善任务执行方案

图像与 GUI 认知

    GUI 图像理解:准确识别图形界面元素(如按钮、图标、布局等),并理解其功能与交互逻辑

    用户行为认知:结合对用户界面的学习及历史操作信息的理解,为用户提供当前界面的智能推荐操作

    图像语义解析:对复杂图像进行深入语义分析,提取关键信息如文字、标识符及数据可视化图表中的趋势和指标

    多模态信息融合:融合图像与文字信息,形成全面感知结果。例如,在用户界面中同时识别按钮位置与文字标签,助力「左脑」制定精准操作计划

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

智谱GLM-PC 多模态Agent CogAgent 电脑智能体 GUI图像理解
相关文章