中国科技报 01月25日
[国 际] OpenAI智能体能像人那样使用电脑
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI发布首个AI智能体Operator,它突破了传统API的限制,能直接与图形用户界面交互,像人类一样使用电脑。Operator通过CUA模型实现,结合GPT-4o的视觉功能和高级推理技术,能自主完成复杂任务,如填写在线表单、网购等。CUA模型在多个测试中表现出色,尽管与人类水平仍有差距,但在特定场景下效率惊人。为保证安全,Operator执行任务时会采取“观察—计划—执行”的闭环,并设有提示注入监视器,用户可随时接管控制权。OpenAI预示2025年将是智能体之年。

🤖Operator是首个AI智能体,可以直接与图形用户界面交互,模拟人类使用电脑的方式,实现通用人工智能的重要一步。

🧠CUA模型是Operator的核心,它结合了GPT-4o的视觉功能和高级推理技术,并通过强化学习不断优化性能,使其在多项测试中表现出色。

🔒为确保安全性和用户体验,Operator在执行任务时采取“观察—计划—执行”的闭环,并设有提示注入监视器,用户可随时接管控制权,保护隐私。

🚀OpenAI预示未来几个月将出现更多智能体,它们将扩展动作空间,适应更广泛的应用场景,开启新一轮人机交互革命。

向实现通用人工智能迈进一步

    科技日报北京1月24日电 (记者张梦然)当地时间23日一场在线直播中,OpenAI团队揭开了首个AI智能体Operator的神秘面纱。这一创新成果打破了传统应用程序编程接口的限制,赋予了AI直接与图形用户界面交互的能力,就仿佛能像人类那样使用电脑,从而向实现通用人工智能迈进了一步。

    演示中,Operator展现了其强大的能力。它不仅能够精确理解指令,还能自主完成复杂任务,如自动填写在线表单、进行网购、创建表情包以及处理重复性浏览器任务等。这一切都是通过一个被称为CUA的新模型实现的。该模型结合了GPT-4o的视觉功能和高级推理技术,并通过强化学习不断优化自己的性能。

    值得注意的是,在多个测试环境中,CUA模型的表现令人印象深刻。例如,在OSWORLD上执行计算机使用任务的成功率达到了38.1%,比之前最佳结果提高了近16%;而在WebArena上的成功率更是高达58.1%,提升了22%。尽管这些成绩与人类相比还有一定差距(人类分别为72.4%和78.2%),但CUA在某些特定场景下展示了惊人的效率,比如在网页代理WebVoyager平台上,达到了87%的成功率。

    为确保安全性和用户体验,当Operator执行任务时,会采取行动、抓取屏幕截图并创建子计划,形成一个“观察—计划—执行”的闭环。此外,用户可以随时接管控制权,并且在接管期间的所有操作都不会被记录下来,以此保护隐私。即使遇到买错东西或订错酒店的情况,Operator也会在继续行动之前请求人类确认。

    面对可能存在的风险,如诈骗网站,OpenAI引入了一个提示注入监视器,类似于防病毒软件的功能,可以在发现可疑行为时立即停止操作。这标志着L3级别的智能体时代正式到来,而OpenAI也重申了其对2025年的展望——这一年将是智能体之年。

    随着Operator的发布,未来几个月内,人们或有望见证更多智能体的出现。它们将进一步扩展动作空间,适应更加广泛的应用场景,开启下一轮人机交互革命。目前,Operator仅限于美国的ChatGPT Pro(付费服务)用户试用,不过未来很快会向更多用户提供服务。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI AI智能体 Operator CUA模型 通用人工智能
相关文章