36kr-科技 01月24日
OpenAI重磅推出Operator-旗下首款AI智能体正式亮相
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI发布首款AI智能体Operator,这是一款能在浏览器上执行在线任务的网络应用。它由基于GPT-4o的CUA模型驱动,具备视觉感知、推理和操作能力,能像人一样与图形界面交互。Operator目前仅对美国ChatGPT Pro用户开放,未来计划推广。CUA模型通过屏幕截图分析界面元素,并模拟鼠标键盘操作,实现任务分解和操作序列生成,同时具备自我纠错和强化学习能力。它在OSWorld、WebArena和WebVoyager等基准测试中均取得了领先成绩。Operator的发布标志着AI发展进入新阶段,为大量新应用打开了大门。

🤖Operator是OpenAI首款AI智能体,可在浏览器上执行在线任务,如预订音乐会门票、在线订购杂货等。

👁️‍🗨️Operator由CUA模型驱动,该模型基于GPT-4o构建,具备视觉感知能力,能“看到”屏幕元素,并像人类一样使用鼠标和键盘与之互动。

🛠️CUA模型通过屏幕截图分析界面元素,分解任务,生成操作序列,并模拟鼠标键盘操作,实现与GUI的交互。同时,它还具备自我纠错和强化学习能力,能在遇到错误时调整策略。

🔒Operator在安全性和隐私保护方面表现良好,运行时不会利用用户之前与ChatGPT共享的数据,并提供“接管模式”以保护用户的敏感信息。

OpenAI于2025年1月24日发布了其首款AI智能体Operator,这是一款能够在浏览器上执行简单在线任务的网络应用,如预订音乐会门票、在线订购杂货等。

Operator由基于GPT-4o构建的新模型Computer-Using Agent(CUA)提供支持,目前仅对注册ChatGPT Pro(每月200美元高级服务)的美国用户开放,未来计划向其他用户推出。

Operator之所以如此强大,得益于其背后的Computer-Using Agent(CUA)模型。这一模型以GPT-4o为基础构建,通过与图形用户界面(GUI)进行交互,展现出令人惊叹的能力。

CUA模型拥有像人类一样的视觉能力(通过屏幕截图“看到”界面元素)和通过强化学习得来的先进推理能力。

可以像人一样操作,“看到”浏览器界面上的按钮、菜单和文本框,熟练地运用鼠标和键盘与之互动。

CUA建立在多年多模态理解和推理交叉领域的基础研究之上,尤其执行任务过程中,CUA模型的自我纠错能力是一大亮点。

当遇到难题或者出现错误时,它能依靠推理能力自我调整; 

若遇到无法解决的状况,则会礼貌地将控制权交还给用户,实现人机协作间的流畅转换。 

值得一提的是,Operator在安全性和隐私保护方面表现不错。 

OpenAI明确表示,Operator在运行期间,绝不会利用用户之前与ChatGPT共享的数据,全方位呵护用户隐私。 

而且,名为“接管模式”的功能为其安全保驾护航,在输入支付信息或登录凭据等关键操作时,会要求用户手动完成。

同时,OpenAI提到, 虽然CUA仍处于早期阶段并且存在局限性,但它设定了新的最先进基准结果,在OSWorld上实现了38.1%的全计算机使用任务成功率,在WebArena上为58.1%。 在WebVoyager上为87%。 

这些结果突显了CUA使用单一通用动作空间在各种环境中导航和操作的能力。 

Computer-Using Agent(CUA)如何运作?

CUA根据用户的指令,通过一个集成感知、推理和行动的迭代循环进行操作:

简单总结一下,CUA模型实现与GUI(图形用户界面)交互主要技术:

视觉感知

屏幕截图分析:CUA模型具备类似人类的视觉能力,它首先会对屏幕进行截图。然后,利用图像识别技术分析截图中的各种元素,例如识别出按钮的位置、颜色、形状,菜单的结构以及文本框的内容等。这就如同人类用眼睛观察屏幕一样,是交互的基础。

元素定位与分类:在识别出屏幕元素后,CUA模型会对这些元素进行定位和分类。它确定每个元素在屏幕坐标系中的位置,并且根据元素的类型(如可点击按钮、输入文本框等)进行分类,以便后续准确地与之交互。

操作规划

任务分解:当接收到一个需要在GUI上完成的任务时,CUA模型会将这个复杂任务分解成多个小的子任务。例如,如果要在一个电商网站上完成商品购买,子任务可能包括搜索商品、选择商品规格、点击购买按钮等。

操作序列生成:根据任务分解的结果,CUA模型会生成一个操作序列。它会考虑到各个元素之间的关系以及操作的先后顺序,比如先点击某个菜单展开选项,再在弹出的列表中选择特定的项目。

执行操作

鼠标和键盘模拟:CUA模型通过模拟人类使用鼠标和键盘的操作来实现与GUI的交互。对于识别出的可点击按钮,它会模拟鼠标点击操作;对于需要输入内容的文本框,它会模拟键盘输入相应的字符。

实时反馈与调整:在执行操作的过程中,CUA模型会持续关注屏幕的变化,获取实时反馈。如果操作没有达到预期的效果,例如点击按钮没有响应或者出现了错误提示,它会根据反馈信息调整操作策略,重新规划后续的操作步骤。

自我纠错与学习

错误检测与回溯:如果在执行任务过程中出现错误,CUA模型能够检测到问题所在。它可能会回溯到上一个操作步骤,重新评估情况,并尝试不同的操作方式。

强化学习优化:CUA模型利用强化学习技术不断优化其与GUI的交互策略。通过不断地尝试不同的操作方式并根据结果得到奖励或惩罚信号,模型逐渐学会更高效、准确地完成任务。

今天OpenAI的Operator的亮相,也标志着AI发展的下一步,使模型能够使用人类日常依赖的相同工具,为大量新应用打开了大门……

本文来自微信公众号 “亿欧网”(ID:i-yiou),作者:不寒,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI Operator CUA模型 AI智能体 GUI交互
相关文章