OpenAI重磅推出Operator-旗下首款AI智能体正式亮相

OpenAI于2025年1月24日发布了其首款AI智能体Operator，这是一款能够在浏览器上执行简单在线任务的网络应用，如预订音乐会门票、在线订购杂货等。

Operator由基于GPT-4o构建的新模型Computer-Using Agent（CUA）提供支持，目前仅对注册ChatGPT Pro（每月200美元高级服务）的美国用户开放，未来计划向其他用户推出。

Operator之所以如此强大，得益于其背后的Computer-Using Agent（CUA）模型。这一模型以GPT-4o为基础构建，通过与图形用户界面（GUI）进行交互，展现出令人惊叹的能力。

CUA模型拥有像人类一样的视觉能力（通过屏幕截图“看到”界面元素）和通过强化学习得来的先进推理能力。

可以像人一样操作，“看到”浏览器界面上的按钮、菜单和文本框，熟练地运用鼠标和键盘与之互动。

CUA建立在多年多模态理解和推理交叉领域的基础研究之上，尤其执行任务过程中，CUA模型的自我纠错能力是一大亮点。

当遇到难题或者出现错误时，它能依靠推理能力自我调整；

若遇到无法解决的状况，则会礼貌地将控制权交还给用户，实现人机协作间的流畅转换。

值得一提的是，Operator在安全性和隐私保护方面表现不错。

OpenAI明确表示，Operator在运行期间，绝不会利用用户之前与ChatGPT共享的数据，全方位呵护用户隐私。

而且，名为“接管模式”的功能为其安全保驾护航，在输入支付信息或登录凭据等关键操作时，会要求用户手动完成。

同时，OpenAI提到，虽然CUA仍处于早期阶段并且存在局限性，但它设定了新的最先进基准结果，在OSWorld上实现了38.1%的全计算机使用任务成功率，在WebArena上为58.1%。在WebVoyager上为87%。

这些结果突显了CUA使用单一通用动作空间在各种环境中导航和操作的能力。

Computer-Using Agent（CUA）如何运作？

CUA根据用户的指令，通过一个集成感知、推理和行动的迭代循环进行操作：

简单总结一下，CUA模型实现与GUI（图形用户界面）交互主要技术：

屏幕截图分析：CUA模型具备类似人类的视觉能力，它首先会对屏幕进行截图。然后，利用图像识别技术分析截图中的各种元素，例如识别出按钮的位置、颜色、形状，菜单的结构以及文本框的内容等。这就如同人类用眼睛观察屏幕一样，是交互的基础。

元素定位与分类：在识别出屏幕元素后，CUA模型会对这些元素进行定位和分类。它确定每个元素在屏幕坐标系中的位置，并且根据元素的类型（如可点击按钮、输入文本框等）进行分类，以便后续准确地与之交互。

任务分解：当接收到一个需要在GUI上完成的任务时，CUA模型会将这个复杂任务分解成多个小的子任务。例如，如果要在一个电商网站上完成商品购买，子任务可能包括搜索商品、选择商品规格、点击购买按钮等。

操作序列生成：根据任务分解的结果，CUA模型会生成一个操作序列。它会考虑到各个元素之间的关系以及操作的先后顺序，比如先点击某个菜单展开选项，再在弹出的列表中选择特定的项目。

鼠标和键盘模拟：CUA模型通过模拟人类使用鼠标和键盘的操作来实现与GUI的交互。对于识别出的可点击按钮，它会模拟鼠标点击操作；对于需要输入内容的文本框，它会模拟键盘输入相应的字符。

实时反馈与调整：在执行操作的过程中，CUA模型会持续关注屏幕的变化，获取实时反馈。如果操作没有达到预期的效果，例如点击按钮没有响应或者出现了错误提示，它会根据反馈信息调整操作策略，重新规划后续的操作步骤。

错误检测与回溯：如果在执行任务过程中出现错误，CUA模型能够检测到问题所在。它可能会回溯到上一个操作步骤，重新评估情况，并尝试不同的操作方式。

强化学习优化：CUA模型利用强化学习技术不断优化其与GUI的交互策略。通过不断地尝试不同的操作方式并根据结果得到奖励或惩罚信号，模型逐渐学会更高效、准确地完成任务。

今天OpenAI的Operator的亮相，也标志着AI发展的下一步，使模型能够使用人类日常依赖的相同工具，为大量新应用打开了大门……

本文来自微信公众号 “亿欧网”（ID：i-yiou），作者：不寒，36氪经授权发布。