硅星人Pro 01月25日
可联网自主完成任务!OpenAI发布智能体Operator,给AI Agent又添了把火!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI发布首款智能体产品Operator,基于CUA模型,能像人类一样操作计算机,通过观察屏幕和使用虚拟鼠标键盘完成任务,无需API接口。Operator采用感知-推理-行动循环,利用GPT-4o视觉能力理解界面,强化学习推理制定计划,执行操作。它可完成订餐、购物等多项任务,并具备多任务并行处理能力。目前仅限美国Pro用户体验,但OpenAI计划开放API并集成到ChatGPT,与多家品牌合作探索应用潜力,为AI Agent商业化奠定基础。

🤖Operator基于CUA模型,通过观察屏幕和使用虚拟鼠标键盘,模拟人类操作计算机,无需API接口,具备极高的灵活性,可适配任何为人类设计的软件界面。

🛒Operator展现了强大的多模态理解能力,可以识别手写购物清单图片,自动在购物平台搜索对应商品,并做出合理的数量和规格选择,还能理解用户的手动调整,完成订单。

⏱️Operator具备多任务并行处理能力,可以在不同会话中同时处理多个任务,如预订餐厅、购买门票、寻找清洁服务等,互不干扰,且在涉及支付等敏感操作时会自动切换到隐私模式,确保用户信息安全。

原创 Jessica 2025-01-24 09:32 北京

“2025年是AI Agents之年”。

作者Jessica
邮箱Jessica@pingwest.com

AI Agent现在究竟有多火?2025刚开年,OpenAI已迫不及待入局。

今天凌晨,Sam Altman在毫无预告的情况下开启直播,正式发布了OpenAI首款智能体产品:Operator(预览版)

Operator是一个能够像人类一样使用计算机的AI智能体。它基于OpenAI最新研发的 Computer-Using Agent (CUA) 模型,通过观察屏幕并使用虚拟鼠标和键盘来完成任务,而无需依赖专门的API接口。这种设计使其可以适配任何为人类设计的软件界面,带来极高的灵活性。

技术实现上,CUA采用了一个精心设计的感知-推理-行动循环。具体的工作原理是:每次行动后,它会重新捕获屏幕画面,先将屏幕截图添加到模型上下文,通过GPT-4o的视觉能力准确理解界面内容,再依靠强化学习的推理能力(chain-of-thought)制定下一步计划,最后使用虚拟鼠标和键盘,精确执行点击、滚动或输入的界面操作,直到任务完成或需要用户输入。

也就是说,无论订餐、买票、网上购物、还是预约清洁工,只需下达一句指令,Operator都能自动在后台替你完成。

只不过目前的预览版尚未全面开放,仅供每月付费200美元的美国Pro用户体验,地址在:https://operator.chatgpt.com/。

1

Operator实例展示:灵活智能的多任务助手

直播中,OpenAI团队展示了几个令人印象深刻的Operator使用场景:

场景一:智能餐厅预订

当用户输入"在Beretta订一个今晚7点的双人餐位"后,Operator立即启动了一个远程浏览器会话。有趣的是,系统显示出了类似人类的地理感知能力——当OpenTable默认显示弗吉尼亚的结果时,它立即根据用户设定的旧金山位置信息自动进行了更正。发现7点没有空位后,Operator又主动提议7:45的替代时间,并在确认前征求用户意见,展示了灵活的决策能力。

场景二:智能购物助理

在购物演示中,Operator展现了强大的多模态理解能力。它可以直接识别手写购物清单图片,精确提取出"鸡蛋、菠菜、蘑菇、鸡腿肉、辣酱"等信息,并在Instacart上自动搜索对应商品。系统采用了一个清晰的工作流程:首先理解每个商品的具体需求,然后搜索最相关的商品,做出合理的数量和规格选择。当用户通过"take control"功能手动增加鸡蛋数量时,Operator也能够理解并继续完成剩余订单。

场景三:多任务并行处理

而最引人注目的还是Operator的多任务并行处理能力。它可以一边在StubHub搜索勇士队比赛门票,一边处理网球场预订、寻找清洁服务和DoorDash订餐。这得益于其远程浏览器架构,每个任务都在独立的会话中进行,确保互不干扰。在门票预订过程中,系统也展现出细致的判断力,能分析不同座位区域的优劣(如发现374美元的第一排座位优于260美元的普通座位)。同时,在涉及支付等敏感操作时,也会自动切换到隐私模式,确保用户信息安全。

1

性能表现

CUA在各项基准测试中表现不俗:WebArena(测试网页导航能力)上达到58.1%的成功率,在网页任务评测WebVoyager上达到87%的高分。虽然在操作系统导航测试OSWorld上的38.1%成功率与人类水平(72.4%)仍有差距,但已超越了其他公开发布的结果。官方表示,这些数据证明CUA在网页任务处理上已达到实用水平,但在复杂的操作系统交互方面仍需改进。

1

多层保护机制确保安全

安全性是Operator的另一大注重点。为确保实际操作可控,Operator构建了全面的多层保护体系,包括:

1

“2025是AI Agents之年”

目前,Operator的功能仍有一定限制:不支持银行交易等高风险操作,部分敏感网站需用户实时监督。地域上仅面向美国Pro用户开放,欧洲等地区可能需较长等待时间。但OpenAI已制定明确扩展计划:两周内将向开发者开放CUA模型API,后续会集成到ChatGPT并更广泛提供。

为确保产品体验,OpenAI已与OpenTable、Allrecipes、StubHub、Uber、Thumbtack、DoorDash、eBay、Target等多家品牌建立合作伙伴关系,共同探索AI Agent在各垂直领域的应用潜力,力求引领AI Agent领域进入全新的发展阶段。Operator发布后,OpenAI总裁Greg Brockman也随即转发表示:“2025年是AI Agents之年”。

Operator亮相的同一周期,AI Agent领域竞争也日趋激烈。

而OpenAI今年这第一步棋也下得思路清晰:一方面与各类三方头部平台合作,确保在高频场景的优质体验;另一方面通过API开放和ChatGPT整合双管齐下,既吸引开发者构建应用,又通过超级应用入口触达用户。将使用权限限定在Pro用户,也能在确保产品稳定性的同时,测试其它用户的付费意愿——一切都在为未来Agent经济的商业化探索奠定基础。

点个爱心,再走吧

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI Agent OpenAI Operator CUA模型 多任务处理
相关文章