智源社区 01月25日
OpenAI突发Operator!完全自主玩转浏览器,奥特曼:Level 3时代开启
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI正式发布了首批智能体Operator,它能够独立完成用户给定的任务,例如购物或预定餐厅,无需人工辅助。Operator基于文本思维链推理,可以像人类一样操作网页,并能自我纠错。它使用全新的模型CUA,结合GPT-4o的视觉能力和高级推理强化学习,实现GUI交互。目前,Operator仅面向Pro用户开放,但未来将集成到ChatGPT中。此举标志着OpenAI从Level 2迈向Level 3,即AI可以作为系统执行任务的阶段,并预示着更多智能体将在未来推出。

🤖 Operator是OpenAI发布的首批智能体,能够独立执行任务,如购物和预定餐厅,无需人工干预,操作方式如同人类使用浏览器。

🛒 Operator基于文本的思维链进行推理,能够理解网页内容和操作逻辑,并像人类一样点击按钮和填写信息,与传统的API或编程接口的Agent不同。

🌐 Operator使用全新的模型CUA,结合GPT-4o的视觉能力和高级推理强化学习,实现GUI交互,无需自定义API集成,并能自我纠错。

🚀 Operator的发布标志着OpenAI从Level 2(Reasoners)迈向Level 3(Agents),即AI可以作为系统执行任务的阶段,未来还将推出更多智能体。

💰 目前Operator仅面向Pro用户开放,但OpenAI承诺未来将该功能集成到ChatGPT中,并预告ChatGPT免费版将用上o3-mini。

OpenAI热炒已久的智能体,刚刚正式发布!

OpenAI官方介绍:

Operator是我们的首批智能体之一。这些AI能够独立为你完成工作——只需给它一个任务,它就会执行

be like,给它一个购物清单,Operator就能完全自主地帮你买好东西。

可以看到操作老哥的双手已经离开键盘,屏幕上的所有操作都是Operator自己完成。

还能让它来预定餐厅:

这边奥特曼直播刚结束,OpenAI总裁Brockman就迫不及待地宣布:

2025是智能体之年。

并且这一次,Operator官宣即上线——只不过,暂时只面向Pro用户,对,就是一个月200刀(约合人民币1458元)的那个大会员。

看罢直播,网友们还是非常兴奋的,直呼“疯狂星期四”。

但是嘛……

嗯,Operator很香,但要是开源就更棒了,DeepSeek、Meta快卷起来(doge)。

玩转浏览器,无需人类辅助

口说无凭,咱们还是先通过官方Demo,来看看Operator到底有多“独立自主”。

它几乎可以使用任何网站,无需人类的操作辅助。

比如从Allrecipes上找到一份蛤蜊扁面条的食谱,然后把所有的食材都放到我instacart的购物车里?

它操作这一切的逻辑和人类一样,看到了哪些图片、该点击哪些按钮。

这和其他使用API或者基于编程接口的Agent不同,它是基于文本的思维链进行推理。

确认好菜单后,去哪个店下单买菜呢?

人类进一步给出指令,使用Gus’s,然后Operator就会到对应的网站开始下单。

遇到登录、支付等操作时,Operator会将操作权交还给用户。

在用户实测中,有博主发现如果Operator被Reddit墙了,它还会自己在搜索时就加入“Reddit”关键词以找到相关帖子。

用户也可以通过添加自定义指令,获得个性化体验。比如设置订机票时的首选航司。

Operator允许用户保存提示,以便在主页上快速访问,非常适合重复任务,如在购物网站上补货。

Operator也能同时运行多个任务,就像是打开多个网页那样,比如让它在Etsy上订购个性化的搪瓷马克杯,同时在Hipcamp上预订露营地。

Operator的底层使用了一个全新的模型Computer-Using-Agent(CUA)

通过将GPT-4o的视觉能力和高级推理强化学习相结合,CUA可以进行GUI交互。

Operator可以看到网页界面的内容,使用鼠标、键盘允许的所有操作。由此它可以自动操作,而无需自定义的API集成。

如果遇到问题或者出现错误,Operator可以利用推理能力自我纠错。并在它卡住需要帮助时,将控制权交还给用户。

CUA在WebArena和WebVoyager两个基准测试中都取得了SOTA。

目前,美区的Pro会员已经可以通过operator.chatgpt.com来使用Operator。Plus、Team、Enterprise等付费用户和其他地区的胖友们,还得再等等,但OpenAI承诺未来会将这些功能集成到ChatGPT中。

OpenAI迈入“Level 3”

2024年7月,OpenAI发布了“从AI到AGI的五步过程”:

    Level 1:Chatbots,AI可以以对话的方式与人互动。

    Level 2:Reasoners,AI科技解决人类水平的问题。

    Level 3:Agents,AI可以作为系统执行一些行动任务。

    Level 4:Innovators,AI可以开发创新性的AI。

    Level 5:Organizations,AI可以完成一个组织完成的工作。

在当时的定义和规划中,OpenAI表示自己还只处于Level 1阶段,正在靠近Level 2。

而现在,随着Operator的发布,奥特曼宣布:

这是我们进入Level 3的开始。

值得注意的是,就像开头提到,OpenAI悄悄画了个重点:Operator还只是“首批”而非唯一智能体。

在直播中,奥特曼也预告了:

我们还将在未来几周和几个月内推出更多智能体。

One More Thing

就在OpenAI今天这场直播之前,还有一个小小的花絮。

Operator发布2小时前,OpenAI发了一条推文,表示修复了ChatGPT和API错误率高的问题。

又虚晃了网友们一枪(doge)。

另一个好消息是,奥特曼还预告,ChatGPT免费版就能用上o3-mini。

量子位智库年终发布三大年度报告

带你一起回顾2024年人工智能智能驾驶Robotaxi新趋势,预见2025年科技行业新机遇

2024年度AI十大趋势报告

Robotaxi2024年度格局报告

智能驾驶2024年度报告

一键关注 ? 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI 智能体 Operator AGI CUA
相关文章