OpenAI突发Operator!完全自主玩转浏览器,奥特曼:Level3时代开启

OpenAI突发Operator!完全自主玩转浏览器,奥特曼:Level3时代开启明敏 2025-01-24 10:33:15 来源：量子位明敏鱼羊发自凹非寺量子位 | 公众号 QbitAIOpenAI热炒已久的智能体，刚刚正式发布！OpenAI官方介绍：Operator是我们的首批智能体之一。这些AI能够独立为你完成工作——只需给它一个任务，它就会执行。be like，给它一个购物清单，Operator就能完全自主地帮你买好东西。可以看到操作老哥的双手已经离开键盘，屏幕上的所有操作都是Operator自己完成。还能让它来预定餐厅：这边奥特曼直播刚结束，OpenAI总裁Brockman就迫不及待地宣布：2025是智能体之年。并且这一次，Operator官宣即上线——只不过，暂时只面向Pro用户，对，就是一个月200刀（约合人民币1458元）的那个大会员。看罢直播，网友们还是非常兴奋的，直呼“疯狂星期四”。但是嘛……嗯，Operator很香，但要是开源就更棒了，DeepSeek、Meta快卷起来（doge）。玩转浏览器，无需人类辅助口说无凭，咱们还是先通过官方Demo，来看看Operator到底有多“独立自主”。它几乎可以使用任何网站，无需人类的操作辅助。比如从Allrecipes上找到一份蛤蜊扁面条的食谱，然后把所有的食材都放到我instacart的购物车里？它操作这一切的逻辑和人类一样，看到了哪些图片、该点击哪些按钮。这和其他使用API或者基于编程接口的Agent不同，它是基于文本的思维链进行推理。确认好菜单后，去哪个店下单买菜呢？人类进一步给出指令，使用Gus’s，然后Operator就会到对应的网站开始下单。遇到登录、支付等操作时，Operator会将操作权交还给用户。在用户实测中，有博主发现如果Operator被Reddit墙了，它还会自己在搜索时就加入“Reddit”关键词以找到相关帖子。用户也可以通过添加自定义指令，获得个性化体验。比如设置订机票时的首选航司。Operator允许用户保存提示，以便在主页上快速访问，非常适合重复任务，如在购物网站上补货。Operator也能同时运行多个任务，就像是打开多个网页那样，比如让它在Etsy上订购个性化的搪瓷马克杯，同时在Hipcamp上预订露营地。Operator的底层使用了一个全新的模型Computer-Using-Agent（CUA）。通过将GPT-4o的视觉能力和高级推理强化学习相结合，CUA可以进行GUI交互。Operator可以看到网页界面的内容，使用鼠标、键盘允许的所有操作。由此它可以自动操作，而无需自定义的API集成。如果遇到问题或者出现错误，Operator可以利用推理能力自我纠错。并在它卡住需要帮助时，将控制权交还给用户。CUA在WebArena和WebVoyager两个基准测试中都取得了SOTA。目前，美区的Pro会员已经可以通过operator.chatgpt.com来使用Operator。Plus、Team、Enterprise等付费用户和其他地区的胖友们，还得再等等，但OpenAI承诺未来会将这些功能集成到ChatGPT中。OpenAI迈入“Level 3”2024年7月，OpenAI发布了“从AI到AGI的五步过程”：Level 1：Chatbots，AI可以以对话的方式与人互动。Level 2：Reasoners，AI科技解决人类水平的问题。Level 3：Agents，AI可以作为系统执行一些行动任务。Level 4：Innovators，AI可以开发创新性的AI。Level 5：Organizations，AI可以完成一个组织完成的工作。在当时的定义和规划中，OpenAI表示自己还只处于Level 1阶段，正在靠近Level 2。而现在，随着Operator的发布，奥特曼宣布：这是我们进入Level 3的开始。值得注意的是，就像开头提到，OpenAI悄悄画了个重点：Operator还只是“首批”而非唯一智能体。在直播中，奥特曼也预告了：我们还将在未来几周和几个月内推出更多智能体。One More Thing就在OpenAI今天这场直播之前，还有一个小小的花絮。Operator发布2小时前，OpenAI发了一条推文，表示修复了ChatGPT和API错误率高的问题。又虚晃了网友们一枪（doge）。另一个好消息是，奥特曼还预告，ChatGPT免费版就能用上o3-mini。版权所有，未经授权不得以任何形式转载及使用，违者必究。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签