智源社区 01月26日
强如Operator也怕验证码,1450元花得值吗?第一波实测来了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI最新推出的Operator引发广泛关注,它是一款能自主上网的AI Agent,尽管早期版本需付费体验,但用户已迫不及待分享测试结果。Operator展现了强大的网络浏览能力,能快速查找信息并总结,甚至能处理一些简单的任务。虽然它在某些情况下会遇到验证码等挑战,但也能向用户求助。Operator的发布是OpenAI在Agent领域多年探索的最新成果,从早期的Word of Bits和Universe到WebGPT,再到现在的Operator,OpenAI一直在努力提升AI的自主性和实用性。其核心在于多模态理解、长上下文处理和思维链推理,这些技术突破让Operator在数字世界中展现出巨大的潜力。业内人士预测,2025年将是Agent爆发的元年。

💻Operator具备自主上网能力,能在短时间内完成信息搜索、总结等任务,甚至能像人类一样在网上冲浪,但有时会被验证码难住。

🧠Operator背后模型CUA拥有多模态理解能力,能“感知”网络信息,并利用长上下文处理能力连续执行任务,同时具备思维链推理能力,使其能评估观察结果并动态调整。

🚀OpenAI在Agent领域探索已久,从早期的Word of Bits、Universe到WebGPT,再到现在的Operator,不断迭代改进,Operator的出现是多年技术积累的成果。

💡 Agent的潜能被GPT和草莓(o1)两种新范式解锁,强化学习的新范式,Operator的进步速度会像从o1-preview到o3一样飞速提升。

要花1450元才能玩到Operator,让本来满满期待的大伙,一下难受住了。

而交了钱的各位,开始兴奋的晒出各种测试结果。

有网友分享,Operator通过浏览网页在3分钟之内帮打找到了附近牙医诊所,回报了地址和电话。

也有人让它作为研究助手,在arXiv上挨个打开每篇论文,看完后输出总结。

也有“坏人”专门出难题,看AI如何应对:让Operator到ChatGPT官网使用Operator会如何?

但没想到OpenAI预判了他的预判,直接给出一个嘲讽式报错。

试得好,下次别试了。

强如Operator,上网冲浪时也会被验证码难住,但好在它学会了向人类用户求助:

我遇到了一个验证码……你能接管并帮我搞定吗?

没错,这只是一个早期预览版。

参与发布直播的基础研究贡献者(Fundamental Research Contributor)Casey Chu认为,它会犯错误,但它让你提前窥见未来。

而且他的这个帖子,就是Operator寄几发的,成功套娃了:

核心贡献者(Core Contributor)Yilong Qin认为,测试时间计算的Scaling Law在这里继续发挥威力。

给Agent更多时间,它会内省、更新、一遍又一遍地尝试直至最终成功。

同为核心贡献者的姚顺雨表示,有了强化学习的新范式,Operator的进步速度会像从o1-preview到o3一样。

同时他介绍,Agent是OpenAI(甚至是AI)诞生以来就有的目标,在发展过程中做了多次尝试。

但只有发现GPT和草莓(o1)两种新范式后,Agent的潜能才真正被解锁。

2025年将是Agent之年。

他为什么这么说?还要从OpenAI成立之初讲起。

OpenAI的十年Agent之路

早在2016-2017年,OpenAI就通过Word of Bits和Universe探索了让AI操作浏览器上网。

Word of Bits由OpenAI与斯坦福大学合作,参与者包括大家熟悉的Karpathy和Jim Fan、斯坦福大学副教授Percy Liang等,以及姚班校友施天麟。

施天麟只在OpenAI工作了一年,随后在2017年创办了Cresta,业务正是AI Agents 方向,专注于为客服中心提供各种AI助手。

2024年11月,Cresta完成1.25亿美元D轮融资,总融资金额达到2.7亿美元。

OpenAI Universe则是一个Agent训练和测试的平台。他们从李飞飞的ImageNet上受到启发,希望能把图像识别任务上的快速进步复制到Agent领域。

2017年的Universe已经能让AI完成一些简单的浏览器操作,以及玩Atari游戏等任务。

但随后不久,OpenAI就把主要精力从强化学习转向了语言模型GPT系列上。

2021年底,到了GPT-3时代,OpenAI不忘初心推出WebGPT,使用基于文本的Web浏览器更准确地回答开放式问题。

这项研究把GPT-3回答开放式问题的真实性和有用性从20%-30%提升到了40%-80%,但仍未达到人类平均水平。

WebGPT的作者中,有4位也出现在最新的Operator贡献名单里,分别是欧阳龙,Christina Kim,Reiichiro Nakano,Kevin Button。

其中Reiichiro Nakano(中野礼一郎)是Operator项目的研究主管之一,也出现在了发布直播中。

Sam Altman,Yash Kumar,Casey Chu,Reiichiro Nakano

最新的Operator背后模型命名为CUA(Computer Use Agent),与此前的探索相比,有了几项重大突破:

    多模态理解带来“感知”能力,由GPT-4o提供。

    长上下文作为“任务视野”,让Agent能连续执行任务长达20分钟。

    o1式的思维链推理,这种内心独白使模型能够评估其观察结果、跟踪中间步骤并动态适应。

参与、观察了整个十年发展过程的Karpathy总结到:

Operator之于数字世界,就像人形机器人之于物理世界。
在数字世界的发展速度要比物理世界更快,因为翻转比特的成本相比移动原子只有约1/1000。……

与其说2025年是Agent年,不如说2025-2035年是Agent的十年

World of Bits
https://proceedings.mlr.press/v70/shi17a/shi17a.pdf

Universe
https://openai.com/index/universe/

WebGPT
https://openai.com/index/webgpt/

Operator
https://openai.com/index/openai-gym-beta/

参考链接:
[1]
https://www.reddit.com/r/singularity/comments/1i8fi3l/openai_operator_finds_me_an_in_network_dentist/
[2] https://x.com/omarsar0/status/1882545077219926031
[3]https://x.com/liambolling/status/1882565960697282812
[4]https://x.com/caseychu9/status/1882507704566235407
[5]https://x.com/yilongqin/status/1882507643669123230
[6]https://x.com/liambolling/status/1882565960697282812
[7]https://x.com/karpathy/status/1882544526033924438

量子位智库年终发布三大年度报告

带你一起回顾2024年人工智能智能驾驶Robotaxi新趋势,预见2025年科技行业新机遇

2024年度AI十大趋势报告

Robotaxi2024年度格局报告

智能驾驶2024年度报告

一键关注 ? 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!


内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Operator AI Agent OpenAI CUA 强化学习
相关文章