PaperAgent 01月26日
OpenAI的Operator一测一个不吱声~
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Every CEO Dan对OpenAI新发布的智能体Operator进行了实测,结果显示其在七个任务中仅成功完成两个。测试揭示了Operator的浏览限制,无法访问部分网站,并且更擅长执行具体重复性任务而非复杂分析。此外,提示的质量对任务成功率至关重要,详细的提示能显著提高成功率。实测任务包括购票、房屋清洁、AI新闻、Spotify Wrapped分析、预订Uber以及总结书籍,结果喜忧参半,表明Operator仍有很大的改进空间。

🌐 浏览限制:Operator无法访问如Reddit、Figma和YouTube等网站,这限制了其信息获取和任务执行的范围。

🎯 任务范围局限:Operator更适合执行具体的、重复性的任务,而非复杂的分析任务。例如,它可以阅读书籍章节,但无法进行深入的人物分析。

📝 提示重要性:虽然Operator具备自主性,但用户提供的提示仍然至关重要。详细且清晰的提示能显著提高任务的成功率。

🎫 任务成功率参差:在七个测试任务中,Operator在购票、AI新闻和预订Uber方面取得成功,但在其他任务中表现不佳,反映出其能力的不均衡性。

2025-01-25 13:09 贵州

OpenAI首个智能体Operator发布后引起很大反响,Every的CEO与联创Dan也对Operator进行了第一手实测:7个任务,真正成功2个

Dan也分享了深入研究后得出的一些结论:

    浏览限制:Operator 无法访问某些网站,如 Reddit、Figma 和 YouTube,部分原因是这些网站阻止 AI 代理访问,部分是出于性能或法律原因。

    任务范围有限:它更适合执行具体的重复性任务,而不是复杂的分析任务。例如,它能够阅读《战争与和平》的第一章,但无法深入分析其中的人物行为和人性洞察。

    提示的重要性:虽然 Operator 能够自主完成任务,但用户如何提示它仍然至关重要。详细的提示可以显著提高任务的成功率。

Operator任务测试详情:

1、任务:购票,部分成功

结果:与选定合作伙伴合作,成功;未选择合作伙伴,失败

2、任务:购票,失败

结果:合作失败

3、任务:房屋清洁,失败

结果:失败,没有问我在哪里

4、任务:AI 新闻,成功

结果:成功,内容非常简短

5、任务:Spotify Wrapped分析失败 

6、任务:预订 Uber,成功

结果:取得成功

7、任务:总结一本书,部分成功

结果:没有选定合作伙伴,提示复杂,部分成功,无法深入分析

https://every.to/chain-of-thought/we-tried-openai-s-new-agent-here-s-what-we-found

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI Operator 智能体 任务测试 AI局限 提示工程
相关文章