OpenAI的Operator一测一个不吱声~

PaperAgent 01月26日

OpenAI的Operator一测一个不吱声~

Every CEO Dan对OpenAI新发布的智能体Operator进行了实测，结果显示其在七个任务中仅成功完成两个。测试揭示了Operator的浏览限制，无法访问部分网站，并且更擅长执行具体重复性任务而非复杂分析。此外，提示的质量对任务成功率至关重要，详细的提示能显著提高成功率。实测任务包括购票、房屋清洁、AI新闻、Spotify Wrapped分析、预订Uber以及总结书籍，结果喜忧参半，表明Operator仍有很大的改进空间。

🌐 浏览限制：Operator无法访问如Reddit、Figma和YouTube等网站，这限制了其信息获取和任务执行的范围。

🎯 任务范围局限：Operator更适合执行具体的、重复性的任务，而非复杂的分析任务。例如，它可以阅读书籍章节，但无法进行深入的人物分析。

📝 提示重要性：虽然Operator具备自主性，但用户提供的提示仍然至关重要。详细且清晰的提示能显著提高任务的成功率。

🎫 任务成功率参差：在七个测试任务中，Operator在购票、AI新闻和预订Uber方面取得成功，但在其他任务中表现不佳，反映出其能力的不均衡性。

2025-01-25 13:09 贵州

OpenAI首个智能体Operator发布后引起很大反响，Every的CEO与联创Dan也对Operator进行了第一手实测：7个任务，真正成功2个。

Dan也分享了深入研究后得出的一些结论：

浏览限制：Operator 无法访问某些网站，如 Reddit、Figma 和 YouTube，部分原因是这些网站阻止 AI 代理访问，部分是出于性能或法律原因。

任务范围有限：它更适合执行具体的重复性任务，而不是复杂的分析任务。例如，它能够阅读《战争与和平》的第一章，但无法深入分析其中的人物行为和人性洞察。

提示的重要性：虽然 Operator 能够自主完成任务，但用户如何提示它仍然至关重要。详细的提示可以显著提高任务的成功率。

Operator任务测试详情：

1、任务：购票，部分成功

Prompt：帮我找两张 Jamie XX 在洛杉矶举行的下一场演出的门票。

结果：与选定合作伙伴合作，成功；未选择合作伙伴，失败

2、任务：购票，失败

Prompt：找出 Jamie xx 的演出安排以及每场演出的门票价格。

结果：合作失败

3、任务：房屋清洁，失败

Prompt：明天之前我需要雇一个一次性的清洁工来我们家。

结果：失败，没有问我在哪里

4、任务：AI 新闻，成功

Prompt：人工智能的最新消息是什么？

结果：成功，内容非常简短

5、任务：Spotify Wrapped分析，失败

Prompt：我想了解是什么让 Spotify Wrapped 如此成功。

结果：简单提示，失败，陷入循环；复杂提示，OK，多次提醒，报告也不出色

6、任务：预订 Uber，成功

Prompt：现在乘坐 UberX 去机场要多少钱？

结果：取得成功

7、任务：总结一本书，部分成功

Prompt：去读《战争与和平》的第一章，列出托尔斯泰对人性的观察

结果：没有选定合作伙伴，提示复杂，部分成功，无法深入分析

https://every.to/chain-of-thought/we-tried-openai-s-new-agent-here-s-what-we-found

推荐阅读

• 对齐LLM偏好的直接偏好优化方法：DPO、IPO、KTO

• 2024：ToB、Agent、多模态

• RAG全景图：从RAG启蒙到高级RAG之36技，再到终章Agentic RAG！

• Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解（1.2万字，20+文献，27张图）

欢迎关注我的公众号“PaperAgent”，每天一篇大模型（LLM）文章来锻炼我们的思维，简单的例子，不简单的方法，提升自己。

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI Operator 智能体任务测试 AI局限提示工程

相关文章

Anthropic AI Launches a Prompt Engineering Tool that Generates Production-Ready Prompts in the Anthropic Console

Mental Models for Advanced ChatGPT Prompting with Riley Goodside - #652

吴恩达新写的提示工程技巧，主要的内容就四步： 1. 快速撰写简单的提示并测试其效果。 2.根据结果的不足，逐步丰富和细化提示，这可能导致更长、更详细的提示，...

很多朋友私信问这个自动写提示词的工具，再发一次： https://chatgpt.com/g/g-kI5r8f57x-zi-dong-jie-gou-hua-kuang-jia 结合 RAG 可以快速搓出 prompt 的逻辑框...

昆仑万维与北京联通达成战略合作

百度何俊杰：大模型不应该只向内卷算力、卷参数，更应该向外卷场景、卷问题

The Verbal Revolution: Unlocking Prompt Engineering with Langchain

Show HN: Genschool - 促进工程学学习的互动平台

Ask HN: 如何促使人工智能有效地总结一本书？

Sharpening LLMs: The Sharpest Tools and Essential Techniques for Precision and Clarity