2025-01-25 13:09 贵州
OpenAI首个智能体Operator发布后引起很大反响,Every的CEO与联创Dan也对Operator进行了第一手实测:7个任务,真正成功2个。
Dan也分享了深入研究后得出的一些结论:
浏览限制:Operator 无法访问某些网站,如 Reddit、Figma 和 YouTube,部分原因是这些网站阻止 AI 代理访问,部分是出于性能或法律原因。
任务范围有限:它更适合执行具体的重复性任务,而不是复杂的分析任务。例如,它能够阅读《战争与和平》的第一章,但无法深入分析其中的人物行为和人性洞察。
提示的重要性:虽然 Operator 能够自主完成任务,但用户如何提示它仍然至关重要。详细的提示可以显著提高任务的成功率。
Operator任务测试详情:
1、任务:购票,部分成功
Prompt:帮我找两张 Jamie XX 在洛杉矶举行的下一场演出的门票。
结果:与选定合作伙伴合作,成功;未选择合作伙伴,失败
2、任务:购票,失败
Prompt:找出 Jamie xx 的演出安排以及每场演出的门票价格。
结果:合作失败
3、任务:房屋清洁,失败
Prompt:明天之前我需要雇一个一次性的清洁工来我们家。
结果:失败,没有问我在哪里
4、任务:AI 新闻,成功
Prompt:人工智能的最新消息是什么?
结果:成功,内容非常简短
5、任务:Spotify Wrapped分析,失败
Prompt:我想了解是什么让 Spotify Wrapped 如此成功。
结果:简单提示,失败,陷入循环;复杂提示,OK,多次提醒,报告也不出色
6、任务:预订 Uber,成功
Prompt:现在乘坐 UberX 去机场要多少钱?
结果:取得成功
7、任务:总结一本书,部分成功
Prompt:去读《战争与和平》的第一章,列出托尔斯泰对人性的观察
结果:没有选定合作伙伴,提示复杂,部分成功,无法深入分析
https://every.to/chain-of-thought/we-tried-openai-s-new-agent-here-s-what-we-found
推荐阅读
• 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
• RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!
• Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。