2025-03-12 10:59 湖北
OpenAI举行了一场面向开发者的直播,推出Agent开发套件,帮助开发人员构建可靠且强大的 AI Agents:
内置工具(Built-in tools):包括网页搜索、文件搜索以及电脑使用(Computer Use)
Responses API :新的响应API,将 Chat Completions API 的简单性与 Assistants API 的工具使用功能相结合,用于构建Agents
Agents SDK:协调Single-Agent和Multi-Agent工作流程
监控工具:集成可观察性工具跟踪和检查Agent工作流程的执行情况
其中:Agents SDK是开源的,并且还开源了一个Computer Using Agent项目
1、Agents SDK项目
OpenAI Agents SDK 是一个轻量级但功能强大的框架,用于构建多智能体工作流。
核心概念:
Agent(智能体):经过指令配置的大型语言模型(LLMs),配备工具、防护栏和交接功能。
Handoffs(交接):允许智能体将特定任务的控制权移交给其他智能体。
Guardrails(防护栏):可配置的安全检查,用于输入和输出验证。
Tracing(追踪):内置的智能体运行跟踪功能,允许你查看、调试和优化你的工作流。
2、Computer Using Agent 项目
OpenAI提供了一个使用 OpenAI API构建计算机使用Agent(CUA:Computer Using Agent) 的示例应用程序:
计算机使用工具以连续循环的方式运行。它发送计算机操作(例如click(x,y)或type(text)),代码会在计算机或浏览器环境中执行这些操作,然后将结果的屏幕截图返回给模型。
通过这种方式,代码可以使用计算机界面模拟人类的动作,而模型则可以利用屏幕截图来了解环境的状态并提出下一步的动作。
通过此循环,可以自动执行许多需要点击、输入、滚动等操作的任务。例如,预订航班、搜索产品或填写表格。
Agents Blog: https://openai.com/index/new-tools-for-building-agents
Built-in tools: https://platform.openai.com/docs/guides/tools?api-mode=responses
Responses API: https://platform.openai.com/docs/api-reference/responses
Agents SDK项目:https://github.com/openai/openai-agents-python
Computer Using Agent项目:https://github.com/openai/openai-cua-sample-app
推荐阅读
• 动手设计AI Agents:Coze版(编排、记忆、插件、workflow、协作)
• RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!
• Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。