赛博禅心 03月12日 18:12
联网/用电脑... OpenAI 新 Agent 套件全解析(另附:发布会没说的 30+ 要点)
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI发布了全套Agent开发套件,包括Responses API、内置工具(网页搜索、文件搜索和CUA)、Agents SDK以及监控工具。Responses API是为Agent优化的API,支持新内置工具和可预测的流式事件。内置工具包括网页搜索、文件搜索和CUA,CUA类似智谱的牛牛,可以通过截图理解界面状态并执行交互操作。Agents SDK是一个开源Agent框架,支持构建和管理复杂的单Agent和多Agent系统。OpenAI还提供了监控工具Logs和Traces,帮助开发者追踪和检查Agent工作流的执行过程。这次发布比GPT 4.5更有诚意,预示着2025年将是Agent之年。

🔑 Responses API:OpenAI推出了专门为Agent优化的Responses API,它支持新的内置工具,并支持可预测性的流式事件,极大地简化了项目的复杂度,可以视作Chat API的上位升级。

🔍 内置工具:OpenAI Agent开发套件包含三种内置工具,分别是网页搜索、文件搜索和Computer Use Agent(CUA)。网页搜索允许配置国家、城市、时区、搜索强度等;文件搜索允许用户上传文件到OpenAI的向量库并使用file_search来获取回答;CUA则可以通过截图理解界面状态并执行交互操作,实现自动化任务。

🛠️ Agents SDK:OpenAI开源了一个Agent框架,这是一个支持multi-agent的框架,任何符合OpenAI Chat Completions API 的模型都可以使用。这个框架提供了基础示例、代理交接和函数工具等功能。

📊 监控工具:OpenAI提供了Logs和Traces两种监控工具,开发者可以通过这些工具追踪和检查Agent工作流的执行过程。Logs用于记录请求,Traces用于监控Agent调试过程。

原创 金色传说大聪明 2025-03-12 07:45 北京

给大家带来最完整的呈现

下面这个,不是 Manus,是 OpenAI 新货:

凌晨 1 点的时候,OpenAI 发布了全套 Agent 开发套件,让手搓 Manus 触手可及。套件包含 4 个主要内容


不黑不吹:这次的发布,比 GPT 4.5 有诚意太多了,值得掌声

在这篇文章里,我将结合发布会里的内容,以及「发布上没说,但我知道的」内容,给大家带来最完整的呈现。


先说 Responses API

这是一个专门为 Agent 进行优化的 API,并支持以往 API (Chat Completions API)的所有功能。

这里需要小吹一下:Responses API 支持新的内置工具,并支持可预测性的流式事件,极大的简化了项目的复杂度


可以看一下这个视频,感受下:

为了直观的展示能力,这里我做了个对比图:


对于原本的 Chat Completions API,未来虽不会下线,但一些新模型可能不再支持。

因此:如果没有历史包袱,开新坑的时候,无脑用新 API 就好了

从调用的角度,差异不大,稍微修改下就好了


你看到这篇文章,很可能是老板发过来的:让你整理下这东西的价值/特性。

我给整理好了,贴在这里。



这里说个八卦,在 23 年的时候,OpenAI 搞了个叫做 Assistants API,被建议用于 Agent 开发。

而那时,作为 OpenAI 的生态负责人的 Logan,也向外传递了这一消息。


但老实讲,这个 API 非常非常难用,甚至还要额外付费,就一直没啥人用,于是...


24年3月初的时候,Logan 突然离职(那段时间,OpenAI 风波不断)


自那之后,关于 Assistants API 的升级的事儿,就没后文了。

再然后就是今天 Response API 发布后,Assistants API 被预告了将在 2026 年下线。

果然,曾经的小甜甜,今天的牛夫人。




Built-in Tools

在这次的官方发布中,包含三种内置工具:

按官方计划,之后还会再加入「代码编译器」,等更新吧


这些东西,都需要前面提到的 Responses API,方式较为通用

from openai import OpenAI
client = OpenAI()

response = client.responses.create(
    model: "适用模型",  // computer-use-preview或gpt-4o等     
    tools: [{          
    type"工具名称",  // web_search_preview, file_search, computer_use_preview         // 工具特定参数...     
    }],
    truncation: "auto",  // computer_use必需
    input="What was a positive news story from today?"
    // 其他参数...
)

print(response.output_text)


Web Search / 网页搜索

没错...现在 OpenAI 的 API 支持搜索了,允许你配置的东西还蛮多的,比如国家、城市、时区、搜索强度等。

要点我整理如下:

老实讲,虽在合理范围,但还是偏贵。作为对比,常规的搜索 API 官方价格如下:


File Search / 文件搜索

这不算是新功能,之前就推出过,算是个版本更新。

使用流程大抵是:


同样的,我给做了一份要点可视化


Computer Use Agent(CUA)

它很像智谱的牛牛:《附内测地址:AI 开始接管物理世界》,让 AI 通过截图理解界面状态并执行交互操作,实现自动化任务。


我翻了下接口文档,发现这东西目前支持 9 种行为


这些行为,将会被 CUA 进行自动的组合和执行,达到操作电脑的效果



按 OpenAI 的说法,性能肯定是 Sota(遥遥领先) 的


对了,如果你想快速体验,可以直接 fork 这个项目

https://github.com/openai/openai-cua-sample-app




Agents SDK

这次,必须得吹爆 OpenAI 了,他们开源了一个硬货:OpenAI Agent 框架。

Git 地址在这:

https://github.com/openai/openai-agents-python


这是一个支持 multi-agent 的框架,任何符合 OpenAI Chat Completions API 的模型都可以来用。

换句话说,DeepSeek 也能用 OpenAI 的这个框架


这里放几个示例


基础示例

pip install openai-agents
from agents import Agent, Runner

agent = Agent(name="Assistant", instructions="You are a helpful assistant")

result = Runner.run_sync(agent, "Write a haiku about recursion in programming.")
print(result.final_output)
# 输出: Code within the code,
#      Functions calling themselves,
#      Infinite loop's dance.


代理交接

pip install openai-agents
from agents import Agent, Runner
import asyncio

spanish_agent = Agent(
    name="Spanish agent",
    instructions="You only speak Spanish.",
)

english_agent = Agent(
    name="English agent",
    instructions="You only speak English",
)

triage_agent = Agent(
    name="Triage agent",
    instructions="Handoff to the appropriate agent based on the language of the request.",
    handoffs=[spanish_agent, english_agent],
)

async def main():
    result = await Runner.run(triage_agent, input="Hola, ¿cómo estás?")
    print(result.final_output)
    # 输出: ¡Hola! Estoy bien, gracias por preguntar. ¿Y tú, cómo estás?

if __name__ == "__main__":
    asyncio.run(main())


函数工具

import asyncio
from agents import Agent, Runner, function_tool

@function_tool
def get_weather(city: str) -> str:
    return f"The weather in {city} is sunny."

agent = Agent(
    name="Hello world",
    instructions="You are a helpful agent.",
    tools=[get_weather],
)

async def main():
    result = await Runner.run(agent, input="What's the weather in Tokyo?")
    print(result.final_output)
    # 输出: The weather in Tokyo is sunny.

if __name__ == "__main__":
    asyncio.run(main())


监控工具

OpenAI 这次带来了两个监控工具,一个叫 Logs,一个叫 Traces,都在:

https://platform.openai.com/traces


对于请求,是会被归入 Logs 里;

如果是 Agent 调试,整个监控也会被归入 Trace,就像是这样;


你可以在这里找到文档:

https://openai.github.io/openai-agents-python/


但我相信..如果你和我一样,是 Colab 用户,那么在调试的过程中,可能会出现这个问题:

之后 OpenAI 的朋友提醒道:在载入 openai agents 之前,先设置环境变量就行了

(我认为这是 bug,hhhhhh)

(以及在我测试下,记录还有点小的 bug,也反馈了,等修好)




最后

在发布会的最后,主持人说了这么一句:

2025 is going to be the year of Agent

2025,是 Agent 之年


那么,加油!你也可以站在聚光灯下!


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI Agent Responses API Agents SDK Agent开发
相关文章