36氪 - 科技频道 03月12日
Open AI发布智能体全家桶
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI近期推出了“智能体全家桶”,包括Responses API和Agents SDK,旨在实现更自主和实用的AI。Responses API集成了聊天功能和多种工具,支持多模态响应,并提供实时信息和引用来源。Agents SDK是一个开源框架,允许多个智能体协作完成复杂任务,内置Web Search Tool、File Search Tool和Computer Use Tool等强大工具。普通用户可通过订阅ChatGPT Pro会员等方式使用,但价格较高。OpenAI表示将继续深化API整合,推动AI智能体的发展,预示着2025年可能是AI智能体发展的元年。

💡Responses API:OpenAI发布的新工具,集成了聊天功能和网页、文件搜索等多种工具,基于ChatGPT的搜索模型,提供实时信息和引用来源,支持文本、图像、音频等多模态响应。

🤖Agents SDK:开源框架,允许多个智能体互相协作完成复杂任务,例如电商公司可利用此框架创建自动化订单处理系统,将订单、库存、支付、发货和客户通知智能体串联起来。

🧰内置工具:Agents SDK内置Web Search Tool(通过互联网获取最新信息)、File Search Tool(专门从文档里检索信息)和Computer Use Tool(AI在计算机上直接执行任务)三个强大工具,扩展了智能体的应用范围。

💰使用成本:普通用户可以通过订阅ChatGPT Pro会员(200美元/月)、Team或Enterprise计划来使用,Web搜索、文件搜索和计算机使用工具等功能也分别有相应的收费标准。

前几天我写文章提到,ChatGPT、Grok3、通义千问这些产品,会经历四个发展阶段,最后一个阶段是“自主智能”。

什么是自主智能?我们给它一个任务或者想法,它不仅能给出答案,还能主动把各种交互形式加进去,比如生成图表、图片、思维导图之类的,真正变得又自主又实用。

没想到,这个设想这么快实现了。不到一周时间,昨天晚上OpenAI推出了它的“智能体全家桶”。

那么,智能体全家桶到底有哪些能力呢?

首先,他们发布了一个新工具,叫Responses API。这是一个把聊天功能和多种工具(比如网页搜索、文件搜索)集成在一起的API接口。

它基于ChatGPT的搜索模型,能提供实时信息,还会附上引用来源;具体来说,Responses API把Chat Completions API(主要是用来生成对话回复)的简洁性,和Assistants API(能让AI调用外部功能,比如查资料、操作东西)的工具使用能力结合在一起,成了构建Agent应用的新基础。

这个API还支持多模态响应,像文本、图像、音频都能搞定。

然后,他们又发布了一个开源框架:Agents SDK。

你可以把它理解成一个智能体软件开发包。在这个开发包里,多个智能体可以互相协作,完成复杂任务。就好比有个智能体总指挥官,负责管理和调度各个智能体,确保它们按照既定流程和规则完成任务。

举个例子:

如果你是一家电商公司,想自动化处理订单,可以用这个框架创建一个自动化系统。

设置一个智能体从客户那里获取订单并验证信息,另一个智能体负责检查库存,再有一个智能体负责订单发货。最后,把订单智能体、库存智能体、支付智能体、发货智能体和客户通知智能体串联起来,整个流程就自动化了。

在Agents SDK中,还内置三个强大的工具,分别是Web Search Tool、File Search Tool 和 Computer Use Tool。

Web Search Tool,顾名思义,能让模型通过互联网获取最新信息。它支持GPT-4o和GPT-4o-mini模型,能快速检索网页内容并提取关键信息,帮助智能体更好地理解和处理任务。

File Search Tool专门从文档里检索信息。它支持元数据过滤和直接文档内搜索,能快速定位和提取文件里的相关内容,特别适合处理大量文档数据。

Computer Use Tool,就是AI可以在计算机上直接执行任务。它让智能体有了类似人类的操作能力,比如浏览网页、填写表单、操作软件等,大大扩展了智能体的应用范围。

OpenAI说,相比去年开源的Agent SDK,这个SDK有了新的改进。

那普通用户怎么用这款产品呢?

OpenAI会通过API公开支持Operator的CUA模型,让开发者构建自己的智能体。开发者可以用API访问这些功能。

Operator的能力其实不算陌生。早在今年1月,它就发布了界面框架。Operator由一个叫“计算机使用智能体”(Computer-Using Agent,CUA)的新模型支持,能通过屏幕截图“观察”界面,并执行鼠标和键盘允许的所有操作,这样就能在没有自定义API集成的情况下,在Web上采取行动。

如果遇到错误,Operator可以利用它的推理能力自我纠正;如果遇到难题,它还会把控制权交还给用户。

不过,这款工具预计要到2026年才会开放,到时候会逐步替换旧的Assistants API。

对于C端用户,可以订阅ChatGPT的Pro会员(200美元/月)、Team或Enterprise计划来使用。从价格来看,确实有点贵。

另外,Web搜索的费用是每千次查询:GPT-4o搜索30美元,GPT-4o-mini搜索25美元;文件搜索每千次查询2.5美元,文件存储费用是0.1美元/GB/天(首GB免费);计算机使用工具则是按每输入100万token收费3美元,每输出100万token收费12美元。

OpenAI表示,随着模型能力逐渐具备更多智能体属性,他们会继续深化API之间的整合,并提供新工具,帮助用户在生产环境中部署、评估和优化智能体。

真是太卷了。

深度推理模型潮刚过,新一波又接上了。我觉得2025年可能是AI智能体发展的元年,现在各大厂商已经开始纷纷布局了。

昨天我看到Manus和通义千问的合作,那接下来,腾讯、Kimi、豆包这些平台里,又有哪些进化呢?这些能力会不见进一步影响到企业软件市场呢?

值得期待持续关注。

参考地址:

[1].https://openai.com/index/new-tools-for-building-agents/

[2].:https://www.youtube.com/watch?v=hciNKcLwSes

本文来自微信公众号“王智远”(ID:Z201440),作者:王智远,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI 智能体 Agents SDK Responses API
相关文章