赛博禅心 2024年12月27日
拨开 12 天发布云雾,一窥 OpenAI 的真实进度
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI近期12天连续发布中,第九天的文档更新尤为关键,它着重强调了结构化输出的重要性。从最初36%的成功率到100%的准确率,结构化输出的提升极大促进了AI Agent和现实世界的连接。文章还提出了“多端到多端”的概念,即多模态输入后可同时输出文字、音频和Function Calling指令。此外,Real time API的更新和SDK的发布降低了使用门槛,偏好微调则让模型输出更稳定。这些技术进步为Agent在各行业的落地奠定了基础。

🚀 **结构化输出的突破:** OpenAI的结构化输出技术从最初的低成功率提升至100%准确率,成为AI Agent发展的关键。这使得AI能够稳定地将思考结果转化为可执行的指令,是Agent与现实世界交互的基础。

🗣️ **实时API与多端到多端:** Real time API支持低延迟的结构化输出,并降低了使用成本,使得AI可以更快地响应指令。同时,多端到多端的模式允许AI同时处理多模态输入并产生多样的输出,包括文字、语音和Function Calling指令,增强了AI的应用场景。

⚙️ **偏好微调与SDK:** 新增的偏好微调功能让模型能主动避免不希望出现的输出,提高了输出的稳定性。官方SDK的发布则降低了使用门槛,让更多开发者可以利用这些API进行商业应用。

💡 **Agent落地新可能:** 结构化输出、实时API和多端到多端能力的提升,使得AI Agent不再局限于文本对话,而是可以与IoT设备和线下系统紧密结合,为各行业带来更多的创新应用。

原创 金色传说大聪明 2024-12-27 14:19 广东

不为人所注意

OpenAI 前段时间做了 12 天的持续发布,赛博禅心进行了全程追踪:《o3详解,与 12 天发布汇总


另一点,我想说:整 12 天的发布,最有价值的发布,是「第九天的文档更新」,以及 OAI 围绕结构化输出所做的努力(从 36% 的成功率,到100%的成功率)。这将极大促进 AI agent,以及AI 关联到现实世界的项目发展。


以及,这里我提出了一个新的概念:多端到多端 - 在多模态输入后,将同时输出文字、音频和多重 Function Calling。


请看这个视频里面的交互,是基于 Day 9 的发布:





这两天,再次来到十字路口,和老友歸藏(著名的猫人老师)、Koji 一起回顾了这 12 天的内容,并且更为仔细的聊了聊为什么 Day 9 的发布很重要。以下是对谈记录的节选。

没有激起水花的 Day 9 发布

(内容节选:01:19 - 01:32)


? Koji

直接请大聪明来给我们介绍一下,第九天发布了什么,以及你为什么认为它那么重要。



?? 赛博禅心 - 大聪明

OK,那我们先来看一下官方说明里的内容吧。第九天总体上发布了几大点:

不过实际上,他们发布的东西不止这些,比如在 O1 里还增加了很多参数功能等等。那为什么说这事儿重要呢?我们都知道,2023 年被称为是 Agent 元年,各种 Agent 蓬勃生长;到明年,Agent 很可能进一步爆发,包括感知能力和对 code(代码)的支持等等。



?? 赛博禅心 - 大聪明

在这些 Agent 成长的背后,有一个非常重要的技术革新,叫做『结构化输出』。什么是结构化输出呢?比如,我想让家里的灯变得暗一些。我对灯说『调暗一点』,灯是听不懂人话的,它只能接收像 JSON 这样的结构化指令,比如:

{"device": "灯19号","brightness": 50}

AI 可以当翻译器:我说『灯,调暗一点』,AI 识别到灯当前是 70% 的亮度,然后生成这样一条 JSON 指令告诉灯『把亮度改成 50%』。这就是结构化输出,也是所有 Agent 的基础。



?? 赛博禅心 - 大聪明

在去年的版本里,官方还没有一个特别标准的结构化输出方案,只有一个叫做 Function Calling 的功能,但当时并不是很稳定。很多时候只能靠提示词来做,成功率也不高,可能只有 35.9%,AI 得多试几次才能碰对一次。

后来到了今年 4 月,成功率升到 75.3%;5 月又到 86.4%。而在 8 月 6 号左右的新版本里,他们带来了一个所谓『结构化输出的标准接口』,在严格模式下可达 100% 的输出准确率。这一下子就很厉害,所以我们看到 8 月初之后,很多 Agent 工具雨后春笋般冒出来,都是借助这个高成功率的结构化输出做的。


?? 赛博禅心 - 大聪明

回到刚才说的这些更新点:

    O1 结构化输出
    O1 是一个非常强大的思考工具。如果仅仅用来写文章也无所谓,但如果要把它的输出接到机械控制、IoT 控制等实际场景,就必须要有结构化输出。之前不够稳定,
    这次发布后,就能很稳定地把 O1 的思考结果转化为控制指令

    Real time API
    第九天还发布了 Real time 的 API,它也支持结构化输出。我们有时并不需要让 O1 思考很久,只是让灯 0.3 秒内关掉就行。这就需要低延迟,而 Real time API 的延迟能做到 300 毫秒以下。同时,它还可以输出结构化指令。

    此外,我之前用这个 API 开直播,每小时成本 50 美金,意味着要找到能赚到 200 美金/小时的场景才能不亏,很难。现在他们在 Real-time API 里蒸馏出了一个 mini 模型,每小时 5 美金左右,成本降很多。这样只要找到 20 美金/小时的场景(比如给海外学生做远程辅导)就能跑得起来。

    官方 SDK:不是所有人都擅长玩语音,而在这次的在新的发布里给了官方 SDK,可以直接调模型。这就大大降低了使用门槛,Real-time API 能被更多人商用。


?? 赛博禅心 - 大聪明

还有一个特别的点,他们没在发布会上重点说,但文档里能看出来:以前是『端到端』的模型,比如语音进、语音出,中间转换文字;现在变成了『多端到多端』。它的输入可以同时包含文件、文字、语音、视频等多模态;输出也可以同时是文字、语音、甚至可以带上『Function Calling』的指令。更妙的是,文字输出和语音输出虽有关联,但不一定逐字一致,它是同步生成的。

这样在一些教学场景下,比如我问 AI『给我讲一下为什么三个和尚没水喝?』,它可以同时输出:

如果还要联动别的系统,可以输出 Function Calling 的指令。以前在第九天发布前,几乎做不到这么多端同步的东西。可见这才是第九天的核心。



?? 赛博禅心 - 大聪明

另外还有一个东西,叫做『偏好微调』。官方提到两种微调:

这些更新结合起来,为接下来一年,甚至到 2025 年,Agent 在各行各业的落地奠定了技术基础。否则的话,Agent 可能还停留在『加了提示词的 Chatbot』阶段,缺少真正的可控和可执行能力。


? Koji

所以我觉得 2025 年还是蛮值得期待的,各行各业应该会出现各种可以更好落地的 Agent。之前落不下去,很大原因是效果不够好,无法替代足够多的人工。第九天虽然很低调,但被大家仔细解读后发现,这次发布其实暗含了很多重磅功能。


?? 赛博禅心 - 大聪明

对,而且以往没有这种结构化输出或多端到多端的能力时,我们几乎看到的 Agent 都只是文本式的 Chatbot,最终只能以文字对话。可现在只要再加上 Function Calling,与各类 IoT 或线下商业系统打通,就能紧密结合现实世界,这就太有想象空间了。


如何「预测未来」

(内容节选:01:43 - 01:47)


? Koji

大聪明之前也提到,在 agent 的进步背后是 Function Calling 成功率的提升。那么我想问:对你来说,2024 年最让你印象深刻的 AI 突破是什么?


?? 赛博禅心 - 大聪明

我个人视角可能更偏向项目方。每当我拿到一个新的 AI 产品,无论是 Cursor 也好,还是 Bolt.new 也好,我都会想:它调用了哪些 OpenAI API?是怎么串行或并行调用的?又是怎么加一层外壳包装成为这个应用的?

其实,很多看上去非常『炫酷』的 AI 应用,最后都能拆解成几个 OpenAI API 的组合。



?? 赛博禅心 - 大聪明

那么,当我们在想『明年或接下来几个月会有什么新玩法』时,有个很『Tricky』的做法:每个星期都去看一下 OpenAI API 的更新

在这个过程中,我总结到:今年 OpenAI 各种 API 的更新、以及由此衍生的应用,大多围绕一个词——结构化输出。


?? 赛博禅心 - 大聪明

为什么这么说?


?? 赛博禅心 - 大聪明

从那之后,结构化输出就逐渐成为主流和重点。

到今年,我们看到无论是实时交互 API、多步思考 API、还是其他各种 API,都在围绕着结构化输出不断升级;每次升级,都意味着有了更高的成功率和更完善的规范,让 AI 能更好地处理更大、更复杂的交互场景,且不再停留在 30% 的成功率,而是能做到 100%。 

也就是说,2024 年最让我觉得印象深刻的一点,就是结构化输出已经从一个『小众或不稳定的玩具』,变成了一个能影响现实世界、影响我们整个开发者生态的核心因素。这是我觉得最具突破性的地方。

本次对谈

完整对谈音频,可点击「阅读原文」


?? 嘉宾介绍:




02:18 这 12 天发布会中,最值得关注的重点是什么?

? 12 天发布会

11:26 12 天的完整回顾

14:03 Day 1: 满血 o1 ,ChatGPT Pro $200 会员,o1 Pro

18:49 Day 2: 基于 o1 的强化微调 RFT

21:21 Day 3: Sora

25:15 Day 4: ChatGPT Canvas

32:54 Day 5: 苹果全系接入 GPT

33:08 Day 6: 4o 实时视频通话、视频理解、屏幕理解、圣诞老人语音

37:34 Day 7: ChatGPT Projects

41:18 Day 8: ChatGPT Search 全量开放并优化体验,免费用户可用

41:52 Day 9: o1 API(支持 Function Call,并支持 Function Call 联网)、实时语音 API 更新/降价 & 发布 SDK、模型新增支持:PFT 偏好微调

52:38 Day 10: ChatGPT 的 800 电话、WhatsApp

53:00 Day 11: ChatGPT 桌面版可读取其他应用,且支持 o1 和 4o 高级语音

54:50 Day 12:  OpenAI o3正式发布!


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI 结构化输出 AI Agent 多端到多端 实时API
相关文章