在这周回顾 OpenAI 12 天发布会内容的播客中， @葬花达人鲁智深提到，整 12 天的发布，最有价值的发布，是「第九天的文档更新」，以及 OAI 围绕结构化输出所做...

OpenAI 前段时间做了 12 天的持续发布，赛博禅心进行了全程追踪：《o3详解，与 12 天发布汇总》另一点，我想说：整 12 天的发布，最有价值的发布，是「第九天的文档更新」，以及 OAI 围绕结构化输出所做的努力（从 36% 的成功率，到100%的成功率）。这将极大促进 AI agent，以及AI 关联到现实世界的项目发展。以及，这里我提出了一个新的概念：多端到多端 - 在多模态输入后，将同时输出文字、音频和多重 Function Calling。请看这个视频里面的交互，是基于 Day 9 的发布：这两天，再次来到十字路口，和老友歸藏（著名的猫人老师）、Koji 一起回顾了这 12 天的内容，并且更为仔细的聊了聊为什么 Day 9 的发布很重要。以下是对谈记录的节选。没有激起水花的 Day 9 发布（内容节选：01:19 - 01:32）? Koji直接请大聪明来给我们介绍一下，第九天发布了什么，以及你为什么认为它那么重要。?? 赛博禅心 - 大聪明OK，那我们先来看一下官方说明里的内容吧。第九天总体上发布了几大点：不过实际上，他们发布的东西不止这些，比如在 O1 里还增加了很多参数功能等等。那为什么说这事儿重要呢？我们都知道，2023 年被称为是 Agent 元年，各种 Agent 蓬勃生长；到明年，Agent 很可能进一步爆发，包括感知能力和对 code（代码）的支持等等。?? 赛博禅心 - 大聪明在这些 Agent 成长的背后，有一个非常重要的技术革新，叫做『结构化输出』。什么是结构化输出呢？比如，我想让家里的灯变得暗一些。我对灯说『调暗一点』，灯是听不懂人话的，它只能接收像 JSON 这样的结构化指令，比如：{"device": "灯19号","brightness": 50}AI 可以当翻译器：我说『灯，调暗一点』，AI 识别到灯当前是 70% 的亮度，然后生成这样一条 JSON 指令告诉灯『把亮度改成 50%』。这就是结构化输出，也是所有 Agent 的基础。?? 赛博禅心 - 大聪明在去年的版本里，官方还没有一个特别标准的结构化输出方案，只有一个叫做 Function Calling 的功能，但当时并不是很稳定。很多时候只能靠提示词来做，成功率也不高，可能只有 35.9%，AI 得多试几次才能碰对一次。后来到了今年 4 月，成功率升到 75.3%；5 月又到 86.4%。而在 8 月 6 号左右的新版本里，他们带来了一个所谓『结构化输出的标准接口』，在严格模式下可达 100% 的输出准确率。这一下子就很厉害，所以我们看到 8 月初之后，很多 Agent 工具雨后春笋般冒出来，都是借助这个高成功率的结构化输出做的。?? 赛博禅心 - 大聪明回到刚才说的这些更新点：O1 结构化输出O1 是一个非常强大的思考工具。如果仅仅用来写文章也无所谓，但如果要把它的输出接到机械控制、IoT 控制等实际场景，就必须要有结构化输出。之前不够稳定，这次发布后，就能很稳定地把 O1 的思考结果转化为控制指令。Real time API第九天还发布了 Real time 的 API，它也支持结构化输出。我们有时并不需要让 O1 思考很久，只是让灯 0.3 秒内关掉就行。这就需要低延迟，而 Real time API 的延迟能做到 300 毫秒以下。同时，它还可以输出结构化指令。此外，我之前用这个 API 开直播，每小时成本 50 美金，意味着要找到能赚到 200 美金/小时的场景才能不亏，很难。现在他们在 Real-time API 里蒸馏出了一个 mini 模型，每小时 5 美金左右，成本降很多。这样只要找到 20 美金/小时的场景（比如给海外学生做远程辅导）就能跑得起来。官方 SDK：不是所有人都擅长玩语音，而在这次的在新的发布里给了官方 SDK，可以直接调模型。这就大大降低了使用门槛，Real-time API 能被更多人商用。?? 赛博禅心 - 大聪明还有一个特别的点，他们没在发布会上重点说，但文档里能看出来：以前是『端到端』的模型，比如语音进、语音出，中间转换文字；现在变成了『多端到多端』。它的输入可以同时包含文件、文字、语音、视频等多模态；输出也可以同时是文字、语音、甚至可以带上『Function Calling』的指令。更妙的是，文字输出和语音输出虽有关联，但不一定逐字一致，它是同步生成的。这样在一些教学场景下，比如我问 AI『给我讲一下为什么三个和尚没水喝？』，它可以同时输出：如果还要联动别的系统，可以输出 Function Calling 的指令。以前在第九天发布前，几乎做不到这么多端同步的东西。可见这才是第九天的核心。?? 赛博禅心 - 大聪明另外还有一个东西，叫做『偏好微调』。官方提到两种微调：这些更新结合起来，为接下来一年，甚至到 2025 年，Agent 在各行各业的落地奠定了技术基础。否则的话，Agent 可能还停留在『加了提示词的 Chatbot』阶段，缺少真正的可控和可执行能力。? Koji所以我觉得 2025 年还是蛮值得期待的，各行各业应该会出现各种可以更好落地的 Agent。之前落不下去，很大原因是效果不够好，无法替代足够多的人工。第九天虽然很低调，但被大家仔细解读后发现，这次发布其实暗含了很多重磅功能。?? 赛博禅心 - 大聪明对，而且以往没有这种结构化输出或多端到多端的能力时，我们几乎看到的 Agent 都只是文本式的 Chatbot，最终只能以文字对话。可现在只要再加上 Function Calling，与各类 IoT 或线下商业系统打通，就能紧密结合现实世界，这就太有想象空间了。如何「预测未来」（内容节选：01:43 - 01:47）? Koji大聪明之前也提到，在 agent 的进步背后是 Function Calling 成功率的提升。那么我想问：对你来说，2024 年最让你印象深刻的 AI 突破是什么？?? 赛博禅心 - 大聪明我个人视角可能更偏向项目方。每当我拿到一个新的 AI 产品，无论是 Cursor 也好，还是 Bolt.new 也好，我都会想：它调用了哪些 OpenAI API？是怎么串行或并行调用的？又是怎么加一层外壳包装成为这个应用的？其实，很多看上去非常『炫酷』的 AI 应用，最后都能拆解成几个 OpenAI API 的组合。?? 赛博禅心 - 大聪明那么，当我们在想『明年或接下来几个月会有什么新玩法』时，有个很『Tricky』的做法：每个星期都去看一下 OpenAI API 的更新。在这个过程中，我总结到：今年 OpenAI 各种 API 的更新、以及由此衍生的应用，大多围绕一个词——结构化输出。?? 赛博禅心 - 大聪明为什么这么说？去年年初，也就是 3 月份，OpenAI 发布了第一版结构化输出方案；当时并不是以公开 API 的方式提供，而是某种内测形式。到去年 6 月，OpenAI 发现 agent 是一个非常可落地的场景，就找了很多做 agent 的开发者，一起来迭代这个结构化输出方案。然后在去年 11 月 6 号，OpenAI 比较低调地发布了一个被称为『JSON mode』的模式（有时也和 Function Calling、结构化输出概念混用）——让 AI 能稳定地输出程序化的 JSON 格式。?? 赛博禅心 - 大聪明从那之后，结构化输出就逐渐成为主流和重点。到今年，我们看到无论是实时交互 API、多步思考 API、还是其他各种 API，都在围绕着结构化输出不断升级；每次升级，都意味着有了更高的成功率和更完善的规范，让 AI 能更好地处理更大、更复杂的交互场景，且不再停留在 30% 的成功率，而是能做到 100%。也就是说，2024 年最让我觉得印象深刻的一点，就是结构化输出已经从一个『小众或不稳定的玩具』，变成了一个能影响现实世界、影响我们整个开发者生态的核心因素。这是我觉得最具突破性的地方。本次对谈完整对谈音频，可点击「阅读原文」?? 嘉宾介绍：? 02:18 这 12 天发布会中，最值得关注的重点是什么？? 12 天发布会? 11:26 12 天的完整回顾? 14:03 Day 1: 满血 o1 ，ChatGPT Pro $200 会员，o1 Pro? 18:49 Day 2: 基于 o1 的强化微调 RFT? 21:21 Day 3: Sora? 25:15 Day 4: ChatGPT Canvas? 32:54 Day 5: 苹果全系接入 GPT? 33:08 Day 6: 4o 实时视频通话、视频理解、屏幕理解、圣诞老人语音? 37:34 Day 7: ChatGPT Projects? 41:18 Day 8: ChatGPT Search 全量开放并优化体验，免费用户可用? 41:52 Day 9: o1 API(支持 Function Call，并支持 Function Call 联网)、实时语音 API 更新/降价 & 发布 SDK、模型新增支持：PFT 偏好微调? 52:38 Day 10: ChatGPT 的 800 电话、WhatsApp? 53:00 Day 11: ChatGPT 桌面版可读取其他应用，且支持 o1 和 4o 高级语音? 54:50 Day 12: OpenAI o3正式发布！

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签