来自现场：OpenAI 把实时交互，卷到了新高度

原创金色传说大聪明 2024-11-21 17:03 新加坡

一线报道，来自赛博禅心

参加了 OpenAI 的今日发布

OpenAI Dev Day

在新加坡，大概 200 人

好些熟面孔

在第一排，带来更好、更新的内容

发布之前

先是在今天凌晨，4o 模型来了一波小的更新，版本号 gpt-4o-2024-11-20。主要对写作进行了加强，让其产出的内容更自然、易读（减少所谓 G 味）。在大模型竞技场 LMSYS 中，甚至击败了 o1，成了榜一大哥。　

很显然，这是不错的成绩

对此，我跟 OAI 训练模型的老哥聊了下，并表示祝贺（毕竟 4o 比 o1 还猛，有点东西）

老哥跟我说：其实这并不意味着太多，毕竟 LMSYS 的评分还是有局限的

会前闲聊时，OAI 的朋友还夸了下 DeepSeek：

DeepSeek is really solid（原话）

前情提要：《DeepSeek 推理模型预览版上线，解密 o1 推理过程》

以及...

- “我们不聊 Future Product“

- “那聊聊 Sora 吧”

本次发布

这次发布会，OAI 先整了些花活，比如用 o1 做了个无人机控制程序，然后现场遥控无人机。

对于 o1，之后将支持以下内容：

Function Calling / 函数调用

Developer Message / 开发者消息

Structured Outtputs / 结构化输出

Image Understanding / 图片理解

额外的，在研究了下 api 细节后，我发现接下来 语音理解 应该也会上。

之后是关于 Realtime API 的演示，并带来了更强大的实时语音交互，甚至支持多种语言的混合输入，以及混合输出（没录上，哭了，比 whisper 效果好很多很多），然后情绪、语气非常到位的进行混合输出。现场效果很炸裂。

主讲人用多种语言讲述的，并让 AI 用多种语言回应

以及，Realtime 的语音 API 也迎来了 Cache 调价，输出部分打了 2 折。简单算了下，对于大量相近内容的客服场景，调用成本大概是 50 人民币/小时，和人工队相比，开始有了竞争力（毕竟 AI 很容易规模化）。

输入的 cache 价格，从 $100 降到了 $20

另一个演示，是让 AI 来点单（还是很逼真的）：在过程中，AI 进行了全自动点餐，包括确认需求，以及... 调整价格。

还有个有趣的，演讲者让 Realtime API based demo 从 0 开始输出，慢慢的：

于是 One...Two...Three...F- [打断]

问：现在你数到几了？

回答：Four

对于 Function Call，Realtime API 也获得了更新。这使得之后的实时语音，不局限于对话了，而是可以进行如操作电脑、联网、查找资料等功能。在发布会现场，演示人展示了如何「言出法随」操作天体。

做成声控的动态幻灯片，效果很惊艳

业务实践

主场发布之后，OpenAI 的朋友还做了 3 个主题分享，涵盖三个关键方向：　

通过结构化输出来提升模型响应的准确性和可靠性

利用模型蒸馏技术来平衡性能与成本

以及运用实时 API 来实现更自然的人机交互体验。

Structured Outputs/ 结构化输出　

包括原理和实践，如何通过严格遵循 JSON 格式规范，提升输出结果的可靠性和一致性，让数据更易于处理和集成。　

结构化输出介绍过：看完这篇，你也能做 AI 搜索：论「结构化输出」

这次提到了一个有趣的点：OpenAI 的接口，首次进行结构化输出的时候，会稍慢一点，之后会快，其原因是... 进行了 cache。

从实现的角度，这里并非「prefill + tag + 正则」（Claude CookBook 做法），而是另辟蹊径，也解决了持续输出"\n\n\n..." 问题

同行交流

除了 OpenAI 的人外，还有几个开发者，也登台分享他们的经验。　

Supabase 团队：如何使用他们的产品，通过 AI 能力，无痛搭建数据库。

Grab 团队：如何通过 AI 视觉，解决地图定位问题的精准度问题。

SWYX：深入剖析 AI Agent 的工程化实践，探索如何构建可靠、高效的智能代理系统。

SWYX 老哥的 PPT 是公开的

可以在他的个人网站上找到

https://www.swyx.io/

当然

公众号回复「SWYX」，也可获得　

不出意外

写到这行时，发布会结束

按日程，大家一起去酒吧下半场

搞 AI 的都是酒懵子，这很合理　

正如橘子所说，AI 和精酿有两个共通点：　

都有幻觉　

都是泡沫　

我的域名，还有升值空间

www.agi.bar

跳转微信打开

发布之前

本次发布

业务实践

同行交流

不出意外

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签