赛博禅心 2024年11月21日
来自现场:OpenAI 把实时交互,卷到了新高度
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI 在新加坡举办的 Dev Day 发布会上,带来了 GPT-4 0 模型的更新,强化了写作能力并提升了 LMSYS 评分。此外,o1 模型将支持函数调用、开发者消息、结构化输出和图像理解等功能,并即将支持语音理解。实时语音 API 迎来重大更新,支持多种语言混合输入输出,并大幅降低了成本,在客服等场景下具有竞争力。发布会还涵盖了结构化输出、模型蒸馏和实时 API 等主题分享,展示了如何提升模型可靠性、降低成本和打造更自然的人机交互体验。开发者们也分享了利用 OpenAI 技术构建数据库、解决地图定位和构建智能代理等实践案例。

🤔 **GPT-4 0 模型更新**: 写作能力得到增强,产出内容更自然易读,在 LMSYS 评分中超越 o1,成为榜首。

🚀 **o1 模型新功能**: 将支持函数调用、开发者消息、结构化输出、图像理解等功能,未来还将支持语音理解。

💰 **实时语音 API 更新**: 支持多种语言混合输入输出,并大幅降低成本,Cache 调价后,输出部分打了 2 折,在客服场景下具备竞争力。

📊 **结构化输出**: 通过严格遵循 JSON 格式规范,提升输出结果的可靠性和一致性,让数据更易于处理和集成。

💡 **模型蒸馏**: 将大型模型的智能特性迁移到更小巧的模型中,降低运营成本,提升系统扩展性,但并不适用于需要精准输出的通用任务。

原创 金色传说大聪明 2024-11-21 17:03 新加坡

一线报道,来自赛博禅心

参加了 OpenAI 的今日发布

OpenAI Dev Day

在新加坡,大概 200 人

好些熟面孔

在第一排,带来更好、更新的内容

 

发布之前

先是在今天凌晨,4o 模型来了一波小的更新,版本号 gpt-4o-2024-11-20。主要对写作进行了加强,让其产出的内容更自然、易读(减少所谓 G 味)。在大模型竞技场 LMSYS 中,甚至击败了 o1,成了榜一大哥。 


很显然,这是不错的成绩


对此,我跟 OAI 训练模型的老哥聊了下,并表示祝贺(毕竟 4o 比 o1 还猛,有点东西)

老哥跟我说:其实这并不意味着太多,毕竟 LMSYS 的评分还是有局限的


会前闲聊时,OAI 的朋友还夸了下 DeepSeek:

DeepSeek is really solid(原话)

前情提要:《DeepSeek 推理模型预览版上线,解密 o1 推理过程》


以及...

- “我们不聊 Future Product“

- “那聊聊 Sora 吧”


本次发布

这次发布会,OAI 先整了些花活,比如用 o1 做了个无人机控制程序,然后现场遥控无人机。

对于 o1,之后将支持以下内容:

额外的,在研究了下 api 细节后,我发现接下来 语音理解 应该也会上。


之后是关于 Realtime API 的演示,并带来了更强大的实时语音交互,甚至支持多种语言的混合输入,以及混合输出(没录上,哭了,比 whisper 效果好很多很多),然后情绪、语气非常到位的进行混合输出。现场效果很炸裂。

主讲人用多种语言讲述的,并让 AI 用多种语言回应


以及,Realtime 的语音 API 也迎来了 Cache 调价,输出部分打了 2 折。简单算了下,对于大量相近内容的客服场景,调用成本大概是 50 人民币/小时,和人工队相比,开始有了竞争力(毕竟 AI 很容易规模化)。

输入的 cache 价格,从 $100 降到了 $20


另一个演示,是让 AI 来点单(还是很逼真的):在过程中,AI 进行了全自动点餐,包括确认需求,以及... 调整价格。


还有个有趣的,演讲者让 Realtime API based demo 从 0 开始输出,慢慢的:

于是 One...Two...Three...F- [打断]

问:现在你数到几了?

回答:Four


对于 Function Call,Realtime API 也获得了更新。这使得之后的实时语音,不局限于对话了,而是可以进行如操作电脑、联网、查找资料等功能。在发布会现场,演示人展示了如何「言出法随」操作天体。

做成声控的动态幻灯片,效果很惊艳

 

业务实践

主场发布之后,OpenAI 的朋友还做了 3 个主题分享,涵盖三个关键方向: 

?

Structured Outputs/ 结构化输出 

包括原理和实践,如何通过严格遵循 JSON 格式规范,提升输出结果的可靠性和一致性,让数据更易于处理和集成。 


结构化输出介绍过:看完这篇,你也能做 AI 搜索:论「结构化输出」

这次提到了一个有趣的点:OpenAI 的接口,首次进行结构化输出的时候,会稍慢一点,之后会快,其原因是... 进行了 cache。


从实现的角度,这里并非「prefill + tag + 正则」(Claude CookBook 做法),而是另辟蹊径,也解决了持续输出"\n\n\n..." 问题


相关阅读:

https://platform.openai.com/docs/guides/structured-outputs 

?

Distillation/ 蒸馏 

包括原理和实践,如何将大型模型的智能特性迁移到更小巧的模型中,在保持核心功能的同时,显著降低运营成本,提升系统扩展性。 


这里的核心,是使用更强的模型,比如 4o 特定任务,预先输出批量的答案,大几百~几千条,再这些问答对来训练 4o-mini 之类的小模型。如此做完,可以保证在特定任务下,用很低的成本,达到不错的效果。


为此,OpenAI 还提供了完整的工具链。


另外要知道,蒸馏并不适合「需要精准输出的通用任务」。相关阅读:

https://platform.openai.com/docs/guides/distillation 

?

Realtime API/ 实时 API  

包括原理和实践,如何集成 Realtime API 的语音和文本处理能力,打造流畅自然的语音交互体验,让应用更智能、更人性化。 


额外讲了如何用 Realtime API 配合 Funciton Calling 来使用。这里 Function Calling 的 Schema 和 4o 的格式一致,无缝迁移就行了。


相关阅读:

https://platform.openai.com/docs/guides/realtime 

 

同行交流

除了 OpenAI 的人外,还有几个开发者,也登台分享他们的经验。 


Supabase 团队:如何使用他们的产品,通过 AI 能力,无痛搭建数据库。


Grab 团队:如何通过 AI 视觉,解决地图定位问题的精准度问题。


SWYX:深入剖析 AI Agent 的工程化实践,探索如何构建可靠、高效的智能代理系统。

SWYX 老哥的 PPT 是公开的

可以在他的个人网站上找到

https://www.swyx.io/


当然

公众号回复 「SWYX」,也可获得 


 

不出意外

写到这行时,发布会结束

按日程,大家一起去酒吧下半场


搞 AI 的都是酒懵子,这很合理 

正如橘子所说,AI 和精酿有两个共通点: 

都有幻觉 

都是泡沫 

 

我的域名,还有升值空间

www.agi.bar

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI GPT-4 实时语音 函数调用 模型蒸馏
相关文章