2024-10-02 11:20 河南
提示词缓存(Prompt Caching)、视觉微调(Vision Fine-Tuning)、实时API(Realtime API)、模型蒸馏(Model Distillation)。
OpenAI举行了2024年度开发者大会DevDay,今年并没有重大产品模型发布,是真正的“开发者大会”,推出一系列实用新功能:提示词缓存(Prompt Caching)、视觉微调(Vision Fine-Tuning)、实时API(Realtime API)、模型蒸馏(Model Distillation)。
实时API(AI语音交互)
实时API的公开测试版,允许所有付费开发者在其应用中构建低延迟、多模态的体验。与ChatGPT的高级语音模式类似,实时API支持使用API已经支持的六种预设声音进行自然的语音到语音对话
实时API通过创建持久的WebSocket连接,允许开发者直接流式传输音频输入和输出,实现更自然的对话体验。
Healthify,一个营养和健身教练应用,使用实时API与其AI教练Ria进行自然对话,必要时涉及人类营养师提供个性化支持。
Speak,一个语言学习应用,使用实时API为其角色扮演功能提供支持,鼓励用户练习用新语言进行对话。
定价方面,每分钟音频输入约0.06美元,每分钟音频输出约0.24美元。
提示词缓存(节省成本)
许多开发者在构建AI应用时会在多个API调用中重复使用相同的上下文,比如在编辑代码库或与聊天机器人进行长时间的多轮对话时。今天,OpenAI推出了提示缓存功能,允许开发者降低成本和延迟。通过重用最近看到的输入token,开发者可以获得50%的折扣和更快的提示处理时间。
最新的GPT-4o、GPT-4o mini、o1-preview和o1-mini版本,以及这些模型的微调版本,将自动应用提示缓存。与未缓存的提示相比,缓存的提示提供折扣。
采用Prompt Cache技术前后成本对比
关于Prompt Cache技术的原理,PaperAgent专门做过分析:
Prompt Cache中的重用机制:(i) 首先,PML在模式和提示中明确了可重用的提示模块。提示模块可以有参数,如行程计划。导入模块的提示为参数(持续时间)提供值(3天)。提示可以在排除的模块和参数的位置上包括新的文本段,并在末尾添加。(ii) 其次,提示模块编码为模式中的所有模块预先计算注意力状态(1),并为将来的重用而缓存它们。(iii) 第三,当提供提示时,Prompt Cache采用缓存推理:它检索为导入的提示模块缓存的注意力状态(2),为参数(3)和新的文本段(4)计算它们,最后将它们连接起来,以产生整个提示的注意力状态(5)。这个图是对图1c中步骤1的进一步阐述。
模型蒸馏(成本效益更高)
引入了新的模型蒸馏服务,为开发者提供了一个集成的工作流程,直接在OpenAI平台上管理整个蒸馏管道。这使得开发者可以轻松地使用像o1-preview和GPT-4o这样的前沿模型的输出,来微调和提高像GPT-4o mini这样成本效益更高的模型的性能。
模型蒸馏涉及使用更强大的模型的输出来微调更小、成本效益更高的模型,使它们能够在特定任务上以更低的成本匹配高级模型的性能。直到现在,蒸馏一直是一个多步骤、容易出错的过程,需要开发者手动协调多个操作,这些操作分散在不同的工具中,从生成数据集到微调模型和衡量性能提升。由于蒸馏本质上是迭代的,开发者需要重复运行每一步,增加了显著的工作量和复杂性。
新模型蒸馏套件包括:存储完成、评估、微调。
视觉微调(AI视觉新技能)
OpenAI在GPT-4o上引入了视觉微调功能,使其除了文本之外,还可以通过图像进行微调。开发者可以定制模型,使其具有更强的图像理解能力,从而实现如增强视觉搜索功能、改进自动驾驶车辆或智能城市的物体检测,以及更准确的医学图像分析等应用。
视觉微调的过程与文本微调类似——开发者可以准备他们的图像数据集以符合适当的格式,然后将该数据集上传到我们的平台。可以使用最少100张图像来提高GPT-4o在视觉任务上的性能,并且通过更大量的文本和图像数据,可以进一步提升性能。
Grab(一家领先的食品配送和拼车公司)提高道路上的图像检测和理解能力,以下是视觉微调后的GPT-4o模型成功标记的一张速度限制标志的示例,而基础GPT-4o模型未能正确标记。
https://openai.com/devday/
推荐阅读
• 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
• RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!
• Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。