虎嗅 2024年07月19日
OpenAI凌晨突发“最具性价比”模型GPT-4o mini
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI推出新一代模型GPT-4o mini,性能优于GPT-3.5 Turbo,价格降低60%,适用于多种人工智能应用,具有低成本和低延迟的特点,支持文本和视觉输入输出,知识截止到2023年10月。

🚀 GPT-4o mini性能卓越,MMLU得分率82%,优于GPT-4,价格更加亲民,每百万输入token仅15美分,输出token为60美分,大大扩展了AI应用范围。

🤖 GPT-4o mini支持多种任务,如连锁或并行多个模型调用,处理大量上下文,实时文本回复,提升客户交互体验,API支持文本和视觉,未来将支持更多模态。

🧠 GPT-4o mini在学术基准测试中超越同类小型模型,长上下文性能提升,推理任务表现出色,数学/编码能力优异,多模态推理得分率59.4%。

🔒 GPT-4o mini内置安全措施,预训练过滤不希望学习的信息,后期训练采用RLHF技术,符合人类策略,通过外部专家测试,提高模型安全性。

今天凌晨,OpenAI 突然发布了他们的“最具性价比”的新一代模型 GPT-4o mini。

据介绍,GPT-4o mini 将取代 GPT-3.5 Turbo,立即在 ChatGPT 免费版上线,其在 MMLU 上的得分率为 82%,在 LMSYS 排行榜上的聊天偏好方面优于 GPT-4。

GPT-4o mini 不仅性能更优,价格也比 GPT-3.5 Turb 便宜了 60%,每百万输入 token 为 15 美分,每百万输出 token 为 60 美分。

OpenAI 在官方博客中表示,GPT-4o mini 将大大扩展人工智能应用的范围,使智能变得更加经济实惠。

GPT-4o mini 以其低成本和低延迟实现了各种任务,如连锁或并行多个模型调用、向模型传递大量上下文或通过快速、实时文本回复与客户交互的应用。

目前,GPT-4o mini 的应用程序接口支持文本和视觉,未来还将支持文本、图像、视频和音频输入和输出。该模型的上下文窗口可容纳 128K token,每个请求最多支持 16K 输出 token,知识期限到 2023 年 10 月。由于改进了与 GPT-4o 共享的 tokenizer,GPT-4o mini 处理非英语文本更加经济高效。

兼具出色文本、多模态能力的小模型

据官方博客介绍,在文本智能和多模态推理方面,GPT-4o mini 在学术基准测试中超越了 GPT-3.5 Turbo 和 Gemini Flash、Claude Haiku,并支持与 GPT-4o 相同的语言范围。与 GPT-3.5 Turbo 相比,GPT-4o mini 还提高了长上下文性能。

目前,OpenAI 已在多个关键基准上评估了 GPT-4o mini 在推理认为、数学/编码能力、多模态推理方面的表现。

推理任务:在涉及文本和视觉的推理任务方面,GPT-4o mini 优于其他小型模型,在文本智能和推理基准 MMLU 中的得分率为 82.0%,而 Gemini Flash 为 77.9%,Claude Haiku 为 73.8%。

数学和编码能力:GPT-4o mini 在数学推理和编码任务方面表现出色,优于市场上以前的小型机型。在测量数学推理的 MGSM 中,GPT-4o mini 的得分率为 87.0%,而 Gemini Flash 为 75.5%,Claude Haiku 为 71.7%。在衡量编码性能的 HumanEval 中,GPT-4o mini 的得分率为 87.2%,而 Gemini Flash 为 71.5%,Claude Haiku 为 75.9%。

多模态推理:GPT-4o mini 在多模态推理评估 MMMU 中也表现出色,得分率为 59.4%,而 Gemini Flash 为 56.1%,Claude Haiku 为 50.2%。

此外,OpenAI 还发现,GPT-4o mini 在从收据文件中提取结构化数据或在提供线程历史记录时生成高质量电子邮件回复等任务方面的性能,明显优于 GPT-3.5 Turbo。

内置安全措施

在安全性方面,OpenAI 在预训练中就过滤掉不希望模型学习或输出的信息。在后期训练中,他们使用 RLHF 等技术使模型的行为与人类的策略保持一致,从而提高模型响应的准确性和可靠性。

GPT-4o mini 内置了与 GPT-4o 相同的安全缓解措施,OpenAI 根据 Preparedness Framework 和自愿承诺,通过自动和人工评估对其进行了仔细评估。70 多名社会心理学和错误信息等领域的外部专家对 GPT-4o 进行了测试,以确定潜在风险。这些专家评估得出的见解有助于提高 GPT-4o 和 GPT-4o mini 的安全性。

在这些经验的基础上,OpenAI 还利用研究中获得的新技术努力提高 GPT-4o mini 的安全性。API 中的 GPT-4o mini 是第一个应用指令分层方法的模型,该方法有助于提高模型抵御越狱、提示注入和系统提示提取的能力。这使得模型的响应更加可靠,有助于在大规模应用中更安全地使用。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GPT-4o mini 人工智能 性价比 多模态推理 安全性
相关文章