Cnbeta 04月15日 01:32
OpenAI 发布新版 GPT-4.1 AI 模型专注于编程
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI推出了GPT-4.1系列模型,包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano,重点优化了编码和指令执行能力。这些模型拥有100万词元的上下文窗口,可处理大量文本。GPT-4.1在编码基准测试中表现出色,并针对实际应用进行了改进,旨在提升开发者体验。尽管在某些指标上略逊于竞争对手,但GPT-4.1在处理视频内容方面表现出色,并具备最新的知识截止时间。然而,OpenAI也承认,模型在处理长文本和复杂任务时,可靠性会降低,需要更明确的提示。

🚀 GPT-4.1 模型系列包括 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano,均可通过 OpenAI 的 API 获取,但无法在 ChatGPT 上使用。它们在编码和指令执行方面表现出色。

💡 这些模型拥有 100 万个词元的上下文窗口,能够处理大约 75 万个单词的输入,这使得它们能够处理更长的文本内容。

💻 OpenAI 优化了 GPT-4.1,使其更适合实际使用,改进了开发者最关心的领域,如前端编码、减少不必要的编辑、遵循格式、响应结构和顺序以及保持一致的工具使用。

📊 在 SWE-bench 等编码基准测试中,GPT-4.1 的表现优于 GPT-4o 和 GPT-4o mini 模型。GPT-4.1 mini 和 nano 则更高效、速度更快,但准确性略有降低。

💰 GPT-4.1 的定价为每百万输入词元 2 美元,每百万输出词元 8 美元。GPT-4.1 mini 和 nano 的价格更低,分别为每百万输入词元 0.40 美元和 0.10 美元,输出词元 1.60 美元和 0.40 美元。

🎬 在 Video-MME 测试中,GPT-4.1 在“长篇无字幕”视频类别中达到了 72% 的最高准确率。

⚠️ 尽管 GPT-4.1 在基准测试中表现出色,但处理的输入词元越多,其可靠性越低,并且有时需要更具体、更明确的提示。

OpenAI 周一发布了名为 GPT-4.1 的新模型系列。没错,“4.1”,仿佛该公司的命名方式还不够让人困惑似的。目前有 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano,OpenAI 表示它们在编码和指令执行方面都“表现出色”。这些多模态模型可以通过 OpenAI 的 API 获取,但ChatGPT上是无法使用的。

它们拥有一个包含 100 万个词元的上下文窗口,这意味着它们可以一次性输入大约 75 万个单词(比《战争与和平》还要长)。

GPT-4.1 的到来正值 OpenAI 的竞争对手Google和 Anthropic 加紧构建复杂编程模型之际。Google最近发布的Gemini 2.5 Pro也拥有 100 万个词元上下文窗口,在热门编码基准测试中名列前茅。Anthropic 的Claude 3.7 Sonnet和中国 AI 初创公司DeepSeek 的升级版 V3也同样名列前茅。

训练能够执行复杂软件工程任务的AI编码模型是包括OpenAI在内的许多科技巨头的目标。OpenAI的宏伟目标是打造“代理软件工程师”,正如其首席财务官Sarah Friar上个月在伦敦举行的一次科技峰会上所说。该公司声称,其未来的模型将能够端到端地编写整个应用程序,处理质量保证、错误测试和文档编写等方面的工作。GPT-4.1 是朝着这个方向迈出的一步。

OpenAI 的一位发言人表示:“我们根据直接反馈对 GPT-4.1 进行了优化,使其更适合实际使用,从而改进了开发者最关心的领域:前端编码、减少不必要的编辑、可靠地遵循格式、遵循响应结构和顺序、保持一致的工具使用等等。这些改进使开发者能够构建出在实际软件工程任务中表现更出色的代理。”

OpenAI 声称,完整的 GPT-4.1 模型在包括 SWE-bench 在内的编码基准测试中均优于其GPT-4o 和 GPT-4o mini 模型。据称,GPT-4.1 mini 和 nano 效率更高、速度更快,但准确性有所降低。OpenAI 表示,GPT-4.1 nano 是其迄今为止速度最快、成本最低的模型。

GPT-4.1 每百万输入词元成本为 2 美元,每百万输出词元成本为 8 美元。GPT-4.1 mini 每百万输入词元成本为 0.40 美元,每百万输出词元成本为 1.60 美元;GPT-4.1 nano 每百万输入词元成本为 0.10 美元,每百万输出词元成本为 0.40 美元。

根据 OpenAI 的内部测试,GPT-4.1 可以一次性生成比 GPT-4o 更多的词元(32768 对 16384),在 SWE-bench Verified(SWE-bench 的人工验证子集)上的得分在 52% 到 54.6% 之间。(OpenAI 在一篇博文中指出,一些 SWE-bench Verified 问题的解决方案无法在其基础架构上运行,因此得分范围有所不同。)这些数字略低于Google和 Anthropic 在同一基准测试中分别报告的 Gemini 2.5 Pro(63.8%)和 Claude 3.7 Sonnet(62.3%)的得分。

在另一项评估中,OpenAI 使用 Video-MME 测试了 GPT-4.1,该模型旨在衡量模型“理解”视频内容的能力。OpenAI 声称,GPT-4.1 在“长篇无字幕”视频类别中达到了 72% 的最高准确率。

虽然 GPT-4.1 在基准测试中得分相当不错,并且“知识截止”时间也较新,使其能够更好地参考时事(截至 2024 年 6 月),但必须牢记,即使是当今一些最好的模型,在处理一些专家不会犯错的任务时也会遇到困难。例如,许多研究表明 ,代码生成模型通常 无法修复安全漏洞和 bug,甚至会引入这些漏洞。

OpenAI 也承认,GPT-4.1 处理的输入词元越多,其可靠性就越低(即更容易出错)。在该公司自己的测试 OpenAI-MRCR 中,该模型的准确率从 8000 个词元时的 84% 左右下降到 1024 个词元时的 50%。该公司表示,GPT-4.1 也比 GPT-4o 更“直白”,有时需要更具体、更明确的提示。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GPT-4.1 OpenAI AI模型 编码 多模态
相关文章