Z Potentials 前天 14:47
速递|AI编程争夺战,GPT-4.1用32KToken输出上限碾压前代,却藏50%准确率滑坡
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI 于 2025 年 4 月 14 日推出了 GPT-4.1 系列新模型,重点关注编码任务。该系列包括 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 三款模型,声称在代码生成和指令遵循方面表现出色。这些模型通过 OpenAI 的 API 提供,拥有 100 万 token 的上下文窗口。虽然在编码基准测试中表现优异,但在处理长文本时准确性有所下降。GPT-4.1 在无字幕长视频类别中准确率达到 72%。OpenAI 致力于开发能执行复杂软件工程任务的 AI 模型,目标是实现“自主软件工程师”的愿景。

💻 OpenAI 发布了 GPT-4.1 系列模型,包括 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 三个版本,主要针对编码任务。

💡 GPT-4.1 模型系列拥有 100 万 token 的上下文窗口,单次可处理约 75 万单词,在代码生成和指令遵循方面有所改进。

💰 在定价方面,GPT-4.1 的价格为每百万输入 token 2 美元,每百万输出 token 8 美元;GPT-4.1 mini 和 nano 的价格更低,分别为每百万输入 token 0.40 美元和 0.10 美元。

📊 GPT-4.1 在编码基准测试中表现优于 GPT-4o 和 GPT-4o mini 模型,但在处理长文本时准确性有所下降,例如在 OpenAI-MRCR 测试中,准确率从 84% 降至 50%。

🎬 在 Video-MME 评估中,GPT-4.1 在“无字幕长视频”类别中以 72% 的准确率位居榜首,展示了其在视频内容理解方面的能力。

Techcrunch 2025-04-15 12:57 北京

OpenAI 宣称,GPT-4.1 在“无字幕长视频”类别中以 72%的准确率位居榜首。

图片来源:Unsplash

OpenAI 于 4月 14 日,推出了名为 GPT-4.1 的新模型系列,新 AI 模型专注于编码。

此次发布包括 GPT-4.1GPT-4.1 mini 和 GPT-4.1 nano 三款模型,OpenAI 宣称它们在代码生成和指令遵循方面“表现卓越”。这些多模态模型通过 OpenAI 的 API 提供(但未接入 ChatGPT),拥有 100 万 token 的上下文窗口,意味着单次可处理约 75 万单词(比《战争与和平》还长)。

GPT-4.1 面世之际,正值 OpenAI 的竞争对手如谷歌和 Anthropic 加紧研发高级编程模型。

谷歌最新发布的 Gemini 2.5 Pro 同样具备 100 万 token 上下文窗口,在主流编程基准测试中名列前茅。Anthropic 的 Claude 3.7 Sonnet 与中国 AI 初创公司深度求索升级的 V3 模型亦表现不俗。

包括 OpenAI 在内的许多科技巨头的目标,是训练能够执行复杂软件工程任务的人工智能编码模型。正如首席财务官 Sarah Friar 上个月在伦敦的一次科技峰会上所言,OpenAI 的宏伟抱负是创造一个“自主软件工程师”。该公司宣称,其未来的模型将能够端到端地编程整个应用程序,处理质量保证、错误测试和文档编写等方面。

GPT-4.1 是朝着这个方向迈出的一步。

“我们根据直接反馈优化了 GPT-4.1,以在实际应用中改进开发者最关心的领域:前端编码、减少无关的编辑、可靠地遵循格式、遵守响应结构和顺序、一致的工具使用等,”一位 OpenAI 发言人通过电子邮件告诉 TechCrunch。“这些改进使开发者能够构建在现实世界软件工程任务中表现显著更优的代理。”

OpenAI 宣称,完整版 GPT-4.1 模型在编码基准测试(包括 SWE-bench)中表现优于其 GPT-4o 和 GPT-4o mini 模型。据称,GPT-4.1 mini 和 nano 版本在牺牲少量准确性的前提下效率更高、速度更快,OpenAI 表示 GPT-4.1 nano 是其有史以来速度最快且成本最低的模型。

GPT-4.1 的定价为每百万输入 token 2 美元,每百万输出 token 8 美元。GPT-4.1 mini 的价格为每百万输入 token 0.40 美元,每百万输出 token 1.60 美元,而 GPT-4.1 nano 则低至每百万输入 token 0.10 美元,每百万输出 token 0.40 美元。

根据 OpenAI 内部测试,GPT-4.1 单次生成 token 数量超越 GPT-4o32,768 对比 16,384),在人工验证的 SWE-bench 子集 SWE-bench Verified 上得分介于 52%至 54.6%之间。

OpenAI 在博客中指出,由于部分 SWE-bench Verified 问题的解决方案无法在其基础设施上运行,故得分存在区间。这一成绩略低于谷歌和 Anthropic 在同一基准测试中报告的 Gemini 2.5 Pro63.8%)与 Claude 3.7 Sonnet62.3%)的分数。

在另一项独立评估中,OpenAI 使用 Video-MME 对 GPT-4.1 进行了测试,该工具旨在衡量模型对视频内容“理解”的能力。OpenAI 宣称,GPT-4.1 在“无字幕长视频”类别中以 72%的准确率位居榜首。

虽然 GPT-4.1 在基准测试中表现相当不错,并且拥有更近期的“知识截止点”(截至 2024 年 月),使其对当前事件有更好的参考框架,但重要的是要记住,即使是当今一些最优秀的模型,在处理不会难倒专家的任务时也会遇到困难。例如,许多研究表明,代码生成模型经常无法修复甚至引入安全漏洞和错误。

OpenAI 也承认,GPT-4.1 在处理更多输入标记时可靠性会降低(即更容易出错)。

在该公司的一项内部测试 OpenAI-MRCR 中,模型的准确率从处理 8000 个标记时的约 84%下降到处理 100 万个标记时的 50%公司表示,GPT-4.1 相比 GPT-4o 往往更“字面化”,有时需要更具体、明确的提示。


参考资料

https://techcrunch.com/2025/04/14/openais-new-gpt-4-1-models-focus-on-coding/

编译:ChatGPT

-----------END-----------
🚀 我们正在招募新一期的实习生
🚀 我们正在寻找有创造力的00后创业者
关于Z Potentials

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GPT-4.1 OpenAI 编码 人工智能 模型
相关文章