夕小瑶科技说 7小时前
GPT-5 正式发布,吹了 25 个榜单,暴露OpenAI 没招了。
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI发布了备受期待的GPT-5,虽然发布会以榜单为主,但其多项性能指标大幅超越前代,尤其在软件工程、数学推理和医疗领域表现突出。GPT-5引入了“一体化系统”概念,通过智能路由和任务分工,旨在成为智能操作系统的底层基础设施,并强调了安全性和可定制性。此次发布也标志着OpenAI从模型供应商向平台化战略的转变,其未来落地效果值得关注。

🚀 性能全面超越:GPT-5在多个基准测试中表现亮眼,如SWE-bench(软件工程)高达74.9%,AIME(数学竞赛)达到100%准确率,以及HealthBench(医疗)的1.6%幻觉率,均显著优于GPT-4o,尤其在长推理任务和减少幻觉方面进步显著。

💡 智能一体化系统:GPT-5被定位为“一体化系统”,通过引入智能Router实现模型在不同版本(快、深思、mini)间的自动切换和算力调度,并升级了“Instruction following & agentic tool use”模块,能将复杂任务拆解并协同多个外部工具完成,提升了任务分工和容错性。

🛡️ 安全与可定制性:GPT-5将安全机制内置于平台,提供部分回答、解释原因及替代方案,提升了可靠性。同时,通过新增的4种官方人格(Cynic、Robot、Listener、Nerd),为企业提供定制化“性格”接口,增强了平台的可塑性。

💰 定价优势与开放性:GPT-5的API定价比GPT-4o更低,且开放了GPT-5、GPT-5 mini、GPT-5 nano以及Chat专用版四个版本,显示了其市场普及的决心,意在构建更广泛的AI基础设施。

🎯 战略野心:OpenAI此次发布不仅是模型升级,更是其“搭一整套可托管、可编排、可塑形的智能基础设施”的战略体现,目标是成为未来智能操作系统的底层支撑,从单纯的模型供应商转型为平台化服务商。

原创 R.Zen 2025-08-08 03:34 北京

GPT-5发布会就这?实力留观众自己脑补

GPT-5,终于来了。

从年初传到年中,今天凌晨一点的发布会,OpenAI 总算没再放鸽子。

跟 GPT-4o 的实时多模态体验不同,这次硬件、功能、交互统统缺席;唯有榜单。一口气出了 25 个榜单成绩单。

GPT-5 核心榜单速览

这次特别还新增了几个新的榜单:

    HealthBench:OpenAI 2025 年新建的真实病例基准;Hard 子集 46.2 %,医疗领域首次大幅超越 GPT-4o。

    LongFact & FActScore:开放事实检索基准;GPT-5“thinking” 幻觉率约为 o3 的六分之一。

    Sycophancy Eval:奉承/过度认同率从 14.5 % → < 6 %,聊天风格更客观。

    Deception Stress-Test:误导性/虚假完成率 4.8 % → 2.1 %,更诚实可靠。

    Economically-Important Tasks(OpenAI 内部):覆盖 40+ 职业,约 50 % 任务与专家持平或更好,显著领先 o3 与 ChatGPT Agent。

具体的榜单跑分情况挑几个重要的展开一下——

第一张是软件工程领域的 SWE-bench Verified

GPT-5 在这里一把拿下了 74.9%,而且其中超过一半(52.8%)是在「with thinking」模式下完成的——也就是允许它走完整的推理过程。

但是。。。这个图 52.8>69.1=30.8


大家都吐槽疯了 hh。堪称本世纪最糟糕的数据可视化案例。。

只比 Claude  Opus 4.1 74.5% 强一丢。在没有深度评测的情况下,我们很难妄评它能不能打得过 Claude。

回归正题,右边那张 Aider Polyglot,是多语言代码编辑任务。

GPT-5 拿了 88%,而 GPT-4o 才 25.8%。准确率直接提高了 3.4 倍,完全是两个量级的存在。

然后是 MMMU 和 AIME。

MMMU 是大学级别的视觉逻辑题,相当于让模型看图说理;AIME 是美国奥数入门级竞赛题,专门考长链条数学推理能力。

GPT-5 在这两项上的表现同样亮眼,尤其是 AIME,居然跑出了 100% 准确率(在配备工具和运行 Python 脚本的状态下)。

上一个刷爆的还是 grok 4 heavy。

Reliability & Accuracy(幻觉率)

在开放题 prompt、医学对话和 ChatGPT 实际用户问题这三组场景里,GPT-5 的错误率都大幅降低。以 HealthBench 医疗对话为例,GPT-4o 的幻觉率是 15.8%,GPT-3.5 也不低,而 GPT-5 在「with thinking」模式下降到了惊人的 1.6%,直接压到个位数。就连日常问答场景里的错误率,也从 22% 降到 4.8%,清了快五分之四。

而当 GPT-5 和 o3 在面对长推理任务时的表现,开始走上了完全不同的路径。

比如说,科学图表推理,GPT-5 一路从低输出到高输出,准确率从 74% 上涨到 82%。而 o3 呢?其准确率在 medium 阶段后趋于平缓,high 阶段甚至略有下滑,最终止步于约 77%。几乎是思考越久,越不靠谱。

榜单里比较有意思的是这个——“诚实分数”。

过去的模型遇到不可能完成的任务,会一本正经地编出一个答案,还显得很有自信。

GPT-5 在这方面收敛了不少。

比如给它一个实际上做不到的编程任务,o3 有将近一半的概率会编造一个看似合理的方案,GPT-5 的这个比例降到了 16.5%。在多模态基准 CharXiv 里,如果把所有图片都删掉,o3 依旧有 86.7% 的时候会“假看图说话”,而 GPT-5 只剩 9%。就连在真实的 ChatGPT 流量里,它的“胡编”比例也从 4.8% 降到 2.1%。

GPT-5 想做智能操作系统的底座

如果说 benchmark 是 GPT-5 的“脸面”,那背后 OpenAI 背后的动作就是想做智能操作系统的底座

官方特别强调的是 GPT-5 是一个“一体化系统”。什么意思呢?

首先,引入 router ,可以自动调用,实时判断请求难度、所需工具、延迟预算,自动在 GPT-5(快)和 GPT-5 thinking(深思)之间切换;额度用完还能降级到 mini 版。

所以,用户不用再手动选模型,像操作系统的线程调度器,把“算力/思考时间”当资源自动分配。

同时,GPT-5 注重强任务分工,“Instruction following & agentic tool use” 模块大幅升级——模型能把复杂请求拆成多步、跨多个外部工具(浏览器、代码沙箱、数据库等)协同完成。

虽然 GPT-4o 也支持工具调用,但是 GPT-5 的任务拆解策略更强,容错性更好,不会卡顿。

安全机制被加入了产品化,成为平台内置的能力,而不只是模型被训练出的习惯。比如你问了一个危险的问题,之前 GPT 是拒绝回答,现在是部分回答你,解释原因并给出替代方案。

所以,这几个重要的 feature 把模型升级成了一个“可托管多任务、可控资源、安全可定制”的平台,从原来一个只会聊天的 chatbot,升级成一个一体化平台。

这次透露的 OpenAI 的野心太大了。

就在发布这篇文章前几分钟,我已经收到GPT-5的推送了,但是选择框里只有俩模型,其他模型全下线了??真的一场豪赌!

三方榜单结果

之前在 Arena 榜单上 GPT-5 以“summit”为代号测试,现在在所有领域排名第一。

Arena 官方连发了 4 条动态庆祝 GPT-5,不止如此,另一个老大难的榜单 ARC 也发布 GPT-5 的成绩了。这个榜单我们之前介绍过好多次,不了解的可以翻翻之前的介绍。

GPT-5 现已通过 API 平台向开发者开放

目前已经开放了 4 个版本:GPT-5、GPT-5 mini、GPT-5 nano 以及 Chat 专用版。

价格和之前高定价不同,竟然比 GPT-4o 还便宜。都是标准版,GPT-4o 输入 2.5$/M, GPT-5只有1.25$/M。

最后,现在可以选择不同的人格语音聊天,新增 4 个官方人格 _personas_(Cynic 毒舌、Robot 机器人、Listener 倾听者、Nerd),以前只能靠 prompt hack,现在把“性格”做成可插拔接口。为了方便以后企业品牌做定制。

接下来它会怎么落地,还得等真正在各种复杂环境里跑一阵子才能见分晓。但可以肯定的是,OpenAI 已经不满足于做一个模型供应商——它在搭的是一整套可托管、可编排、可塑形的智能基础设施。

而这次平台形态的试探能不能成,我们拭目以待。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GPT-5 OpenAI AI 人工智能 大模型
相关文章