作者:李宝珠

转载请联系本公众号获得授权,并标明来源

GPT-5 终于来了!其在编程、创意写作、健康三大场景下又明显提升。

「GPT-3 感觉像是在和一位高中生对话,GPT-4 像是在和一位大学生交流,而 GPT-5 则是在和博士级别的专家对话」,在刚刚结束的发布会上,Sam Altman 在开场发言中对 GPT-5 给予了高度评价——GPT-5 是「全球在编程和写作方面最强的模型」。

构建统一系统

GPT-5 作为一个统一系统,包含一个智能高效的模型用以回答大多数问题(GPT-5-main),一个用于解决更复杂问题的深入推理模型(GPT-5-thinking),以及一个实时 router,可根据对话类型、问题复杂度、所需工具以及用户的明确意图快速决定使用哪个模型。router 会持续通过真实信号进行训练,包括用户在模型之间切换的行为、对回答的偏好比例以及回答的正确性评估,从而不断优化。

根据其公开的官方文档显示,包括 gpt-5-thinking、gpt-5-thinking-mini 和 gpt-5-thinking-nano 在内的推理模型是通过强化学习进行训练的,以提升其推理能力。这些模型在回答问题前会进行「思考」,并在响应用户之前生成一整段内部思维链。通过训练,这些模型学会了优化思考过程、尝试不同策略并识别自身错误。

根据 OpenAI 的评测,在包括视觉推理、智能体编码以及研究生级别的科学问题求解等能力上,GPT‑5(开启推理模式)相比 OpenAI o3 表现更优,且输出的 token 数量减少了 50% 到 80%。

同时,在评估代码能力的 Aider polyglot 测试中,GPT‑5 以 88% 的得分刷新纪录,其错误率较 o3 降低了三分之二。

此外,GPT-5 还在多个领域刷新了当前 SOTA,例如,在 AIME 2025 测试中取得 94.6% 的得分,在真实世界编码任务 SWE-bench Verified 上的得分为 74.9%,在 MMMU 得分为 84.2%。在 GPT‑5 pro 的增强推理能力支持下,该模型还在 GPQA(通用推理问答)任务中取得了 88.4% 的成绩,同样达到了当前的 SOTA 水平。

重点提升三大场景:写作、编程和健康咨询

据悉,OpenAI 此次在 ChatGPT 最常见的三大应用场景——写作、编程和健康领域,进一步提升了 GPT-5 的性能。

OpenAI 提出,GPT‑5 是其迄今为止最强大的编程模型,其在复杂前端生成和大型代码库调试方面实现了显著提升——只需一个提示词,就能生成美观且响应迅速的网站、应用和游戏,展现出极高的审美敏感度。同时,GPT‑5 在深度分析代码库方面表现出色,能够精准解答关于代码模块运作机制及相互协作的问题。

除编程外,GPT‑5 在各类 Agent 任务中的表现也十分突出,其在指令遵循(在 Scale MultiChallenge 上的得分达到 69.6%)和工具调用(在 τ(2) -bench telecom 上的得分达到 96.7%)的基准测试中均创下了新纪录。

在 LongFact 和 FactScore 基准测试中,GPT‑5 的事实错误率比 o3 低约 80%。这使得 GPT‑5 尤其适用于正确性要求高的 Agent 任务场景,特别是在代码生成、数据处理和决策支持等关键领域。

在创意写作方面,GPT-5 能够创作出具有文学深度与节奏感、引人共鸣的文案,其在处理结构上存在歧义的写作任务时更加可靠,比如保持无韵抑扬格的连贯性,能够在尊重文体形式的同时实现清晰有力的表达,从而在起草润色报告、邮件、备忘录等场景下提供更真实的写作。

值得一提的是,为调控 GPT‑5 回答的默认长度,OpenAI 还新增了 Verbosity API 参数,该参数支持 low、medium、high 三档可选值。如果显式指令与冗余参数发生冲突,则显式指令优先。例如,如果用户让 GPT‑5「写一篇包含五段文字的文章」,则该模型的回复始终应包含五段内容。

在健康相关的问题上,GPT-5 在 HealthBench 基准测试中的得分创历史新高,达到 46.2%,其能够主动识别潜在健康问题,并根据用户的背景知识和地理位置提供精准建议。

最近,OpenAI 动作频频,前脚刚通过 gpt-oss 抢占了开源领域的新 SOTA 席位,如今又发布了万众期待的 GPT-5,多项产品齐发随彰显了其技术底蕴,但模型的性能、安全性等方面究竟表现如何,不妨「让子弹飞一会」,静候市场检验。

参考资料:
1.https://www.theverge.com/openai/748017/gpt-5-chatgpt-openai-release
2.https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf

 往期推荐 


“阅读原文”,免费获取海量数据集资源!

内容中包含的图片若涉及版权问题,请及时与我们联系删除