36氪 AI 6小时前
GPT-5 能让普通人变成博士,但魔法依旧没有
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI发布了备受期待的GPT-5,标志着AI大模型从“玩弄”语言的玩具,加速进化为生活中可靠的助手。GPT-5在理解用户意图、交付预期产品方面表现出色,能够胜任博士级别的知识工作,甚至能帮助普通人完成以往无法想象的任务。无论是解释复杂的科学概念、辅助语言学习,还是生成财务报表、创建3D游戏模型,GPT-5都展现出强大的通用性和专业性。尤其在医疗健康领域,GPT-5为患者提供了关键的专业建议,帮助他们更好地理解病情和治疗方案,体现了AI在改善人类生活方面的巨大潜力。GPT-5的发布预示着AI技术的稳定发展和未来竞争的加剧,也引发了关于AI能力边界和未来发展的深刻思考。

🚀 GPT-5模型系统升级,实现智能化意图判断与高效响应:GPT-5不再是单一模型,而是集成了自动切换器,能根据用户查询意图,将简单问题路由至聊天版本以实现极速响应,将复杂问题导向推理版本进行深度思考。其256k的超长上下文窗口支持文本和图像输入,并具备函数调用和结构化输出能力,使得模型能够更精准、高效地理解和处理各类信息。

💡 GPT-5在编码与写作领域实现飞跃,成为强大的专业工具:被OpenAI誉为“迄今为止最强大的编码模型”,GPT-5在复杂前端生成和大型代码库调试方面表现卓越,能一次性创建美观响应迅速的应用和游戏。同时,它也是“迄今为止最强大的写作工具”,能创作富有文学深度和节奏感的文本,更擅长处理结构模糊的写作,如自由诗,将对形式的尊重与清晰表达相结合,极大地提升了日常任务的效率。

📈 GPT-5在多项基准测试中创下新高,智能化程度显著提升:GPT-5在数学、编码、视觉感知和健康等关键领域均取得了显著进步,在AIME 2025数学测试中获得94.6%的高分,在SWE-bench编码测试中达到74.9%。其全面智能化程度的提升,体现在其卓越的推理能力和在GPQA等复杂任务上的优异表现,已在LMArean和Intelligence Analysis等评测中登顶。

📉 幻觉与“欺骗”现象大幅降低,模型更诚实高效:GPT-5在启用搜索时,事实性错误率比GPT-4o降低约45%,在“思考”模式下更是降低80%。此外,GPT-5在“欺骗”行为的抑制上也表现出色,对不存在的图像仅有9%的概率给出自信答案,远低于前代模型。OpenAI的评估显示,GPT-5在视觉推理、代理编码等任务上,输出token数量减少50%-80%,用更少时间实现更大价值,实现了更高效、更节省的运行。

⚖️ API价格亲民,OpenAI寄予厚望:GPT-5在提供更强性能的同时,API价格却异常低廉,显示出OpenAI在跨代优化技术上的突破。Sam Altman将GPT-5比作“博士级专家”,强调其在与用户对话时的专业性,并表示此次发布会时长远超以往,显示了公司对GPT-5的重视。然而,发布会中出现的图表错误也引发了对预期管理和技术宣传的讨论,同时也面临着来自其他AI模型的竞争和用户对“AGI”的期待。

千呼万唤始出来的GPT-5终于在昨天晚上1点问世,在持续了一个小时10分钟的发布会上,OpenAI向世人展示了一个性能绝对强大,更加易用,甚至能够理解或者说准确猜测用户真实意图并且交付符合预期的产品的大模型。

用Sam Altman在发布会上的话来说,GPT-5在各个领域都能达到博士的知识水平,能力可以比肩专业人士,从而让普通人能够完成以前自己无法想象的工作。

相比于OpenAI两年前发布GPT-4时,整个世界对于大模型的认知和体验已经充分得多。观众和用户已经不会对模型能够看懂网络梗图这种事情感到惊叹不已。但是作为一个几乎每天都会使用AI产品的人来说,GPT-5的发布依然足够惊艳。

最重要的原因就是,从发布会上传达出的内容,我能深切地感受到,OpenAI想让大模型已经从一个“玩弄”语言和“智能”,不时让人感受到惊喜和挫败的大玩具,加速进化到一个生活中的可靠帮手。就像你的手机一样,如果你离开它,你将深刻地感受到不方便,不习惯,甚至不安全。

下面我将用发布会的几个瞬间来帮助大家理解这一切是怎么发生的。

孩子让你给他解释流体力学中的伯努利公式,以前的AI可能给你一篇文章,GPT-5能按照你的要求,一句话直接给你做一个可以互动的页面。

你想学习法语,GPT-5能按照你的要求去生成一个像多邻国一样的学习应用,你可以用来背单词,还能通过贪食蛇来帮你复习。如果你对生成的应用有不满意的地方,也可以直接通过自然语言让GPT-5帮你修改。

如果你是一个创业公司的CFO,你可以让GPT-5用大概3分钟的时间,根据你的所有数据,生成一个详细的财务状况的可互动的演示板。而你需要的仅仅是一个100字左右的描述。GPT-5可以从零生成代码,保证完成,它能猜测你想呈现的形式并自动帮你优化代码和呈现的效果。

最夸张的是,演示中OpenAI的工作人员直接用3段提示词,就让GPT-5生成了一个带射击小游戏功能的城堡3D模型,还能和城堡上的士兵聊天。你点击周围的气球,就能发射弹药把气球打爆,同时还会伴随爆炸的音效。

从演示中我们可以看出,GPT-5已经全面进化成为一个直接输出专业产品的万能百宝箱。

但是说实话,最让我感到触动的,是OpenAI关于医疗健康方面能力的介绍。OpenAI邀请了一个从3种癌症中康复的患者,让她聊了聊自己在抗癌过程中GPT-5给她的帮助。

她说,当她得到诊断结果的时候,医生给她提供了几种治疗方案进行选择。她在求助了GPT-5之后,才真正理解了自己面临的情况,而将自己的情况和GPT-5详细聊过之后,她做出了最适合自己的选择,最终战胜了病魔,获得了重生。她很难想象如果没有GPT-5的专业建议,完全没有医疗专业知识的自己如何能够理解医生给她的方案和选择,更不知道最后自己是否能挺过来。

看完发布会之后,能清晰地感觉到,大模型技术本身已经进入了一个相对稳定的发展曲线。GPT-5发布代表着OpenAI也没有其他“魔法”,让大模型能力产生跨越式的发展。而接下来的AI巨头们的冷兵器战争,将会越加焦灼。

性能介绍

模型系统

GPT-5 不再是一个模型,而是一个模型系统:

• 自动切换器判断查询意图

• 简单问题路由到聊天版本(极速响应)

• 复杂问题路由到推理版本(深度思考)

256k token上下文窗口,支持文本和图像输入,支持函数调用和结构化输出。

目前打开我自己的ChatGPT,发现左上角的模型选项已经默认为“GPT-5”,而且下拉选项中也不再能看到前代模型。正如奥特曼之前就承诺过的——GPT-5时代将不会再有繁琐的模型选择,由模型自行判断用户在当下情境是需要快速响应,还是需要深度思考和推理。

编码和写作

OpenAI将GPT-5称为“我们迄今为止最强大的编码模型”,在复杂的前端生成和大型代码库的调试方面表现出色。它通常只需一次提示就能创建美观且响应迅速的网站、应用程序和游戏,并兼具美感,直观而优雅地将创意转化为现实。

此外,OpenAI也称GPT-5是“我们迄今为止最强大的写作工具”,可以写出引人入胜、富有文学深度和节奏感的文本。它能够更可靠地处理结构模糊的写作,例如持续不押韵的抑扬格五音步或流畅自然的自由诗,将对形式的尊重与清晰的表达相结合。这意味着 ChatGPT 能够更好地帮助用户完成日常任务,例如起草和编辑报告、电子邮件、备忘录等。

我们也浅浅尝试了一下新模型的作诗能力,以“秋天的第一杯奶茶”为题,的确比GPT-4要自然很多(AI味儿没那么重了)。

评估

GPT-5 的全面智能化程度显著提升,这体现在它在学术和人工评估基准测试中的表现上,尤其是在数学、编码、视觉感知和健康领域。

在数学(AIME 2025 无需工具测试得分 94.6%)、真实世界编码(SWE-bench Verified 得分 74.9%,Aider Polyglot 得分 88%)、多模态理解(MMMU 得分 84.2%)和健康(HealthBench Hard 得分 46.2%)方面均创下了新的最高水平——这些提升在日常使用中得到了充分体现。

凭借 GPT-5 pro 的扩展推理能力,该模型还在GPQA上创下了新的最高水平,无需工具测试得分高达 88.4%。

GPT-5已经在LMArean登顶。

在Intelligence Analysis获得的预览访问中,GPT-5同样获得了第一名。

幻觉降低

在启用搜索的情况下,GPT-5出现事实性错误的概率比GPT-4o降低约45%。在“思考(thinking)”模式下,这一概率比OpenAI o3降低80%。

除了事实性错误之外,AI还经常“睁着眼睛说瞎话”,比如明明做不到/没有权限做的事情,它也许会元气满满地告诉你已经搞定了,GPT-5在“欺骗”方面也表现得更好、更诚实。例如,为了测试这一点,OpenAI从多模态基准测试 CharXiv 的提示中删除了所有图像,结果发现 OpenAI o3 仍然能够以 86.7% 的概率对不存在的图像给出自信的答案,而 GPT-5 的这一比例仅为 9%。

更“高效”,更“节省”

在OpenAI的评估中,GPT-5(具备思考能力)的表现优于 OpenAI o3,在视觉推理、代理编码和研究生水平的科学问题解决等功能上,输出 token 数量减少了 50% 至 80%。

也就是说,GPT-5 用更少的思考时间实现了更大的价值。

API

API价格方面,GPT-5性能最强,价格却低得离谱,看来OpenAI是掌握了跨代的优化方法。

OpenAI和奥特曼对GPT-5无疑是寄予厚望的,他们也清楚,外界期待这一代模型已经很久。

奥特曼称,这还是第一次,真的像是在与某个领域的专家对话。如果说GPT-4o是大学生,那GPT-5就是博士级的专家。

这种重视,在发布会时长上也有所体现,以往的新模型发布,OpenAI的线上发布会只有半个小时左右,这次持续了一个小时以上。而奥特曼本人,也在发布会进行的同时,在X(前推特)上发帖进行“文字直播”。

不过也许是心急,发布会PPT里出现大错误——在“SWE-bench(人工验证版)”相关的图表中,条形图明显不对。GPT-5不加思考(thinking)的准确率为52.8%,在图上却高于OpenAI o3是69.1%,而o3的69.1%,又和GPT-4o的30.8%一样高。

所以很尴尬的一幕出现了:奥特曼在“文字直播”发布会,很多网友却在评论区发这张截图,戏谑OpenAI离了大谱的图表。

奥特曼倒是大方转发了消息并且称已经改正,一些粉丝认为这只是无心之失。但不少人却觉得这是“有意为之”,是为了让GPT-5显得厉害在图表上玩花招,甚至称之为“本世纪最大的图表犯罪”。

这大概也在表明,GPT-5的发布会没能让所有人信服,不少人开始问“GPT-6什么时候出”。

马斯克已经跳出来,直言两周前发布的Grok 4 Heavy比GPT-5更智能。

而一向喜欢泼冷水的AI学者盖里·马库斯(Gary Marcus)在赞扬GPT-5有很多良好进展的同时,称这“并非一个巨大的飞跃”,GPT-5也够不上外界的期待。

“显然不是AGI。”

GPT-5是否足够好?还需要更多时间检验。也许OpenAI能从中学到的教训就是——做好外界的预期管理,不要拖延太久。

本文来自微信公众号“直面AI”,作者:胡润 毕安娣,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GPT-5 OpenAI 大模型 人工智能 AI应用
相关文章