虎嗅 9小时前
GPT-5来了,人人免费可用
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI正式发布了备受期待的GPT-5,标志着AI技术迈入新纪元。GPT-5在编程、写作、健康咨询等多个领域展现出超越人类的能力,其全新的统一系统设计包含基础模型、深度推理模型和实时路由器,能够智能选择最合适的模型应对不同任务。GPT-5在代码生成、复杂任务处理、减少幻觉、提升指令遵循等方面均有显著进步,并能生成功能完整的网站和应用。在健康领域,GPT-5能将复杂的医学报告转化为易懂的语言,并提供个性化建议。此外,GPT-5在数学、编码、健康等基准测试中刷新纪录,多模态能力也大幅提升,部分任务已达到或超越专家水平。OpenAI还推出了GPT-5 Pro以及面向免费用户的GPT-5 mini,并为开发者提供了更灵活的API选项,旨在巩固其在AI领域的领先地位。

🌟 **全方位能力跃升**:GPT-5在编程、数学、写作、健康咨询及视觉感知等多个关键领域实现了显著提升。在编程方面,它被誉为OpenAI迄今为止最强大的编码模型,能够处理复杂的前端开发和大型代码库调试,甚至能通过一个提示词生成功能完整的网站、应用和游戏。在健康领域,GPT-5在HealthBench评估中表现出色,能够将复杂的医学报告转化为易懂的语言,并根据用户背景提供个性化建议,其在处理涉及医学术语的报告时,能帮助用户更好地与医生沟通。

🧠 **创新的统一系统设计**:GPT-5采用了全新的统一系统设计,包含三个核心组件:一个高效的基础模型用于处理常规问题,一个具备深度推理能力的“GPT-5 thinking”模型专门应对复杂任务,以及一个实时路由器负责根据对话复杂度、工具需求等因素选择合适的模型。这套“路由系统”会持续学习用户的偏好和答案准确性,不断优化分配策略,并在用户达到使用限制时自动切换到精简版本,确保服务不间断。

🚀 **多维度性能突破与优化**:GPT-5在多项基准测试中刷新纪录,例如在AIME数学测试中得分94.6%,在SWE-bench Verified编程测试中得分74.9%。同时,它在减少幻觉方面取得了重大进展,事实错误率比GPT-4o降低约45%,在处理复杂、开放性问题时更加得心应手。此外,GPT-5在用户体验上减少了过度附和行为,回应更加细腻深思熟虑,并引入了“安全完成”训练方式,确保在提供有用答案的同时保持安全边界。

💡 **面向不同用户的灵活策略**:GPT-5将成为ChatGPT的新默认模型,向所有Plus、Pro、Team及免费用户推出。免费用户达到使用限制后将切换到GPT-5 mini,而Pro用户可无限制访问GPT-5及GPT-5 Pro。OpenAI还为开发者提供了三个不同规格的API版本(gpt-5、gpt-5-mini、gpt-5-nano),并新增了reasoning_effort和verbosity参数控制,以及自定义工具功能,以满足不同项目对性能、成本和响应速度的需求,提升开发者的使用体验。

如果说有什么科技产品在被大量爆料后,依然能让人在凌晨蹲守直播,除了苹果 iPhone,就是 OpenAI 的 ChatGPT 了。

GPT-4 亮相后很长一段时间,都是 AI 友商的唯一对标。世界也开始逐渐接受一个事实:AI 正在越来越多的任务中展现出超越人类的能力。

今天,GPT-5 终于登场,把这条称作“及格线”的标准,再次抬高了一个维度。

我们也第一时间上手 GPT-5,让它给自己的生日写首诗,满分十分,你觉得可以打几分?

还是经典的天气卡片环节,GPT-5 的 UI 审美质量相当能打。

OpenAI CEO 山姆·奥特曼对 GPT-5 给出了极高评价,称其是此前所有模型的巨大飞跃,在他看来,拥有 GPT-5 这样的 AI 模型,在历史上任何时候都是难以想象的。

(主界面)

不过,发布会现场也上演了“翻车”环节,图表数据环节出现了明显“胡编乱造”的失误,连奥特曼也忍不住发文自嘲。

当然,作为老对手的马斯克,自然不会错过这个千载难逢的“蹭热度”机会。

他表示 Grok 4 在 ARC-AGI 测试中击败了 GPT-5,还顺势拉踩一波,并剧透 Grok 5 将于今年年底前发布,预计表现将更加出色。

GPT-5来了,编程、写作能力大提升,还要当你的AI医生

GPT-5 在编码、数学、写作、健康和视觉感知等多个领域都实现了显著提升,同时在减少幻觉、改进指令遵循和降低谄媚方面取得了重大进展。

GPT-5 采用了全新的统一系统设计,包含三个核心组件:一个高效的基础模型用于处理常规问题,一个具备深度推理能力的“GPT-5 thinking”模型专门应对复杂任务,以及一个实时路由器负责根据对话复杂度、工具需求等因素选择合适的模型。

这套“路由系统”会持续学习用户的切换行为、反馈偏好和答案准确性,不断优化分配策略。当用户达到使用限制时,系统会自动切换到各模型的精简版本继续服务。

据介绍,GPT‑5 是 OpenAI 迄今为止最强大的编码模型,能够处理复杂的前端开发和大型代码库调试工作。奥特曼表示:“根据需求即时生成的软件的理念将成为 GPT-5 时代的一个重要特征。”

比如它能通过一个提示就创建出功能完整、设计精美的网站、应用和游戏。根据以下提示词, GPT‑5 成功创建了一个名为“跳跃球跑者”的游戏,包含速度递增、计分系统、音效和视差滚动背景等所有要求功能。

提示词: 创建一个单页应用,要求如下,且全部写在一个 HTML 文件中:

名称:跳跃球跑者

目标:跳过障碍,尽可能长时间生存。

特点:速度逐渐加快,高分记录,重试按钮,以及动作和事件的有趣音效。

界面应色彩丰富,带有视差滚动背景。

角色应该看起来卡通化,观赏起来有趣。

游戏应该让每个人都感到愉快。

发布会上,主持人还演示了为了帮助他的伴侣学习法语,要求 GPT-5 构建一个“美观且高度互动”的 Web 应用。

里面提到具体要求,应用需包含每日进度跟踪、抽认卡、小测验,甚至还有一个定制的教育游戏,将传统的贪吃蛇游戏改成老鼠吃奶酪,每当老鼠吃到奶酪时,应用会用语音读出一个新的法语单词。

最后,GPT-5 成功构建了这个完整应用,不仅界面美观,而且所有功能均可正常使用,包括更新进度的测验和带有法语发音的互动游戏。

写作方面,GPT-5 能够将想法转化为具有文学深度和节奏感的文本。

它在处理结构复杂的写作形式时更加可靠,同时兼顾形式规范与表达清晰。这些改进让 ChatGPT 在日常文档处理、邮件撰写等任务中更加实用。

此外,GPT-5 还是 OpenAI 在健康相关问题上表现最佳的模型。

在基于真实场景和医生标准制定的 HealthBench 评估中,GPT-5 的得分远超以往所有模型。新模型能够主动发现潜在问题,提出针对性问题,并根据用户背景、知识水平和地理位置提供个性化建议。

奥特曼负责介绍 GPT-5 健康的这部分,在发布会现场,他邀请了 Carolina 和 Filipe 夫妇分享他们的亲身经历。

Carolina 曾在一周内被诊断出三种不同的癌症,在她把这些充满医学术语的报告丢给 ChatGPT 后,ChatGPT 在几秒钟内将复杂的内容,翻译成了她能理解的直白语言,帮助她更好地和医生沟通。

而在面对是否接受放射治疗,这一个连医生们的意见都没有办法统一的问题上,ChatGPT 为她详细分析了案例的细微差别、风险与收益等等,她说这比和医生聊三十分钟的收获都要更多。

当然,ChatGPT 并不能替代医疗专业人员,建议谨慎使用。

此外,GPT-5 在多项基准测试中刷新纪录:

    数学能力:AIME 2025 测试得分 94.6%;

    编程能力:SWE-bench Verified得分 74.9%,Aider Polyglot得分 88%;

    健康领域:HealthBench Hard 得分 46.2%。

GPT-5 在指令执行和自主调用工具的能力也有所提升,能够更加稳定地完成多步骤请求,灵活协调多个工具,并根据上下文智能调整行为策略,展现出更强的任务适应能力。

同时,GPT-5 在多项多模态基准测试中同样表现亮眼,覆盖视觉识别、视频理解、空间判断及科学推理等多个维度。得益于其更强的感知与推理能力,ChatGPT 现在能更准确地处理图像及其他非文本输入内容。

在 OpenAI 的内部基准测试中,GPT-5 在约 50% 的复杂知识工作任务中达到或超越专家水平,涵盖法律、物流、销售、工程等 40 多个职业领域,表现优于 o3 和 ChatGPT Agent。

OpenAI 特别强调,GPT-5 是在微软 Azure AI 超级计算机上训练的。

此外,GPT-5 在推理效率上也有突破。在视觉推理、编码和研究生级科学问题解决等任务中,GPT- 5 的表现优于 OpenAI o3,但输出 token 数量减少了 50%~80%。

幻觉问题一直是 AI 的老大难,与 OpenAI 之前的模型相比,GPT-5 出现幻觉的可能性有了明显降低,在处理复杂、开放性问题时更加得心应手。

在代表 ChatGPT 生产环境流量的匿名测试中,GPT-5 的事实错误率比 GPT-4o 降低约 45%;启用推理功能时,错误率比 OpenAI o3 降低约 80%。

在开放性事实准确性基准 LongFact 和 FActScore 测试中,“GPT-5 thinking”的幻觉率比 o3 减少约六倍,标志着长篇内容生成准确性的显著提升。

除了事实准确性的提升,GPT-5还能更诚实地向用户传达其行为和能力。据模型安全研究负责人 Alex Beutel 称,OpenAI 对 GPT-5 进行了“超过五千小时”的测试,以了解其安全风险。

GPT-5 还引入了“安全完成”这一全新安全训练方式,让模型在保持安全边界的同时尽可能提供有用答案。当需要拒绝请求时,GPT-5 会透明地说明拒绝原因并提供安全替代方案。

在用户体验方面,GPT-5 减少了过度附和行为,在专门设计的谄媚测试中,谄媚回复率从 14.5% 降至不足 6%。新模型使用更少不必要的表情符号,回应更加细腻和深思熟虑。

此外,OpenAI 还为所有用户推出了四种 ChatGPT 的预设个性:愤世嫉俗者、机器人、倾听者和书呆子,这些个性最初适用于文本聊天,晚些时候将上线语音。用户可根据个人喜好调整 ChatGPT 的交互风格。

在现场的演示中,语音交互变得非常自然且可控。

OpenAI 的研究员要求 GPT-5 从现在开始只用一个词回答问题,当被要求分享一句智慧之言时,GPT-5 回答:“Patience”。发布会现场大家都笑了,主持人说这也许是模型在感谢大家耐心等待 GPT-5 的发布。

免费用户也能用,还有一款真香模型

取代 OpenAI o3-pro,OpenAI 还发布了 GPT-5 pro,这是 GPT-5 的一个变体,能够进行更长时间的思考,采用规模化但高效的并行测试时计算,能够提供最高质量和最全面的答案。

在 1000 多个具有经济价值的真实世界推理提示评估中,外部专家在 67.8 %的情况下更倾向选择 GPT-5 Pro,其重大错误率较 GPT-5 减少 22%,并且在健康、科学、数学和编码方面表现出色,获得专家们的一致好评。

GPT-5 今天开始成为 ChatGPT 的新默认模型,向所有 Plus、Pro、Team 和免费用户推出,Enterprise 和 Edu 用户将在一周后获得访问权限。

免费版用户每 5 小时可发送 10 条消息,Plus 用户每 3 小时可发送 80 条消息。

Pro 用户可无限制访问 GPT-5 及 GPT-5 Pro,免费用户达到使用限制后将自动切换到 GPT-5 mini。Pro、Plus 和 Team 用户还可以通过 ChatGPT 登录 Codex CLI,在开发环境中调用 GPT-5 来完成代码编写、调试等任务。

虽然 GPT-5 已对所有用户开放,但 ChatGPT 免费用户并不会立即获得完整的 GPT-5 使用体验。一旦免费用户达到 GPT-5 的使用限制,他们将切换到更小、更快的精简版模型 GPT-5 mini。

面向开发者,OpenAI 还为 API 平台推出三个不同规格的版本:gpt-5、gpt-5-mini 和 gpt-5-nano,开发者可根据项目对性能、成本和响应速度的不同要求灵活选择。

GPT-5 支持回复 API、聊天完成 API 等主流接口,同时成为 Codex CLI 的默认模型。所有版本都具备reasoning_effort 和 verbosity 参数控制能力,以及自定义工具功能。

除基础对话能力外,GPT-5 还集成了并行工具调用、内置工具、流式处理、结构化输出等核心功能,以及提示缓存和批量 API 等成本优化特性。

GPT-5 API 还推出四项核心新功能,大幅提升开发者的使用体验。

首先,通过 reasoning_effort 参数,开发者能根据不同任务场景,在最小、低、中、高四个档位间灵活切换。简单任务用最小档快速响应,复杂问题用高档深度思考,让开发者在回答质量和响应速度间找到最佳平衡点。

在回答详细程度上,verbosity 参数支持低、中、高三档设置,帮助控制回答的详细程度。比如在“天空为什么是蓝色”这一问题上,低档回答简洁明了,高档回答则包含详细的科学解释。

在工具调用方式上,新增的自定义工具功能支持纯文本格式,彻底告别 JSON 转义字符的困扰。处理大量代码或长文档时,开发者无需再为格式错误而烦恼。

值得注意的是,整个执行过程是可追踪,GPT-5会在执行工具调用时主动输出进度更新,让开发者了解 AI 的执行计划和当前状态。

另外,区别于 ChatGPT 中的 GPT-5 系统,API 版本专门针对开发者需求优化,更适合编程和 Agent 任务场景。

包括 Windsurf、Vercel、JetBrains 等知名开发工具和平台都对 GPT- 5给出积极评价。Windsurf 指出,GPT-5 在评估中达到最先进水平,“与其他前沿模型相比,工具调用错误率仅为其一半”。

GPT-5 的发布,对 Claude 而言可能是一记直击命门的重拳。

据外媒 The Information 报道,Anthropic 当前 50 亿美元的年化收入中,有超过六成来自 API,其中仅 Cursor 和 GitHub Copilot 这两家编程客户就贡献了 14 亿美元。这种把鸡蛋放在同一个篮子里的收入结构,恰恰暴露了 Anthropic 脆弱的软肋。

编程工具市场的残酷之处在于性能即一切,哪怕是 5% 的准确率提升,对开发者而言都意味着每天节省数小时的调试时间,过去 Claude 能在编程领域迅速崛起,很大程度上是因为 ChatGPT 在代码能力上的相对滞后。

但窗口期终有关闭的一天,伴随着 GPT-5 在代码编程任务和 Agent 能力的提升,结合 OpenAI 更强的生态绑定和产品分发渠道,一旦 Cursor 等工具回流 OpenAI,将极大撼动 Anthropic 的收入。

也许很快,我们就能看到 Claude 5 的到来。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GPT-5 OpenAI 人工智能 AI模型 编程助手
相关文章