OpenAI釋出GPT-5，強化程式開發及代理任務

AI & Big Data 6小时前

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

OpenAI正式发布了GPT-5，此次更新带来了统一的系统架构，融合了快速响应与深度思考模式，并通过实时路由器实现自主切换，全面提升了性能、效率和可靠性。GPT-5在写作、编程和健康等领域表现出色，显著减少了幻觉和指令遵循错误，并提升了创作意境。在各项基准测试中，GPT-5均取得了优异成绩，例如在数学、编程、多模态理解和科学推理方面均有大幅进步。与前代模型相比，GPT-5在输出Token、事实错误和幻觉率方面均有显著降低。此外，GPT-5还引入了多种聊天机器人个性，并加强了在代理任务和长文本检索方面的能力。API版本提供了不同规格的定价方案。

🚀 **性能与效率大幅提升**: GPT-5采用了统一的系统架构，集成了快速响应与深度思考模式，并能通过实时路由器自主切换，显著提高了整体性能、效率和可靠性。在编程方面，内部测试显示其前端开发能力比o3优越70%，输出Token减少22%，工具调用减少45%，且工具调用错误率更低。

💡 **多模态理解与事实准确性增强**: GPT-5在减少幻觉和提高事实准确性方面取得重大进展。在开放式事实查询中，其幻觉率仅为OpenAI o3的1/6。在多模态测试中，GPT-5在缺少图片的情况下给出虚假答案的比例仅为9%，远低于o3的86%。

✍️ **创作与指令遵循能力优化**: GPT-5在写作、编程和健康等领域性能显著提升。例如，只需一个提示即可生成美观且响应迅速的网站、应用程序和游戏。在健康领域，它能主动标记潜在问题并提出问题，提供更精确可靠的回应。同时，GPT-5的“阿谀奉承”回应率从GPT-4o的14.5%降至6%以下，指令遵循能力也得到加强。

🤖 **个性化聊天与多功能应用**: GPT-5开始预览不同的聊天机器人个性，包括“愤世嫉俗型”、“机器人型”、“倾听者型”和“书呆子型”，初期支持文字聊天，未来将支持语音，用户可自行调整。其API版本已整合至多个平台，并大幅强化了程式开发及代理任务的处理能力，在长文本检索和工具调用串联方面表现优于前代模型。

💰 **API定价与市场估值**: GPT-5提供GPT-5、GPT-5-mini和GPT-5-nano三种API规格，价格根据输入/输出Token数量而定，为开发者提供了灵活的选择。文章还提及了OpenAI员工股票套现的讨论及其高达5,000亿美元的估值，显示了公司在AI领域的巨大潜力和市场关注度。

OpenAI周四（8/7）正式發表了GPT-5，ChatGPT版本採用統一系統架構，同時整合了快速回應與深度思考模式，並可透過即時路由器自主切換，也提高了整體的性能、效率與可靠性，GPT-5 API版本則大幅強化程式開發及代理任務，已被整合到OpenAI API平臺、Codex CLI、Microsoft 365 Copilot、GitHub Copilot及Azure AI Foundry上等平臺上。

根據OpenAI的說法，GPT-5提高了ChatGPT中最常見之3種用途的性能，包括寫作、程式設計與健康，亦於減少幻覺、強化指令遵循，以及減少阿諛奉承上有了重大改進。例如只需要一個提示就能生成美觀且回應訊速網站、應用程式及遊戲；在健康上它可主動標記潛在的問題並提出問題，也能有更精確與更可靠的回應；在文字上則具備更有意境的創作風格。

GPT-5在有關數學的AIME 2025基準測試分數為94.6%，與程式設計相關的SWE-bench Verified及Aider Polyglot分別達到74.9%與88%，涉及多模態理解的MMMU為84.2%，健康領域的HealthBench Hard為46.2%，以GPT-5 Pro進行科學推理的GPQA為88.4%。

圖片來源／OpenAI

相較於OpenAI o3，GPT-5的輸出Token少了50~80%；相較於GPT-4o，GPT-5的事實錯誤少了45%；在開放式的事實查詢中，GPT-5的幻覺率是OpenAI o3的1/6；在缺少圖片的多模態測試中，o3有超過86%的比例會給出虛假答案，GPT-5只有9%；GPT-5的諂媚回應也從GPT-4o的14.5%降至6%以下。

OpenAI還開始於GPT-5中預覽不同的聊天機器人個性，包括憤世嫉俗型（Cynic）、機器人型（Robot）、傾聽者型（Listener）與書呆子型（Nerd），初期僅支援文字聊天，之後將支援語音，使用者可自行於設定中調整。

而在程式設計上，OpenAI於內部測試GPT-5的前端開發，發現它有70%的時候都優於o3，輸出Token減少了22%，工具呼叫減少了45%，且性能更好。Windsurf說它的工具呼叫錯誤率比其它先進模型少了一半。

至於GPT-5在與代理任務有關的τ2-bench telecom基準測試分數為96/7%，Scale MultiChallenge為69.6%，長文本的檢索能力也優於o3及GPT-4.1，代表它能夠更可靠地呼叫並串聯各種工具。

GPT-5有3種API規格，包括GPT-5、GPT-5-mini與GPT-5-nano，每100萬個輸入Token的價格分別是1.25/0.25/0.05美元，輸出則是10/2/0.4美元。

有些媒體試用後認為GPT-5屬於重大更新，有些則覺得它比不上從GPT-3到GPT-4所帶來的驚喜，而根據路透社（Reuters）的報導，OpenAI內部正在討論如何讓員工手上的股票套現，且對該公司的估值高達5,000億美元。OpenAI在今年3月底宣布要融資400億美元，融資後的估值為3,000億美元。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签