AI & Big Data 6小时前
OpenAI釋出GPT-5,強化程式開發及代理任務
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI正式发布了GPT-5,此次更新带来了统一的系统架构,融合了快速响应与深度思考模式,并通过实时路由器实现自主切换,全面提升了性能、效率和可靠性。GPT-5在写作、编程和健康等领域表现出色,显著减少了幻觉和指令遵循错误,并提升了创作意境。在各项基准测试中,GPT-5均取得了优异成绩,例如在数学、编程、多模态理解和科学推理方面均有大幅进步。与前代模型相比,GPT-5在输出Token、事实错误和幻觉率方面均有显著降低。此外,GPT-5还引入了多种聊天机器人个性,并加强了在代理任务和长文本检索方面的能力。API版本提供了不同规格的定价方案。

🚀 **性能与效率大幅提升**: GPT-5采用了统一的系统架构,集成了快速响应与深度思考模式,并能通过实时路由器自主切换,显著提高了整体性能、效率和可靠性。在编程方面,内部测试显示其前端开发能力比o3优越70%,输出Token减少22%,工具调用减少45%,且工具调用错误率更低。

💡 **多模态理解与事实准确性增强**: GPT-5在减少幻觉和提高事实准确性方面取得重大进展。在开放式事实查询中,其幻觉率仅为OpenAI o3的1/6。在多模态测试中,GPT-5在缺少图片的情况下给出虚假答案的比例仅为9%,远低于o3的86%。

✍️ **创作与指令遵循能力优化**: GPT-5在写作、编程和健康等领域性能显著提升。例如,只需一个提示即可生成美观且响应迅速的网站、应用程序和游戏。在健康领域,它能主动标记潜在问题并提出问题,提供更精确可靠的回应。同时,GPT-5的“阿谀奉承”回应率从GPT-4o的14.5%降至6%以下,指令遵循能力也得到加强。

🤖 **个性化聊天与多功能应用**: GPT-5开始预览不同的聊天机器人个性,包括“愤世嫉俗型”、“机器人型”、“倾听者型”和“书呆子型”,初期支持文字聊天,未来将支持语音,用户可自行调整。其API版本已整合至多个平台,并大幅强化了程式开发及代理任务的处理能力,在长文本检索和工具调用串联方面表现优于前代模型。

💰 **API定价与市场估值**: GPT-5提供GPT-5、GPT-5-mini和GPT-5-nano三种API规格,价格根据输入/输出Token数量而定,为开发者提供了灵活的选择。文章还提及了OpenAI员工股票套现的讨论及其高达5,000亿美元的估值,显示了公司在AI领域的巨大潜力和市场关注度。

OpenAI周四(8/7)正式發表了GPT-5,ChatGPT版本採用統一系統架構,同時整合了快速回應與深度思考模式,並可透過即時路由器自主切換,也提高了整體的性能、效率與可靠性,GPT-5 API版本則大幅強化程式開發及代理任務,已被整合到OpenAI API平臺、Codex CLI、Microsoft 365 Copilot、GitHub Copilot及Azure AI Foundry上等平臺上。

根據OpenAI的說法,GPT-5提高了ChatGPT中最常見之3種用途的性能,包括寫作、程式設計與健康,亦於減少幻覺、強化指令遵循,以及減少阿諛奉承上有了重大改進。例如只需要一個提示就能生成美觀且回應訊速網站、應用程式及遊戲;在健康上它可主動標記潛在的問題並提出問題,也能有更精確與更可靠的回應;在文字上則具備更有意境的創作風格。

GPT-5在有關數學的AIME 2025基準測試分數為94.6%,與程式設計相關的SWE-bench Verified及Aider Polyglot分別達到74.9%與88%,涉及多模態理解的MMMU為84.2%,健康領域的HealthBench Hard為46.2%,以GPT-5 Pro進行科學推理的GPQA為88.4%。

圖片來源/OpenAI

相較於OpenAI o3,GPT-5的輸出Token少了50~80%;相較於GPT-4o,GPT-5的事實錯誤少了45%;在開放式的事實查詢中,GPT-5的幻覺率是OpenAI o3的1/6;在缺少圖片的多模態測試中,o3有超過86%的比例會給出虛假答案,GPT-5只有9%;GPT-5的諂媚回應也從GPT-4o的14.5%降至6%以下。

OpenAI還開始於GPT-5中預覽不同的聊天機器人個性,包括憤世嫉俗型(Cynic)、機器人型(Robot)、傾聽者型(Listener)與書呆子型(Nerd),初期僅支援文字聊天,之後將支援語音,使用者可自行於設定中調整。

而在程式設計上,OpenAI於內部測試GPT-5的前端開發,發現它有70%的時候都優於o3,輸出Token減少了22%,工具呼叫減少了45%,且性能更好。Windsurf說它的工具呼叫錯誤率比其它先進模型少了一半。

至於GPT-5在與代理任務有關的τ2-bench telecom基準測試分數為96/7%,Scale MultiChallenge為69.6%,長文本的檢索能力也優於o3及GPT-4.1,代表它能夠更可靠地呼叫並串聯各種工具。

GPT-5有3種API規格,包括GPT-5、GPT-5-mini與GPT-5-nano,每100萬個輸入Token的價格分別是1.25/0.25/0.05美元,輸出則是10/2/0.4美元。

有些媒體試用後認為GPT-5屬於重大更新,有些則覺得它比不上從GPT-3到GPT-4所帶來的驚喜,而根據路透社(Reuters)的報導,OpenAI內部正在討論如何讓員工手上的股票套現,且對該公司的估值高達5,000億美元。OpenAI在今年3月底宣布要融資400億美元,融資後的估值為3,000億美元。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GPT-5 OpenAI 人工智能 AI模型 自然语言处理
相关文章