北京时间凌晨 1 点,OpenAI 正式发布了他们的最新旗舰模型 GPT-5,这是“迄今最智能、最快速、最实用”的AI系统,首次引入内置思维能力,将专家级智能普及到每个用户手中。\x0a\x0aGPT-5 的最大创新在于其统一智能架构。该系统巧妙整合了高效响应模型和深度推理模型(GPT-5 thinking),通过实时智能路由自动判断何时快速响应、何时深度思考。这一突破性设计让 AI 首次具备了类似人类的“思考深浅”判断能力。\x0a\x0a“这不仅仅是性能的提升,更是AI交互方式的根本性变革,”OpenAI 表示。“GPT-5 让用户无需再为选择模型而烦恼,系统会根据问题复杂度自动匹配最适合的智能级别。”\x0a\x0a[强]全方位能力跃升\x0a\x0a1.编程:GPT-5 在编程领域的表现亮眼,在 SWE-bench Verified 基准测试中取得了 74.9% 的优异成绩,在 Aider Polyglot 测试中更是达到 88%。更令人印象深刻的是,GPT-5 能够仅凭一个提示就创建出美观、响应式的网站、应用程序和游戏,在设计美学方面的理解力显著提升。\x0a\x0a2.创意写作:作为最强大的写作协作伙伴,GPT-5 在处理复杂文学形式方面表现出色,能够熟练掌握无韵律五步格诗和自然流畅的自由诗创作。这一能力的提升直接惠及用户的日常工作,使报告起草、邮件编辑、备忘录撰写等任务变得更加高效。\x0a\x0a3.健康咨询:GPT-5 在健康领域的表现尤为突出,在 HealthBench 基准测试中得分创历史新高,达到 46.2%。该模型能够主动识别潜在健康问题,提出针对性问题,并根据用户的背景知识和地理位置提供精准建议,成为用户健康管理的重要助手。\x0a\x0a[让我看看]在多个权威基准测试中取得了突破性成绩:\x0a\x0a1)数学推理:AIME 2025 无工具辅助达到 94.6%;\x0a2)多模态理解:MMMU 基准测试达到 84.2%;\x0a3)科学推理:GPT-5 Pro 在 GPQA 测试中无工具辅助达到 88.4%;\x0a4)经济价值任务:在涵盖法律、物流、销售、工程等 40 多个职业领域复杂知识工作中,约 50% 案例达到或超越专家水平;\x0a\x0a特别值得关注的是,GPT-5 在保持高性能的同时也提升了效率。在视觉推理、智能编程和研究生级科学问题解决等任务中,GPT-5 使用比前代模型少 50%-80% 的计算资源就能获得更优表现。
内容中包含的图片若涉及版权问题,请及时与我们联系删除