36氪 - 科技频道 06月11日 11:04
OpenAI o3-pro 震撼发布,史上最强 AI 来袭,却暗藏这些 “槽点”?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI 推出了其最新 AI 模型 o3-pro,引发科技界广泛关注。该模型在推理能力上实现突破,能够像人类一样拆解和解决问题,尤其在物理、数学和编程等领域表现出色。o3-pro 逐步开放给 ChatGPT Pro 和 Team 用户,并已在 OpenAI 开发者 API 上线,但其定价策略引发了对大规模应用成本的讨论。新模型在科学、教育、编程和商业等领域表现卓越,拥有强大的工具调用能力。尽管存在响应时间较长和部分功能受限等问题,但其在 AI 基准测试中的优异成绩,预示着 AI 技术的新发展。

🧠 推理能力革新:o3-pro 核心在于其强大的推理能力,能够像人类一样进行逻辑推导,逐步解决问题。这使得它在数学、编程等对逻辑要求高的领域表现出色,例如,在几何证明题中,o3-pro 能分析条件,调用定理,从而得出正确结论。

💰 定价策略与成本考量:o3-pro 在 OpenAI 开发者 API 上的定价为每百万输入 tokens 20 美元,每百万输出 tokens 80 美元。虽然对普通用户影响较小,但对于依赖 API 的企业和开发者来说,成本成为了关键考量因素,引发了行业内对 AI 服务定价模式的讨论。

✨ 卓越性能与多功能性:o3-pro 在科学、教育、编程和商业等多个领域表现出色,评审人员更倾向于使用该模型。它还具备强大的工具调用能力,如网页搜索、文件分析、视觉输入处理、Python 编程和个性化回复等功能,提升了用户体验。

⚠️ 局限与挑战:尽管 o3-pro 性能强大,但仍存在一些不足。其响应时间通常比 o1-pro 更长,且目前不支持图像生成和 OpenAI 的 Canvas 功能。这些限制可能会影响其在特定场景下的应用,例如实时聊天和创意设计。

🏆 基准测试表现优异:在 AI 基准测试中,o3-pro 表现出色。在评估数学技能的 AIME 2024 测试中,o3-pro 的得分超过了谷歌的 Gemini 2.5 Pro;在测试博士级科学知识的 GPQA Diamond 测试中,o3-pro 也击败了 Anthropic 的 Claude 4 Opus。

在 AI 领域的激烈竞争中,OpenAI 再次投下重磅炸弹!近日,OpenAI 正式推出了全新 AI 模型 o3-pro,官方更是自信宣称这是其有史以来最强大的模型。消息一出,立刻在全球科技圈掀起轩然大波,无数目光聚焦于此,大家都迫切想知道:这个号称 “最强” 的 o3-pro,究竟有何过人之处?又会给我们的生活和工作带来怎样的改变?

全新升级,推理能力再突破

o3-pro 其实是 OpenAI 今年早些时候推出的推理模型 o3 的升级版。推理模型的核心优势在于能够像人类一样,一步一步地拆解和解决问题,这种 “思考” 方式打破了传统 AI 模型的局限。传统 AI 模型往往是基于大量数据的模式匹配来给出答案,而推理模型则更注重逻辑推导。以数学领域为例,当面对一道复杂的几何证明题时,o3-pro 会先分析题目给出的条件,再调用已有的几何定理,通过严谨的步骤推导,最终得出正确结论;在编程方面,它可以深入理解代码需求,从功能实现逻辑出发,逐步编写和优化代码,大幅减少代码中的错误和漏洞。这种独特的推理能力,让 o3-pro 在物理、数学和编程等对逻辑要求极高的领域,表现得比传统模型更加可靠和精准,也为其在专业领域的深度应用奠定了坚实基础 。

逐步开放,定价引发热议

从 6 月 10 日(周二)起,ChatGPT Pro 和 Team 用户已经可以率先体验 o3-pro,它直接取代了之前的 o1-pro 模型。而 Enterprise 和 Edu 用户则需要再等一周才能使用。同时,o3-pro 也于当天下午在 OpenAI 的开发者 API 中上线。在 API 中,o3-pro 的定价为每百万输入 tokens 20 美元,每百万输出 tokens 80 美元。tokens 作为 AI 处理信息的基本单元,其数量与实际文本量紧密相关。一百万输入 tokens 大约相当于 750,000 个单词,比《战争与和平》的篇幅还要长一些。这样的定价策略,对于普通用户来说影响较小,但对于依赖 API 进行大规模数据处理和应用开发的企业和开发者而言,成本问题成为关注焦点。不少开发者开始重新评估项目预算,思考如何在享受 o3-pro 强大功能的同时,合理控制使用成本,这也在一定程度上引发了行业内关于 AI 服务定价模式的讨论。

性能卓越,亮点功能丰富

OpenAI 在更新日志中透露,在专家评估中,评审人员在所有测试类别中都一致更青睐 o3-pro,尤其是在科学、教育、编程、商业和写作辅助等关键领域。在科学研究方面,o3-pro 能够帮助科研人员快速分析大量实验数据,提出新的研究假设;教育领域中,它可以根据学生的学习情况,生成个性化的学习方案和习题解析;商业场景里,能为企业提供精准的市场分析和商业策略建议。而且,评审人员还认为 o3-pro 在表达清晰度、内容全面性、指令遵循度和回答准确性等方面都要优于以往的模型。

此外,o3-pro 还具备强大的工具调用能力,堪称 “全能助手”。它可以进行网页搜索,实时获取最新的信息和数据,为用户提供更全面的回答;能够分析各类文件,无论是文档、表格还是代码文件,都能准确提取关键信息并进行解读;支持处理视觉输入,比如对图片中的物体、场景进行分析和描述;熟练使用 Python 编程,满足开发者各种编程需求;甚至能利用记忆功能实现个性化回复,根据用户之前的提问和交互历史,提供更贴合用户需求的答案,大大提升了交互体验 。

美中不足,存在发展局限

不过,o3-pro 并非十全十美。OpenAI 坦言,该模型的响应时间通常比 o1-pro 更长,也就是说,用户可能需要多等一会儿才能得到它的答案。这对于一些追求即时反馈的场景,如实时聊天、在线客服等,可能会造成一定的体验下降。此外,目前 ChatGPT 中与 o3-pro 的临时聊天功能因 “技术问题” 暂时禁用,这无疑限制了用户在日常交流场景中的使用。o3-pro 也无法生成图像,在当下图文结合的信息传播时代,这让它在一些创意设计、营销宣传等领域的应用受到阻碍。而且 OpenAI 的 AI 工作空间功能 Canvas 也不被 o3-pro 支持,对于依赖 Canvas 进行团队协作和项目管理的用户来说,不得不继续使用其他模型或工具 。

实力强劲,基准测试成绩优异

尽管存在这些不足,o3-pro 在 AI 基准测试中的表现却十分亮眼。根据 OpenAI 的内部测试,在评估数学技能的 AIME 2024 测试中,o3-pro 的得分超过了谷歌表现最好的 AI 模型 Gemini 2.5 Pro;在测试博士级科学知识的 GPQA Diamond 测试中,o3-pro 也击败了 Anthropic 最近发布的 Claude 4 Opus。这些成绩不仅证明了 o3-pro 在专业知识处理上的卓越实力,也凸显了 OpenAI 在 AI 技术研发上的领先地位。这也让其他 AI 研发企业感受到了巨大的压力,促使整个行业加快技术创新的步伐,推动 AI 技术不断向前发展。

o3-pro 的发布,标志着 AI 技术又向前迈出了一大步。它既带来了更强大的功能和更精准的回答,也暴露出一些有待完善的地方。对于广大用户和开发者来说,o3-pro 既是一个充满机遇的新工具,也是一个需要进一步探索和适应的新挑战。从企业角度看,如何将 o3-pro 融入现有的业务流程,提升工作效率和服务质量,是接下来需要思考的问题;对于开发者而言,利用 o3-pro 的强大功能开发出更具创新性的应用,将成为在竞争中脱颖而出的关键。而对于普通用户,期待 o3-pro 在未来能够克服现有局限,为我们的生活带来更多便利和惊喜。未来,随着技术的不断迭代,o3-pro 能否克服现有局限,持续刷新我们对 AI 的认知?让我们拭目以待!

本文来自微信公众号“山自”,作者:Rayking629,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI o3-pro AI模型 推理能力 AI技术
相关文章