OpenAI：耐心时刻结束了，新篇章已开启！gpt-o1深度测评！

原创技术Z先生 2024-09-16 00:31 广东

openAI最新gpt-o1深度测评

* 戳上方蓝字“AI资讯互联”关注我

大家好，我是技术Z先生，一个从事后端技术且热爱分享的程序员！

就在本周，OpenAI 高调发布了其最新模型「o1」的预览版，以及更小、更经济的「o1-mini」。这次发布不仅引起了广泛关注，也标志着OpenAI在高级推理领域的又一次重大突破。

我的AI工具（https://ai.quanyouhulian.com/#/news/index）也实时抓取到了该重大更新，大家可以收藏查看每日最新快讯

接下来，我将从：o1模型是什么、o1模型有哪些独特之处、o1模型测评表现，o1模型的产品定价、o1模型如何使用、o1模型的未来发展机会进行深度测评剖析！

o1模型是什么？

OpenAI o1模型是OpenAI公司最新发布的“Strawberry”系列AI大模型，这个强大的推理模型不仅包括高性能的OpenAI o1-preview版本，还有一个更小巧、成本更低的o1 mini版本。尽管目前处于「预览版」阶段，o1模型已经展示出惊人的潜力，能够解决比以往任何科学、代码和数学模型更复杂的问题。

o1 模型有哪些独特之处？

与之前的 GPT-4o 模型相比，o1 具有更强大的能力，**尤其在解决编程和数学等复杂问题上表现出色。**

OpenAI 采用了一种全新的「强化学习」方法来训练 o1，使其能够像人类一样进行逐步思考，花费更多时间来解决问题。通过这种方式，o1 学会了完善自己的思维过程，尝试不同的策略，并能识别和纠正自己的错误。

这些特点总结如下：

• 强化学习训练：通过强化学习技术，o1模型在处理复杂推理任务时展现出前所未有的效率。

• 复杂推理能力：擅长处理需要深入思考和多步骤逻辑推理的问题，尤其在数学、编程和科学领域表现卓越。

• 思维链机制：o1模型在回答问题前会进行内部的长链条逻辑推理，模拟人类的思考过程，提高解决问题的准确性。

• 自我纠错：具备识别并纠正自身错误的能力，通过训练过程中的反馈机制实现。

• 性能卓越：在多个专业基准测试中，o1模型的表现超越以往所有模型，包括在国际数学奥林匹克（IMO）资格考试中的优异成绩。

• 多模态理解：尽管主要专注于文本，o1模型也展现出处理多模态任务的潜力，如结合视觉信息进行推理。

• 安全性和可靠性：通过思维链技术提高模型的可解释性，便于监控和防止潜在的操纵行为。

• 成本效益：在提供高性能的同时，o1模型也注重成本效益，特别是o1-mini版本，旨在提供更经济的推理能力。

o1模型测评表现

为了验证 o1 的能力，OpenAI 使用了国际奥林匹克数学资格考试进行测试，结果显示 o1 的得分高达 83%，而 GPT-4o 仅为 13%。

• GPT-4o 的表现：平均只能解决 12% 的问题（15 题中的 1.8 题）。

• o1 的表现：

• 单次尝试：平均解决 74% 的问题（15 题中的 11.1 题）

• 64 次采样取共识：正确率提升至 83%（15 题中的 12.5 题）

• 1000 次采样后使用学习型评分函数重新排序：正确率高达 93%（15 题中的 13.9 题）

例如，困扰 ChatGPT 和其他 AI 机器人的「Strawberry 有几个 r」问题，o1 能够正确回答，但在「9.8 和 9.11 哪个大」的经典难题上依然表现不佳。

虽然 o1 目前还不具备浏览网页或处理文件和图像的能力，但在解决复杂问题上的表现已经令人瞩目。

不过，o1 在解决实际问题时展现了强大的逻辑推理能力，比如网友 @howie_serious 用 o1 模型做 2024 年高考数学卷

除了证明题没有测试外，其他题目均答对。

再来看下它对高中的微积分的题目解答推理效果如何：

可以看到推理清晰，也完美解答了问题！

文字识别

对于o1的文字识别效果，目前来看效果不是很理想，不确定是否是中文的原因，我们以徐志摩的散文进行测试，提示词如下

你是一名非常有经验的作家，请根据徐志摩的《陌上花开》的内容，
仿照写一篇相似的诗歌，但诗歌中的词语相似度不能超过20%：
轻轻的我走了，正如我轻轻的来；
我轻轻的招手，作别西天的云彩。
那河畔的金柳，是夕阳中的新娘；
波光里的艳影，在我的心头荡漾。
软泥上的青荇，油油的在水底招摇；
在康河的柔波里，我甘心做一条水草！
那榆荫下的一潭，不是清泉，是天上虹；
揉碎在浮藻间，沉淀着彩虹似的梦。
寻梦？撑一支长篙，向青草更青处漫溯；
满载一船星辉，在星辉斑斓里放歌。
但我不能放歌，悄悄是别离的笙箫；
夏虫也为我沉默，沉默是今晚的康桥！
悄悄的我走了，正如我悄悄的来；
我挥一挥衣袖，不带走一片云彩。