如何看待 Open AI 发布草莓模型 OpenAI o1，大模型已经达到人类博士水平了吗？

知乎全站热榜 2024年09月13日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

OpenAI推出了一个名为o1的新型大型语言模型，该模型通过强化学习进行训练，能够进行复杂的推理。o1在回答问题之前会先思考，生成一个长的内部思维链，并展现出优异的推理能力，在多个考试和基准测试中超越了GPT-4o。

🤔 **强大的推理能力**：o1在回答问题之前会先思考，生成一个长的内部思维链，并展现出优异的推理能力，在多个考试和基准测试中超越了GPT-4o。例如，在竞争性编程问题(Codeforces)上排名在89百分位，在美国数学奥林匹克(AIME)预选赛中名列前500名，并在物理、生物和化学问题基准测试(GPQA)上超过了博士级别的人类准确率。

🧠 **思维链推理**：o1通过强化学习学习如何使用思维链进行有效的思考。它可以识别和纠正错误，将复杂步骤分解为更简单的步骤，并在当前方法无效时尝试不同的方法。这种思维链推理极大地提高了模型的推理能力，使其能够解决更复杂的问题。

🛡️ **安全性和对齐**：思维链推理为对齐和安全提供了新的机会。通过将模型行为政策整合到推理模型的思维链中，可以有效地教授人类价值观和原则，提高模型的安全性。

🔭 **透明度和可解释性**：隐藏的思维链为监控模型提供了独特的机会。假设思维链是忠实和可读的，它允许我们“读取”模型的思维并理解其思维过程，提高模型的透明度和可解释性。

我们正在推出OpenAI o1,这是一个通过强化学习训练的新型大型语言模型,能够进行复杂推理。o1在回答问题前会先思考 - 它能在回应用户之前产生一个长的内部思维链。 OpenAI o1在竞争性编程问题(Codeforces)上排名在89百分位,在美国数学奥林匹克(AIME)预选赛中名列前500名,并在物理、生物和化学问题基准测试(GPQA)上超过了博士级别的人类准确率。虽然让这个新模型像当前模型一样易用的工作仍在进行中,但我们正发布一个早期版本OpenAI o1-preview,可立即在ChatGPT中使用,并向可信的API用户开放。我们的大规模强化学习算法通过高效的训练过程,教会模型如何利用思维链进行富有成效的思考。我们发现,o1的性能随着更多的强化学习(训练时计算)和更长的思考时间(测试时计算)而持续提高。这种方法的扩展限制与LLM预训练有很大不同,我们正在继续研究这些限制。为突出o1相比GPT-4o在推理能力上的改进,我们在一系列人类考试和机器学习基准测试上进行了评估。结果显示,o1在绝大多数需要大量推理的任务上显著优于GPT-4o。除非另有说明,我们在最大测试时计算设置下评估o1。与人类在回答困难问题时可能需要长时间思考类似,o1在尝试解决问题时会使用思维链。通过强化学习,o1学会了完善其思维链和策略。它学会识别和纠正错误,将复杂步骤分解为更简单的步骤,在当前方法无效时尝试不同方法。这个过程极大地提高了模型的推理能力。除了考试和学术基准测试外,我们还在广泛领域的具有挑战性的开放式提示上评估了人类对o1-preview与GPT-4o的偏好。结果显示,在数据分析、编码和数学等需要大量推理的类别中,人们更倾向于选择o1-preview。思维链推理为对齐和安全提供了新的机会。我们发现,将模型行为政策整合到推理模型的思维链中是一种有效的方法,可以稳健地教授人类价值观和原则。为了严格测试我们的改进,我们在部署前进行了一系列安全测试和对抗性评估。我们发现思维链推理在我们的评估中普遍提高了模型的能力。我们相信隐藏的思维链为监控模型提供了独特的机会。假设思维链是忠实和可读的,它允许我们"读取"模型的思维并理解其思维过程。总结要点: OpenAI首款推理模型o1发布：比GPT-4o更慢、更贵

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签