我们正在推出OpenAI o1,这是一个通过强化学习训练的新型大型语言模型,能够进行复杂推理。o1在回答问题前会先思考 - 它能在回应用户之前产生一个长的内部思维链。 OpenAI o1在竞争性编程问题(Codeforces)上排名在89百分位,在美国数学奥林匹克(AIME)预选赛中名列前500名,并在物理、生物和化学问题基准测试(GPQA)上超过了博士级别的人类准确率。虽然让这个新模型像当前模型一样易用的工作仍在进行中,但我们正发布一个早期版本OpenAI o1-preview,可立即在ChatGPT中使用,并向可信的API用户开放。 我们的大规模强化学习算法通过高效的训练过程,教会模型如何利用思维链进行富有成效的思考。我们发现,o1的性能随着更多的强化学习(训练时计算)和更长的思考时间(测试时计算)而持续提高。这种方法的扩展限制与LLM预训练有很大不同,我们正在继续研究这些限制。 为突出o1相比GPT-4o在推理能力上的改进,我们在一系列人类考试和机器学习基准测试上进行了评估。结果显示,o1在绝大多数需要大量推理的任务上显著优于GPT-4o。除非另有说明,我们在最大测试时计算设置下评估o1。 与人类在回答困难问题时可能需要长时间思考类似,o1在尝试解决问题时会使用思维链。通过强化学习,o1学会了完善其思维链和策略。它学会识别和纠正错误,将复杂步骤分解为更简单的步骤,在当前方法无效时尝试不同方法。这个过程极大地提高了模型的推理能力。 除了考试和学术基准测试外,我们还在广泛领域的具有挑战性的开放式提示上评估了人类对o1-preview与GPT-4o的偏好。结果显示,在数据分析、编码和数学等需要大量推理的类别中,人们更倾向于选择o1-preview。 思维链推理为对齐和安全提供了新的机会。我们发现,将模型行为政策整合到推理模型的思维链中是一种有效的方法,可以稳健地教授人类价值观和原则。 为了严格测试我们的改进,我们在部署前进行了一系列安全测试和对抗性评估。我们发现思维链推理在我们的评估中普遍提高了模型的能力。 我们相信隐藏的思维链为监控模型提供了独特的机会。假设思维链是忠实和可读的,它允许我们"读取"模型的思维并理解其思维过程。总结要点: OpenAI首款推理模型o1发布:比GPT-4o更慢、更贵