PaperAgent 2024年10月30日
o1背后的秘密:6种推理模式解析!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI的o1模型在测试时计算方法下提升了推理能力,通过与现有方法比较,在多个领域基准测试上表现佳,分析了其六种推理模式,DC和SR是常用且关键的模式。

🎯OpenAI的o1模型展示了测试时计算方法对提升LLMs推理能力的作用,在数学、代码和常识推理等领域的基准测试上进行了研究,与多种现有测试时计算方法进行了比较。

💡o1模型总结了六种推理模式,包括系统分析(SA)、方法重用(MR)、分而治之(DC)、自我完善(SR)、上下文识别(CI)和强调约束(EC),其中DC和SR是最常用的模式。

📈在不同的基准测试中,o1模型在大多数数据集上表现最佳,特别是在编程和数学任务上;Agent Workflow在所有基准测试中表现显著提升,但仍与o1模型有差距。

🌐在COLLIE任务中,o1模型通过多次强调指令强化对约束的遵循;在USACO竞赛中,o1模型通过建立基础框架等步骤产生最优解。

2024-10-29 20:52 湖北

OpenAI o1的六种推理模式:系统分析(SA)、方法重用(MR)、分而治之(DC)、自我完善(SR)、上下文识别(CI)和强调约束(EC)。其中,DC和SR是最常用的推理模式,可能是OpenAI o1成功的关键。

OpenAI的o1模型展示了在测试时计算方法(Test-time Compute methods)可以显著提升LLMs的推理能力,但其背后的机制尚未被充分探索。

通过与现有的测试时计算方法(BoN、Step-wise BoN、Agent Workflow和Self-Refine)进行比较,研究了o1模型在三个领域(数学、代码和常识推理)的一般推理基准上的表现:

OpenAI的o1模型、GPT4o以及一些测试时计算方法在选定的四个基准测试(即HotpotQA、Collie、USACO、AIME)上的结果。表中的‘-’表示该方法不搜索多个响应以生成答案。“直接”指的是让大型语言模型(LLMs)直接从输入文本生成响应,而“测试时”指的是基于GPT-4o使用测试时计算方法。

    Best-of-N (BoN):让LLMs为给定的输入生成多个N个输出,然后选择最合适的响应作为输出。

    Step-wise BoN:使LLMs分析问题并将其分解为几个子问题。对于每一步,模型基于之前的子问题和答案生成N个响应,然后使用奖励模型来选择最佳响应。这个过程迭代进行,直到获得原始问题的最终答案。

    Self-Refine:通过迭代反馈和细化来改进LLMs的初始输出。

    Agent Workflow:LLM代理将复杂任务分解为更小的子任务,通过结构化的工作流程规划它们的执行,并使用各种工具来实现目标。对于常识推理数据集,研究者利用现有的最先进的代理框架进行评估。对于代码和数学数据集,选择了GPTs中的顶级代理,分别是代码 copilot和数学求解器。

实验结果:

尽管o1模型总体上比其他模型表现得更好,但在某些特定任务中,一些测试时计算方法仍然能够取得与o1相近的结果。为此,分析了o1在不同任务中的推理模式,并总结了6种跨不同基准测试的推理模式,其中,DC和SR是最常用的推理模式,可能是o1成功的关键

不同基准测试上不同推理模式的统计数据

在COLLIE任务中,模型需要生成一个段落,这段落不仅要遵守特定的文本生成约束,还要确保内容的准确性和相关性。o1模型通过多次强调指令,强化了对这些约束的遵循,这对于需要严格控制生成内容的任务至关重要。

o1模型在美国计算机奥林匹克(USACO)竞赛中的表现,该竞赛专注于算法和问题解决技能。o1模型通过建立基础框架开始,定义关键变量和数据结构,然后应用算法逻辑进行状态转换,逐步产生最优解。此外,o1模型不仅考虑了所有可能的路径和场景,还使用了循环、递归等方法来严格验证每一步,这有助于o1全面覆盖问题的多个方面,并有效生成正确的解决方案。

https://arxiv.org/pdf/2410.13639A COMPARATIVE STUDY ON REASONING PATTERNS OF OPENAI’S O1 MODELhttps://github.com/Open-Source-O1/o1_Reasoning_Patterns_Study

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI o1 推理模式 测试时计算方法 基准测试 LLMs
相关文章