PaperAgent 01月26日
R1风起,清华、港科大发布大模型强化推理技术最新全面综述
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文全面回顾了大型语言模型(LLMs)在推理能力提升方面的最新进展,从最初的自回归token生成到引入“思维”概念,再到通过强化学习训练LLMs掌握推理过程,以及测试时扩展方法。文章详细阐述了监督式微调(SFT)和强化学习(RL)在提升LLMs推理能力中的作用,并深入探讨了结果奖励模型(ORM)和过程奖励模型(PRM)的挑战与进步。此外,文章还介绍了测试时扩展技术,如链式思考(CoTs)和PRM引导的搜索,以及OpenAI o1系列模型和开源大型推理模型的尝试,最后总结了语言强化搜索、基于记忆的强化和代理系统搜索等增强技术,为读者呈现了一条通往大型推理模型的清晰路径。

🚀 **思维的引入与强化学习**:大型语言模型从简单的token生成发展到引入“思维”概念,并通过强化学习训练掌握推理过程,这标志着LLMs推理能力的重大飞跃。

💡 **训练范式与模型优化**:文章详细阐述了监督式微调(SFT)和强化学习(RL)在提升LLMs推理能力中的作用,包括结果奖励模型(ORM)和过程奖励模型(PRM)的挑战与进步,为模型训练提供了新的思路。

🔍 **测试时扩展技术**:通过链式思考(CoTs)和PRM引导的搜索等测试时扩展技术,以及OpenAI o1系列模型的案例,展示了如何在不修改模型参数的情况下,显著提升LLMs的推理能力和解决方案的准确性。

🤖 **开源与增强技术**:文章介绍了OpenR等开源项目在复现OpenAI o1模型核心方法上的尝试,以及语言强化搜索、基于记忆的强化和代理系统搜索等增强技术,为LLM推理能力的进一步提升提供了多种可能性。

2025-01-25 13:09 贵州

DeepSeek R1大风起~

全面回顾了大型语言模型(LLMs)在推理能力提升方面的最新进展,从简单的自回归token生成到引入“思维(thought)”概念的转变,以及如何通过强化学习(RL)训练LLMs掌握推理过程,再到鼓励LLMs在测试时推理中使用更多token进行“思考”,最终,训练时和测试时的扩展相结合——通往大型推理模型的道路。

展示标注LLM推理数据的不同范式

学习推理:监督式微调到强化微调 

测试时扩展:从链式思考(CoTs)到PRM引导的搜索 

1 通过提示引导深思熟虑的思考

2 PRM引导的搜索

通往大型推理模型的路径

1 OpenAI o1系列的发展

2 开源的大型推理模型尝试

其他测试时增强技术

1 语言强化搜索(Verbal Reinforcement Search)

2 基于记忆的强化(Memory-based Reinforcement)

3 代理系统搜索(Agentic System Search)

LLM推理基准的分类体系

https://arxiv.org/pdf/2501.09686Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大型语言模型 推理能力 强化学习 测试时扩展 过程奖励模型
相关文章