普林斯顿｜500个思维模版、多层次强化学习，ReasonFlux打造LLM推理新范式

智源社区 02月21日

普林斯顿｜500个思维模版、多层次强化学习，ReasonFlux打造LLM推理新范式

ReasonFlux是一个创新的层次化LLM推理框架，旨在解决大型语言模型在复杂推理任务，如数学奥林匹克竞赛中面临的挑战。它通过可扩展的思维模板优化推理搜索空间，显著超越了现有模型。ReasonFlux的核心在于其包含约500个高层次思维模板的结构化模板库，通过层次化强化学习优化基础LLM，并采用基于模板的推理扩展系统。实验结果表明，ReasonFlux在MATH和AIME基准测试中均取得了显著的准确率提升，证明了思维模板在提升大模型推理效率方面的巨大潜力。

💡ReasonFlux核心创新：构建包含约500个高层次思维模板的结构化模板库，支持高效检索和适应，为解决复杂问题提供坚实基础。

🧠层次化强化学习优化：通过层次化强化学习（Hierarchical RL）优化基础LLM，规划出最优的模板轨迹来解决复杂的子问题，提升问题解决的效率和准确性。

🚀模板推理扩展系统：基于模板的推理扩展系统（Template-augmented Inference Scaling），在推理时动态调整思维模板，实现更好的探索与利用平衡，确保推理过程的灵活性和适应性。

🏆卓越的实验结果：在MATH基准测试中达到91.2%的准确率，比o1-preview高出6.7%；在AIME基准测试中解决了56.7%的问题，分别比o1-preview和DeepSeek V3高出27%和45%，验证了ReasonFlux的有效性。

报告主题：ReasonFlux：500个思维模版+多层次强化学习打造LLM推理新范式

报告日期：02月26日（下周三）10:30-11:30

报告要点:

大型语言模型（LLMs）在处理复杂推理任务方面取得了显著进展，但在解决如数学奥林匹克竞赛（AIME）等复杂数学问题时仍面临挑战。为了解决这些挑战，我们提出了 ReasonFlux，一个创新的层次化LLM推理框架，通过可扩展的思维模板优化推理搜索空间，在数学推理任务中显著超越了OpenAI o1-preview和DeepSeek V3等先进模型。ReasonFlux的关键创新包括：包含约500个高层次思维模板（Thought Template）的结构化模板库，支持高效检索和适应；通过层次化强化学习（Hierarchical RL）优化基础LLM，规划出最优的模板轨迹来解决复杂的子问题；以及基于模板的推理扩展系统（Template-augmented Inference Scaling），在推理时动态调整思维模板，实现更好的探索与利用平衡。实验表明，ReasonFlux在MATH基准测试中达到了91.2%的准确率，比o1-preview高出6.7%；在AIME基准测试中，解决了56.7%的问题，分别比o1-preview和DeepSeek V3高出27%和45%。这些结果都表明着思维模板（Thought Template）有潜力代替CoT成为更高效的大模型推理轨迹表征。

报告嘉宾：

杨灵，北大在读博士，导师为Bin Cui和Luxia Zhang教授，他同时也是普林斯顿高级研究助理，合作导师为普林斯顿的王梦迪教授，他的研究领域涵盖大语言模型和扩散模型，以第一作者在ICLR/NeurIPS/ICML/CVPR等顶级人工智能会议期刊上发表论文20余篇，主导并开源RPG-DiffusionMaster，Buffer-of-Thought，ReasonFlux等多个明星研究项目。

扫码报名

更多热门报告

内容中包含的图片若涉及版权问题，请及时与我们联系删除

点赞收藏评论分享到Link

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

ReasonFlux LLM推理思维模板强化学习数学解题

相关文章

Teaching Large Language Models to Reason with Reinforcement Learning with Alex Havrilla - #680

Training Data Locality and Chain-of-Thought Reasoning in LLMs with Ben Prystawski - #673

AI Trends 2024: Reinforcement Learning in the Age of LLMs with Kamyar Azizzadenesheli - #670

AI Trends 2023: Reinforcement Learning - RLHF, Robotic Pre-Training, and Offline RL with Sergey Levine - #612

Reinforcement Learning for Personalization at Spotify with Tony Jebara - #609

Deep Learning, Transformers, and the Consequences of Scale with Oriol Vinyals - #546

The Benefit of Bottlenecks in Evolving Artificial Intelligence with David Ha - #535

Advancing Deep Reinforcement Learning with NetHack, w/ Tim Rocktäschel - #527

Applying RL to Real-World Robotics with Abhishek Gupta - #466

Off-Line, Off-Policy RL for Real-World Decision Making at Facebook - #448