报告主题:ReasonFlux:500个思维模版+多层次强化学习打造LLM推理新范式

报告日期:02月26日(下周三)10:30-11:30

报告要点:

大型语言模型(LLMs)在处理复杂推理任务方面取得了显著进展,但在解决如数学奥林匹克竞赛(AIME)等复杂数学问题时仍面临挑战。为了解决这些挑战,我们提出了 ReasonFlux,一个创新的层次化LLM推理框架,通过可扩展的思维模板优化推理搜索空间,在数学推理任务中显著超越了OpenAI o1-preview和DeepSeek V3等先进模型。ReasonFlux的关键创新包括:包含约500个高层次思维模板(Thought Template)的结构化模板库,支持高效检索和适应;通过层次化强化学习(Hierarchical RL)优化基础LLM,规划出最优的模板轨迹来解决复杂的子问题;以及基于模板的推理扩展系统(Template-augmented Inference Scaling),在推理时动态调整思维模板,实现更好的探索与利用平衡。实验表明,ReasonFlux在MATH基准测试中达到了91.2%的准确率,比o1-preview高出6.7%;在AIME基准测试中,解决了56.7%的问题,分别比o1-preview和DeepSeek V3高出27%和45%。这些结果都表明着思维模板(Thought Template)有潜力代替CoT成为更高效的大模型推理轨迹表征。

报告嘉宾:

杨灵,北大在读博士,导师为Bin Cui和Luxia Zhang教授,他同时也是普林斯顿高级研究助理,合作导师为普林斯顿的王梦迪教授,他的研究领域涵盖大语言模型和扩散模型,以第一作者在ICLR/NeurIPS/ICML/CVPR等顶级人工智能会议期刊上发表论文20余篇,主导并开源RPG-DiffusionMaster,Buffer-of-Thought,ReasonFlux等多个明星研究项目。

扫码报名

更多热门报告

内容中包含的图片若涉及版权问题,请及时与我们联系删除