报告主题:慢思考的外置与内化:类o1模型复现探索
报告日期:12月25日(本周三)10:30-12:00
报告背景:
最近,测试时扩展(Test-time Scaling )引起了研究界的广泛关注,这在很大程度上得益于OpenAI发布的o1模型的重大进展。通过在推理阶段分配更多的计算资源,大型语言模型(LLMs)可以通过生成更多的思考标记或多样的解决方案,广泛探索解决空间,从而产生更准确的响应。然而,开发类似o1的推理方法具有挑战性,研究人员一直在进行各种尝试,以推动这一开放研究领域的发展。我们先后从两个可能的方面对复现类o1的慢思考系统做出了探索。
主要解决问题:
如何通过奖励引导的外置树搜索增强大型语言模型的推理能力?
如何通过内化慢思考过程长程思维链,使用“模仿、探索和自我改进”的框架来增强大语言模型的推理能力?
主要解决方案:
为了探索外置搜索树的可行性,我们设计并实现了了一个针对数学问题的推理框架,该框架框架包括策略模型、奖励模型和搜索算法。
在训练过程中,我们实现了策略模型和奖励模型的互相迭代提升;在推理过程中,策略模型奖励模型的引导下,得到一个动态扩展的树以找到数学问题的正确解答。我们对实施该系统所探索的训练和推理方法进行了广泛讨论。该方法在LLaMA-3.1-8B-Instruct上实现了数学领域的性能飞跃。
报告分享1:
Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search
尽管外置的树搜索的确有效,但我们很快意识到,这样的方法可能并不是类o1系统的正确路径。我们主要发现了三个主要问题:首先,我们训练的特定领域奖励模型在不同领域之间的泛化能力较差。其次,在推理阶段执行树搜索非常耗时,使其在实际应用中较为困难。第三,尽管测试时间缩放有效,但我们仍无法实现训练时间缩放以提高模型性能。
Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems
报告分享2:
DeepSeek和Qwen发布类似o1系统的API或检查点,使我们能够深入研究实际的思维过程。这对我们获得初始标注数据以进行初步尝试尤为重要。其次,我们实证发现,用少量长链思维数据微调LLMs可以显著提升它们在复杂推理任务中的表现,我们推测o1可能采用了一种将慢思考内化到“一次解码”过程的方式。因此我们进行了第二阶段的尝试。具体而言,我们采用了一种“模仿、探索和自我改进”的框架作为主要技术方法来训练推理模型。
在初始阶段,我们使用提炼的长篇思考数据来微调推理模型,使其能够调用慢思考模式。然后,通过生成多个推演过程,鼓励模型探索难题,这可以导致产生越来越多高质量的轨迹,最终得出正确答案。此外,模型通过迭代改进其训练数据集来进行自我提升。为了验证这种方法的有效性,我们在三个具有挑战性的基准测试上进行了广泛的实验。实验结果表明,我们的方法在这几个基准测试中与行业级别的推理系统相比表现出竞争力。
报告嘉宾:
闵映乾,中国人民大学高瓴人工智能学院一年级博士生,师从文继荣教授和赵鑫教授,主要研究方向为大语言模型表征学习和大语言模型推理能力增强。
扫码报名
更多热门报告
内容中包含的图片若涉及版权问题,请及时与我们联系删除