Meta 和 NYU 的最新研究揭示了强化学习在大型语言模型(LLMs)微调中的强大作用。研究对比了离线、半在线和在线三种训练范式,发现在可验证和不可验证任务中,半在线和在线训练方法均显著优于离线方法。此外,多任务训练策略,即结合可验证和不可验证任务,进一步提升了模型性能。研究结果为优化LLMs的训练方法提供了新的思路,尤其是在提升模型在复杂任务上的表现方面。
💡研究核心在于探索强化学习方法在LLMs微调中的应用,旨在提升模型性能。
🚀研究对比了离线、半在线和在线三种训练范式。其中,在线和半在线训练方法在可验证任务和不可验证任务中均表现出显著优势。
📈在可验证任务中,在线 DPO 和 GRPO 方法在 Math500 数据集上分别达到 58.7% 和 58.1% 的准确率,优于离线 DPO 的 53.7%。
🎯在不可验证任务中,在线 DPO 在 AlpacaEval LC 的胜率比离线 DPO 提高了 56.6%,在 ArenaHard 的得分提高了 45.6%。
➕多任务训练策略,即结合可验证和不可验证任务,进一步提升了模型性能。例如,在非验证任务上,从 NuminaMath 检查点微调的模型在 AlpacaEval LC 上的胜率达到了 78.8%。
2025-06-30 09:30 湖北

Meta 和 NYU最新研究:强化学习方法在大型语言模型(LLMs)微调中的有效性,特别是在从离线到半在线再到完全在线的不同训练范式下,针对可验证任务和不可验证任务的性能表现:半在线和在线训练方法显著优于离线方法,并且在多任务训练中结合可验证和不可验证任务可以进一步提升模型性能。
(左):展示了训练流程中单个训练步骤的可视化,该流程可用于任何训练目标,例如直接偏好优化(DPO)或分组奖励策略优化(GRPO)。通过同步权重,可以使用最新模型生成 rollout 响应。
(右):从离线到在线训练的进展,展示了在不同训练步骤中模型权重同步发生的时间点。离线训练仅在训练开始前同步一次,而在线训练则在每一步都进行同步。

可验证任务:在线和半在线训练方法(如在线 DPO 和 GRPO)在所有基准测试中均显著优于离线 DPO。例如,在 Math500 数据集上,离线 DPO 的准确率为 53.7%,而在线 DPO 和 GRPO 的准确率分别达到 58.7% 和 58.1%。
不可验证任务:在线和半在线方法同样优于离线方法。在线 DPO 在 AlpacaEval LC 的胜率比离线 DPO 提高了 56.6%,在 ArenaHard 的得分提高了 45.6%。
多任务训练:结合可验证和不可验证任务的多任务训练进一步提升了模型性能。例如,在非验证任务上,从 NuminaMath 检查点微调的模型在 AlpacaEval LC 上的胜率达到了 78.8%,显著高于仅训练非验证任务的模型。



https://arxiv.org/pdf/2506.21495
Bridging Offline and Online Reinforcement Learning for LLMs
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。