PaperAgent 07月08日 13:59
Meta最新大模型RL微调:在线DPO/GRPO显著优于离线DPO
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Meta 和 NYU 的最新研究揭示了强化学习在大型语言模型(LLMs)微调中的强大作用。研究对比了离线、半在线和在线三种训练范式,发现在可验证和不可验证任务中,半在线和在线训练方法均显著优于离线方法。此外,多任务训练策略,即结合可验证和不可验证任务,进一步提升了模型性能。研究结果为优化LLMs的训练方法提供了新的思路,尤其是在提升模型在复杂任务上的表现方面。

💡研究核心在于探索强化学习方法在LLMs微调中的应用,旨在提升模型性能。

🚀研究对比了离线、半在线和在线三种训练范式。其中,在线和半在线训练方法在可验证任务和不可验证任务中均表现出显著优势。

📈在可验证任务中,在线 DPO 和 GRPO 方法在 Math500 数据集上分别达到 58.7% 和 58.1% 的准确率,优于离线 DPO 的 53.7%。

🎯在不可验证任务中,在线 DPO 在 AlpacaEval LC 的胜率比离线 DPO 提高了 56.6%,在 ArenaHard 的得分提高了 45.6%。

➕多任务训练策略,即结合可验证和不可验证任务,进一步提升了模型性能。例如,在非验证任务上,从 NuminaMath 检查点微调的模型在 AlpacaEval LC 上的胜率达到了 78.8%。

2025-06-30 09:30 湖北

Meta 和 NYU最新研究:强化学习方法在大型语言模型(LLMs)微调中的有效性,特别是在从离线到半在线再到完全在线的不同训练范式下,针对可验证任务和不可验证任务的性能表现:半在线和在线训练方法显著优于离线方法,并且在多任务训练中结合可验证和不可验证任务可以进一步提升模型性能。

(左):展示了训练流程中单个训练步骤的可视化,该流程可用于任何训练目标,例如直接偏好优化(DPO)或分组奖励策略优化(GRPO)。通过同步权重,可以使用最新模型生成 rollout 响应。

(右):从离线到在线训练的进展,展示了在不同训练步骤中模型权重同步发生的时间点。离线训练仅在训练开始前同步一次,而在线训练则在每一步都进行同步。

https://arxiv.org/pdf/2506.21495

Bridging Offline and Online Reinforcement Learning for LLMs

推荐阅读


    欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

    阅读原文

    跳转微信打开

    Fish AI Reader

    Fish AI Reader

    AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

    FishAI

    FishAI

    鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

    联系邮箱 441953276@qq.com

    相关标签

    LLMs 强化学习 微调 在线训练 多任务学习
    相关文章