PaperAgent 前天 21:17
阿里开源QwenLong-L1:首个以强化学习训练的长上下文推理大模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里开源的QwenLong-L1框架,是一个通过强化学习训练的用于长文本情境推理的大型推理模型(LRM)。该模型在长文本处理方面取得了显著进展,性能可与Claude-3.7-Sonnet-Thinking媲美。QwenLong-L1-32B在多个长文本基准测试中表现出色,优于OpenAI-o3-mini和Qwen3-235B-A22B等模型。QwenLong-L1框架的核心在于通过强化学习,逐步扩展上下文长度,从而提升模型在长文本场景下的推理能力。该框架包含预热阶段的监督微调、基于课程的分阶段强化学习和基于难度感知的回顾性采样策略,并采用了GRPO和DAPO算法,结合混合奖励机制,实现了在长文本推理方面的突破。

💡 QwenLong-L1-32B是首个通过强化学习训练的用于长文本情境推理的LRM,标志着长文本处理技术的新进展。

🚀 该框架的核心在于通过逐步扩展上下文的方式,将短文本情境的LRMs适应到长文本情境,实现长文本推理能力的提升。

🔑 QwenLong-L1框架包含三个核心组件:预热阶段的监督微调,用于建立初始策略;基于课程的分阶段强化学习,逐步增加输入长度;基于难度感知的回顾性采样策略,激励策略探索。

⚙️ 文章采用了GRPO和DAPO两种RL算法,以提高训练的稳定性和效率,并结合混合奖励机制,平衡了精确性和召回率。

🏆 在七个长上下文DocQA基准上的实验表明,QwenLong-L1-32B的表现优于OpenAI-o3-mini和Qwen3-235B-A22B等旗舰LRM,性能与Claude-3.7-Sonnet-Thinking相当。

2025-05-27 21:12 湖北

QwenLong-L1-32B性能媲美Claude-3.7-Sonnet-Thinking

LRMs 在通过强化学习(RL)提升了推理能力,但,扩展到长文本场景(如 120K tokens)仍然是一个未解决的挑战,为此,阿里提出并开源了QwenLong-L1框架,首个通过强化学习训练用于长文本情境推理的长文本情境大型推理模型(LRM)。

QwenLong-L1-32B优于OpenAI-o3-mini和Qwen3-235B-A22B等旗舰LRMs,其性能与Claude-3.7-Sonnet-Thinking相当,展现出在最先进的LRMs中领先的性能。

QwenLong-L1是一个新颖的强化学习 (RL) 框架,旨在促进 LRM 从短上下文熟练度向稳健的长上下文泛化能力的转变。在初步实验中,展示了短上下文和长上下文推理 RL 训练动态之间的差异。

    预热阶段的有监督微调(Supervised Fine-Tuning, SFT):通过高质量的标注数据对模型进行初始化,以建立稳健的初始策略。

    基于课程的分阶段强化学习(Curriculum-Guided Phased RL):通过逐步增加输入长度的方式,稳定地从短文本到长文本进行适应。

    基于难度感知的回顾性采样策略(Difficulty-Aware Retrospective Sampling):通过优先采样复杂实例来激励策略探索。

RL 算法:文章采用了 GRPO(Group Relative Policy Optimization) 和 DAPO(Decoupled Clip and Dynamic Sampling Policy Optimization) 两种算法,以提高训练的稳定性和效率。

混合奖励机制(Hybrid Reward Mechanisms):结合基于规则的验证(rule-based verification)和基于 LLM 的判断(LLM-as-a-judge),平衡了精确性和召回率。

QwenLong-L1-32B是第一个使用强化学习训练的用于长上下文推理的长上下文 LRM。在七个长上下文 DocQA 基准上的实验表明,QwenLong-L1-32B 的表现优于 OpenAI-o3-mini 和 Qwen3-235B-A22B 等旗舰 LRM,达到了与 Claude-3.7-Sonnet-Thinking 相当的性能,在最先进的 LRM 中表现出色。

    https://www.arxiv.org/pdf/2505.17667

    QWENLONG-L1Towards Long-Context Large Reasoning Models with Reinforcement Learning

    https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1-32B

    推荐阅读


      欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

      阅读原文

      跳转微信打开

      Fish AI Reader

      Fish AI Reader

      AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

      FishAI

      FishAI

      鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

      联系邮箱 441953276@qq.com

      相关标签

      QwenLong-L1 长文本推理 强化学习 大模型
      相关文章