原创 Z Potentials 2025-01-29 10:34 福建
00后西北大学博士生,深度解析首个将R1(-Zero) 方法应用于Agent训练框架
近期,受中国人工智能初创公司——深度求索公司(DeepSeek)冲击,美国人工智能主题股票遭抛售,美国芯片巨头英伟达(NVIDIA)股价历史性暴跌,纳斯达克综合指数大幅下跌。在美国市场,DeepSeek已超越ChatGPT,标志着中国AI产品在全球市场上实现了历史性突破,且DeepSeek用极低的训练成本开源了其R1模型。
2月1日北京时间早上9点(美西时间1月31日晚上5点),Z Potentials特邀前DeepSeek研究员,西北大学计算机科学博士Zihan Wang直播Talk,深度解析其团队颠覆性工作RAGEN,揭开RL与LLM结合的下一代训练框架的核心奥秘!
Zihan Wang(王子涵)是美国西北大学计算机科学博士生,目前师从西北大学助理教授著名学者Manling Li教授。他本科毕业于中国人民大学高瓴人工智能学院,并多次荣获各类奖学金和国家级奖项。
此前,他曾与UIUC的Heng Ji教授合作,并参与了DeepSeek大模型研发。在 EMNLP 2024 大会上也与 DeepSeek 团队共同发布了一项研究,提出了一种参数高效微调(PEFT)方法,用于定制资源受限的大型语言模型(LLM),尤其是具有混合专家(MoE)架构的模型。
作为一位在学术和工程实践中表现突出的青年研究者,Zihan的研究兴趣涵盖了大模型的自主性(MINT benchmark)、效率(DeepSeek-V2, Expert-Specialized Fine-Tuning)以及长上下文理解能力(NOVO, RETA-LLM Toolkit)。
在本次讲座中,Zihan Wang将为我们深入剖析其最新研究成果——RAGEN。这是全球首个复现DeepSeek-R1(-Zero) 方法训练AI Agent的成果!RAGEN全力押注强化学习RL+大语言模型LLM+智能体Agents融合的未来。通过以下技术特点,RAGEN为AI领域的前沿探索提供了新的方向,完成了R1 Self Learing to Reasoning拼图的最后一步。
统一的多轮处理:避免了实例不稳定性导致的批量训练问题。
世界建模潜力:结合环境状态(s)、奖励(r)和代理动作(a),为LLM-Agent的规划和推理提供支持。
高效训练:利用正则表达式奖励解析和批量生成策略实现高效学习。
此外,RAGEN已经在经典的Gym-Sokoban任务上展示了其潜力,该任务以其高难度和对规划能力的极高要求而闻名
预约下方链接!分享会末尾设置QA环节,扫二维码进群获得提问机会?
-----------END-----------
? 我们正在招募新一期的实习生
? 我们正在寻找有创造力的00后创业
关于Z Potentials