Z Potentials 02月01日
Z Tech|对话前DeepSeek科学家,00后西北大学博士生,深度解析首个将R1(-Zero) 方法应用于Agent训练框架
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

西北大学博士生Zihan Wang深度解析了其团队的颠覆性工作RAGEN,这是全球首个复现DeepSeek-R1方法训练AI Agent的成果。RAGEN框架融合了强化学习RL、大语言模型LLM和智能体Agents,为AI领域的前沿探索提供了新的方向。该框架具有统一的多轮处理能力,避免了批量训练问题;同时具备世界建模潜力,为LLM-Agent的规划和推理提供支持;并利用正则表达式奖励解析和批量生成策略实现高效训练。RAGEN在Gym-Sokoban任务上的成功展示了其在规划能力上的巨大潜力。

💡RAGEN是全球首个复现DeepSeek-R1方法训练AI Agent的成果,标志着在AI Agent训练框架上的重大突破。

🧩该框架融合了强化学习RL、大语言模型LLM和智能体Agents,展示了RL与LLM结合的下一代训练框架的核心奥秘。

⚙️RAGEN具有统一的多轮处理能力,避免了实例不稳定性导致的批量训练问题,提高了训练效率和稳定性。

🗺️RAGEN具备世界建模潜力,结合环境状态(s)、奖励(r)和代理动作(a),为LLM-Agent的规划和推理提供支持,增强了智能体的决策能力。

🚀RAGEN通过正则表达式奖励解析和批量生成策略实现高效学习,并在Gym-Sokoban任务上展示了其强大的规划能力。

原创 Z Potentials 2025-01-29 10:34 福建

00后西北大学博士生,深度解析首个将R1(-Zero) 方法应用于Agent训练框架

近期,受中国人工智能初创公司——深度求索公司(DeepSeek)冲击,美国人工智能主题股票遭抛售,美国芯片巨头英伟达(NVIDIA)股价历史性暴跌,纳斯达克综合指数大幅下跌。在美国市场,DeepSeek已超越ChatGPT,标志着中国AI产品在全球市场上实现了历史性突破,且DeepSeek用极低的训练成本开源了其R1模型。


2月1日北京时间早上9点(美西时间1月31日晚上5点),Z Potentials特邀前DeepSeek研究员,西北大学计算机科学博士Zihan Wang直播Talk,深度解析其团队颠覆性工作RAGEN,揭开RL与LLM结合的下一代训练框架的核心奥秘!



Zihan Wang(王子涵)是美国西北大学计算机科学博士生,目前师从西北大学助理教授著名学者Manling Li教授。他本科毕业于中国人民大学高瓴人工智能学院,并多次荣获各类奖学金和国家级奖项。


此前,他曾与UIUC的Heng Ji教授合作,并参与了DeepSeek大模型。在 EMNLP 2024 大会上也与 DeepSeek 团队共同发布了一项研究,提出了一种参数高效微调(PEFT)方法,用于定制资源受限的大型语言模型(LLM),尤其是具有混合专家(MoE)架构的模型。


作为一位在学术和工程实践中表现突出的青年研究者,Zihan的研究兴趣涵盖了大模型的自主性(MINT benchmark)、效率(DeepSeek-V2, Expert-Specialized Fine-Tuning)以及长上下文理解能力(NOVO, RETA-LLM Toolkit)。


在本次讲座中,Zihan Wang将为我们深入剖析其最新研究成果——RAGEN。这是全球首个复现DeepSeek-R1(-Zero) 方法训练AI Agent的成果!RAGEN全力押注强化学习RL+大语言模型LLM+智能体Agents融合的未来。通过以下技术特点,RAGEN为AI领域的前沿探索提供了新的方向,完成了R1 Self Learing to Reasoning拼图的最后一步。

此外,RAGEN已经在经典的Gym-Sokoban任务上展示了其潜力,该任务以其高难度和对规划能力的极高要求而闻名

预约下方链接!分享会末尾设置QA环节,扫二维码进群获得提问机会?

-----------END-----------

我们正在招募新一期的实习生

我们正在寻找有创造力的00后创业

关于Z Potentials

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

RAGEN DeepSeek-R1 AI Agent 强化学习 大语言模型
相关文章