Z Tech｜对话前DeepSeek科学家，00后西北大学博士生，深度解析首个将R1(-Zero) 方法应用于Agent训练框架

原创 Z Potentials 2025-01-29 10:34 福建

00后西北大学博士生，深度解析首个将R1(-Zero) 方法应用于Agent训练框架

近期，受中国人工智能初创公司——深度求索公司（DeepSeek）冲击，美国人工智能主题股票遭抛售，美国芯片巨头英伟达（NVIDIA）股价历史性暴跌，纳斯达克综合指数大幅下跌。在美国市场，DeepSeek已超越ChatGPT，标志着中国AI产品在全球市场上实现了历史性突破，且DeepSeek用极低的训练成本开源了其R1模型。

2月1日北京时间早上9点（美西时间1月31日晚上5点），Z Potentials特邀前DeepSeek研究员，西北大学计算机科学博士Zihan Wang直播Talk，深度解析其团队颠覆性工作RAGEN，揭开RL与LLM结合的下一代训练框架的核心奥秘！

Zihan Wang（王子涵）是美国西北大学计算机科学博士生，目前师从西北大学助理教授著名学者Manling Li教授。他本科毕业于中国人民大学高瓴人工智能学院，并多次荣获各类奖学金和国家级奖项。

此前，他曾与UIUC的Heng Ji教授合作，并参与了DeepSeek大模型研发。在 EMNLP 2024 大会上也与 DeepSeek 团队共同发布了一项研究，提出了一种参数高效微调（PEFT）方法，用于定制资源受限的大型语言模型（LLM），尤其是具有混合专家（MoE）架构的模型。

作为一位在学术和工程实践中表现突出的青年研究者，Zihan的研究兴趣涵盖了大模型的自主性（MINT benchmark）、效率（DeepSeek-V2, Expert-Specialized Fine-Tuning）以及长上下文理解能力（NOVO, RETA-LLM Toolkit）。

在本次讲座中，Zihan Wang将为我们深入剖析其最新研究成果——RAGEN。这是全球首个复现DeepSeek-R1(-Zero) 方法训练AI Agent的成果！RAGEN全力押注强化学习RL+大语言模型LLM+智能体Agents融合的未来。通过以下技术特点，RAGEN为AI领域的前沿探索提供了新的方向，完成了R1 Self Learing to Reasoning拼图的最后一步。