PaperAgent 02月14日
X-R1: 不到50元,人人都能复现0.5B Aha Moment
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

X-R1旨在打造易入门、低成本的强化学习训练框架,加速Scaling Post-Training发展。受DeepSeek-R1启发,X-R1用低于50元的成本,在0.5B预训练模型上复现R1-Zero的“顿悟时刻”。该项目基于open-r1,探索更易训练的方案,聚焦纯Reasoning-RL端到端训练,不进行预训练、指令微调和数据蒸馏。实验表明,仅用4块3090/4090显卡,两小时内即可完成训练,并在第10分钟观察到“顿悟时刻”。X-R1还发现,极小模型也能触发“顿悟”,且模型越大,越容易受益于规则奖励。

💡X-R1目标是建设一个易入门和低成本的基于强化学习的训练框架, 以加快Scaling Post-Training的发展进程, 降低R1的复现门槛, 探索了一条更易训练的方案。

🚀X-R1聚焦于纯Reasoning-RL的端到端训练问题,不考虑做任何的继续预训练、指令微调和数据蒸馏操作, 使用4x3090/4090 GPUs 训练总时间2小时以内,在第10分钟的 37步优化中输出了“aha Moment“ 💡

🧪实验结果表明,0.5B的模型能够偶现Aha Moment,而1.5B的模型则能频繁触发,且性能分数优于0.5B约20%。更大的模型(7.0B)在少量数据训练下,Aha Moment表现自然,并能遵循提示词格式。

🛠️X-R1简化了安装流程,基础显卡驱动仅需Cuda>12.4,并精简了open-r1使用的uv工具安装。实验环境不再需要8xA100(80G)显卡,降低了硬件门槛。

小冬瓜AIGC 2025-02-12 21:00 湖北

低成本复现, R1, R1-Zero, 0.5B, 4x3090, Aha-Moment, DeepSeek-R1, R1-Zero, Reasoning

X-R1开源仓库https://github.com/dhcode-cpp/X-R1

1. 介绍

X-R1目标是建设一个易入门和低成本的基于强化学习的训练框架。以加快Scaling Post-Training的发展进程。

受到 DeepSeek-R1 和 open-r1 的启发,为了降低R1的复现门槛,我们用最低的成本<50元 在0.5B 的预训练模型上复现了R1-Zero的“Aha Moment”(顿悟时刻)💡

2. X-R1 特点

项目的代码基础为 open-r1 ,由于官方例子需要 8x80G显卡,我们探索了一条更易训练的方案。X-R1聚焦于纯Reasoning-RL的端到端训练问题,不考虑做任何的继续预训练、指令微调和数据蒸馏操作。

3. X-R1 0.5B 训练结果

3.1 运行

在4x3090/4090(24G)的训练环境中,3张显卡用Zero-Stage 3做优化,1张显卡vLLM部署推理服务,训推分离使得GRPO优化更加高效。

实际实验 4x4090, 3epochs, 训练时间为:~1h20min

ACCELERATE_LOG_LEVEL=info \
accelerate launch \
--config_file recipes/zero3.yaml \
--num_processes=3 \
src/x_r1/grpo.py \
--config recipes/X_R1_zero_0dot5B_config.yaml \
> ./output/x_r1_0dot5_sampling.log 2>&1

3.2 准确性奖励

我们测试了0.5B和1.5B的实验,得到了符合预期曲线,并且在不到5步的优化中,模型就能快速到达饱和状态

3.3 Aha Moment:

训练约10min左右观测到Aha Moment 现象:

Wait, that doesn't match either of our options. It seems like I made a mistake in my assumptionsLet's go back to the original equations

4. X-R1 发现

在实验过程我们测试X-R1的模型行为:

X-R1认为:

5. X-R1 安装

基础的显卡驱动要求仅为Cuda>12.4, 另外我们简化了open-r1 使用的uv 工具安装。实验环境不需要8xA100(80G)显卡

git clone git@github.com:dhcode-cpp/X-R1.git
cd X-R1
mkdir output
conda create -n xr1 python=3.11
conda activate xr1
pip install -e .

6. X-R1 下一步计划

关于X-R1

如果有任何的建议,请在X-R1的仓库描述Issue或联系dhcode95@gmail.com

感谢

Reference

X-R1开源仓库https://github.com/dhcode-cpp/X-R1

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

X-R1 强化学习 Aha Moment Reasoning-RL 低成本复现
相关文章