PaperAgent 01月29日
首个DeepSeek-R1全开源复现Open-R1来了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Hugging Face开源项目Open-R1旨在完全复现DeepSeek-R1模型,该项目在短时间内迅速获得大量关注。Open-R1的目标是补全DeepSeek-R1流程中缺失的部分,方便用户复现和开发。项目包含训练、评估和数据生成脚本,并提供Makefile简化操作。Open-R1的复现分为三个阶段:首先,提取高质量语料库复现R1-Distill模型;其次,复现DeepSeek的纯强化学习流程,可能涉及创建新的大规模数据集;最后,展示从基础模型到RL调整模型的过渡。项目支持分布式数据并行和DeepSpeed ZeRO优化,并提供了针对8卡H100配置的训练示例。

🚀 Open-R1项目由Hugging Face出品,目标是完全开源复现DeepSeek-R1模型,旨在填补原流程的缺失部分,使任何人都能在此基础上进行复现和开发。

🛠️ 项目包含训练和评估模型的脚本(如grpo.py, sft.py, evaluate.py),以及使用Distilabel生成合成数据的脚本(generate.py),通过Makefile文件可以便捷地执行R1流程的各个步骤。

🎯 Open-R1的复现过程分为三个主要步骤:复现R1-Distill模型、复现DeepSeek的纯强化学习(RL)流程,以及展示从基础模型到RL调整模型的过渡。其中,第二步可能需要创建新的数学、推理和代码数据集。

⚙️ 项目支持使用DDP或DeepSpeed ZeRO-2和ZeRO-3进行模型训练,并提供了针对配备8块H100显卡的单节点配置的训练命令,用户可以根据自身硬件情况调整批量大小和梯度累积步数。

春城在下雪~ 2025-01-26 09:56 云南

huggingface出品,学起来~

Open-R1huggingface出品,DeepSeek-R1的完全开源复现,短短一天已经冲上1.9k Star,这个仓库仍在建设中。

Open-R1的目标是构建DeepSeek-R1流程中缺失的部分,以便每个人都可以复现并在此基础上进行开发。项目设计简单,主要包含以下内容:

Open-R1将以DeepSeek-R1技术报告为指导,该报告大致可以分为三个主要步骤:

    第一步:通过从DeepSeek-R1中提取高质量语料库,复现R1-Distill模型。

    第二步:复现DeepSeek用于创建R1-Zero的纯强化学习(RL)流程。这可能涉及为数学、推理和代码创建新的大规模数据集。

    第三步:展示能够通过多阶段训练从基础模型过渡到经过RL调整的模型。

训练模型

支持使用DDP(分布式数据并行)或DeepSpeed ZeRO-2和ZeRO-3来训练模型。要切换训练方法,只需更改configs文件夹中加速器(accelerate)YAML配置文件的路径即可。

以下训练命令是针对配备8块H100(80GB)显卡的单个节点配置的。如果使用不同的硬件或拓扑结构,可能需要调整批量大小和梯度累积步数。

accelerate launch --config_file=configs/zero3.yaml src/open_r1/sft.py \    --model_name_or_path Qwen/Qwen2.5-Math-1.5B-Instruct \    --dataset_name HuggingFaceH4/Bespoke-Stratos-17k \    --learning_rate 2.0e-5 \    --num_train_epochs 1 \    --packing \    --max_seq_length 4096 \    --per_device_train_batch_size 4 \    --per_device_eval_batch_size 4 \    --gradient_accumulation_steps 4 \    --gradient_checkpointing \    --bf16 \    --logging_steps 5 \    --eval_strategy steps \    --eval_steps 100 \    --output_dir data/Qwen2.5-1.5B-Open-R1-Distill
accelerate launch --config_file configs/zero3.yaml src/open_r1/grpo.py \    --output_dir DeepSeek-R1-Distill-Qwen-7B-GRPO \    --model_name_or_path deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \    --dataset_name AI-MO/NuminaMath-TIR \    --max_prompt_length 256 \    --per_device_train_batch_size 1 \    --gradient_accumulation_steps 16 \    --logging_steps 10 \    --bf16

数据生成

1块H100显卡,从deepseek-ai/DeepSeek-R1-Distill-Qwen-7B生成数据

使用了2个节点,每个节点配备8块H100显卡,从DeepSeek-R1模型生成数据

https://github.com/huggingface/open-r1

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Open-R1 DeepSeek-R1 Hugging Face 开源 大模型
相关文章