难度爆表！从 LLM 到 Infra，手撕 5 大并行训练算法

PaperAgent 07月08日 13:59

本文介绍了小冬瓜AIGCX-R1开源框架提供的LLM对齐研究课程，该课程旨在帮助学员掌握LLM的核心技术，并通过实战项目提升技能。课程内容涵盖Pytorch手撕DP、TP、PP、CP、EP等并行算法，以及RLHF、多模态VLM等进阶专题。学员将通过实操项目，如R1模型训练和Llama-3-8B/70B的RLHF训练，掌握大模型训练的全流程。课程还提供源码工程、Notebook、社群支持等，助力学员在OpenAI、Meta等公司获得就业机会。

💡 课程核心：该课程基于Pytorch，从零手撕DP、TP、PP、CP、EP等五大并行算法，并涵盖Backward梯度和ZeRO-adam等关键算法，旨在帮助学员深入理解LLM的底层原理。

🚀 实战项目：课程提供R1模型训练实操、Llama-3-8B/70B-DeepSpeed + RLHF + DPO + PPO实操等多个实战项目，学员可以低成本复现项目效果，并进行MMLU/Ceval测评。

📚 课程内容：课程包含直播、录播、手撕级Notebook、非调包Code、算法图解和PPT等多种形式，覆盖RL、RLHF、LLM加速、分布式训练、多模态VLM等多个专题。

🌍 社群支持：课程拥有LLM社群，学员主要来自海外，部分学员就职于OpenAI、Meta等知名公司，为学员提供交流和学习的平台。

2025-06-30 09:30 湖北

我是
小冬瓜AIGC

X-R1

开源框架 | 现高校LLM对齐研究

课程帮助学员拿下

OpenAI

Meta

等

小红书

知乎

：

小冬瓜AIGC

DeepSeek-V3 的 AI-Infra 将性能压榨到极致。

V3 用 DualPipe + EP(计算-通信-重叠) 构建了分布式训练框架。

LLM 分布式训练技术由于多机多卡的机器要求，难以入门和精通

本 Lecture 基于 Pytorch 从 0 手撕 DP, TP, PP, CP, EP，而且把 Backward 也写了，全实例可运行。具体包含：

纯

Pytorch

从零手撕
5
大并行算法：

、

。不依赖

DeepSpeed

和

Megatron

框架，手撕关键算法

Backward

梯度和

ZeRO-adam

，硬核实现 MoE EP 1F1B 下的通信-计算重叠Step-by-step 手撕

DP:ZeRO-3

、

TP:Llama

、

CP: RingAttention

、

PP: DualPipe

、

EP: Gshard

等经典算法不需要多卡环境，纯CPU GLOO backend可运行所有实例，无须 triton和cuda 等基础

展示分布式代码截选

Lecture摘选了 EasyDualPipe 开源 https://github.com/dhcode-cpp/easy-dualpipe

更多详情了解《手撕LLM》课程

一、「手撕LLM」课程介绍

课程内容：直播 + 往期录播 + 手撕级Notebook + 非调包Code + 算法图解 + 课程PPT

课程项目：垂域大模型实操 + 多卡DeepSpeed RLHF训练 + R1模型训练实操⚠️

进阶专题：手撕RL、手撕RLHF、手撕分布式训练、手撕多模态VLM、LLM加速、手撕RLHF-PPO Notebook

实操效果：X-R1实操<50元成本出效果；已全线支持Llama-3-8B/70B的SFT/DPO/PPO多卡训练；低成本百元 8B DPO训练；

LLM社群：学员超过50%来自海外。部分就业于北美OpenAI、谷歌Gemini、SEED、META、微软、亚麻、苹果、谷歌等，海外学历背景PhD居多，MIT、UCLA、UIUC、NYU、UCL等；国内清北、复旦居多。

入门要求： Pytorch+神经网络或深度学习基础

2.2【手撕LLM-第9/10章节】RL/RLHF

2.3【手撕LLM-第11章】LLM加速（长文档）

2.4【手撕LLM-第12章】分布式训练（长文档+代码）

2.5【手撕LLM-第13章】手撕多模态VLM（长文档+Notebook）

2.6【手撕LLM-第14章】手撕o1推理（长文档+Notebook+PRM实操）

2.7 其他新增内容

分布式训练：DP、ZeRO1/2/3、GQATP、DualPipe、GShard、计算通信重叠等

Notebook：FlashAttention Backward、Cut Cross Entropy,MCTS, BPE, BeamSearch, AutoGrad, CrossEntropy, PPL, Layernorm Backward, Tensor Parallel, BTModel, DPO, IPO, KTO, NTK-RoPE, Llama-3-GQA, MoE

测评：vllm推理部署、CMMLU、MMLU、CEVAL、safety测评

三、课程内容在线直播授课+Notebook+源码工程+关键算法图解+课程PPT+课后答疑+完整垂域大模型实操项目+多卡Deepspeed+RLHF PPO实操+R1训练实操

实操项目仓库MA-RLHF：课程私密代码仓库，实操项目和手撕Notebook长期更新。

3.1 实操项目1： R1 模型训练实操【项目开源】包含 R1 原理讲解，手撕GRPO，X-R1框架训练：< 50元复现0.5B 数学推理。

实操模型开源至huggingface🤗 ：

xiaodongguaAIGC/X-R1-3B

基于Qwen-2.5-0.5B/1.5B/3B 训练曲线：