机器之心 2024年11月21日
神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近期,一个名为『Modded-NanoGPT』的项目对 Karpathy 的『llm.c』项目进行了改进,将 GPT-2 模型的训练时间从 45 分钟缩短至 5 分钟。该项目利用了 FlexAttention、Muon 优化器等技术,在 8 块 H100 上实现了这一突破。此外,该项目还探索了新的优化器 Muon,其内存使用量更低,采样效率更高,在各种训练场景中表现出色。研究者表示,这种快速训练方法在一定程度上可能存在过拟合问题,但对于 1.5B 参数模型的训练,其成本仅为 Karpathy 基线的 2.5 倍,展现了极大的潜力。

🚀 **Modded-NanoGPT 项目大幅提升了 GPT-2 模型训练速度**: 将 8 块 H100 上的训练时间从 45 分钟缩短至 5 分钟,使用了 FlexAttention 和 Muon 优化器等技术。

💡 **项目使用了先进的架构和优化技术**: 包括旋转嵌入、QK-Norm、ReLU^2、Muon 优化器、嵌入中的 Untied Head 等,有效提升了训练效率。

💻 **训练过程简化**: 使用三个简单的命令即可完成训练,并提供适用于 8 块 H100 的启动脚本,方便用户快速上手。

🤔 **Muon 优化器具有高效的特性**: 内存使用量低于 Adam,采样效率提高 1.5 倍,挂钟开销小于 2%,适用于多种训练场景。

⚠️ **快速训练方法可能存在过拟合问题**: 研究者表示,该方法可能无法扩展到更大的模型,但对于 1.5B 参数模型,其成本更低,性能也接近 GPT-2(1.5B)的水平。

2024-11-21 12:43 北京

八块 H100,五分钟完事。

机器之心报道

编辑:泽南、小舟

租用 H100 的钱只需 233 美元。


还记得 Andrej Karpathy 纯 C 语言复现 GPT-2 大模型的项目吗?


今年 4 月,AI 领域大牛 Karpathy 一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」曾经引发机器学习社区的热烈讨论。


llm.c 旨在大幅简化大模型的训练,ta 使用纯 C 语言 / CUDA,不需要 245MB 的 PyTorch 或 107MB 的 cPython。不过即使是这样的优化,复现 GPT-2 级别的模型也需要在 8 块 H100 上花费 45 分钟进行训练。


没想到几个月过去,业界水平居然有了指数级的提升,让 Karpathy 本人都感到惊叹:



在 GitHub 上出现了一个新项目「Modded-NanoGPT」,对技术进行了大幅度的迭代,现在实现相同的结果只需要 5 分钟。该研究的作者 Keller Jordan 曾在 Hive AI 工作,一直以来的研究方向都着重于模型训练的优化。他在本周三表示,利用具有大序列长度的 FlexAttention,他已把速度的记录从 7.2 分钟提升到了 5 分钟。



现在有了 FlexAttention 和较大的 seqlen,文档的拆分更少了,因此语言建模在训练和验证时都变得更容易。该记录在 HellaSwag 上的准确率略有降低,约为 29%,而之前的记录和 Andrej Karpathy 的原始训练准确率约为 30%。


让我们看看他是怎么做的:



项目链接:https://github.com/KellerJordan/modded-nanogpt/tree/master


Modded-NanoGPT


该项目名为「Modded-NanoGPT」,它是 llm.c 存储库的 PyTorch GPT-2 训练器的改进变体:



Modded-NanoGPT 采用如下技术:



要进行训练,请运行以下三个命令:


pip install -r requirements.txtpip install --pre torch --index-url https://download.pytorch.org/whl/nightly/cu124 —upgrade # install torch 2.6.0python data/cached_fineweb10B.py 10 # downloads only the first 1.0B training tokens to save time./run.sh


在网络连接良好的 8xH100 上,训练应在 20 分钟内完成。


结果将是一个具有 124M 活跃参数的 transformer,在 10 亿 Fineweb tokens 上训练了 1875 steps,实现了约 3.278 的验证损失。相比之下,默认的 llm.c PyTorch 训练器在 100 亿 tokens 上训练了 19560 steps 后,验证损失 >3.28。


值得一提的是,要在更少的 GPU 上运行 Modded-NanoGPT,只需修改 run.sh 以获得不同的 --nproc_per_node。如果内存不足,只需在 train_gpt2.py 中将 device_batch_size 缩小到 16 或 32。


这里有一个适用于全新 8xH100 实例的启动脚本:


sudo apt-get updatesudo apt-get install vim tmux python3-pip python-is-python3 -ygit clone https://github.com/KellerJordan/modded-nanogpt.gitcd modded-nanogpttmux

pip install numpy==1.23.5 huggingface-hub tqdmpip install --upgrade torch &python data/cached_fineweb10B.py 18


如果 CUDA 或 NCCL 版本与你当前的系统设置不兼容,Docker 可以成为一种有用的替代方案。这种方法标准化了 CUDA、NCCL、CUDNN 和 Python 的版本,减少了依赖性问题并简化了设置。注意:系统上必须已安装 NVIDIA 驱动程序。


sudo docker build -t modded-nanogpt .sudo docker run -it --rm --gpus all -v $(pwd):/modded-nanogpt modded-nanogpt python data/cached_fineweb10B.py 18sudo docker run -it --rm --gpus all -v $(pwd):/modded-nanogpt modded-nanogpt sh run.sh


有一个问题在于,NanoGPT 训练很快是很好,但它可能无法扩展,只是过拟合了 val 损失?Keller Jordan 表示,这很难反驳,因为「按规模」是一个无限类别(如果这些方法对 >100T 的模型就不奏效了怎么办?),因此无法完全证明。此外,作者也同意快速运行中使用的一些方法不太可能扩展。但如果读者关心 1.5B 模型,他们可能会被这个结果说服:


直接将快速运行(10/18/24 版本)扩展到 1.5B 参数可以得到一个具有 GPT-2(1.5B)级 HellaSwag 性能的模型,它要比 Karpathy 的基线便宜 2.5 倍(233 美元对比 576 美元):




Muon optimizer


除了在前人的肩膀上探索,新项目也使用了 Keller Jordan 自研的优化方式。比如这个 Muon 优化器,据他所说是目前已知最快的优化器,适用于包括 CIFAR-10 和 GPT-2 规模语言建模在内的各种训练场景。


Muon 的定义如下:



其中 NewtonSchulz5 是 Newton-Schulz 之后的迭代,它近似地用 U @ V.T 替换 G,其中 U, S, V = G.svd ()。


@torch.compiledef zeroth_power_via_newtonschulz5 (G, steps=5, eps=1e-7): assert len (G.shape) == 2 a, b, c = (3.4445, -4.7750, 2.0315) X = G.bfloat16 () / (G.norm () + eps) if G.size (0) > G.size (1): X = X.T for _ in range (steps): A = X @ X.T B = b * A + c * A @ A X = a * X + B @ X if G.size (0) > G.size (1): X = X.T return X.to (G.dtype)


对于这种训练场景,Muon 具有以下有利特性:



总结


作者表示,生成此优化器的许多选择都是通过追求 CIFAR-10 快速运行而通过实验获得的。其中值得一提的经验包括:



使用 Newton-Schulz 迭代进行正交化的方法可以追溯到 Bernstein & Newhouse (2024),他们建议将其作为计算 Shampoo 预处理器的方法,并从理论上探索了没有预处理器累积的 Shampoo。Keller Jordan 特别感谢了论文作者之一 Jeremy Bernstein 的协助。


如果我们在这里使用 SVD 而不是 Newton-Schulz 迭代,那么这个优化器就会因为太慢而无法使用。Bernstein & Newhouse 还指出,没有预处理器累积的 Shampoo 相当于谱范数中的最陡下降,因此 Shampoo 可以被认为是一种平滑谱最陡下降的方法。所提出的优化器可以被认为是平滑谱最陡下降的第二种方法,与 Shampoo 相比,它具有不同的内存和运行时权衡。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com



跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GPT-2 大模型训练 FlexAttention Muon优化器 H100
相关文章