掘金 人工智能 07月16日 17:53
AI-Compass LLM训练框架生态:整合ms-swift、Unsloth、Megatron-LM等核心框架,涵盖全参数/PEFT训练与分布式优化
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

AI-Compass 致力于打造全面的AI技术学习与实践平台,整合ms-swift、Unsloth、Megatron-LM等核心框架,覆盖全参数、PEFT训练及分布式优化。该平台模块化设计,涵盖基础知识、技术框架、应用实践、产品工具、企业开源及社区平台,为AI初学者、技术开发者、产品经理、研究人员、企业团队及求职者提供系统化支持。通过整合20+专业训练框架和工具,提供从数据准备、模型训练到实验管理的完整闭环,加速AI领域的技术发展与应用。

🧠 AI-Compass构建了六大核心模块,包括基础知识、技术框架、应用实践、产品与工具、企业开源、社区与平台,为不同层次的学习者提供全面、系统的AI技术学习和实践路径。

⚙️ 技术框架模块集成了包括ms-swift、Unsloth、Megatron-LM、DeepSpeed、ColossalAI、FairScale等在内的20+专业训练框架和工具,涵盖全参数、PEFT训练和分布式优化,满足不同场景的训练需求。

🚀 应用实践模块聚焦RAG+workflow、Agent、GraphRAG、MCP+A2A等前沿应用架构,为用户提供最新的AI应用实践案例,帮助用户掌握AI领域的前沿技术。

🛠️ 产品与工具模块整合AI应用、AI产品、竞赛资源等实战内容,帮助用户提升AI项目开发和部署能力,快速掌握AI产品化策略。

🏢 企业开源模块汇集华为、腾讯、阿里、百度飞桨、Datawhale等企业级开源资源,为用户提供丰富的实践案例和技术参考,加速企业AI转型进程。

AI-Compass LLM训练框架生态:整合ms-swift、Unsloth、Megatron-LM等核心框架,涵盖全参数/PEFT训练与分布式优化

AI-Compass 致力于构建最全面、最实用、最前沿的AI技术学习和实践生态,通过六大核心模块的系统化组织,为不同层次的学习者和开发者提供从完整学习路径。

🌟 如果本项目对您有所帮助,请为我们点亮一颗星!🌟

📋 核心模块架构:

📚 适用人群:

LLM训练框架模块构建了覆盖全栈的大模型训练生态系统,集成20+专业训练框架和工具。核心框架包括:魔塔ms-swift(支持500+ LLMs和200+ MLLMs的全参数/PEFT训练)、Unsloth(2-5倍加速,80%内存节省)、英伟达Megatron-LM(超大规模transformer训练)、微软DeepSpeed(ZeRO优化器)、ColossalAI(高性能分布式训练)、Meta FairScaleLLaMA-Factory(WebUI界面,支持100+模型)、书生XTuner等。先进算法涵盖GaLore梯度低秩投影、BAdam内存高效优化、APOLLO、Adam-mini、Muon等前沿优化器。实验监控提供MLflow、WandB、SwanLab等专业工具。配套Flash AttentionLiger Kernel等加速技术,以及Easy Dataset数据构造工具,形成从数据准备、模型训练到实验管理的完整闭环。


目录

    2.大模型训练框架.md0.ms-swift-魔塔训练框架0.unsloth
      Megatron英伟达
    1.ColossalAI1.DeepSpeed-微软1.FairScale-meta1.Horovod1.LLaMA-Factory1.LLaMA-Factory/easy-data1.xtuner-书生浦源1.实验监控1.实验监控/SwanLab1.模型训练-实用技巧1.训练先进算法2.Firefly2.MMEngine2.fastAI3.openai-在线微调

0.ms-swift-魔塔训练框架

简介

ms - swift是ModelScope社区提供的用于大语言模型和多模态大模型微调与部署的官方框架。它支持500 +大模型和200 +多模态大模型的训练、推理、评估、量化和部署等,集成了多种训练技术和人类对齐训练方法,还提供基于Gradio的Web UI和丰富的最佳实践。同时,还介绍了深度学习入门知识,包括模型推理、预训练范式、推理过程、PyTorch框架等内容。

核心功能
技术原理
应用场景

0.unsloth

简介

Unsloth 的微调指南,介绍了大语言模型微调的基础知识,包括理解微调概念、选择合适模型与方法、准备数据集、了解模型参数、安装与配置、训练与评估、运行与保存模型等内容,并给出了示例和建议。

核心功能
技术原理
应用场景

1. Megatron英伟达

简介

NVIDIA的Megatron-LM与Megatron-Core项目聚焦于大规模训练Transformer模型的GPU优化技术。Megatron-LM是研究型框架,Megatron-Core是GPU优化技术库,具有系统级优化创新和模块化API。项目提供多种模型预训练脚本,支持多类型并行训练,还涉及模型评估、优化与部署等功能。

核心功能
技术原理
应用场景

1.ColossalAI

简介

Colossal-AI 是一个统一的深度学习系统,旨在让大 AI 模型训练更便宜、快速且易实现。它提供分布式训练和推理的并行组件,支持多种并行策略和异构内存管理,在多个领域有应用案例,还提供命令行界面和配置工具。

核心功能
技术原理

Colossal-AI 引入统一接口,将顺序代码扩展到分布式环境,支持数据、流水线、张量和序列并行等训练方法,并集成异构训练和零冗余优化器(ZeRO),通过自动并行策略和内存管理技术,提高训练和推理效率。

应用场景

1.DeepSpeed-微软

简介

DeepSpeed是微软推出的开源深度学习优化软件套件,是轻量级PyTorch包装器。它集合分布式训练、推断、压缩等高效模块,旨在提高大规模模型训练的效率和可扩展性,助力训练和推理万亿参数的密集或稀疏模型。

核心功能
技术原理
应用场景

1.FairScale-meta

简介

FairScale 是一个由 Facebook Research 开发的 PyTorch 扩展库,旨在为高性能和大规模训练提供支持。它通过扩展 PyTorch 的基本功能,并集成最新的状态级(SOTA)扩展技术,帮助用户更高效地进行深度学习模型的训练。

核心功能
技术原理

FairScale 的核心技术原理在于其对 PyTorch 训练过程的底层优化和高级分布式策略的封装。它通过以下方式实现性能提升和规模扩展:

应用场景

1.Horovod

简介

Horovod 是由 LF AI & Data 基金会托管的分布式深度学习训练框架,支持 TensorFlow、Keras、PyTorch 和 Apache MXNet 等框架。其目标是让分布式深度学习变得快速且易于使用。

核心功能
技术原理

Horovod 核心原理基于 MPI 概念,如 size、rank、local rank、allreduce、allgather、broadcast 和 alltoall 等。分布式优化器将梯度计算委托给原始优化器,使用 allreduce 或 allgather 对梯度进行平均,然后应用这些平均梯度。

应用场景

1.LLaMA-Factory

简介

主要围绕LLaMA-Factory展开,它是简单易用且高效的大模型训练与微调平台,支持上百种预训练模型,涵盖多种训练算法、运算精度、优化算法等。同时介绍了基于Amazon SageMaker和LlamaFactory构建的一站式无代码模型微调部署平台Model Hub,降低技术门槛,加速AI应用开发。还给出了使用LLaMA-Factory进行Qwen3微调的实战指南。

核心功能
技术原理
应用场景

easy-data

简介

Easy Dataset 是专为创建大型语言模型(LLM)微调数据集设计的应用程序,提供直观界面,可上传特定领域文件、智能分割内容、生成问题和高质量训练数据。其生成的结构化数据集兼容遵循 OpenAI 格式的 LLM API,让模型微调简单高效。LLaMA Factory 是开源低代码大模型微调框架,集成多种微调技术,支持零代码微调。

核心功能
技术原理

通过集成多种 LLM API(如 Ollama、OpenAI 等),利用核心库和工具实现文档处理、文本分割、问题与答案生成。借助提示词模板引导模型响应,使用数据库操作管理项目数据。

应用场景

1.xtuner-书生浦源

简介

XTuner是由InternLM开发的高效、灵活且功能丰富的大模型微调工具包。它支持多种大模型,如InternLM2、Llama 2/3等,能进行连续预训练、指令微调等。在不同时间节点不断增加新功能,支持新模型和训练算法,其输出模型可与部署、评估工具集成。

核心功能
技术原理
应用场景

1.实验监控

简介

MLflow是一个开源平台,旨在帮助机器学习从业者和团队应对机器学习过程的复杂性,专注于机器学习项目的全生命周期,确保各阶段可管理、可追溯和可复现。其核心组件包括实验跟踪、模型打包、模型注册、服务、评估和可观测性等。该平台可在多种环境中运行,如本地开发、Amazon SageMaker、AzureML和Databricks等。由于另一个链接内容获取失败,无法将其相关信息纳入简介。

核心功能
技术原理

MLflow通过一系列API和工具实现其核心功能。在实验跟踪中,利用API记录模型训练过程中的参数和结果,并存储在后端存储中,通过交互式UI展示和比较。模型打包采用标准格式,将模型和元数据封装,确保依赖版本等信息可追溯。模型注册使用集中存储和API管理模型的全生命周期。服务功能借助Docker、Kubernetes等平台的相关技术实现模型部署。评估工具通过自动化脚本计算模型性能指标。可观测性通过与GenAI库的集成和Python SDK实现跟踪和监控。

应用场景

SwanLab

简介

SwanLab是一款开源、现代化设计的深度学习训练跟踪与可视化工具,支持云端/离线使用,适配30+主流AI训练框架。它提供实验跟踪、版本管理、可视化等功能,支持多人协作,可帮助AI开发团队改进模型训练流程。

核心功能
    实验跟踪与记录:跟踪训练关键指标,记录超参数、日志、硬件信息等。可视化:支持折线图、媒体图等多种图表,实时可视化训练进展。框架集成:与主流AI训练框架轻松集成,只需少量代码即可开始使用。硬件监控:实时监控CPU和GPU使用情况。实验对比:通过表格对比不同实验差异,启发实验灵感。团队协作:支持不同训练师在同一项目跑实验,打通沟通壁垒。插件拓展:可通过插件扩展功能,如邮件通知、飞书通知等。
技术原理

SwanLab通过Python API嵌入到机器学习pipeline中,收集训练过程中的指标、超参数、日志等数据。它利用自身的可视化引擎将数据以图表形式展示,方便用户分析。同时,支持与多种主流框架集成,借助框架的特性实现分布式训练中的实验记录。在硬件监控方面,通过脚本获取CPU、GPU等硬件的系统级信息。

应用场景
    模型训练:实时监控训练过程,辅助分析决策,提高模型迭代效率。科研协作:团队成员共同构建最佳模型,加速实验进展。教学实践:帮助学生理解模型训练过程,进行实验对比和分析。工业应用:在企业中优化AI开发流程,提高协作效率。

1.模型训练-实用技巧

简介

该仓库提供了FlashAttention和FlashAttention - 2的官方实现。FlashAttention可实现快速且内存高效的精确注意力计算,具有IO感知特性;FlashAttention - 2则在此基础上有更好的并行性和工作分区。此外还推出了FlashAttention - 3的beta版本。项目介绍了使用方法、安装要求、不同GPU的支持情况等内容,并给出了性能对比和测试方法。

核心功能
技术原理
应用场景

1.训练先进算法

简介

主要围绕大语言模型训练中的优化器展开。APOLLO是为大语言模型预训练和全参数微调设计的内存高效优化器,兼具SGD的低内存成本与AdamW的性能;Adam - mini是Adam的精简版,能以少50%的内存实现与AdamW相当或更好的性能;BAdam通过依次解决块坐标优化子问题,在全参数微调时大幅降低内存需求;Muon是用于神经网络隐藏层的优化器,在训练速度和性能上有出色表现。

核心功能
技术原理
应用场景

2.Firefly

简介

Firefly是开源大模型训练项目,支持对Qwen2、Llama3等主流大模型进行预训练、指令微调和DPO,提供全量参数训练、LoRA、QLoRA高效训练方式,还整理开源了指令微调数据集及模型权重。

核心功能
技术原理
应用场景

2.MMEngine

简介

MMEngine 是基于 PyTorch 的深度学习模型训练基础库,作为 OpenMMLab 所有代码库的训练引擎,支持各研究领域的数百种算法,也可应用于非 OpenMMLab 项目。它集成主流大模型训练框架,支持多种训练策略,提供友好配置系统,涵盖主流训练监控平台。

核心功能
    集成 ColossalAI、DeepSpeed、FSDP 等主流大模型训练框架。支持混合精度训练、梯度累积、梯度检查点等多种训练策略。提供纯 Python 风格和支持 JSON、YAML 的纯文本风格配置系统。覆盖 TensorBoard、WandB、MLflow 等主流训练监控平台。
技术原理

基于 PyTorch 构建,通过集成大模型训练框架,利用其分布式训练、模型并行等特性提升训练效率。采用配置系统管理训练参数,支持多种格式配置文件,方便用户灵活配置。借助训练监控平台,实时记录和展示训练过程中的各项指标。

应用场景
    计算机视觉领域,如训练生成对抗网络、语义分割模型。自然语言处理等其他深度学习研究领域,用于模型训练和优化。非 OpenMMLab 项目的深度学习模型训练。

2.fastAI

简介

Fastai是一个开源的深度学习库,旨在通过提供高层组件,使深度学习实践者能够快速便捷地在标准深度学习领域获得最先进(State-of-the-Art, SOTA)的结果。同时,它也为研究人员提供了灵活的低层组件,便于混合和匹配以探索和构建新的深度学习方法,且在易用性、灵活性和性能之间取得了良好的平衡。

核心功能
技术原理

Fastai库采用分层架构设计,构建于PyTorch等主流深度学习框架之上,实现了从高层抽象到底层细节的逐步揭示。其核心原理包括:

应用场景

3.openai-在线微调

简介

主要围绕OpenAI微调模型展开。介绍了OpenAI提供线上微调GPT模型的功能,是学习微调的快速入门方式。包含微调概念、准备与上传数据、训练微调模型及使用微调模型等步骤,还给出使用微调模型进行多轮对话和流式输出的代码示例,同时展示了OpenAI开发者平台的快速入门及API请求示例。

核心功能
技术原理

基于GPT模型,通过额外训练特定数据集,调整模型参数以改变输出结果。在数据处理上,需遵循特定格式要求,确保训练样本格式正确以保证训练效果。训练过程中,根据所选模型和训练样本量级,模型进行参数调整和优化。

应用场景

🌟 如果本项目对您有所帮助,请为我们点亮一颗星!🌟

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI-Compass LLM训练 AI生态
相关文章