ai咨询互联 03月13日
一文看懂DeepSeek上周最新全部开源内容!不愧是AI开源最强王者!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文深入解析了DeepSeek近期开源的五大核心技术,包括FlashMLA、DeepEP、DeepGEMM、DualPipe和3FS。FlashMLA通过优化KV缓存和采用BF16数据格式,显著提升NLP推理速度;DeepEP作为专家并行通信库,降低了混合专家模型训练和推理的延迟;DeepGEMM则是专为NVIDIA Hopper架构优化的FP8矩阵乘法库,性能卓越;DualPipe创新地采用双向流水线并行技术,大幅提升训练效率;3FS作为高性能分布式文件系统,为AI训练和推理提供强大的数据支持。这些技术的开源,将加速AI领域的发展,并为开发者提供更多可能性。

🚀FlashMLA:通过优化 KV 缓存机制和采用 BF16 数据格式,为 NVIDIA Hopper 架构 GPU 量身打造,显著提升 NLP 推理速度,特别是在处理变长序列时表现出色,适用于机器翻译、文本生成等任务。

🤝DeepEP:作为 DeepSeek 开源的专家并行(EP)通信库,专为混合专家模型(MoE)训练和推理设计,通过高吞吐量、低延迟的全对全 GPU 内核,支持 FP8 数据格式调度,适用于大规模模型训练和智能客服等场景。

✨DeepGEMM:DeepSeek 开源的 FP8 矩阵乘法库,专为 NVIDIA Hopper 架构优化,通过即时编译(JIT)技术和细粒度缩放,在多种矩阵形状下性能表现出色,尤其在 MoE 分组 GEMM 中能实现显著加速,适用于大规模 AI 模型推理。

💡DualPipe:DeepSeek 开源的创新双向流水线并行技术,通过将前向计算和反向计算解耦为两个独立管道,实现了计算与通信的完全重叠,从而大幅提升训练效率,适用于大规模模型训练和多模态数据处理。

💾3FS:DeepSeek 开源的高性能分布式文件系统,专为 AI 训练和推理任务设计,提供高达 6.6 TiB/s 的读取吞吐量,并具备强一致性保障,适用于大规模 AI 训练和分布式数据处理。

原创 技术Z先生 2025-03-12 22:36 广东

火山引擎使用邀请码:K1449QIJ,畅享无限API调用

* 戳上方蓝字“AI资讯互联”关注我

大家好,我是技术Z先生,一名热爱分享的AI程序员!

就在上周,DeepSeek一口气新增开源了五大核心技术:FlashMLA、DeepEP、DeepGEMM、DualPipe、3FS,今天带大家一文看懂这些新开源的技术都是什么?以及普通人如何利用这些新开源技术!

FlashMLA:让NLP推理飞起来!

FlashMLA 是 DeepSeek 为 NVIDIA Hopper 架构 GPU 量身打造的高效 MLA(多头线性注意力)解码内核,专为处理变长序列而生!通过优化 KV 缓存机制和采用 BF16 数据格式,FlashMLA 在 H800 SXM5 GPU 上实现了惊人的 3000 GB/s 内存带宽和 580 TFLOPS 计算性能。无论是大语言模型(LLM)推理,还是自然语言处理(NLP)任务,FlashMLA 都能让你轻松应对!

主要亮点:


适用场景:


如何使用?


1、GitHub 下载工程

地址:https://github.com/deepseek-ai/FlashMLA

2、环境准备

FlashMLA 需要以下硬件和软件环境:

3、安装FlashMLA

通过以下命令安装 FlashMLA:

python setup.py install

4、运行基准测试

安装完成后,可以通过运行以下命令进行性能测试:(此脚本将验证 FlashMLA 在当前环境下的性能表现,例如在 H800 SXM5 GPU 上,内存受限配置下可达到 3000 GB/s 的带宽,计算受限配置下可达到 580 TFLOPS 的算力。)

python tests/test_flash_mla.py

5、使用 FlashMLA

以下是 FlashMLA 的典型使用代码示例:

from flash_mla import get_mla_metadata, flash_mla_with_kvcache

# 获取元数据和分块信息
tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)

# 在多层解码中调用 FlashMLA
for i in range(num_layers):
    o_i, lse_i = flash_mla_with_kvcache(
        q_i, kvcache_i, block_table, cache_seqlens, dv,
        tile_scheduler_metadata, num_splits, causal=True
    )

6、更多说明

完整代码和文档可访问 GitHub 仓库查看。


DeepEP:混合专家模型的通信加速器!

DeepEP 是 DeepSeek 开源的专家并行(EP)通信库,专为混合专家模型(MoE)训练和推理设计。通过高吞吐量、低延迟的全对全 GPU 内核,DeepEP 支持 FP8 数据格式调度,延迟低至 163 微秒!无论是节点内 NVLink 还是跨节点 RDMA 通信,DeepEP 都能轻松搞定。

主要亮点:


适用场景:


如何使用?


1、GitHub 下载工程

地址:https://github.com/deepseek-ai/DeepEP

2、使用DeepEP训练模型

具体训练放肆可在github参考代码示例


DeepGEMM:FP8 矩阵乘法的终极武器!

DeepGEMM 是 DeepSeek 开源的 FP8 矩阵乘法库,专为 NVIDIA Hopper 架构优化。通过即时编译(JIT)技术和细粒度缩放,DeepGEMM 在多种矩阵形状下性能爆表,最高加速比达 2.7 倍!无论是普通 GEMM 还是 MoE 分组 GEMM,DeepGEMM 都能轻松应对。

主要亮点:


适用场景:


如何使用?


1、下载工程

地址:https://github.com/deepseek-ai/DeepGEMM

2、安装deep_gemm

python setup.py install

3、性能表现


DualPipe:双向流水线并行,训练速度翻倍!

DualPipe 是 DeepSeek 开源的创新双向流水线并行技术,专为大规模深度学习模型训练设计。通过将前向计算和反向计算解耦为两个独立管道,DualPipe 实现了计算与通信的完全重叠,大幅提升训练效率!

主要亮点:


适用场景:


如何使用?


1、下载工程

地址:https://github.com/deepseek-ai/DualPipe

2、启动示例工程

python examples/example_dualpipe.py
python examples/example_dualpipev.py

这里配置有点专业,具体可以参考其配置文件


3FS:高性能分布式文件系统,AI 训练的神助攻!

3FS 是 DeepSeek 开源的高性能分布式文件系统,专为 AI 训练和推理任务设计。通过聚合数千个 SSD 的吞吐量和数百个存储节点的网络带宽,3FS 提供高达 6.6 TiB/s 的读取吞吐量,强一致性保障让数据管理更轻松!

主要亮点:


适用场景:


如何使用


1、下载工程

下载地址:https://github.com/deepseek-ai/3FS

git clone https://github.com/deepseek-ai/3fs

2、检查子模块

当 <font style="color:rgba(222, 18, 99, 0.835);">deepseek-ai/3fs</font> 克隆到本地文件系统后,运行以下命令检查子模块:

cd 3fs
git submodule update --init --recursive
./patches/apply.sh

3、安装依赖项

# for Ubuntu 20.04.
apt install cmake libuv1-dev liblz4-dev liblzma-dev libdouble-conversion-dev libdwarf-dev libunwind-dev \
  libaio-dev libgflags-dev libgoogle-glog-dev libgtest-dev libgmock-dev clang-format-14 clang-14 clang-tidy-14 lld-14 \
  libgoogle-perftools-dev google-perftools libssl-dev libclang-rt-14-dev gcc-10 g++-10 libboost1.71-all-dev

# for Ubuntu 22.04.
apt install cmake libuv1-dev liblz4-dev liblzma-dev libdouble-conversion-dev libdwarf-dev libunwind-dev \
  libaio-dev libgflags-dev libgoogle-glog-dev libgtest-dev libgmock-dev clang-format-14 clang-14 clang-tidy-14 lld-14 \
  libgoogle-perftools-dev google-perftools libssl-dev gcc-12 g++-12 libboost-all-dev

# for openEuler 2403sp1
yum install cmake libuv-devel lz4-devel xz-devel double-conversion-devel libdwarf-devel libunwind-devel \
    libaio-devel gflags-devel glog-devel gtest-devel gmock-devel clang-tools-extra clang lld \
    gperftools-devel gperftools openssl-devel gcc gcc-c++ boost-devel

4、Build 3FS

<font style="color:rgba(222, 18, 99, 0.835);">build</font> 文件夹中的 Build 3FS:

cmake -S . -B build -DCMAKE_CXX_COMPILER=clang++-14 -DCMAKE_C_COMPILER=clang-14 -DCMAKE_BUILD_TYPE=RelWithDebInfo -DCMAKE_EXPORT_COMPILE_COMMANDS=ON
cmake --build build -j 32

5、运行集群测试

按照设置指南运行测试集群,以下是峰值吞吐量

总结

今天分享的这篇文章有点专业,主要针对AI大模型有深入了解的人员使用,总结起来就两个字:牛逼!

目前DeepSeek官网对话及API调用均表现速度有点慢,继续推荐个字节旗下火山引擎的DeepSeek-API(https://volcengine.com/L/LVGI8nt54yY/),不仅可以网页免费体验DeepSeek-R1联网模型,每日还免费赠送50万tokens(基本上用不完)!

注意:使用邀请码:K1449QIJ,每日获取的tokens额度会翻倍!!!直接自己注册登录就只能拿普通的tokens数了!

  

end

今天的分享就到这里了,大家快去体验下吧!喜欢的小伙伴请在下方免费的?点赞+在看

关注我,带你掌握前沿科技,轻松应对未来挑战


结尾推荐下我的AI工具,可以免费使用(ChatGPT、Midjourney、Luma、Suno、Viggle等),地址:https://ai.quanyouhulian.com/


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek 开源技术 AI大模型 性能优化 分布式系统
相关文章