富途牛牛头条 02月28日 19:26
五天五連炸!回顧DeepSeek「開源周」技術全家桶:用軟體「重新定義」算力!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek开源周活动展示了其在AI开发全链条上的技术实力,通过FlashMLA优化GPU解码,DeepEP解决大规模AI模型训练的通信瓶颈,DeepGEMM实现高效通用矩阵乘法,DualPipe和EPLB优化分布式训练效率和负载均衡,以及3FS文件系统实现高性能数据存取。这些技术组件构建了一套精密协同的系统,旨在降低算力成本、优化训练效率,验证了DeepSeek“低成本高性能”的技术路径,引发了全球程序员的关注。

⚙️ FlashMLA:针对英伟达H800加速卡深度优化,通过动态调配算力资源,高效处理变长文本序列,大幅提升GPU解码和计算效率,并显著降低显存占用。

📡 DeepEP:全球首个为混合专家模型(MoE)和专家并行(EP)定制的开源高性能通信库,通过FP8压缩技术简化任务需求,并利用RDMA技术实现跨服务器节点间的极速参数传递,解决了大规模AI模型训练与推理中的通信瓶颈问题。

🔥 DeepGEMM:专注于FP8高效通用矩阵乘法(GEMM)的库,通过动态火候控制和JIT技术,实现普通矩阵计算以及混合专家(MoE)分组场景下的高效计算,运算速度远超传统CUDA库。

🔄 DualPipe & EPLB:DualPipe通过“双向传送带”实现前向计算和反向传播的并行处理,EPLB则充当“智能排班表”,克隆大厨(冗余专家)到空闲灶台(GPU),减少计算单元的空闲时间,优化分布式训练效率。

💾 3FS文件系统:专为高性能计算打造的高性能分布式文件系统,通过SSD+RDMA技术的结合,实现6.6TB/s的吞吐量,确保数据光速存取和强一致性,满足AI训练和推理工作负载的需求。

作者:李笑寅

300行代码榨干H800、比英伟达更懂GPU、6.6TiB/s数据高铁……“开源周”活动最深远的意义,或在于其验证了DeepSeek“低成本高性能”的技术路径。

“OpenAI不Open,DeepSeek真Deep”。

本周,“开源周”活动如火如荼地展开,DeepSeek每天不定时上新“黑科技”,让全球程序员直呼:这波简直在大气层!

从计算到通信再到存储,DeepSeek“五连炸”几乎覆盖了AI开发的全链条,在完全没有升级现有硬件的情况下最大程度地“榨干”算力,进而实现训练效率的飞跃,堪称“最强辅助”,十分强大,无比慷慨。

我们梳理了DeepSeek这些天来释出的技术组件,惊喜地发现,它们似乎恰巧构建成了一套精密协同的系统。

如果用“中央厨房”来比喻这套系统,那么每当大模型这名厨师要开始“做饭”时,每个环节能展开精密协作,经由“拿菜-订单处理-传菜-烹饪”的流程后“高效出大餐”。

Day1:FlashMLA——配菜机器人

FlashMLA是DeepSeek专门针对英伟达H800这一代高端加速卡做的深度优化,旨在优化GPU解码,处理变长序列,提高计算效率。

简单来说,FlashMLA的最大优势在于,面对长短不一的文本序列能动态调配算力资源。

就像厨房里能根据订单动态分配食材的智能机器人,面对不同规格的订单(文本/语音的长短数据),FlashMLA能自动调节切菜速度(GPU资源分配),“短订单”秒速完成,长订单则启动高压锅模式,节省处理时间。

根据基准测试,FlashMLA能在H800显卡上飙出580万亿次/秒的算力,相当于1秒写完《三体》全集,还把显存占用砍到了传统方案的1/5

Day2:DeepEP——传输调度台

DeepEP是全球首个专为混合专家模型(MoE)和专家并行(EP)定制的开源高性能通信库,旨在解决大规模AI模型训练与推理中的通信瓶颈问题。

在AI中央厨房中,DeepEP如同新型的传输调度台,相较于传统对讲机(旧通信协议)容易导致指令混乱的弊端,在面对复杂任务时,DeepEP能通过FP8压缩技术,简化传达任务需求,还能实时更新菜单。

当需要跨厨房(服务器节点)传递食材(参数)时,RDMA技术更像是一条“传送带”,将食材直送灶台(GPU)。

性能数据也很给力:基于H800的GPU,DeepEP可以通过NVLink技术实现单节点内GPU间极速通信,带宽高达约150GB/s,相当于1秒传完30部高清电影。

DAY3 (0281.MY):DeepGEMM——智能灶台

DeepGEMM是一款专注于FP8高效通用矩阵乘法(GEMM)的库,主要满足普通矩阵计算以及混合专家(MoE)分组场景下的计算需求。

还是拿中央厨房举例,DeepGEMM可以看成是一个万能灶台,一能做到动态火候控制,煎牛排用猛火(密集计算用FP8精度),煲汤转文火(MoE门控网络用BF16精度);二能通过JIT技术,让1平米灶台同时处理10道菜。

不同于CUDA库这个传统灶台,做佛跳墙要3小时,通过精度动态切换等一系列骚操作,DeepGEMM只需1小时就能搞定,还省一半燃气(显存)。

值得注意的是,DeepGEMM采用了轻量级即时编译(JIT)模块,支持运行时动态编译内核,无需提前完成编译和安装。

也就是说,DeepGEMM仅凭300行CUDA代码,运算速度就能干翻传统千万行工程库。有观点戏称:这DeepSeek简直比英伟达都懂GPU。

Day4:DualPipe & EPLB——后厨流水线指挥官

DualPipe和EPLB是面向大规模AI模型训练的两项核心技术,分别聚焦于分布式训练效率优化和专家并行负载均衡,均为V3/R1而设计。

实际上,训练大模型最怕遇到“流水线摸鱼”,计算单元等数据时的发呆时间一般被称作“气泡”,而DualPipe和EPLB就是专为减少“气泡”而设计的。

在中央厨房中,DualPipe是一条“双向传送带”,一边让洗碗工“反向传播”,一边让配菜员“前向计算”在两条平行传送带上工作,相当于“一边做饭一边洗碗”,解决了“等盘子洗好才能上菜”的尴尬。

EPLB则充当“智能排班表”的角色,可以克隆大厨(冗余专家)到空闲灶台(GPU),确保法餐主厨不会累晕在情人节套餐高峰期(负载均衡)。

Day5:3FS文件系统——中央冷库+闪电配送

最后压轴的Fire-Flyer文件系统(3FS),是专为高性能计算打造的高性能分布式文件系统,旨在应对AI训练和推理工作负载中的挑战,解决“高吞吐写入”与“低延迟读取”难兼顾的痛点。

对中央厨房而言,3FS更多起到后台储藏的作用,主要的技术优势在于两点。

一是光速存取:6.6TB/s的吞吐量,相当于每分钟搬空300个冰柜(传统硬盘)的食材(数据)

二是保鲜黑科技:通过SSD+RDMA技术的结合,确保北京分店和上海分店看到的牛排永远是同一块,也就是所谓的“数据强一致性”。

打响AI“开源盛世”第一枪,继续推翻象牙塔

不管是传输调度台,还是配菜机器人,DeepSeek此次开源的技术组件,设计初衷都在于进一步降低算力成本、优化训练效率。

有分析认为,这波开源最硬核的意义在于:通过软件栈的系统性优化(从文件系统到通信协议),可在现有硬件基础上实现倍数级效率飞跃。

这意味着,AI性能提升不再单纯依赖芯片制程的突破。而不堆硬件、优化软件、“猛榨”算力,也正是DeepSeek能实现超低成本“超车”一众海外顶尖大模型的秘诀所在。

有网友表示,OpenAI应该把它们的域名“献给”DeepSeek,因为后者才真正做到了开源。

还有网友表示,开源AI不稀奇,稀奇的是DeepSeek这种“车库精神和AGI野心的结合”:

还有人奉上梗图,以表尊重:

针对此次的“开源周”活动,我们也让DeepSeek也评论了一下,这是它的回答:

正如DeepSeek此前的宣言:

“这个领域没有高高在上的象牙塔,只有纯粹的车库创业精神与社区共筑的创新力量。”

“毫无保留地分享我们微小但真诚的进展。”

而一个更大胆的猜想也正随之浮现:随着DeepSeek不断用技术优化突破硬件瓶颈,会不会重新定义算力之于AI的意义?

这场始于中国车库的技术狂欢,仍在继续改写全球AI规则。

DeepSeek引爆科技行情!善用「投资主题」功能,捕捉投资机会!打开富途牛牛>港股>投资主题>DeepSeek概念股

编辑/Rocky

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek 开源 AI H800 算力
相关文章