36氪 - 科技频道 02月28日
DeepSeek开源AI数据处理神器:6.6TiB/s惊人吞吐,还能扩展至PB级数据
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek发布了开源Fire-Flyer文件系统(3FS),这是一种利用现代SSD和RDMA网络全部带宽的并行文件系统,旨在为AI训练和推理工作负载提供高性能支持。在180节点集群中,3FS实现了6.6 TiB/s的总读取吞吐量,并在25节点集群中,GraySort基准测试的吞吐量达到3.66 TiB/min。此外,KVCache查找在每个客户端节点的峰值吞吐量超过40 GiB/s。3FS具有强一致性语义的分解架构,适用于数据预处理、数据集加载、检查点保存/重新加载、嵌入向量搜索和KVCache查找等多种应用场景。同时,DeepSeek还发布了基于3FS的数据处理框架Smallpond。

🚀**高性能分布式文件系统**:Fire-Flyer文件系统(3FS)利用现代SSD和RDMA网络,为AI训练和推理提供共享存储层,简化分布式应用程序的开发。

✅**主要功能与优势**:3FS采用分解式架构,结合数千个SSD的吞吐量和数百个存储节点的网络带宽,实现不受位置影响的存储资源访问。同时,通过带有分配查询(CRAQ)的链式复制实现强一致性。

🗂️**多样化的工作负载支持**:3FS适用于数据准备,能将数据分析管道的输出组织成分层目录结构;适用于数据加载器,通过跨计算节点随机访问训练样本,消除预取或混洗数据集的需求;支持大规模训练的高吞吐量并行检查点;并为推理的KVCache提供了一种基于DRAM的缓存的经济高效的替代方案。

📊**卓越的性能表现**:在180个存储节点组成的集群中,3FS实现了6.6 TiB/s的聚合读取吞吐量。在包含25个存储节点和50个计算节点的集群中,对110.5 TiB数据进行GraySort排序耗时30分14秒,平均吞吐量为3.66 TiB/分钟。KVCache在客户端节点的峰值吞吐量高达40 GiB/s。

智东西2月28日报道,刚刚,DeepSeek发布开源周第五弹?——Fire-Flyer文件系统(3FS),一种利用现代SSD和RDMA网络的全部带宽的并行文件系统,适用于所有人的Thruster DeepSeek数据访问。

⚡在180节点集群中实现6.6 TiB/s的总读取吞吐量

⚡在25节点集群中,GraySort基准测试的吞吐量为3.66 TiB/min‍‍‍

⚡KVCache查找每个客户端节点的峰值吞吐量为40+ GiB/s

?具有强一致性语义的分解架构

✅在V3/R1中训练数据预处理、数据集加载、检查点保存/重新加载、嵌入向量搜索和KVCache查找以进行推理

?3FS→ github.com/deepseek-ai/3FS

Smallpond- 基于3FS的数据处理框架 → github.com/deepseek-ai/sm allpond

评论区涌入一片夸声,称赞3FS速度快得惊人,为AI数据处理树立了新标杆——极快的速度和无缝集成。

也有网友继续催更:接下来我们需要视频模型、V4、R2,全世界都在等!

还有人看热闹不嫌事大,在评论区晒出今天OpenAI新发布的GPT-4.5与DeepSeek最新淡季折扣价对比图。

根据GitHub项目公开信息,今日新开源的3FS和Smallpond具体信息如下:

1、Fire-Flyer文件系统

Fire-Flyer文件系统(3FS)是一种高性能分布式文件系统,旨在应对AI训练和推理工作负载的挑战。它利用现代SSD和RDMA网络来提供共享存储层,从而简化分布式应用程序的开发。

3FS的主要功能和优势包括:

(1)性能和可用性

分解式架构结合了数千个SSD的吞吐量和数百个存储节点的网络带宽,使应用程序能够以不受位置影响的方式访问存储资源。

强一致性实现带有分配查询(CRAQ)的链式复制以实现强一致性,从而使应用程序代码简单且易于推理。

文件接口开发由事务键值存储(例如FoundationDB)支持的无状态元数据服务。文件接口众所周知且随处可用。无需学习新的存储API。

(2)多样化的工作负载

数据准备将数据分析管道的输出组织成分层目录结构,并有效地管理大量中间输出。

数据加载器通过跨计算节点随机访问训练样本,消除了预取或混洗数据集的需要。

检查点支持大规模训练的高吞吐量并行检查点。

用于推理的KVCache提供了一种基于DRAM的缓存的经济高效的替代方案,可提供高吞吐量和更大的容量。

其表现如下:

(1)峰值吞吐量

下图展示了一个大型3FS集群的读压测吞吐情况。该集群由180个存储节点组成,每个存储节点配备2×200Gbps InfiniBand网卡和16个14 TiB NVMe SSD。大约500+个客户端节点用于读压测,每个客户端节点配置1x200Gbps InfiniBand网卡。在训练作业的背景流量下,最终聚合读吞吐量达到约6.6 TiB/s。

(2)灰度排序

DeepSeek利用GraySort基准对smallpond进行了评估,该基准可衡量大规模数据集的排序性能。其实现采用两阶段方法:(1) 使用键的前缀位通过shuffle对数据进行分区,以及 (2) 分区内排序。两个阶段都从3FS读取数据/向3FS写入数据。

测试集群由25个存储节点(2个NUMA域/节点、1个存储服务/NUMA、2×400Gbps NIC/节点)和50个计算节点(2个NUMA域、192个物理核心、2.2TiB RAM和1×200 Gbps NIC/节点)组成。对8192个分区中的110.5 TiB数据进行排序耗时30分14秒,平均吞吐量为3.66 TiB/分钟。

(3)KVCache

KVCache是一种用于优化大语言模型推理过程的技术。它通过在解码器层中缓存先前标记的键和值向量来避免冗余计算。上方的图展示了所有KVCache客户端的读取吞吐量,突出显示了峰值和平均值,峰值吞吐量高达40 GiB/s。下图显示了同一时间段内垃圾回收(GC)中删除操作的IOPS。

开发:

2、Smallpond

Smallpond是一个基于DuckDB和3FS的一个轻量级数据处理框架,特色包括:

? 由DuckDB提供支持的高性能数据处理

? 可扩展以处理PB级数据集

? 操作简单,无需长时间运行服务

开发:

本文来自微信公众号“智东西”(ID:zhidxcom),作者:ZeR0,编辑:漠影,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek 3FS 文件系统 AI数据处理 Smallpond
相关文章