掘金 人工智能 05月15日 15:38
打破算力瓶颈!起底百度智能云高性能存储加速系统如何让昆仑芯3万卡集群火力全开
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

RapidFS是百度智能云为昆仑芯3万卡集群打造的高性能存储加速方案。它依托对象存储BOS,构建了容量与性能解耦、冷热分层、透明流转的存储系统。通过POSIX和HDFS协议,为AI训练、推理和海量数据处理等应用提供统一的文件访问入口。测试结果显示,RapidFS集群的吞吐性能随规模线性增长,单台存储节点可达15 GiB/s,有效加速了数据加载和分发,实现了存储性能与算力需求的“同频共振”。

🚀 RapidFS是一款近计算存储加速工具,它基于对象存储BOS构建,实现了容量与性能的解耦,并支持冷热数据分层和透明流转,从而提供高性能的存储解决方案。

💡 RapidFS通过POSIX挂载和HDFS协议,为上层计算应用提供统一的文件访问入口,加速了AI训练与推理、海量数据处理与分析以及数据分发等多种业务场景下的存储访问。

📊 性能测试显示,20个RapidFS存储节点稳定提供302 GiB/s吞吐,70个节点则稳定提供1.03 TiB/s吞吐,表明其吞吐性能随集群规模线性增长。单台节点可提供15 GiB/s吞吐,折合单TiB(裸容量)300 MiB/s。

⏱️ 在70个RapidFS存储节点加速的情况下,100个计算节点并发加载10 GiB的文件仅需1秒,极大地提高了数据访问速度,实现了数据的“随叫随到”。

01 引言

大模型的训练和推理任务,本质就是海量数据处理的过程。强大的算力集群,不仅需要高性能的AI加速卡和高性能的RDMA网络,还离不开高性能存储系统的支持。

当前,在大模型训练任务的数据读取、Checkpoint加载,推理任务的快速分发和镜像加载等场景,数据的大小少则几十GiB,多则几百TiB甚至至多达到数PiB。存储速度越快,算力空闲时间越短。这需要一套能够支持大规模算力集群、海量数据场景的高性能存储加速系统。

02 RapidFS存储加速集群

在Create 2025大会,昆仑芯3万卡集群正式发布。为此,我们为RapidFS存储加速服务部署了数百台国产CPU服务器,集群设计总吞吐接近10 TiB/s,以满足3万卡昆仑芯集群大规模数据读写需求。

我们使用部分资源进行了RapidFS性能测试(更多测试细节见后文)。

测试结果显示,20个RapidFS存储节点稳定提供了302 GiB/s吞吐,70个RapidFS存储节点稳定提供了1.03 TiB/s吞吐。单台RapidFS存储节点可提供15 GiB/s吞吐,折合单TiB(裸容量)300 MiB/s。

这些数据表明RapidFS存储加速集群的吞吐性能,随着集群规模线性增长。单台RapidFS存储节点经过软硬一体的协同优化,充分发挥出国产CPU的性能和软件加速效果。

同时,这也意味着在70个RapidFS存储节点提供加速的情况下,100个计算节点并发加载10 GiB的文件仅需1秒,让数据随叫随到。

03 RapidFS产品简介

RapidFS是一款近计算存储加速工具。依托对象存储BOS作为数据湖存储底座,构建容量与性能解耦、冷热分层、透明流转的高性能存储方案。以POSIX挂载和HDFS协议,为上层计算应用提供统一文件访问入口,加速AI训练与推理、海量数据处理与分析、数据分发等业务场景下的存储访问。

04 性能测试详细说明

4.1 服务器配置

在本次测试的昆仑芯3万卡集群中,百度智能云RapidFS以全托管集群方式部署于国产CPU服务器,作为近计算存储加速服务使用。详细配置如下:

4.2 测试规模

我们分别对20个存储节点和70个存储节点规模的RapidFS集群进行了性能测试。

4.3 测试方法

按照DeepSeek V3模型文件构造160个4.3 GiB文件,总计688 GiB。将这些文件导入对象存储BOS并加载至RapidFS存储加速集群中。每个计算节点开启8进程从RapidFS存储加速集群中读取模型文件,持续压测600秒。

4.4 测试结果

测试集群A:20个RapidFS存储节点

测试集群B:70个RapidFS存储节点

百度智能云RapidFS存储加速集群用数据证明了国产算力基础设施的突破潜力。存储性能与算力需求实现「同频共振」,成为大模型训练与推理的效率助推器。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

RapidFS 存储加速 昆仑芯 国产算力 大模型
相关文章