智源研究院 04月09日 18:05
智源发布异构统一通信库FlagCX,填补多元算力开源软件栈重要拼图
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

多元算力时代,通信库面临挑战。智源研究院联合伙伴构建FlagCX,实现不同芯片高效通信和自适应优化,具有零开销、零成本架构,推进通信库标准建设,初步形成生态圈。

🌐FlagCX提供统一通信算子接口层,屏蔽底层细节,实现零成本使用

🎯秉持标准化、兼容性、自适应原则,走适配和统一路径提升性能

📄智源研究院研制通信库国家标准,以FlagCX为试验田推进标准化

🎉积极构建软件生态,众多高校、厂商参与,推动技术应用落地

2024-12-27 19:31 北京

旨在实现不同芯片之间高效通信和不同场景下的大规模自适应通信优化

多元算力时代,通信库作为算力大规模聚合的基础软件,迎来了两个新的重要挑战。


其一,通信库各异,导致针对通信算法的实现与优化不具备通用性和自适应性。训练模型结构、规模及超参会变化,且训练任务也可能迁移到不同芯片或不同规模集群。然而,当前各种AI芯片的通信库各不相同,导致通信优化只能针对特定芯片集群和模型结构,难以满足各智算中心的规模化部署,也很难快速适应训练任务的变化。


其二,无法实现跨不同芯片高效互联。数据中心的集群建设在不同阶段面临更好的芯片选型,随着AI芯片更迭和升级,难以保证一个数据中心只有一款AI芯片。当出现不同的AI芯片在同一个集群,我们希望有能力把它们聚合完成更大的训练任务。然而,不同芯片通信库缺乏统一接口和协议,导致跨芯高速互联开发和优化难度大,很难实现不同算力高效聚合。


为了应对这些挑战,智源研究院联合生态合作伙伴,构建并开源异构统一通信库FlagCX,旨在实现不同芯片之间高效通信和不同场景下的大规模自适应通信优化,填补多元算力开源软件栈的重要版图。


FlagCX开源地址

https://github.com/FlagOpen/FlagCX


1

“零开销”与“零成本”的架构设计


如以上架构图所示,FlagCX可为上层应用提供一个统一的通信算子接口层,以屏蔽底层不同实现细节,并基于此开发对接不同深度学习框架的插件,帮助用户在不同深度学习框架中零成本使用FlagCX。在接口层之下,提供了两条实现路径:


FlagCX的设计和实现过程,始终秉持三个基本原则:




这里NCCL、Chip A和ChipB属于不同测试集群,测试实际性能依赖各自集群配置及环境


FlagCX选择了两个代表性的通信原语AllReduce和AlltoAll,分别在三款芯片上进行了跨机通信性能测试,其中Chip A是GPGPU芯片,Chip B是DSA芯片。这里AllReduce和AlltoAll走的是上述架构中的适配路径,从上图实测结果来看,可以得出FlagCX对厂商原生通信库的适配基本实现了零开销。




这里“A800+Chip A”与“A100+Chip B”属于不同的测试集群,测试实际性能依赖各自集群配置及环境

同时,进一步测试了FlagCX原生通用Send/Recv的跨不同芯片的异构通信性能,这里走的上述架构中的统一路径,从上图实测结果来看,能达到峰值带宽的90%以上,充分说明FlagCX跨芯异构通信潜力。


2

产业领先的通信库标准建设


为提升跨芯片通信的兼容性与互操作性,实现通信优化跨芯片、跨任务、跨规模的自适应优化能力,加速通信库未来对新硬件与新通信协议的支持,智源研究院在电子标准院指导下,联合生态伙伴积极研制通信库相关国家标准,现已在全国信标委人工智能分委会(TC28/SC42)芯片与系统研究组启动标准预研,并共同提出了异构统一通信库的初版标准框架。



如上图所示,我们将会在通信算子接口、芯片适配、网络拓扑、通信性能建模、通信算法及通信运行时等方面进行标准化,并以FlagCX作为标准的试验田和参考实现。更进一步,该标准也将涵盖通信自动编译优化等前沿技术,助力行业整体水平的提升,最终逐步实现该领域国际领先的技术与应用水平。


3

初步形成体系化的生态圈


为更好地推动异构统一通信库FlagCX发展、相关标准的研制及落地应用,智源研究院也在积极构建相关软件生态,形成产学研协同创新的良性循环,加速异构统一通信库技术推广与应用落地。目前首批生态伙伴包括:




当前开源异构统一通信库 FlagCX和相关标准研制还处在早期阶段,智源研究院诚挚欢迎更多伙伴参与共建。接下来,FlagCX将进一步提升性能,适配更多芯片,并深度与多芯片并行训练及推理大模型框架 FlagScale进行集成,实现从通信到计算的全面协同优化,共同推动AI计算力的边界突破!


阅 读 更 多





跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

FlagCX 通信优化 标准建设 软件生态
相关文章