36kr 2024年07月05日
最前线|「无问芯穹」发布千卡规模异构芯片混训平台,筑基面向MxN生态格局的AI Native基础设施
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

「无问芯穹」发布了大规模模型的异构分布式混合训练系统,该系统能够在千卡异构混合训练集群中实现高达97.6%的算力利用率。该系统支持AMD、华为昇腾、天数智芯、沐曦、摩尔线程、NVIDIA六种异构芯片,并具备万卡扩展性。用户可以通过Infini-AI平台一键发起700亿参数规模的大模型训练。

🚀 **千卡异构混合训练集群:** 「无问芯穹」发布了大规模模型的异构分布式混合训练系统,该系统能够在千卡异构混合训练集群中实现高达97.6%的算力利用率,突破了传统算力利用率瓶颈,大幅提升了训练效率。

💡 **支持多种异构芯片:** 该系统支持AMD、华为昇腾、天数智芯、沐曦、摩尔线程、NVIDIA六种异构芯片,打破了不同芯片生态系统之间的壁垒,实现了异构算力的有效整合和利用,为大模型训练提供了更灵活的选择。

📈 **万卡扩展性:** 该系统具备万卡扩展性,能够根据用户需求进行灵活扩展,满足不同规模的大模型训练需求,为大模型发展提供了强大的算力支撑。

🚀 **Infini-AI平台:** 「无问芯穹」Infini-AI云平台已集成大模型异构千卡混训能力,用户可以通过该平台一键发起700亿参数规模的大模型训练,降低了大模型训练的门槛,加速了大模型应用的落地。

🤝 **生态整合:** 该技术工程化的初衷,是希望整合更多异构算力,以推高大模型技术能力的上限,同时打通异构芯片生态,持续降低大模型应用落地成本。

作者丨敏潇

编辑丨邱晓芬

7月4日,在2024年世界人工智能大会AI基础设施论坛上,「无问芯穹」联合创始人兼CEO夏立雪发布了大规模模型的异构分布式混合训练系统——千卡异构混合训练集群算力利用率最高达到了97.6%。 

在论坛中,夏立雪指出,「无问芯穹」Infini-AI云平台已集成大模型异构千卡混训能力,是全球首个可进行单任务千卡规模异构芯片混合训练的平台。

该平台具备万卡扩展性,支持包括AMD、华为昇腾、天数智芯、沐曦、摩尔线程、NVIDIA六种异构芯片在内的大模型混合训练。7月起,通过试训申请的用户,能够在Infini-AI上一键发起700亿参数规模的大模型训练。

t图片来源:「无问芯穹」

今年3月,「无问芯穹」Infini-AI大模型开发与服务云平台首次进行公开测试。在此之前,智谱AI、月之暗面、生数科技等B端客户已能在Infini-AI上稳定使用异构算力。同时,20余家AI Native应用创业公司也在模型中持续调用各种预置模型API,以开发自身业务模型。

作为大模型生命周期中不可或缺的两个阶段,训练和推理均需要强大的计算资源支撑。与国际上模型层与芯片层“相对集中”的格局相比,中国的模型层与芯片层更具多样化和独特性。然而,大量的异构芯片也形成了“生态竖井”,不同硬件生态系统封闭且互不兼容,给用户带来一系列技术挑战。

t图片来源:「无问芯穹」

“生态竖井”的存在让大多数企业和开发者对此望而却步,即使算力集群众多,也难以实现有效的整合与利用。“生态竖井”不仅成为构建AI Native基础设施的最大难点,也是当前大模型行业面临“算力荒”的重要原因。

构建适应多模型与多芯片格局的AI Native基础设施,「无问芯穹」的底层解法是,提供高效整合异构算力资源的好用算力平台,以及支持软硬件联合优化与加速的中间件,让异构芯片转化为大算力。论坛中夏立雪表示,该技术工程化的初衷,是希望整合更多异构算力,以推高大模型技术能力的上限。同时,打通异构芯片生态,持续降低大模型应用落地成本。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型 异构计算 算力 人工智能 Infini-AI
相关文章