掘金 人工智能 07月01日 18:05
华为又开源了个大的:超大规模 MoE 推理秘籍
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

华为开源项目 Omni-Infer,旨在加速超大规模 MoE 模型的推理速度与稳定性。该项目提供推理框架和加速套件,与主流开源框架兼容,并针对昇腾硬件平台优化。Omni-Infer 具备智能调度、负载均衡、MoE 模型优化、资源分配及注意力机制强化等功能,支持企业级部署。项目开源了关键技术和代码,并构建开放的社区治理机制,促进生态合作,为开发者提供开箱即用的能力,推动 AI 推理技术发展。

🚀 Omni-Infer 包含推理框架和加速套件两大组成部分,推理框架与主流开源大模型推理框架兼容,加速套件则通过智能调度、负载均衡等技术优化推理过程。

💡 Omni-Infer 的加速套件针对不同场景进行了优化,例如企业级的“调度员”功能,支持大规模分布式部署,确保低延迟响应;“负载均衡器”优化预填充和解码阶段,提升吞吐量;以及针对 MoE 模型的专属优化,提升协作效率。

🛠️ Omni-Infer 支持昇腾 CloudMatrix384 推理卡,通过 Docker 镜像方式安装,并提供了 PD 分离自动化部署方案。用户可以通过简单的步骤完成安装和部署,快速体验超大规模 MoE 模型的推理加速。

🤝 Omni-Infer 社区采取开放的社区治理机制,通过项目管理委员会和特别兴趣小组进行决策。社区积极拥抱国内人工智能开源项目,构建多方共赢的生态,加速AI技术发展。

超大规模 MoE 模型(如 DeepSeek),到底该怎么推理才能做到又快又稳。

现在,这个问题似乎已经有了标准答案——

华为一个新项目,直接把推理超大规模 MoE 背后的架构、技术和代码,统统给开源了!

这个新开源项目名叫 Omni-Infer,整体来看,它对于企业用户来说是非常利好的。

例如它可以给企业提供 PD 分离部署方案,针对 QPM 进行系统级优化,还会分享大规模商用过程中硬件使用的 “方法论”。

而且对于开发者和开源社区,华为这 “一呼” 也是起到了 “百应” 的效果。

北京智源研究院副院长兼总工程师林咏华表示:

北京智源研究院一直以来致力于人工智能开源生态建设,很高兴看到 Omni-infer 项目开源,智源团队打造的面向多芯片的 FlagScale 框架也在第一时间接入了 Omni-infer,期待后续有更多生态合作。


GitHub 地址:github.com/FlagOpen/Fl…

上海人工智能实验室系统平台中心负责人王辉认为:

DeepLlink 致力于打造最开放兼容的人工智能计算体系,十分期待能与 Omni-infer 项目携手,繁荣自主软硬件协同开源社区、拓展生态版图。

以及 OpenI 启智社区运营中心主任余跃也给出了响应:

OpenI 启智社区坚持创新为本,面向未来与 Omni-Infer 项目一起打造基于算力网的开源共创协作生态。

据了解,华为 Omni-Infer 社区的定位是 “加速套件 + 最佳实践”,未来提供开箱即用能力,支持昇腾推理集群快速部署。

而对于这次 Omni-Infer 的开源,其实是华为兑现了一个月前在发布重磅技术报告之际所做出的承诺。

那么接下来,我们就来一同深入了解一下华为的 Omni-Infer。

一个框架和一个套件

从整体来看,Omni-Infer 可以拆成两大块来看:一个是推理框架,一个是推理加速套件

从框架角度来看,Omni-Infer 能和业界主流的开源大模型推理框架(如 vLLM)完美兼容,就像不同品牌的零件可以组装在同一台机器上。

并且据了解,它的功能还将不断扩展,会持续为昇腾硬件平台上的大模型推理提供更强大的支持(例如 SGLang 等主流开源 LLM 推理框架)。

值得一提的是,Omni-Infer 是与 vLLM/SGLang 等等这些主流大模型推理开源框架是解耦的,独立安装。

这就意味着用户只需维护 vLLM 等的主版本即可,大大降低了软件版本维护的成本。

至于 Omni-Infer 的加速套件,若是用较为形象的比喻,它的 “打开方式” 是这样的:

如何 “食用”?

在聊完 Omni-Infer 的特点之后,我们继续来看下该如何去体验。

首先对于它的使用环境是有一定的要求:

其次在安装方式上,目前仅支持通过 Docker 镜像方式进行安装:

docker pull swr.cn-southwest-2.myhuaweicloud.com/omni-ai/omniinfer:202506272026

这个镜像已预先集成所需的 CANN 及 Torch-NPU 依赖包,同时内置可直接运行的 Omni-Infer 与 vLLM 工具包,开箱即可使用。

可以使用下面这个命令检查是否可用:

pip list | grep omni_infer

PD 分离自动化部署(4 机 2P1D)为例,它的部署框架如下所示:

再接下来,只需文档教程,仅少量代码和步骤,即可完成安装和部署:

整体来看,此次华为面向超大规模 MoE 开源的项目,是做到了简单几步就可以让 AI 推理这事变得又快又稳。

极致开源

Omni-Infer 除了将此前《华为昇腾服务器 DeepSeek V3/R1 推理部署最佳实践》技术报告中的关键技术开源出来之外,也同步进行了更加专业的开源社区建设。

首先,在独立的社区仓库中,将社区治理、社区会议、社区活动、生态合作、代码规范、设计文档等社区信息全部开放出来,让开发者能够最直接深入的参与到社区发展中。

其次,参照业界主流大型开源社区的最佳实践,采用开放的社区治理机制,通过项目管理委员会(Project Management Committee)和特别兴趣小组(Special Interest Group)两级机制,提供公正透明的讨论与决策机制。

再次,针对业界同类开源项目大多存在的 “一头热” 的“被动适配”生态合作模式问题,Omni-Infer 社区则采取了 “主动适配” 的社区构筑路径,尤其是主动拥抱国内正在逐步成长的人工智能开源项目,让生态真正实现多方共赢。

作为长期与业界几大主流开源基金会(Linux 基金会、OpenInfra 基金会、Apache 基金会等)保持紧密合作关系的社区团队,Omni-infer 刚开源的首个活动就将参与 OpenInfra 基金会在苏州的 Meetup,感兴趣的同学可以到现场交流,也顺路可参加有特色的全球性开源社区的生日活动。

最后,所有相关的地址放下面了,感兴趣的小伙伴可自取哦~

技术报告及可分析代码包:
gitcode.com/ascend-trib…

源代码开发协作:
gitee.com/omniai/omni…

社区治理、运作等内容:
gitee.com/omniai/comm…

【其他托管平台】

Github:
github.com/omni-ai-npu…

OpenI 启智社区:
git.openi.org.cn/omni-ai/omn…

GitLink 确实平台:
gitlink.org.cn/omni-ai/omn…

欢迎在评论区留下你的想法!

—  —

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Omni-Infer 华为 MoE模型 开源 AI推理
相关文章