元象发布中国最大 MoE 开源大模型：总参数 255B，激活参数 36B

IT之家 2024年09月13日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

元象XVERSE发布了中国最大的MoE开源模型XVERSE-MoE-A36B，该模型拥有255B参数，36B激活参数，官方称其效果能“大致达到”超过100B大模型的性能提升，同时训练时间减少30%，推理性能提升100%，降低每token成本。MoE架构通过组合多个细分领域的专家模型，在扩大模型规模的同时，保持性能最大化并降低训练和推理成本。该模型在多个评测中超越了同类模型，包括国内千亿MoE模型Skywork-MoE、传统MoE霸主Mixtral-8x22B以及3140亿参数的MoE开源模型Grok-1-A86B。

🤩 **参数规模与性能:** XVERSE-MoE-A36B拥有255B参数，36B激活参数，官方宣称其效果能“大致达到”超过100B大模型的性能提升，同时训练时间减少30%，推理性能提升100%，降低每token成本。这意味着该模型在保持高性能的同时，还能降低训练和推理的成本，使其更具实用性和可扩展性。

🤯 **MoE架构与优势:** MoE（Mixture of Experts）混合专家模型架构是该模型的核心技术。它将多个细分领域的专家模型组合成一个超级模型，通过这种方式，模型能够在扩大规模的同时，保持性能最大化，甚至还能降低训练和推理的计算成本。MoE架构是近年来大模型领域的重要研究方向，被广泛应用于谷歌Gemini-1.5、OpenAI的GPT-4、马斯克旗下xAI公司的Grok等大模型中。

🏆 **评测结果与比较:** 在多个评测中，元象MoE超过多个同类模型，包括国内千亿MoE模型Skywork-MoE、传统MoE霸主Mixtral-8x22B以及3140亿参数的MoE开源模型Grok-1-A86B等。这表明XVERSE-MoE-A36B在性能上已经达到了业界领先水平，具有很高的竞争力。

🚀 **开源与应用:** XVERSE-MoE-A36B是一个开源模型，这意味着它可以被广泛地用于各种研究和应用场景。开发者可以基于该模型进行二次开发，探索更多应用可能性，推动人工智能技术的发展。

🌐 **链接与资源:** 该模型已在HuggingFace、魔搭和Github上公开发布，方便开发者获取和使用。开发者可以通过以下链接获取相关资源： HuggingFace：https://huggingface.co/xverse/XVERSE-MoE-A36B 魔搭：https://modelscope.cn/models/xverse/XVERSE-MoE-A36B Github：https://github.com/xverse-ai/XVERSE-MoE-A36B

IT之家 9 月 13 日消息，元象 XVERSE 发布中国最大 MoE 开源模型 XVERSE-MoE-A36B。

该模型总参数 255B，激活参数 36B，官方号称效果能“大致达到”超过 100B 大模型的“跨级”性能跃升，同时训练时间减少 30%，推理性能提升 100%，使每 token 成本大幅下降。

MoE（Mixture of Experts）混合专家模型架构，将多个细分领域的专家模型组合成一个超级模型，在扩大模型规模的同时，保持模型性能最大化，甚至还能降低训练和推理的计算成本。谷歌 Gemini-1.5、OpenAI 的 GPT-4 、马斯克旗下 xAI 公司的 Grok 等大模型都使用了 MoE。

在多个评测中，元象 MoE 超过多个同类模型，包括国内千亿 MoE 模型 Skywork-MoE、传统 MoE 霸主 Mixtral-8x22B 以及 3140 亿参数的 MoE 开源模型 Grok-1-A86B 等。

IT之家附相关链接：

Hugging Face：https://huggingface.co/xverse/XVERSE-MoE-A36B

魔搭：https://modelscope.cn/models/xverse/XVERSE-MoE-A36B

Github：https://github.com/xverse-ai/XVERSE-MoE-A36B

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签