元象XVERSE发布了中国最大的MoE开源模型XVERSE-MoE-A36B,该模型拥有255B参数,36B激活参数,官方称其效果能“大致达到”超过100B大模型的性能提升,同时训练时间减少30%,推理性能提升100%,降低每token成本。MoE架构通过组合多个细分领域的专家模型,在扩大模型规模的同时,保持性能最大化并降低训练和推理成本。该模型在多个评测中超越了同类模型,包括国内千亿MoE模型Skywork-MoE、传统MoE霸主Mixtral-8x22B以及3140亿参数的MoE开源模型Grok-1-A86B。
🤩 **参数规模与性能:** XVERSE-MoE-A36B拥有255B参数,36B激活参数,官方宣称其效果能“大致达到”超过100B大模型的性能提升,同时训练时间减少30%,推理性能提升100%,降低每token成本。这意味着该模型在保持高性能的同时,还能降低训练和推理的成本,使其更具实用性和可扩展性。
🤯 **MoE架构与优势:** MoE(Mixture of Experts)混合专家模型架构是该模型的核心技术。它将多个细分领域的专家模型组合成一个超级模型,通过这种方式,模型能够在扩大规模的同时,保持性能最大化,甚至还能降低训练和推理的计算成本。MoE架构是近年来大模型领域的重要研究方向,被广泛应用于谷歌Gemini-1.5、OpenAI的GPT-4、马斯克旗下xAI公司的Grok等大模型中。
🏆 **评测结果与比较:** 在多个评测中,元象MoE超过多个同类模型,包括国内千亿MoE模型Skywork-MoE、传统MoE霸主Mixtral-8x22B以及3140亿参数的MoE开源模型Grok-1-A86B等。这表明XVERSE-MoE-A36B在性能上已经达到了业界领先水平,具有很高的竞争力。
🚀 **开源与应用:** XVERSE-MoE-A36B是一个开源模型,这意味着它可以被广泛地用于各种研究和应用场景。开发者可以基于该模型进行二次开发,探索更多应用可能性,推动人工智能技术的发展。
🌐 **链接与资源:** 该模型已在HuggingFace、魔搭和Github上公开发布,方便开发者获取和使用。开发者可以通过以下链接获取相关资源:
HuggingFace:https://huggingface.co/xverse/XVERSE-MoE-A36B
魔搭:https://modelscope.cn/models/xverse/XVERSE-MoE-A36B
Github:https://github.com/xverse-ai/XVERSE-MoE-A36B
IT之家 9 月 13 日消息,元象 XVERSE 发布中国最大 MoE 开源模型 XVERSE-MoE-A36B。
该模型总参数 255B,激活参数 36B,官方号称效果能“大致达到”超过 100B 大模型的“跨级”性能跃升,同时训练时间减少 30%,推理性能提升 100%,使每 token 成本大幅下降。
MoE(Mixture of Experts)混合专家模型架构,将多个细分领域的专家模型组合成一个超级模型,在扩大模型规模的同时,保持模型性能最大化,甚至还能降低训练和推理的计算成本。谷歌 Gemini-1.5、OpenAI 的 GPT-4 、马斯克旗下 xAI 公司的 Grok 等大模型都使用了 MoE。
在多个评测中,元象 MoE 超过多个同类模型,包括国内千亿 MoE 模型 Skywork-MoE、传统 MoE 霸主 Mixtral-8x22B 以及 3140 亿参数的 MoE 开源模型 Grok-1-A86B 等。

IT之家附相关链接:
Hugging Face:https://huggingface.co/xverse/XVERSE-MoE-A36B
魔搭:https://modelscope.cn/models/xverse/XVERSE-MoE-A36B
Github:https://github.com/xverse-ai/XVERSE-MoE-A36B