MiniMax发布新一代开源模型，创新架构打破全球输入天花板

华尔街见闻 - 资讯 - undefined 01月15日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

MiniMax发布并开源新一代01系列模型，包括基础语言模型和视觉多模态模型。该系列模型采用突破性线性注意力机制，打破了传统Transformer架构的记忆瓶颈，在综合性能上能与GPT-4o、Claude-3.5等海外领先模型媲美。MiniMax-01系列模型最大的亮点在于其高效处理长达400万token输入的能力，远超GPT-4o和Claude-3.5，并能在长输入情况下保持性能稳定。这一创新使模型在处理长文本时效率极高，接近线性复杂度，预示着超长文本输入时代的到来。

🚀MiniMax 01系列模型包含基础语言大模型和视觉多模态大模型，均已开源。

💡该系列模型采用线性注意力机制，突破了传统Transformer架构的限制，显著提升了长文本处理能力，能够高效处理高达400万token的输入，是GPT-4o的32倍，Claude-3.5-Sonnet的20倍。

⏱️MiniMax-01系列模型在处理长输入时具有极高的效率，复杂度接近线性，且随着输入长度增加，性能衰减最慢，优于Gemini等其他顶级模型。

⚙️MiniMax选择模型参数量为4560亿，其中每次激活459亿，在模型参数量、性能和效率之间取得了平衡，实现了高效的长文本处理能力。

1月15日，MiniMax发布并开源新一代01系列模型，包含基础语言大模型 MiniMax-Text-01 和视觉多模态大模型MiniMax-VL-01。该系列模型使用多项突破性创新，以大规模应用线性注意力机制打破Transformer传统架构记忆瓶颈，在综合性能比肩GPT-4o、Claude-3.5等海外领军模型的基础上，能够高效处理高达400万token的输入，可输入长度是GPT-4o的32倍，Claude-3.5-Sonnet的20倍。

MiniMax-01系列模型首次将线性注意力机制扩展到商用模型的级别，并使其综合能力达到全球第一梯队。而受益于此次架构创新，该系列模型在处理长输入的时候具有非常高的效率，接近线性复杂度。从Scaling Law、与MoE的结合、结构设计、训练优化和推理优化等层面综合考虑，MiniMax选择模型参数量为4560亿，其中每次激活459亿，能够高效处理高达400万token的上下文，将有效替代Transformer传统架构并开启超长文本输入时代。相较于Gemini等一众全球顶级模型，MiniMax-01随着输入长度变长，性能衰减最慢，效果及其出众。（全天候科技）

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签