MiniMax发布并开源新一代01系列模型,包括基础语言模型和视觉多模态模型。该系列模型采用突破性线性注意力机制,打破了传统Transformer架构的记忆瓶颈,在综合性能上能与GPT-4o、Claude-3.5等海外领先模型媲美。MiniMax-01系列模型最大的亮点在于其高效处理长达400万token输入的能力,远超GPT-4o和Claude-3.5,并能在长输入情况下保持性能稳定。这一创新使模型在处理长文本时效率极高,接近线性复杂度,预示着超长文本输入时代的到来。
🚀MiniMax 01系列模型包含基础语言大模型和视觉多模态大模型,均已开源。
💡该系列模型采用线性注意力机制,突破了传统Transformer架构的限制,显著提升了长文本处理能力,能够高效处理高达400万token的输入,是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。
⏱️MiniMax-01系列模型在处理长输入时具有极高的效率,复杂度接近线性,且随着输入长度增加,性能衰减最慢,优于Gemini等其他顶级模型。
⚙️MiniMax选择模型参数量为4560亿,其中每次激活459亿,在模型参数量、性能和效率之间取得了平衡,实现了高效的长文本处理能力。
1月15日,MiniMax发布并开源新一代01系列模型,包含基础语言大模型 MiniMax-Text-01 和视觉多模态大模型MiniMax-VL-01。该系列模型使用多项突破性创新,以大规模应用线性注意力机制打破Transformer传统架构记忆瓶颈,在综合性能比肩GPT-4o、Claude-3.5等海外领军模型的基础上,能够高效处理高达400万token的输入,可输入长度是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。
MiniMax-01系列模型首次将线性注意力机制扩展到商用模型的级别,并使其综合能力达到全球第一梯队。而受益于此次架构创新,该系列模型在处理长输入的时候具有非常高的效率,接近线性复杂度。从Scaling Law、与MoE的结合、结构设计、训练优化和推理优化等层面综合考虑,MiniMax选择模型参数量为4560亿,其中每次激活459亿,能够高效处理高达400万token的上下文,将有效替代Transformer传统架构并开启超长文本输入时代。相较于Gemini等一众全球顶级模型,MiniMax-01随着输入长度变长,性能衰减最慢,效果及其出众。(全天候科技)