华尔街见闻 - 资讯 - undefined 01月15日
MiniMax发布新一代开源模型,创新架构打破全球输入天花板
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

MiniMax发布并开源新一代01系列模型,包括基础语言模型和视觉多模态模型。该系列模型采用突破性线性注意力机制,打破了传统Transformer架构的记忆瓶颈,在综合性能上能与GPT-4o、Claude-3.5等海外领先模型媲美。MiniMax-01系列模型最大的亮点在于其高效处理长达400万token输入的能力,远超GPT-4o和Claude-3.5,并能在长输入情况下保持性能稳定。这一创新使模型在处理长文本时效率极高,接近线性复杂度,预示着超长文本输入时代的到来。

🚀MiniMax 01系列模型包含基础语言大模型和视觉多模态大模型,均已开源。

💡该系列模型采用线性注意力机制,突破了传统Transformer架构的限制,显著提升了长文本处理能力,能够高效处理高达400万token的输入,是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。

⏱️MiniMax-01系列模型在处理长输入时具有极高的效率,复杂度接近线性,且随着输入长度增加,性能衰减最慢,优于Gemini等其他顶级模型。

⚙️MiniMax选择模型参数量为4560亿,其中每次激活459亿,在模型参数量、性能和效率之间取得了平衡,实现了高效的长文本处理能力。

1月15日,MiniMax发布并开源新一代01系列模型,包含基础语言大模型 MiniMax-Text-01 和视觉多模态大模型MiniMax-VL-01。该系列模型使用多项突破性创新,以大规模应用线性注意力机制打破Transformer传统架构记忆瓶颈,在综合性能比肩GPT-4o、Claude-3.5等海外领军模型的基础上,能够高效处理高达400万token的输入,可输入长度是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。

MiniMax-01系列模型首次将线性注意力机制扩展到商用模型的级别,并使其综合能力达到全球第一梯队。而受益于此次架构创新,该系列模型在处理长输入的时候具有非常高的效率,接近线性复杂度。从Scaling Law、与MoE的结合、结构设计、训练优化和推理优化等层面综合考虑,MiniMax选择模型参数量为4560亿,其中每次激活459亿,能够高效处理高达400万token的上下文,将有效替代Transformer传统架构并开启超长文本输入时代。相较于Gemini等一众全球顶级模型,MiniMax-01随着输入长度变长,性能衰减最慢,效果及其出众。(全天候科技)

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MiniMax-01 线性注意力机制 长文本处理 AI模型 Transformer
相关文章