橘子汽水铺 01月19日
MiniMax 深夜首次开源,400万长文本,全新架构,挑战Transformer
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

MiniMax发布了全新的开源语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01,其中文本模型参数高达4560亿,并采用了创新的Lightning Attention架构。该架构将Transformer的二次计算复杂度降为线性,大幅降低了长文本推理的成本和时间。新模型在长文本处理上表现出色,性能甚至超过了Gemini 2.0 Flash,同时随着上下文的提升,模型的In-Context Learning能力也逐渐增强。此外,模型在创意写作、知识问答和长文本等真实场景中表现突出。MiniMax此次开源不仅包括模型,还提供了技术报告和API,方便用户体验和商用。模型价格亲民,输入1元/百万token,输出8元/百万token。

⚡️MiniMax开源了其最新的语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01,文本模型拥有4560亿参数,并首次全面开源,这在行业内具有重要意义。

💡新模型采用了Lightning Attention线性注意力机制,有效降低了长文本处理的计算量和推理时间,解决了传统Transformer架构的二次计算复杂度问题,使得长文本的应用更加经济高效。

🎯在性能方面,MiniMax-Text-01在长文本评测中表现出色,超过了Gemini 2.0 Flash,并且随着上下文长度的增加,模型的In-Context Learning能力也随之增强,这对于AI写作和需要长记忆的任务有很大帮助。

🖼️视觉理解模型MiniMax-VL-01在多个指标上追平或超过了海外顶级模型,尤其在OCR和图表场景表现突出,这表明MiniMax在多模态模型方面也取得了显著进展。

💰模型价格亲民,输入1元/百万token,输出8元/百万token,这使得用户可以低成本体验和使用强大的大模型,加速了AI技术的普及和应用。

原创 orangesai 2025-01-15 13:41 北京

线性注意力的大规模应用,不仅能进一步降低模型价格,也是未来模型突破更大上下文窗口的必备技术,意义重大。

昨天深夜,MiniMax 突然宣布发布自家最新语言大模型,并且历史首次全面开源。

目前网页体验和API也都已经上线,可以在线体验和商用,地址见文章最后。

新技术:Lightning attention

这次模型最让人惊喜的就是全新的线性注意力架构。

大家都知道在实际的 AI 使用中,长文本至关重要,角色聊天的超长记忆,AI Coding 写代码,Agent 完成各种任务,哪个场景都离不开长文本。

大模型虽然一直在降价,但是使用的时候上下文越长,速度就越慢,价格也就越贵。

这个问题的根源是 Transformer 架构有二次计算复杂度。随着上下文的增加,推理的算力消耗是指数上升的。

而这次 MiniMax 的新模型,使用了 Lightning attention 机制,是一种线性注意力机制,能够大幅降低长文本的计算量和推理时间。

在技术报告中,可以看到对这次模型的主要架构图。


这个架构对模型推理资源消耗的降幅非常巨大,通过下面的长文本的推理时间对比图就能看出,在上下文持续上升时,使用了线性注意力让推理时间接近线性地缓慢增加,而非指数级别增加。

更详细的介绍可参见文末的技术报告。

计算量降低了,价格下来了,性能也不能损失,长文本才算真正可用。

下图是 Text-1 在超长文本评测集的性能表现,在512K的长度以上的区间,性能竟然超过了 Gemini 2.0 Flash。

技术报告里另外一个非常有趣的点是,随着上下文的提升,模型的 In-Context Learning 能力,逐渐增强,这对 AI 写作以及需要长记忆的任务都有巨大的帮助。

总的来说,Lightning attention 机制的应用,让大模型的长文本可用性大幅提升,价格也有机会再下降一个量级,未来,非常值得期待。

模型性能,追平一线

模型性能指标方面,作为开源模型,在很多指标追上了最佳的海外闭源模型。

并且由于模型有海螺平台反馈进行优化迭代,用户真实场景的使用体验也有保证。

官方利用真实的用户使用场景构建了一个测试集,可以看出在真实场景的表现也很亮眼,特别突出的场景是三个:创意写作、知识问答、长文本。

另外,视觉理解模型 MiniMax-VL-01 表现,基本在每个指标上都追平或超过了海外顶级模型,特别是实用的 OCR 和 图表场景。

模型价格

输入:1元/百万 token

输出:8元/百万 token

基本上闭眼用。

模型资源

代码:https://github.com/MiniMax-AI/MiniMax-01

模型:https://huggingface.co/MiniMaxAI/MiniMax-Text-01, https://huggingface.co/MiniMaxAI/MiniMax-VL-01

技术报告:https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf

网页端:https://hailuo.ai

API: https://www.minimaxi.com/

最后的话

看完今天 MiniMax 新发布的的 01 系列模型,MiniMax-Text-01 和 MiniMax-VL-01 表现都相当不错。

线性注意力的大规模应用,不仅能进一步降低模型价格,也是未来模型突破更大上下文窗口的必备技术,意义重大。

但最令人惊喜的,还是 MiniMax 选择将模型开源,并将预训练和后训练的心得通过技术报告分享给大家。

未来一年,我们依然需要大语言模型持续进步,这样AI 应用才能解锁更多的新场景。

未来一年,期待 AI 行业更开放的交流和更大的进步。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MiniMax 开源模型 线性注意力 长文本 大模型
相关文章