AI & Big Data 前天 16:22
中國AI新創MiniMax開源支援100萬個Token脈絡長度的M1推理模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

中国 AI 新创公司 MiniMax 开源了 MiniMax-M1,这是一个全球首个开源的大规模混合注意力推理模型。该模型支持 100 万个 Token 的上下文长度,在复杂场景下表现出色,尤其在软件工程、长文本处理和工具使用方面。MiniMax-M1 采用了混合专家和混合注意力架构,并在多个基准测试中取得了优异成绩。此外,MiniMax-M1 具有高效的计算能力,并提供了免费的 MiniMax App 和 Web 使用,以及经济实惠的 API 价格。

💡MiniMax-M1 是全球首个开源的大规模混合注意力推理模型,采用了 Apache-2.0 开源授权。

🚀该模型支持 100 万个 Token 的上下文长度,在多个基准测试中表现优异,例如在 AIME 2024 数奥测试中排名第四,在 SWE-bench 软件工程测试中排名第五。

⚡MiniMax-M1 采用了混合专家和混合注意力架构,其中包含闪电注意力机制,使其在处理长文本和深度推理时特别高效。例如,处理 8 万个 Token 的推理任务时,计算量仅需 DeepSeek R1 的 30% 左右。

💰MiniMax-M1 使用了新的强化学习(RL)算法 CISPO,训练速度更快,且仅使用 512 张 H800 在 3 周内完成了整个强化学习阶段,租金成本约为原先估算的 1/10。

🆓MiniMax-M1 提供无限免费的 MiniMax App 和 Web 使用,并提供价格经济实惠的 API。对于 200K 以下的输入长度,每百万个 Token 的输入/输出费用分别为 0.4/2.2 美元,比 DeepSeek-R1 便宜。

總部位於中國上海的AI新創MiniMax周一(6/16)開源了MiniMax-M1,宣稱是全球首個開源的大規模混合注意力推理模型,它採用Apache‑2.0開源授權,支援100萬個Token的脈絡長度,在基準測試中發現,該模型於複雜並以生產力為導向的場景中表現特別出色,像是軟體工程、長脈絡與工具上的使用等。

MiniMax是由來自商湯科技的幾名工程師於2021年共同創辦,去年3月取得阿里巴巴的6億美元資金,估值為25億美元,並在今年1月開源了MiniMax-01系列模型,包括語言模型MiniMax-Text-01與視覺多模態模型MiniMax-VL-01。

與MiniMax-01一致的是,MiniMax-M1亦擁有4,560億個參數,每次推理使用46億個參數,支援100萬個Token的脈絡長度。不同的是,MiniMax-01定位為通用大型語言模型,採用混合專家及Transformer架構;MiniMax-M1則是個推理模型,採用混合專家及包括閃電注意力在內的混合注意力架構。

此外,相較於開源的DeepSeek-R1、Qwen3-235B,以及私有的OpenAI o3、Gemini-2.5 Pro、Claude 4 Opus與Seed-Thinking-v1.5等8款目前市場上最先進的模型,MiniMax-M1在AIME 2024數奧基準測試上排名第四,在LiveCodeBench動態程式碼生成的基準測試上名列第六,在SWE-bench軟體工程測試中排名第五,在使用工具解決複雜任務的Tau-Bench測試中排名第二,在長脈絡與多步推理的MRCR測試中亦僅次於Gemini-2.5 Pro。

MiniMax表示,M1的一個明顯優勢是它支援100萬個Token的脈絡長度,這個長度與Google Gemini 2.5 Pro相當,而且是DeepSeek R1(僅支援12.8萬個Token脈絡長度)的8倍。此外,M1的最大輸出值為8萬個Token,僅次於OpenAI o3的10萬Token,優於Gemini 2.5 Pro與DeepSeek-R1的6.4萬個。

根據該公司的說明,這主要是歸功於所採用的混合注意力機制中內建閃電注意力(Lightning Attention),使得模型在計算長脈絡及深度推理上特別有效率,例如當MiniMax-M1在處理8萬個Token的推理任務時,只需要30%左右的DeepSeek R1計算量。

此外,MiniMax使用了新的強化學習(RL)演算法CISPO,有別於傳統RL是依據新模型生成的Token進行策略更新,CISPO則是對重要性採樣權重進行剪裁,可提升訓練穩定性及加速收斂。實驗顯示,其訓練速度是其它RL方法的兩倍快。因此,MiniMax-M1僅使用512張H800,在3周內便完成整個強化學習階段,租金為534,700美元,大約只有原本估計的1/10。

MiniMax指出,因為對訓練及推理計算能力的利用相對高效,因此將在MiniMax App與Web提供無限免費使用,且提供價格非常經濟實惠的API,對於200K以下的輸入長度,每百萬個Token的輸入/輸出費用為0.4/2.2美元,200K~1M的輸入長度,每百萬個Token的輸入/輸出費用為1.3/2.2美元,比DeepSeek-R1還便宜。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MiniMax M1 模型 开源 混合注意力 AI
相关文章