中國AI新創MiniMax開源支援100萬個Token脈絡長度的M1推理模型

總部位於中國上海的AI新創MiniMax周一（6/16）開源了MiniMax-M1，宣稱是全球首個開源的大規模混合注意力推理模型，它採用Apache‑2.0開源授權，支援100萬個Token的脈絡長度，在基準測試中發現，該模型於複雜並以生產力為導向的場景中表現特別出色，像是軟體工程、長脈絡與工具上的使用等。

MiniMax是由來自商湯科技的幾名工程師於2021年共同創辦，去年3月取得阿里巴巴的6億美元資金，估值為25億美元，並在今年1月開源了MiniMax-01系列模型，包括語言模型MiniMax-Text-01與視覺多模態模型MiniMax-VL-01。

與MiniMax-01一致的是，MiniMax-M1亦擁有4,560億個參數，每次推理使用46億個參數，支援100萬個Token的脈絡長度。不同的是，MiniMax-01定位為通用大型語言模型，採用混合專家及Transformer架構；MiniMax-M1則是個推理模型，採用混合專家及包括閃電注意力在內的混合注意力架構。

此外，相較於開源的DeepSeek-R1、Qwen3-235B，以及私有的OpenAI o3、Gemini-2.5 Pro、Claude 4 Opus與Seed-Thinking-v1.5等8款目前市場上最先進的模型，MiniMax-M1在AIME 2024數奧基準測試上排名第四，在LiveCodeBench動態程式碼生成的基準測試上名列第六，在SWE-bench軟體工程測試中排名第五，在使用工具解決複雜任務的Tau-Bench測試中排名第二，在長脈絡與多步推理的MRCR測試中亦僅次於Gemini-2.5 Pro。

MiniMax表示，M1的一個明顯優勢是它支援100萬個Token的脈絡長度，這個長度與Google Gemini 2.5 Pro相當，而且是DeepSeek R1（僅支援12.8萬個Token脈絡長度）的8倍。此外，M1的最大輸出值為8萬個Token，僅次於OpenAI o3的10萬Token，優於Gemini 2.5 Pro與DeepSeek-R1的6.4萬個。

根據該公司的說明，這主要是歸功於所採用的混合注意力機制中內建閃電注意力（Lightning Attention），使得模型在計算長脈絡及深度推理上特別有效率，例如當MiniMax-M1在處理8萬個Token的推理任務時，只需要30%左右的DeepSeek R1計算量。

此外，MiniMax使用了新的強化學習（RL）演算法CISPO，有別於傳統RL是依據新模型生成的Token進行策略更新，CISPO則是對重要性採樣權重進行剪裁，可提升訓練穩定性及加速收斂。實驗顯示，其訓練速度是其它RL方法的兩倍快。因此，MiniMax-M1僅使用512張H800，在3周內便完成整個強化學習階段，租金為534,700美元，大約只有原本估計的1/10。

MiniMax指出，因為對訓練及推理計算能力的利用相對高效，因此將在MiniMax App與Web提供無限免費使用，且提供價格非常經濟實惠的API，對於200K以下的輸入長度，每百萬個Token的輸入/輸出費用為0.4/2.2美元，200K~1M的輸入長度，每百萬個Token的輸入/輸出費用為1.3/2.2美元，比DeepSeek-R1還便宜。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签