總部位於中國上海的AI新創MiniMax周一(6/16)開源了MiniMax-M1,宣稱是全球首個開源的大規模混合注意力推理模型,它採用Apache‑2.0開源授權,支援100萬個Token的脈絡長度,在基準測試中發現,該模型於複雜並以生產力為導向的場景中表現特別出色,像是軟體工程、長脈絡與工具上的使用等。
MiniMax是由來自商湯科技的幾名工程師於2021年共同創辦,去年3月取得阿里巴巴的6億美元資金,估值為25億美元,並在今年1月開源了MiniMax-01系列模型,包括語言模型MiniMax-Text-01與視覺多模態模型MiniMax-VL-01。
與MiniMax-01一致的是,MiniMax-M1亦擁有4,560億個參數,每次推理使用46億個參數,支援100萬個Token的脈絡長度。不同的是,MiniMax-01定位為通用大型語言模型,採用混合專家及Transformer架構;MiniMax-M1則是個推理模型,採用混合專家及包括閃電注意力在內的混合注意力架構。
此外,相較於開源的DeepSeek-R1、Qwen3-235B,以及私有的OpenAI o3、Gemini-2.5 Pro、Claude 4 Opus與Seed-Thinking-v1.5等8款目前市場上最先進的模型,MiniMax-M1在AIME 2024數奧基準測試上排名第四,在LiveCodeBench動態程式碼生成的基準測試上名列第六,在SWE-bench軟體工程測試中排名第五,在使用工具解決複雜任務的Tau-Bench測試中排名第二,在長脈絡與多步推理的MRCR測試中亦僅次於Gemini-2.5 Pro。
MiniMax表示,M1的一個明顯優勢是它支援100萬個Token的脈絡長度,這個長度與Google Gemini 2.5 Pro相當,而且是DeepSeek R1(僅支援12.8萬個Token脈絡長度)的8倍。此外,M1的最大輸出值為8萬個Token,僅次於OpenAI o3的10萬Token,優於Gemini 2.5 Pro與DeepSeek-R1的6.4萬個。
根據該公司的說明,這主要是歸功於所採用的混合注意力機制中內建閃電注意力(Lightning Attention),使得模型在計算長脈絡及深度推理上特別有效率,例如當MiniMax-M1在處理8萬個Token的推理任務時,只需要30%左右的DeepSeek R1計算量。
此外,MiniMax使用了新的強化學習(RL)演算法CISPO,有別於傳統RL是依據新模型生成的Token進行策略更新,CISPO則是對重要性採樣權重進行剪裁,可提升訓練穩定性及加速收斂。實驗顯示,其訓練速度是其它RL方法的兩倍快。因此,MiniMax-M1僅使用512張H800,在3周內便完成整個強化學習階段,租金為534,700美元,大約只有原本估計的1/10。
MiniMax指出,因為對訓練及推理計算能力的利用相對高效,因此將在MiniMax App與Web提供無限免費使用,且提供價格非常經濟實惠的API,對於200K以下的輸入長度,每百萬個Token的輸入/輸出費用為0.4/2.2美元,200K~1M的輸入長度,每百萬個Token的輸入/輸出費用為1.3/2.2美元,比DeepSeek-R1還便宜。