性能比肩 DeepSeek-R1，MiniMax 仅花 380 万训出推理大模型性价比新王

国产推理大模型又有重磅选手。

MiniMax 开源 MiniMax-M1，迅速引起热议。

这个模型有多猛？直接上数据：

原生支持 100 万 token 的输入长度，是 DeepSeek R1 的约 8 倍。

同时支持 8 万输出 token，超过 Gemini 2.5 Pro 的 6.4 万，成为世界最长输出。

生成 10 万 token 时，推理算力只需要 DeepSeek R1 的 25%。

MiniMax 团队透露，只用了 3 周时间、512 块 H800 GPU 就完成强化学习训练阶段，算力租用成本仅 53.47 万美元（约 383.9 万元）。

不仅如此，在多个基准测试上 MiniMax-M1 的表现可比或超越 DeepSeek-R1、Qwen3 等多个开源模型，在工具使用和部分软件工程等复杂任务上甚至超越了 OpenAI o3 和 Claude 4 Opus。

MiniMax-M1 实战表现如何？官方给出了一句话生成迷宫小游戏的 Demo。

创建一个迷宫生成器和寻路可视化工具。随机生成一个迷宫，并逐步可视化 A* 算法的求解过程。使用画布和动画，使其具有视觉吸引力。

视频详情

目前模型权重已可在 HuggingFace 下载，技术报告同步公开。

同时已集成到 MiniMax Chat 网页版，可在线试玩。

混合注意力架构

MiniMax-M1 一大技术亮点是采用了 Lightning Attention 机制的混合注意力架构。

传统的 Transformer 架构有个致命缺陷：计算复杂度是平方级，这意味着当模型进行更长的推理时，计算成本会急剧上升。

虽然之前有各种优化方案，比如稀疏注意力、线性注意力等，但在大规模推理模型上都没有得到充分验证。

Lightning Attention 最早由上海 AI Lab 团队提出，此前已应用到 MiniMax-01 模型中。

具体来说，Lightning Attention 把注意力计算分成块内和块间两部分，块内用传统注意力计算，块间用线性注意力的核技巧，避免了累积求和操作（cumsum）拖慢速度。

Lightning Attention 还采用了分块技术（tiling）充分利用 GPU 硬件，让内存使用更高效，训练速度不随序列长度增加而变慢。

MiniMax-M1 这次是在每 7 个 Lightning Attention 的 Transnormer 块后接 1 个传统 Softmax Attention 的 Transformer 块。

这种设计理论上可以让推理长度高效扩展到数十万个 token。

更多 Lightning Attention 的介绍，可以看量子位与 MiniMax 高级研究总监钟怡然的对话：

MiniMax 押注线性注意力，让百万级长文本只用 1/2700 算力｜对话 MiniMax-01 架构负责人钟怡然

强化学习 CISPO 算法

除了架构创新，MiniMax 团队在提升训练效率上也有新招。

他们发现，传统的 PPO/GRPO 算法在处理混合架构时会出现严重问题。具体来说，那些对推理至关重要的 “反思”token（如 However、Wait、Aha 等）通常概率很低，在策略更新时很容易被裁剪掉，导致模型无法学会长链推理。

为此，团队提出了全新的 **CISPO（Clipped IS-weight Policy Optimization）**算法。

与传统方法裁剪 token 更新不同，CISPO 选择裁剪重要性采样权重，这样可以保留所有 token 的梯度贡献，特别是在长响应中至关重要。

在基于 Qwen2.5-32B 模型的对照实验中，CISPO 不仅显著超越了 GRPO 和 DAPO，还实现了 2 倍的训练加速，也就是用一半的训练步数就能达到 DAPO 的性能。

当然，将强化学习扩展到这种混合架构并非一帆风顺。团队遇到了一系列独特挑战，比如训练和推理内核之间的精度不匹配问题。他们发现 LM Head 的高幅度激活是误差的主要来源，通过将输出头的精度提升到 FP32，成功将训练和推理概率的相关性从 0.9x 提升到 0.99x。

此外，他们还开发了基于 token 概率的早停机制，当连续 3000 个 token 的概率都超过 0.99 时就终止生成，有效防止了模型陷入重复循环。

MiniMax-M1 的成功还离不开精心设计的训练流程。

首先，团队在 MiniMax-Text-01 的基础上继续预训练了 7.5 万亿 token，重点强化了 STEM、代码和推理相关内容，占比提升到 70%。接着进行监督微调，注入链式思考（CoT）模式，为强化学习打下基础。

在强化学习阶段构建了丰富的训练环境。

对于可验证的任务，不仅包含了数学推理和竞赛编程，还利用 SynLogic 框架合成了 41 种逻辑推理任务的 5.3 万个样本。以及构建了基于 SWE-bench 的真实软件工程环境，让模型在沙箱中实际执行代码，通过测试用例的通过率作为奖励信号。

对于无法用规则验证的通用任务，使用生成式奖励模型来提供反馈，特别关注了奖励模型的长度偏见问题，也就是模型可能会为了获得高分而生成冗长但无实质内容的回答。通过在线监控和动态调整，成功避免了这种” 奖励黑客” 行为。

上下文窗口的扩展则使用阶段性扩展策略，从 4 万逐步增加到 4.8 万、5.6 万、6.4 万、7.2 万，最终达到 8 万，每个阶段都要等到困惑度收敛且 99 分位输出长度接近当前限制时才进入下一阶段。

最终，MimiMax-M1 在数学推理、长上下文理解、工具使用和软件工程等多个领域表现出色，完整评估结果如下：

One More Thing

在 MiniMax 官方发布公告中透露，这只是为期 5 天的 “MiniMaxWeek” 活动的第一天。

随后海螺 AI 账号也确认即将推出更多内容。

顺着这个线索，我们发现 Hailuo 02 视频模型出现在 AI 视频竞技场中，已迅速来到图生视频排行榜第二。

关于 Hailuo 02 和 MiniMax 将在一周内发布的其他内容，量子位也会持续关注。

在线试玩：
chat.minimax.io

GitHub：
github.com/MiniMax-AI/…

HuggingFace：
huggingface.co/collections…

论文：
github.com/MiniMax-AI/…

参考链接：
[1]x.com/MiniMax__AI…
[2]artificialanalysis.ai/text-to-vid…

— 完 —

混合注意力架构

强化学习 CISPO 算法

One More Thing

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签