开源界长推理天花板：MiniMax-M1 上下文一次性撑到 1 M

原创夕小瑶编辑部 2025-06-18 11:21 北京

好久不露面的 MiniMax，终于又给开源社区带来一次惊喜。

就在昨天半夜，MiniMax 开源了 MiniMax-M1。

这次终于等到，他们发布了推理大模型——MiniMax M1。

而且一次性把上下文窗口撑到 1 M，直接和当前的上下文之王 Gemini 拉平。

是不是风格有点似曾相识？是的，几个月前他们发布的是 400 万上下文的基模——MiniMax-01 ，想详细了解的小伙伴可以看一下我们之前的报道。

老规矩，先放传送门——

GitHub：https://github.com/MiniMax-AI/MiniMax-M1Hugging
HuggingFace：https://huggingface.co/spaces/MiniMaxAI/MiniMax-M1

大家也可以直接从 Chat 端体验：https://chat.minimaxi.com/

我仔细研读了 M1 的技术报告，用一句话总结就是——

MiniMax-M1 是开源界真正能「干重活」的长推理底座。

在大模型语境里，“干重活”你可以理解为：

吃得下超长输入（合同、代码基仓、长论文等）；

自己能写出成千上万 token 的思考过程，并且推理链条稳定，可以把任务一步步拆解、验证、反思，最终给出高质量答案。

「干重活」≠ 单纯 token 很长，还得具备一个特别重要的特性——“长推理”。

这背后真正的瓶颈是 推理长度 (reasoning length) ——模型在一次生成里允许的 “思考预算”。如果没有足够的预算，复杂任务（竞赛数学、真实软件修 Bug、长链检索推理）就会被截断，模型只能“浅尝辄止”。

怎么算长推理？

尽管社区中没有硬性门槛，但大多数公开模型的“Extended Thinking”上限停在 32 K-64 K，比如大家爱用我也爱用的 Gemini 2.5 Pro 是 64K，deepseek R1 也是 64K，这次 MiniMax-M1 把这一数字推到 80 K，而且是开源的，远高于同类开源模型，仅次于 closeAI 的 o3。

我愿称它是新的“长推理底座”。

开源阵营里 Agentic tool use 最强不只是因为它 1M 的输入、 80K 输出的顶配上下文，还有它还是目前开源阵营里 Agentic tool use 最强的选择。

在 TAU-Bench 上体现得非常明显。

TAU-Bench （（Tool-Agent-User Benchmark））是目前学界用来衡量「会使用工具」最主流最严格的基准之一，包括 airline（航空客服）和 retail（电商客服）两个赛道。

它把一个客服场景拆解成可调用的 真实 API + 仿真数据库 + 多轮对话，要求模型自己规划、调用、校验并最终达成用户目标。具体包括：是否遵守平台规则、是否正确使用 API、是否在正确的时间做出合适判断，等等。

在这项评测中，MiniMax-M1 的表现极为突出——在 40K 输出上就已经超过 Gemini 2.5 Pro；在 80K 输出窗版本中，更是稳定拉高了 2-3 个百分点，稳坐开源第一、整体第二。

为什么 M1 在这类任务里这么强？核心在于两点：

第一，思考预算充裕。

这可能是很多人低估 M1 的地方。80K 输出 token 意味着模型可以在回答一个问题时，写出非常详细的思考过程：比如“读取文档 → 找关键词 → 调用 API→ 拿到中间结果 → 判断是否满足条件 → 重新调用 → 总结并报告”这整套链条都可以逐步铺开，写成一整份几千行的工作日志。

报告里提到的一个关键术语就是“思考预算（thinking budget）” ——你给模型多少输出长度，决定了它有多少空间进行链式推理。

MiniMax-M1 正是目前开源里思考预算最高的模型之一。

第二，RL on Real Tools。

这里是 MiniMax-M1 的另一个杀手锏：它不是单靠语言学习做出来的工具使用能力，而是真的在训练阶段就“手把手练习过”。

根据技术报告，MiniMax 团队为 RL 阶段专门构建了一个 rule-based 可验证环境 + 真实容器沙盒环境。

比如，把 GitHub 上的 bug、PR 任务、代码修复问题，包装成一个个真实的软件开发任务，并搭建了可执行、可验证、可打回的真实环境。

模型必须在这里完成：

找出代码 bug；

修改出正确代码；

运行测试用例，确保没有 regression；

有时甚至要自己写出测试用例。

实际训练日志显示 RL step 中约等于 27% 都在和工具环境交互，同类模型只有不到 10%。

所以，M1 在 RL 阶段就像是参加了一个工程师训练营，而不是坐在办公室里刷阅读理解题。

Agent 不是靠生成答案，而是靠逐步完成任务。

RL 成本只要 53 万美元说到底，大模型最贵的不是算力，而是时间。

M1 是一个 MoE 架构的模型，总参数 456 B、激活参数 45.9 B，同样是千亿参数，但是 MiniMax 只用了 512 张 H800，3 周时间，53.47 万美元，完成了完整 RL 流程。

能把这个成本压到几乎不可思议的地步，靠的可不只是架构本身。

MiniMax 背后还有一个不太显眼、但非常关键的角色：CISPO。

全称 Clipped IS-weight Policy Optimization，是 MiniMax 自研的强化学习优化算法。

它的特别之处在于引入了“重要性采样权重裁剪”，听着很拗口，实质上是一种非常聪明的做法：在传统 RL 的基础上，把那些“贡献低、梯度大”的样本裁剪掉，避免无效训练扰乱模型学习路径。

这在技术报告里表现得非常直观。

作者在 Qwen2.5-32B 模型上实测表明，使用 CISPO 后，强化学习收敛速度显著提升：原本由字节与清华联合提出、在多个实验中已优于 DeepSeek 提出 GRPO 的 DAPO 方法，需要 800 步才能达到 33 分，而 CISPO 在 400 步内即可实现相同效果，实现 2 倍加速。

而且，现在 MiniMax 已经把 CISPO 训练逻辑打包成可重复流程，技术文档也明说：

你如果在做 RLHF 或 RLAIF，完全可以直接复刻这一套，吞吐翻倍，预算可控，工程师不用熬夜。

点赞！

除了之外，还忘了一个重要的指标——

你可以看到——MiniMax-M1 的推理 FLOPs 几乎是线性增长。

64K 生成长度，推理算力只有 DeepSeek R1 的一半； 100K，已经压到了 25%。

为什么能这么省？归根到底是算子下了狠功夫。背后还是 Lightning Attention 的功劳。

M1 所用的 Lightning Attention，其实不是首次提出的新概念，在我们上一篇文章里有提到和介绍。

但它一直难落地，因为标准线性 attention 机制里的 cumsum 操作（累加）是递归式的，GPU 上并行性差，工程上代价极高。

MiniMax 的工程团队从底层重构 attention kernel，把计算流程拆成“块内”和“块间”，分别用左乘积、右乘积进行近似，彻底绕过 cumsum，实现了真正可部署的线性计算流程。

最终，注意力 FLOPs 从 O(L²) 真正下降到接近 O(L) 的级别，才敢把上限窗口撑到 1M。

你如果只看参数，可能觉得这只是又一个技术升级；但如果你做过部署，就知道这个差距有多大。

举个例子：同样跑 10 万 token 生成，DeepSeek-R1 需要将近 3 倍的 GPU 资源才跑完一个输出；而 M1 在同等负载下只需要三分之一的显存消耗，冷启动速度更快，响应时延更低，能把高复杂度任务塞进边缘设备甚至单机部署。

这就不仅是实验室参数优化的问题了，而是实实在在的能用和能省。

以前这是一条只有大厂才能走的路线，现在你也能试着上路。

看一些 case来看一些实测的结果：

我们试着扔给它一个生活中最常见但又最没人愿意手动分析的任务——读财报。

我们拿了一份最近很火的一个港股上市公司的年度业绩公告，泡泡玛特 2024 年年报，整整几十页，数据密集，段落分散，除了营收利润这些基础指标，还穿插着门店扩张、区域表现、战略规划，甚至还藏着不少信息不一致的地方，比如门店总数统计方式变了、区域口径模糊等等。

我们对 M1 下了一个完整的任务链指令，没有把内容拆小、也没预处理结构，就是直接扔进去一句话：

“你是一名资深证券分析师，请基于以下年度财务公告文件，完成以下五项任务……”

MiniMax-M1 做得非常利落，不但列出四个指标的双年数据，还直接算好了同比增幅，这些数，很多时候在 PDF 中是分散的——门店数一个在正文段落，一个藏在脚注里，一个根本没说 2023 年的海外门店，只能靠 2024 年总数减去大陆数反推。M1 能把这些连起来，并主动写下“需原文验证”这种审慎提示，说明它不是一拍脑门地凑表，而是真的搞明白了再写。

这点就比 gpt-o3 好很多，直接给我瞎编了一个 2023 年的海外门店数量。。

剩余的部分也完成的不错。

再来看看编程能力。

M1 思考了 707 秒之后，生成了这样的结果：

虽然有点丑，但是效果还是不错的。

写在最后我们常说，Agent 是未来的大模型方向。但现实是，大家口中的 Agent 真正落地的少之又少。不是没人试过，而是绝大多数模型一旦进入真实多步任务链，就原形毕露。

而 MiniMax-M1，某种意义上是我们第一次看到一个够格的底座雏形。

为什么这么说？因为 M1 把我们一直苦苦追求的几件事，一次性做到了：长、快、开源、可训。

这四个能力加起来，构成的就是一个面向 Agent 系统的底座雏形。

当 token 不再是硬上限，真正决定生产力的只有两件事：

把真工具接给模型，让它能直接操作世界。

给它足够长的思考空间，让它把复杂问题一次想透。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签