原创 夕小瑶编辑部 2025-06-18 11:21 北京
GitHub:https://github.com/MiniMax-AI/MiniMax-M1HuggingHuggingFace:https://huggingface.co/spaces/MiniMaxAI/MiniMax-M1大家也可以直接从 Chat 端体验:https://chat.minimaxi.com/我仔细研读了 M1 的技术报告,用一句话总结就是——MiniMax-M1 是开源界真正能「干重活」的长推理底座。在大模型语境里,“干重活”你可以理解为:吃得下超长输入(合同、代码基仓、长论文等);自己能写出成千上万 token 的思考过程,并且推理链条稳定,可以把任务一步步拆解、验证、反思,最终给出高质量答案。「干重活」≠ 单纯 token 很长,还得具备一个特别重要的特性——“长推理”。这背后真正的瓶颈是 推理长度 (reasoning length) ——模型在一次生成里允许的 “思考预算”。如果没有足够的预算,复杂任务(竞赛数学、真实软件修 Bug、长链检索推理)就会被截断,模型只能“浅尝辄止”。怎么算长推理?尽管社区中没有硬性门槛,但大多数公开模型的“Extended Thinking”上限停在 32 K-64 K,比如大家爱用我也爱用的 Gemini 2.5 Pro 是 64K,deepseek R1 也是 64K,这次 MiniMax-M1 把这一数字推到 80 K,而且是开源的,远高于同类开源模型,仅次于 closeAI 的 o3。我愿称它是新的“长推理底座”。开源阵营里 Agentic tool use 最强不只是因为它 1M 的输入、 80K 输出的顶配上下文,还有它还是目前开源阵营里 Agentic tool use 最强的选择。在 TAU-Bench 上体现得非常明显。TAU-Bench ((Tool-Agent-User Benchmark))是目前学界用来衡量「会使用工具」最主流最严格的基准之一,包括 airline(航空客服)和 retail(电商客服)两个赛道。它把一个客服场景拆解成可调用的 真实 API + 仿真数据库 + 多轮对话,要求模型自己规划、调用、校验并最终达成用户目标。具体包括:是否遵守平台规则、是否正确使用 API、是否在正确的时间做出合适判断,等等。在这项评测中,MiniMax-M1 的表现极为突出——在 40K 输出上就已经超过 Gemini 2.5 Pro;在 80K 输出窗版本中,更是稳定拉高了 2-3 个百分点,稳坐开源第一、整体第二。为什么 M1 在这类任务里这么强?核心在于两点:第一,思考预算充裕。这可能是很多人低估 M1 的地方。80K 输出 token 意味着模型可以在回答一个问题时,写出非常详细的思考过程:比如“读取文档 → 找关键词 → 调用 API→ 拿到中间结果 → 判断是否满足条件 → 重新调用 → 总结并报告”这整套链条都可以逐步铺开,写成一整份几千行的工作日志。报告里提到的一个关键术语就是“思考预算(thinking budget)” ——你给模型多少输出长度,决定了它有多少空间进行链式推理。MiniMax-M1 正是目前开源里思考预算最高的模型之一。第二,RL on Real Tools。这里是 MiniMax-M1 的另一个杀手锏:它不是单靠语言学习做出来的工具使用能力,而是真的在训练阶段就“手把手练习过”。根据技术报告,MiniMax 团队为 RL 阶段专门构建了一个 rule-based 可验证环境 + 真实容器沙盒环境。比如,把 GitHub 上的 bug、PR 任务、代码修复问题,包装成一个个真实的软件开发任务,并搭建了可执行、可验证、可打回的真实环境。模型必须在这里完成:找出代码 bug;修改出正确代码;运行测试用例,确保没有 regression;有时甚至要自己写出测试用例。实际训练日志显示 RL step 中约等于 27% 都在和工具环境交互,同类模型只有不到 10%。所以,M1 在 RL 阶段就像是参加了一个工程师训练营,而不是坐在办公室里刷阅读理解题。Agent 不是靠生成答案,而是靠逐步完成任务。RL 成本只要 53 万美元说到底,大模型最贵的不是算力,而是时间。M1 是一个 MoE 架构的模型,总参数 456 B、激活参数 45.9 B,同样是千亿参数,但是 MiniMax 只用了 512 张 H800,3 周时间,53.47 万美元,完成了完整 RL 流程。能把这个成本压到几乎不可思议的地步,靠的可不只是架构本身。MiniMax 背后还有一个不太显眼、但非常关键的角色:CISPO。全称 Clipped IS-weight Policy Optimization,是 MiniMax 自研的强化学习优化算法。它的特别之处在于引入了“重要性采样权重裁剪”,听着很拗口,实质上是一种非常聪明的做法:在传统 RL 的基础上,把那些“贡献低、梯度大”的样本裁剪掉,避免无效训练扰乱模型学习路径。这在技术报告里表现得非常直观。作者在 Qwen2.5-32B 模型上实测表明,使用 CISPO 后,强化学习收敛速度显著提升:原本由字节与清华联合提出、在多个实验中已优于 DeepSeek 提出 GRPO 的 DAPO 方法,需要 800 步才能达到 33 分,而 CISPO 在 400 步内即可实现相同效果,实现 2 倍加速。而且,现在 MiniMax 已经把 CISPO 训练逻辑打包成可重复流程,技术文档也明说:
你如果在做 RLHF 或 RLAIF,完全可以直接复刻这一套,吞吐翻倍,预算可控,工程师不用熬夜。点赞!除了之外,还忘了一个重要的指标——你可以看到——MiniMax-M1 的推理 FLOPs 几乎是线性增长。64K 生成长度,推理算力只有 DeepSeek R1 的一半; 100K,已经压到了 25%。为什么能这么省?归根到底是算子下了狠功夫。背后还是 Lightning Attention 的功劳。M1 所用的 Lightning Attention,其实不是首次提出的新概念,在我们上一篇文章里有提到和介绍。但它一直难落地,因为标准线性 attention 机制里的 cumsum 操作(累加)是递归式的,GPU 上并行性差,工程上代价极高。MiniMax 的工程团队从底层重构 attention kernel,把计算流程拆成“块内”和“块间”,分别用左乘积、右乘积进行近似,彻底绕过 cumsum,实现了真正可部署的线性计算流程。最终, 注意力 FLOPs 从 O(L²) 真正下降到接近 O(L) 的级别,才敢把上限窗口撑到 1M。你如果只看参数,可能觉得这只是又一个技术升级;但如果你做过部署,就知道这个差距有多大。举个例子:同样跑 10 万 token 生成,DeepSeek-R1 需要将近 3 倍的 GPU 资源才跑完一个输出;而 M1 在同等负载下只需要三分之一的显存消耗,冷启动速度更快,响应时延更低,能把高复杂度任务塞进边缘设备甚至单机部署。这就不仅是实验室参数优化的问题了,而是实实在在的能用和能省。以前这是一条只有大厂才能走的路线,现在你也能试着上路。看一些 case来看一些实测的结果:我们试着扔给它一个生活中最常见但又最没人愿意手动分析的任务——读财报。我们拿了一份最近很火的一个港股上市公司的年度业绩公告,泡泡玛特 2024 年年报,整整几十页,数据密集,段落分散,除了营收利润这些基础指标,还穿插着门店扩张、区域表现、战略规划,甚至还藏着不少信息不一致的地方,比如门店总数统计方式变了、区域口径模糊等等。我们对 M1 下了一个完整的任务链指令,没有把内容拆小、也没预处理结构,就是直接扔进去一句话:
“你是一名资深证券分析师,请基于以下年度财务公告文件,完成以下五项任务……”MiniMax-M1 做得非常利落,不但列出四个指标的双年数据,还直接算好了同比增幅,这些数,很多时候在 PDF 中是分散的——门店数一个在正文段落,一个藏在脚注里,一个根本没说 2023 年的海外门店,只能靠 2024 年总数减去大陆数反推。M1 能把这些连起来,并主动写下“需原文验证”这种审慎提示,说明它不是一拍脑门地凑表,而是真的搞明白了再写。这点就比 gpt-o3 好很多,直接给我瞎编了一个 2023 年的海外门店数量。。剩余的部分也完成的不错。再来看看编程能力。M1 思考了 707 秒之后,生成了这样的结果: