夕小瑶科技说 前天 13:04
开源界长推理天花板:MiniMax-M1 上下文一次性撑到 1 M
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

MiniMax开源了长推理大模型MiniMax-M1,其上下文窗口达到1M,与Gemini持平。M1在长推理方面表现出色,尤其在Agentic tool use方面,例如TAU-Bench测试中超越Gemini 2.5 Pro。M1的优势在于充裕的思考预算和RL on Real Tools,通过真实环境训练提升工具使用能力。MiniMax还自研了强化学习优化算法CISPO,降低了RL成本,提升了推理速度。M1的推理FLOPs接近线性增长,使其在资源消耗上更具优势。通过实际案例,如分析财报和编程,展示了M1在处理复杂任务时的能力和潜力。

✨MiniMax-M1拥有1M的上下文窗口,是开源界真正能“干重活”的长推理底座,能够处理超长输入,并进行稳定、高质量的推理。

🚀在Agentic tool use方面,MiniMax-M1表现突出,在TAU-Bench测试中,在40K输出上已超越Gemini 2.5 Pro,在80K输出窗版本中,更是稳坐开源第一、整体第二。

💡MiniMax-M1的优势在于其充裕的思考预算和RL on Real Tools,通过RL on Real Tools,模型在训练阶段就“手把手练习过”,而不是单靠语言学习做出来的工具使用能力。

💰MiniMax采用了自研的强化学习优化算法CISPO,降低了RL成本,提升了收敛速度,使得模型训练成本更低。

⚡️MiniMax-M1的推理FLOPs几乎是线性增长,这得益于Lightning Attention,使得模型在资源消耗上更具优势,适用于边缘设备和单机部署。

原创 夕小瑶编辑部 2025-06-18 11:21 北京

好久不露面的 MiniMax,终于又给开源社区带来一次惊喜。

就在昨天半夜,MiniMax 开源了 MiniMax-M1。

这次终于等到,他们发布了推理大模型——MiniMax M1

而且一次性把上下文窗口撑到 1 M,直接和当前的上下文之王 Gemini 拉平。

是不是风格有点似曾相识?是的,几个月前他们发布的是 400 万上下文的基模——MiniMax-01 ,想详细了解的小伙伴可以看一下我们之前的报道。

老规矩,先放传送门——

GitHub:https://github.com/MiniMax-AI/MiniMax-M1Hugging

HuggingFace:https://huggingface.co/spaces/MiniMaxAI/MiniMax-M1

大家也可以直接从 Chat 端体验:https://chat.minimaxi.com/

我仔细研读了 M1 的技术报告,用一句话总结就是——

MiniMax-M1 是开源界真正能「干重活」的长推理底座。

在大模型语境里,“干重活”你可以理解为:

吃得下超长输入(合同、代码基仓、长论文等);

自己能写出成千上万 token 的思考过程,并且推理链条稳定,可以把任务一步步拆解、验证、反思,最终给出高质量答案。

「干重活」≠ 单纯 token 很长,还得具备一个特别重要的特性——“长推理”。

这背后真正的瓶颈是 推理长度 (reasoning length) ——模型在一次生成里允许的 “思考预算”。如果没有足够的预算,复杂任务(竞赛数学、真实软件修 Bug、长链检索推理)就会被截断,模型只能“浅尝辄止”。

怎么算长推理?

尽管社区中没有硬性门槛,但大多数公开模型的“Extended Thinking”上限停在 32 K-64 K,比如大家爱用我也爱用的 Gemini 2.5 Pro 是 64K,deepseek R1 也是 64K,这次 MiniMax-M1 把这一数字推到 80 K,而且是开源的,远高于同类开源模型,仅次于 closeAI 的 o3。

我愿称它是新的“长推理底座”。

开源阵营里 Agentic tool use 最强不只是因为它 1M 的输入、 80K 输出的顶配上下文,还有它还是目前开源阵营里 Agentic tool use 最强的选择。

在 TAU-Bench 上体现得非常明显。

TAU-Bench ((Tool-Agent-User Benchmark))是目前学界用来衡量「会使用工具」最主流最严格的基准之一,包括 airline(航空客服)和 retail(电商客服)两个赛道。

它把一个客服场景拆解成可调用的 真实 API + 仿真数据库 + 多轮对话,要求模型自己规划、调用、校验并最终达成用户目标。具体包括:是否遵守平台规则、是否正确使用 API、是否在正确的时间做出合适判断,等等。

在这项评测中,MiniMax-M1 的表现极为突出——在 40K 输出上就已经超过 Gemini 2.5 Pro;在 80K 输出窗版本中,更是稳定拉高了 2-3 个百分点,稳坐开源第一、整体第二

为什么 M1 在这类任务里这么强?核心在于两点:

第一,思考预算充裕。

这可能是很多人低估 M1 的地方。80K 输出 token 意味着模型可以在回答一个问题时,写出非常详细的思考过程:比如“读取文档 → 找关键词 → 调用 API→ 拿到中间结果 → 判断是否满足条件 → 重新调用 → 总结并报告”这整套链条都可以逐步铺开,写成一整份几千行的工作日志。

报告里提到的一个关键术语就是“思考预算(thinking budget)” ——你给模型多少输出长度,决定了它有多少空间进行链式推理。

MiniMax-M1 正是目前开源里思考预算最高的模型之一。

第二,RL on Real Tools。

这里是 MiniMax-M1 的另一个杀手锏:它不是单靠语言学习做出来的工具使用能力,而是真的在训练阶段就“手把手练习过”。

根据技术报告,MiniMax 团队为 RL 阶段专门构建了一个 rule-based 可验证环境 + 真实容器沙盒环境。

比如,把 GitHub 上的 bug、PR 任务、代码修复问题,包装成一个个真实的软件开发任务,并搭建了可执行、可验证、可打回的真实环境。

模型必须在这里完成:

找出代码 bug;

修改出正确代码;

运行测试用例,确保没有 regression;

有时甚至要自己写出测试用例。

实际训练日志显示 RL step 中约等于 27% 都在和工具环境交互,同类模型只有不到 10%。

所以,M1 在 RL 阶段就像是参加了一个工程师训练营,而不是坐在办公室里刷阅读理解题。

Agent 不是靠生成答案,而是靠逐步完成任务。

RL 成本只要 53 万美元说到底,大模型最贵的不是算力,而是时间。

M1 是一个 MoE 架构的模型,总参数 456 B、激活参数 45.9 B,同样是千亿参数,但是 MiniMax 只用了 512 张 H800,3 周时间,53.47 万美元,完成了完整 RL 流程。

能把这个成本压到几乎不可思议的地步,靠的可不只是架构本身。

MiniMax 背后还有一个不太显眼、但非常关键的角色:CISPO

全称 Clipped IS-weight Policy Optimization,是 MiniMax 自研的强化学习优化算法。

它的特别之处在于引入了“重要性采样权重裁剪”,听着很拗口,实质上是一种非常聪明的做法:在传统 RL 的基础上,把那些“贡献低、梯度大”的样本裁剪掉,避免无效训练扰乱模型学习路径。

这在技术报告里表现得非常直观。

作者在 Qwen2.5-32B 模型上实测表明,使用 CISPO 后,强化学习收敛速度显著提升:原本由字节与清华联合提出、在多个实验中已优于 DeepSeek 提出 GRPO 的 DAPO 方法,需要 800 步才能达到 33 分,而 CISPO 在 400 步内即可实现相同效果,实现 2 倍加速。

而且,现在 MiniMax 已经把 CISPO 训练逻辑打包成可重复流程,技术文档也明说:

你如果在做 RLHF 或 RLAIF,完全可以直接复刻这一套,吞吐翻倍,预算可控,工程师不用熬夜。

点赞!

除了之外,还忘了一个重要的指标——

你可以看到——MiniMax-M1 的推理 FLOPs 几乎是线性增长。

64K 生成长度,推理算力只有 DeepSeek R1 的一半; 100K,已经压到了 25%。

为什么能这么省?归根到底是算子下了狠功夫。背后还是 Lightning Attention 的功劳。

M1 所用的 Lightning Attention,其实不是首次提出的新概念,在我们上一篇文章里有提到和介绍。

但它一直难落地,因为标准线性 attention 机制里的 cumsum 操作(累加)是递归式的,GPU 上并行性差,工程上代价极高。

MiniMax 的工程团队从底层重构 attention kernel,把计算流程拆成“块内”和“块间”,分别用左乘积、右乘积进行近似,彻底绕过 cumsum,实现了真正可部署的线性计算流程。

最终, 注意力 FLOPs 从 O(L²)  真正下降到接近 O(L) 的级别,才敢把上限窗口撑到 1M。

你如果只看参数,可能觉得这只是又一个技术升级;但如果你做过部署,就知道这个差距有多大。

举个例子:同样跑 10 万 token 生成,DeepSeek-R1 需要将近 3 倍的 GPU 资源才跑完一个输出;而 M1 在同等负载下只需要三分之一的显存消耗,冷启动速度更快,响应时延更低,能把高复杂度任务塞进边缘设备甚至单机部署。

这就不仅是实验室参数优化的问题了,而是实实在在的能用和能省。

以前这是一条只有大厂才能走的路线,现在你也能试着上路。

看一些 case来看一些实测的结果:

我们试着扔给它一个生活中最常见但又最没人愿意手动分析的任务——读财报。

我们拿了一份最近很火的一个港股上市公司的年度业绩公告,泡泡玛特 2024 年年报,整整几十页,数据密集,段落分散,除了营收利润这些基础指标,还穿插着门店扩张、区域表现、战略规划,甚至还藏着不少信息不一致的地方,比如门店总数统计方式变了、区域口径模糊等等。

我们对 M1 下了一个完整的任务链指令,没有把内容拆小、也没预处理结构,就是直接扔进去一句话:

“你是一名资深证券分析师,请基于以下年度财务公告文件,完成以下五项任务……”

MiniMax-M1 做得非常利落,不但列出四个指标的双年数据,还直接算好了同比增幅,这些数,很多时候在 PDF 中是分散的——门店数一个在正文段落,一个藏在脚注里,一个根本没说 2023 年的海外门店,只能靠 2024 年总数减去大陆数反推。M1 能把这些连起来,并主动写下“需原文验证”这种审慎提示,说明它不是一拍脑门地凑表,而是真的搞明白了再写。

这点就比 gpt-o3 好很多,直接给我瞎编了一个 2023 年的海外门店数量。。

剩余的部分也完成的不错。

再来看看编程能力。

M1 思考了 707 秒之后,生成了这样的结果:

虽然有点丑,但是效果还是不错的。

写在最后我们常说,Agent 是未来的大模型方向。但现实是,大家口中的 Agent 真正落地的少之又少。不是没人试过,而是绝大多数模型一旦进入真实多步任务链,就原形毕露。

而 MiniMax-M1,某种意义上是我们第一次看到一个够格的底座雏形。

为什么这么说?因为 M1 把我们一直苦苦追求的几件事,一次性做到了:长、快、开源、可训

这四个能力加起来,构成的就是一个面向 Agent 系统的底座雏形。

当 token 不再是硬上限,真正决定生产力的只有两件事:

把真工具接给模型,让它能直接操作世界。

给它足够长的思考空间,让它把复杂问题一次想透。



阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MiniMax M1 大模型 长推理 Agentic
相关文章