掘金 人工智能 06月17日 18:36
性能比肩 DeepSeek-R1,MiniMax 仅花 380 万训出推理大模型性价比新王|开源
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

MiniMax 开源了其最新的大模型 MiniMax-M1,该模型在长文本处理方面表现出色,原生支持百万 token 输入长度,并拥有世界最长的 8 万 token 输出能力。MiniMax-M1 在多个基准测试中表现优异,甚至在复杂任务上超越了 OpenAI 和 Claude 的模型。该模型采用了创新的混合注意力架构 Lightning Attention 和 CISPO 强化学习算法,大幅提升了训练效率。MiniMax-M1 已经在 MiniMax Chat 网页版上线,并提供了在线试玩。

💡 **超长文本处理能力**:MiniMax-M1 拥有高达 100 万 token 的输入长度和 8 万 token 的输出长度,远超其他同类模型,使其能够处理更复杂、更长的文本信息。

⚡️ **高效的混合注意力架构**:MiniMax-M1 采用了 Lightning Attention 机制的混合注意力架构,结合了传统注意力和线性注意力,降低了计算复杂度,提高了推理速度,尤其是在处理长文本时。

🚀 **创新的强化学习算法**:MiniMax 团队提出了 CISPO(Clipped IS-weight Policy Optimization)算法,用于解决混合架构中的训练问题,显著提升了训练效率,并保留了所有 token 的梯度贡献,从而提升了模型在长链推理任务中的表现。

国产推理大模型又有重磅选手。

MiniMax 开源 MiniMax-M1,迅速引起热议。

这个模型有多猛?直接上数据:

MiniMax 团队透露,只用了 3 周时间、512 块 H800 GPU 就完成强化学习训练阶段,算力租用成本仅 53.47 万美元(约 383.9 万元)。

不仅如此,在多个基准测试上 MiniMax-M1 的表现可比或超越 DeepSeek-R1、Qwen3 等多个开源模型,在工具使用和部分软件工程等复杂任务上甚至超越了 OpenAI o3 和 Claude 4 Opus。

MiniMax-M1 实战表现如何?官方给出了一句话生成迷宫小游戏的 Demo。

创建一个迷宫生成器和寻路可视化工具。随机生成一个迷宫,并逐步可视化 A* 算法的求解过程。使用画布和动画,使其具有视觉吸引力。

视频详情

目前模型权重已可在 HuggingFace 下载,技术报告同步公开。

同时已集成到 MiniMax Chat 网页版,可在线试玩。

混合注意力架构

MiniMax-M1 一大技术亮点是采用了 Lightning Attention 机制的混合注意力架构。

传统的 Transformer 架构有个致命缺陷:计算复杂度是平方级,这意味着当模型进行更长的推理时,计算成本会急剧上升。

虽然之前有各种优化方案,比如稀疏注意力、线性注意力等,但在大规模推理模型上都没有得到充分验证。

Lightning Attention 最早由上海 AI Lab 团队提出,此前已应用到 MiniMax-01 模型中。

具体来说,Lightning Attention 把注意力计算分成块内和块间两部分,块内用传统注意力计算,块间用线性注意力的核技巧,避免了累积求和操作(cumsum)拖慢速度。

Lightning Attention 还采用了分块技术(tiling)充分利用 GPU 硬件,让内存使用更高效,训练速度不随序列长度增加而变慢。

MiniMax-M1 这次是在每 7 个 Lightning Attention 的 Transnormer 块后接 1 个传统 Softmax Attention 的 Transformer 块。

这种设计理论上可以让推理长度高效扩展到数十万个 token。

更多 Lightning Attention 的介绍,可以看量子位与 MiniMax 高级研究总监钟怡然的对话:

MiniMax 押注线性注意力,让百万级长文本只用 1/2700 算力|对话 MiniMax-01 架构负责人钟怡然

强化学习 CISPO 算法

除了架构创新,MiniMax 团队在提升训练效率上也有新招。

他们发现,传统的 PPO/GRPO 算法在处理混合架构时会出现严重问题。具体来说,那些对推理至关重要的 “反思”token(如 However、Wait、Aha 等)通常概率很低,在策略更新时很容易被裁剪掉,导致模型无法学会长链推理。

为此,团队提出了全新的 **CISPO(Clipped IS-weight Policy Optimization)**算法。

与传统方法裁剪 token 更新不同,CISPO 选择裁剪重要性采样权重,这样可以保留所有 token 的梯度贡献,特别是在长响应中至关重要。

在基于 Qwen2.5-32B 模型的对照实验中,CISPO 不仅显著超越了 GRPO 和 DAPO,还实现了 2 倍的训练加速,也就是用一半的训练步数就能达到 DAPO 的性能。

当然,将强化学习扩展到这种混合架构并非一帆风顺。团队遇到了一系列独特挑战,比如训练和推理内核之间的精度不匹配问题。他们发现 LM Head 的高幅度激活是误差的主要来源,通过将输出头的精度提升到 FP32,成功将训练和推理概率的相关性从 0.9x 提升到 0.99x。

此外,他们还开发了基于 token 概率的早停机制,当连续 3000 个 token 的概率都超过 0.99 时就终止生成,有效防止了模型陷入重复循环。

MiniMax-M1 的成功还离不开精心设计的训练流程。

首先,团队在 MiniMax-Text-01 的基础上继续预训练了 7.5 万亿 token,重点强化了 STEM、代码和推理相关内容,占比提升到 70%。接着进行监督微调,注入链式思考(CoT)模式,为强化学习打下基础。

在强化学习阶段构建了丰富的训练环境。

对于可验证的任务,不仅包含了数学推理和竞赛编程,还利用 SynLogic 框架合成了 41 种逻辑推理任务的 5.3 万个样本。以及构建了基于 SWE-bench 的真实软件工程环境,让模型在沙箱中实际执行代码,通过测试用例的通过率作为奖励信号。

对于无法用规则验证的通用任务,使用生成式奖励模型来提供反馈,特别关注了奖励模型的长度偏见问题,也就是模型可能会为了获得高分而生成冗长但无实质内容的回答。通过在线监控和动态调整,成功避免了这种” 奖励黑客” 行为。

上下文窗口的扩展则使用阶段性扩展策略,从 4 万逐步增加到 4.8 万、5.6 万、6.4 万、7.2 万,最终达到 8 万,每个阶段都要等到困惑度收敛且 99 分位输出长度接近当前限制时才进入下一阶段。

最终,MimiMax-M1 在数学推理、长上下文理解、工具使用和软件工程等多个领域表现出色,完整评估结果如下:

One More Thing

在 MiniMax 官方发布公告中透露,这只是为期 5 天的 “MiniMaxWeek” 活动的第一天。

随后海螺 AI 账号也确认即将推出更多内容。

顺着这个线索,我们发现 Hailuo 02 视频模型出现在 AI 视频竞技场中,已迅速来到图生视频排行榜第二。

关于 Hailuo 02 和 MiniMax 将在一周内发布的其他内容,量子位也会持续关注。

在线试玩:
chat.minimax.io

GitHub:
github.com/MiniMax-AI/…

HuggingFace:
huggingface.co/collections…

论文:
github.com/MiniMax-AI/…

参考链接:
[1]x.com/MiniMax__AI…
[2]artificialanalysis.ai/text-to-vid…

—  —

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MiniMax-M1 大模型 长文本 人工智能
相关文章