中国科技报 06月23日 01:51
[要 闻] 上海AI企业发布首个混合架构开源模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

上海AI独角兽企业MiniMax发布了开源大规模混合架构推理模型M1,该模型支持100万token上下文窗口,训练成本仅为53.74万美元,展现出在长文本处理、代码生成等方面的卓越能力,填补了开源领域的技术空白。M1在多个评测中表现出色,尤其在长上下文理解和工具使用方面具有优势,性能比肩甚至超越业界顶尖模型,有望成为智能体时代的首选开源基座模型。M1的发布有望推动AI大模型市场的变革,为用户提供高性能、低门槛的选择。

⚡️M1的核心在于其创新的混合架构,采用了闪电注意力机制,结合线性注意力和标准Softmax注意力,使其在处理长序列时效率更高,同时解决了纯线性注意力在信息检索上的缺陷。

💰M1的训练成本优势显著,得益于CISPO强化学习算法和高效的混合架构,M1的训练成本仅为53.74万美元,远低于预期。在进行8万token的深度推理时,M1所需的算力仅为国内另一款大模型的约30%。

🏆M1在多个行业标准评测中表现优异,尤其在软件工程、长上下文理解和工具使用等场景中展现出绝对实力。在SWE-bench基准测试中,M1-40k和M1-80k分别取得高分,在长上下文理解任务中超越所有开源模型,部分指标接近OpenAI o3和Claude4Opus,位居全球第二。

国产推理大模型又出重磅选手——

    ◎本报记者 李 均

    低成本推理与超长文本理解的创新之门,近日被我国一家AI企业敲开。

    6月17日凌晨,总部位于上海的AI独角兽企业MiniMax(上海稀宇科技有限公司),发布了自主研发的“全球首个开源的大规模混合架构推理模型”MiniMax-M1(以下简称“M1”)。M1支持100万token(语言中具有独立意义的最小单位)上下文窗口,训练成本仅为53.74万美元,约合380万元人民币,其长文本处理、代码生成等核心性能填补了开源领域长上下文技术的空白,展现出比肩甚至超越业界顶尖模型的实力。

    开源“新王”:较低成本训练出顶尖模型

    记者登录MiniMax自有的App和Web端看到,M1模型保持不限量免费使用。“M1如同用经济型轿车的成本造出了豪华超跑”“M1是我们眼中的性价比‘新王’”……互联网上,一些AI行业观察者给出这样的评价。

    作为国内“AI六小虎”之一的MiniMax,此次发布的M1大模型何以拥有巨大的成本优势?资深人工智能专家、高级工程师丁成刚认为,这主要源于企业的两大技术创新。一是采用闪电注意力机制为主的混合架构,使得模型在计算长上下文输入以及深度推理时更加高效;二是运用CISPO强化学习算法,优化重要性采样权重,训练效率超越其他大模型。得益于CISPO的高效,M1模型的整个强化学习阶段仅使用了512块英伟达H800 GPU,耗时3周,成本仅为53.74万美元。这一成本显著低于企业最初的预期。

    在进行8万token的深度推理时,M1所需的算力仅为国内另一款大模型的约30%;生成10万token时,推理算力只需要另一款大模型的25%。当较低成本训练出顶尖模型,实现“性能跃升、成本腰斩”的双重突破,用户再也不用担心百万token上下文成为高昂服务,这将为市场提供了一个高性能、低门槛的新选择。可以预见,M1或将会成为智能体时代的首选开源基座模型。

    技术“大考”:架构创新实现性能超越

    行业观察人士认为,面对多个核心生产力场景,M1于同类模型中率先实现了技术突破与架构创新,它的核心竞争力在于将线性注意力与标准Softmax注意力有机融合,形成独特的“闪电注意力”机制。这一设计让M1在保持长序列处理效率的同时,解决了纯线性注意力在信息检索上的固有缺陷。

    记者了解到,MiniMax在业内公认的17个主流评测集上对M1进行了技术“检阅”。结果显示,在软件工程、长上下文理解以及工具使用等复杂且对生产力要求较高的场景中,M1展现出绝对实力。在SWE-bench基准测试里,M1-40k和M1-80k分别取得55.6%和56.0%的高分。凭借其百万级的上下文窗口,M1在长上下文理解任务中具有压倒性优势,不仅超越所有开源模型,还在部分指标上接近OpenAI o3和Claude4Opus,在全球范围内位居第二。

    在代理工具使用场景TAU-bench的评测中,M1不仅在所有开源模型中脱颖而出,还战胜了Gemini-2.5Pro。此外,M1-80k在多数基准测试中的表现都优于M1-40k,表明增加计算资源对提升模型性能有显著作用。在处理400页技术文档或10万行代码库时,传统模型需反复切分上下文,而M1可以做到整体消化、连贯推理,为智能体发展提供了开创性范例。

    “M1打破了‘算力+资本’的竞争模式,将对全球AI大模型市场产生深远影响。不过,对于更多AI领域企业来说,要从技术流派转向市场应用,以解决问题、实现任务为出发点,开拓医疗、健康、旅游、传媒等领域垂直类应用场景,才能在AI的规模化应用方面拥有更多想象空间和发展机遇。”资深创投专家、江苏投资人中心秘书长吴峰认为。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MiniMax M1模型 长文本理解 开源大模型
相关文章