Mistral AI推出了首款推理模型Magistral,该模型主打多语言推理能力,旨在解决主流模型在欧洲语言推理方面的不足。Magistral提供两种版本:开源的Magistral Small(24B参数)和面向企业的Magistral Medium。该模型在AIME-24数学基准测试中取得了显著的准确率提升,并采用了创新的纯强化学习(RL)训练方法。尽管官方未提供与最新Qwen和DeepSeek-R1的对比,但用户测试显示,Magistral的性能与Qwen 4B相近,且在某些方面有所提升。
🗣️ Mistral AI 推出了首款推理模型Magistral,该模型专注于多语言推理,特别是在欧洲语言方面的表现,旨在解决现有模型在这些语言上的不足。
⚙️ Magistral 提供两种版本:Magistral Small(24B参数,开源)和Magistral Medium(面向企业,在Amazon SageMaker上提供),以满足不同用户的需求。
📈 Magistral 在AIME-24数学基准测试上表现出色,准确率从26.8%提升至73.6%,这得益于其创新的纯强化学习(RL)训练方法,该方法不依赖任何现有推理模型的蒸馏数据。
💡 Magistral 采用改进的Group Relative Policy Optimization (GRPO) 算法,并通过消除KL散度惩罚、动态调整探索阈值和基于组归一化的优势计算来实现训练的优化。
🤔 虽然Mistral AI官方未提供与最新版Qwen和DeepSeek-R1的对比,但用户测试显示,Magistral的性能与Qwen 4B相近,并且在某些方面,例如多模态性能上有所提升。
2025-06-12 10:29 上海
Mistral AI 首款推理模型来了


文章转载于量子位(QbitAI)
作者:闻乐
“欧洲的OpenAI”Mistral AI终于发布了首款推理模型——Magistral。
然而再一次遭到网友质疑:怎么又不跟最新版Qwen和DeepSeek R1 0528对比?
(此前该公司发布Ministral 3B/8B时,声称“始终优于同行”,却没有对比Qwen2.5)
在该模型发布的前几个小时,Mistral AI的CEO Arthur Mensch在接受炉边访谈时声称即将发布的Magistral能够与其他所有竞争对手相抗衡。
在官方展示的基准测试结果中,DeepSeek-R1的数据确实不是最新的(在AIME-25数学测试中,DeepSeek-R1-0528的准确率已经从旧版的70%提升至87.5%),并且比较行列里完全不见Qwen的身影。
不过,与同公司初期模型Mistral Medium 3相比,该框架在AIME-24上的准确率提升了50%。
此次Magistral发布了两种版本:
Magistral Small——24B参数的开源权重版本,可在Apache 2.0许可下自行部署。
Magistral Medium——更强大的、面向企业的版本,在Amazon SageMaker上提供。
1
专为透明推理而设计
在Magistral发布之前,Mistral AI的CEO Arthur Mensch在访谈中提到:
“从历史上看,我们看到美国的模型用英语进行推理,中国的模型更擅长用中文进行推理。”
于是,这次Magistral的一个亮点就是支持多语言推理,尤其是解决了主流模型用欧洲语言的推理效果不如本土语言的缺陷。
下面的例子展示了在Le Chat中,使用Magistral Medium的阿拉伯语提示和响应。
与通用模型不同的是,Magistral针对多步逻辑进行了微调,提升了可解释性,并在用户的语言中提供了可追溯的思考过程,能够实现大规模实时推理。
下面的例子展示了重力、摩擦和碰撞的单次物理模拟,在预览中使用的是Magistral Medium。
就好像Magistral不是黑箱预言家,而是一个能陪你「摆事实、讲道理」的智能伙伴。
并且,在Le Chat中,通过Flash Answers,Magistral Medium的token吞吐量比大多数竞争对手快10倍。
这就能够实现大规模的实时推理和用户反馈。
作为Mistral推出的首个基于纯强化学习(RL)训练的推理大模型,Magistral采用改进的Group Relative Policy Optimization(GRPO)算法。
直接通过RL训练,不依赖任何现有推理模型的蒸馏数据(如DeepSeek-R1需SFT预热)。
通过消除KL散度惩罚、动态调整探索阈值和基于组归一化的优势计算,在AIME-24数学基准上实现从26.8%到73.6%的准确率跃升。
首创异步分布式训练架构,通过Generators持续生成、Trainers异步更新的设计,配合动态批处理优化,实现高效的大规模RL训练。
还反直觉地发现纯文本RL训练可提升多模态性能(如MMMU-Pro-Vision提升12%),并验证RL对小模型同样有效(24B的Magistral Small在AIME-24准确率达70.7%)。
这些创新使Magistral在无需预训练蒸馏的情况下,以纯RL方式为LLM的强化学习训练提供了新范式。
1
One More Thing