大爆发：Qwen、DeepSeek、小米组团开源最新推理大模型

原创 PaperAgent 2025-05-01 17:26 河南

小米MiMo-7B、Qwen2.5-Omni-3B、DeepSeek-Prover-V2-671B、Qwen3系列

5.1前国内多款大模型集中开源，卷的飞起：阿里Qwen3系列、小米MiMo-7B、Qwen2.5-Omni-3B、DeepSeek-Prover-V2-671B。

Qwen3系列

Qwen3 是 Qwen 系列中的最新一代大语言模型，提供了一套完整的密集型和混合专家（MoE）模型。基于广泛的训练，Qwen3 在推理、指令遵循、代理能力和多语言支持方面取得了突破性进展，一图胜千言：

https://qwenlm.github.io/blog/qwen3/https://hf-mirror.com/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

小米MiMo-7B

开源专为推理任务设计的MiMo-7B系列模型，包括基础模型、SFT模型、从基础模型训练的RL模型以及从SFT模型训练的RL模型的checkpoint。

MiMo-7B其推理潜力卓越，甚至超越了更大的32B模型。经过强化学习（RL）训练后，MiMo-7B-RL在数学和代码推理任务上表现出色，与OpenAI的o1-mini相当。

预训练：为推理而生的基础模型

优化了数据预处理流程，增加预训练数据中的推理模式密度。采用三阶段数据混合策略进行预训练。MiMo-7B-Base在大约25T tokens上进行了预训练。

将多tokens预测作为额外的训练目标，这不仅提升了模型性能，还加速了推理过程。

https://hf-mirror.com/XiaomiMiMohttps://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf

DeepSeek-Prover-V2-671B

DeepSeek-Prover-V2，这是一款为Lean 4中的形式化定理证明而设计的开源大语言模型：

其初始化数据是通过由DeepSeek-V3驱动的递归定理证明流程收集的。

冷启动训练过程首先提示DeepSeek-V3将复杂问题分解为一系列子目标。已解决子目标的证明被整合到一个连贯的思维链中，并结合DeepSeek-V3的逐步推理，为强化学习创建一个初始的冷启动。这一过程能够将非形式化和形式化的数学推理整合到一个统一的模型中。

https://hf-mirror.com/deepseek-ai/DeepSeek-Prover-V2-671B

Qwen2.5-Omni-3B

Qwen2.5-Omni系列此前已经开源了一个7B版本，此次放出一个更小尺寸Qwen2.5-Omni-3B，为响应开发者轻量级GPU适配需求。

Qwen2.5-Omni 是一款端到端的多模态模型，旨在感知包括文本、图像、音频和视频在内的多样化模态，并同时以流式方式生成文本和自然语音响应。

https://hf-mirror.com/collections/Qwen/qwen25-omni-67de1e5f0f9464dc6314b36e

Fish AI Reader