五一节前夕,国内涌现多款开源大模型,竞争激烈。其中包括阿里巴巴的Qwen3系列,小米的MiMo-7B,Qwen2.5-Omni-3B以及DeepSeek-Prover-V2-671B。Qwen3在推理、指令遵循、代理能力和多语言支持方面取得显著进展。小米MiMo-7B专为推理任务设计,其推理潜力甚至超越了更大的32B模型。DeepSeek-Prover-V2-671B专为Lean 4中的形式化定理证明而设计。Qwen2.5-Omni-3B是一款端到端的多模态模型,可以处理文本、图像、音频和视频等多种模态,并生成文本和语音响应。
🚀Qwen3系列:是Qwen系列的最新一代大语言模型,提供了一套完整的密集型和混合专家(MoE)模型,在推理、指令遵循、代理能力和多语言支持方面取得了突破性进展。
🤖小米MiMo-7B:是专为推理任务设计的模型,包括基础模型、SFT模型、从基础模型训练的RL模型以及从SFT模型训练的RL模型的checkpoint。MiMo-7B-RL在数学和代码推理任务上表现出色,与OpenAI的o1-mini相当。
💡DeepSeek-Prover-V2-671B:是为Lean 4中的形式化定理证明而设计的开源大语言模型,其初始化数据是通过由DeepSeek-V3驱动的递归定理证明流程收集的,能够将非形式化和形式化的数学推理整合到一个统一的模型中。
multimodal_Qwen2.5-Omni-3B:是一款端到端的多模态模型,旨在感知包括文本、图像、音频和视频在内的多样化模态,并同时以流式方式生成文本和自然语音响应,满足开发者轻量级GPU适配需求。
原创 PaperAgent 2025-05-01 17:26 河南
小米MiMo-7B、Qwen2.5-Omni-3B、DeepSeek-Prover-V2-671B、Qwen3系列

5.1前国内多款大模型集中开源,卷的飞起:阿里Qwen3系列、小米MiMo-7B、Qwen2.5-Omni-3B、DeepSeek-Prover-V2-671B。Qwen3系列
Qwen3 是 Qwen 系列中的最新一代大语言模型,提供了一套完整的密集型和混合专家(MoE)模型。基于广泛的训练,Qwen3 在推理、指令遵循、代理能力和多语言支持方面取得了突破性进展,一图胜千言:https://qwenlm.github.io/blog/qwen3/
https://hf-mirror.com/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
小米MiMo-7B
开源专为推理任务设计的MiMo-7B系列模型,包括基础模型、SFT模型、从基础模型训练的RL模型以及从SFT模型训练的RL模型的checkpoint。

MiMo-7B其推理潜力卓越,甚至超越了更大的32B模型。经过强化学习(RL)训练后,MiMo-7B-RL在数学和代码推理任务上表现出色,与OpenAI的o1-mini相当。预训练:为推理而生的基础模型
优化了数据预处理流程,增加预训练数据中的推理模式密度。采用三阶段数据混合策略进行预训练。MiMo-7B-Base在大约25T tokens上进行了预训练。
将多tokens预测作为额外的训练目标,这不仅提升了模型性能,还加速了推理过程。
DeepSeek-Prover-V2-671B
DeepSeek-Prover-V2,这是一款为Lean 4中的形式化定理证明而设计的开源大语言模型:其初始化数据是通过由DeepSeek-V3驱动的递归定理证明流程收集的。冷启动训练过程首先提示DeepSeek-V3将复杂问题分解为一系列子目标。已解决子目标的证明被整合到一个连贯的思维链中,并结合DeepSeek-V3的逐步推理,为强化学习创建一个初始的冷启动。这一过程能够将非形式化和形式化的数学推理整合到一个统一的模型中。
Qwen2.5-Omni-3B
Qwen2.5-Omni系列此前已经开源了一个7B版本,此次放出一个更小尺寸Qwen2.5-Omni-3B,为响应开发者轻量级GPU适配需求。Qwen2.5-Omni 是一款端到端的多模态模型,旨在感知包括文本、图像、音频和视频在内的多样化模态,并同时以流式方式生成文本和自然语音响应。推荐阅读
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。
阅读原文
跳转微信打开