原创 PaperAgent 2025-01-18 13:00 湖北
InternLM3,MiniMax-Text-01、MiniMax-VL-01,MiniCPM-o 2.6,阿里千问数学推理奖励模型Qwen2.5-Math-PRM/RM
国产大模型热闹非凡的一周,各种开源,覆盖多个方面,上海AI Lab开源InternLM3(8B),面壁智能开源多模态MiniCPM-o 2.6(8B),Minimax开源MiniMax-Text-01、MiniMax-VL-01(456B),阿里开源千问数学推理奖励模型Qwen2.5-Math-PRM/RM(7B/72B),另外Qwen2.5-VL也发布在即~
书生InternLM3-8B
InternLM3开源了一个拥有8B参数的指令模型InternLM3-8B-Instruct,该模型旨在用于通用场景和高级推理。
https://hf-mirror.com/internlm/internlm3-8b-instruct
多模态小钢炮MiniCPM-o 2.6
面壁智能开源新一代多模态小钢炮MiniCPM-o 2.6,该模型视觉、语音和多模态流式能力达到了 GPT-4o-202405 级别,进一步优化了 MiniCPM-V 2.6 的众多亮点能力。MiniCPM-o 2.6 支持可配置声音的中英双语语音对话,还具备情感/语速/风格控制、端到端声音克隆、角色扮演等进阶能力
模型架构:端到端全模态架构、全模态流式机制、可配置的声音方案
https://github.com/OpenBMB/MiniCPM-o/tree/main
MiniMax-01系列模型
MiniMax-Text-01 是一个强大的语言模型,拥有总计456B参数,其中每个token激活45.9B。为了更好地挖掘模型的长文本处理能力,MiniMax-Text-01 采用了混合架构,融合了线性注意力、softmax注意力和专家混合(MoE)。MiniMax-Text-01 的训练上下文长度被扩展到100万个token,在推理过程中能够处理高达400万个token的上下文。
MiniMax-VL-01模型。该模型采用了“ViT-MLP-LLM”框架,这是多模态大语言模型领域中常用的一种技术。模型由三个关键部分初始化和训练而成:一个拥有0.3B参数的视觉Transformer(ViT)用于视觉编码,一个随机初始化的两层MLP投影器用于图像适配,以及作为基础LLM的MiniMax-Text-01。
https://hf-mirror.com/MiniMaxAI/MiniMax-Text-01
https://hf-mirror.com/MiniMaxAI/MiniMax-VL-01
Qwen2.5-Math-PRM/RM
此次阿里千问开源的有三个模型,除了数学结果奖励模型(ORM)Qwen2.5-Math-RM-72B之外,还发布了过程奖励模型(PRM),即Qwen2.5-Math-PRM-7B和Qwen2.5-Math-PRM-72B。PRM作为一种有前景的方法,用于大型语言模型(LLM)数学推理中的过程监督,旨在识别并减少推理过程中的中间错误。
https://hf-mirror.com/Qwen/Qwen2.5-Math-PRM-72B
https://arxiv.org/pdf/2501.07301
Qwen2.5-VL也发布在即
阿里云通义千问团队的多模态模型 Qwen2.5-VL 正在提交合入 Transformers 库的 Pull Request,目前该 PR 正在审核阶段:
推荐阅读
• 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
• RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!
• Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。