AI科技评论 05月14日 22:24
32B 稠密模型推理能力超越 R1?中国秘密 AI 团队发布推理小模型 AM-Thinking-v1
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

A-M-team开源了一款32B推理模型AM-Thinking-v1,在多个推理评测中表现出色,甚至超越了DeepSeek-R1等更大规模的模型。该团队不依赖私有数据和海量计算资源,仅通过开源底座和训练管线的精心设计,打造出社区中最强的32B推理模型。他们的成功在于一套完整的后训练方案,包括冷启动式监督微调、数据筛选机制和双阶段强化学习,为开源LLM社区提供了一个新的思路。

🚀AM-Thinking-v1模型在数学推理(AIME系列)和代码生成(LiveCodeBench)中表现出色,超越了DeepSeek-R1,并逼近Qwen3-235B-A22B等超大规模MoE模型。

💡A-M-team通过设计一套后训练方案,包括激进的学习率设置、精心清洗的开源数据以及难度感知的强化学习策略,最大化了32B模型的推理能力。

🎯AM-Thinking-v1的成功在于探索一种在计算资源可控、数据完全开源的条件下,实现强大推理能力的路径,验证了小体量模型也能实现大模型能力的上限。

⚙️团队在工程上进行了优化,包括将推理和训练分离,使用streaming rollout的方式,并配备前端负载均衡器,最大限度地避免了GPU资源的浪费,保证了训练的稳定和高效。

原创 郑佳美 2025-05-14 11:45 广东

资源有限、专注后训练也能实现强推理。

资源有限、专注后训练也能实现强推理。

作者丨郑佳美

编辑丨陈彩娴

在大模型竞速进入推理能力深水区的 2025 年,一支神秘的团队悄然登场。他们不是来自一线大厂的 AI Lab,也没有高调预热和融资造势,而是在 Hugging Face 低调开源了一款 32B 的推理模型:AM-Thinking-v1。

令人惊讶的是,这个中等规模的稠密模型,在多个关键推理评测中击败了 DeepSeek-R1,并与超大规模的 MoE 模型Qwen3-235B-A22B、Seed1.5-Thinking 不相上下。

这款模型背后的团队,是国内一个从未对外披露的研究团队——A-M-team。他们不依赖私有数据、不依赖海量计算资源,仅凭开源底座和训练管线的极致设计,就做出了开放社区 32B 级别中最强的推理模型。

论文链接:https://arxiv.org/pdf/2505.08311


1

性能全面超越 DeepSeek-R1:32B 模型中的「黑马」

在当前主流评测中,AM-Thinking-v1 也交出了极具冲击力的成绩单,仅 32B 的结构在数学推理(AIME 系列)和代码生成(LiveCodeBench)中分别取得了 85.3 和 70.3 的高分,不仅全面超越了 DeepSeek-R1(671B MoE 架构),还逼近甚至追平了 Qwen3-235B-A22B 和 Seed1.5-Thinking 等超大规模 MoE 模型的成绩。

“小体积,大推理”的极限范式展现得淋漓尽致。

值得注意的是,AIME 系列题目来自美国数学邀请赛,结构复杂、要求精准,历来是衡量模型逻辑思维能力的金标准;LiveCodeBench 则强调代码可执行性和稳健性,数据污染难度高,是真实场景下“思考-编码-验证”链条的严苛考验。

AM-Thinking-v1 模型测试得分表

AIME2024 不同模型尺寸效果对比;x 轴为模型尺寸,y 轴为分数

LiveCodeBench 不同模型尺寸效果对比;x 轴为模型尺寸,y 轴为分数

推特大 V Aran Komatsuzaki 也下场转发,并配文:AM-Thinking-v1 正以 32B 的规模推进着推理前沿性能的边界。

分数之外,是更具实际意义的任务。当研究人员用 AM-Thinking-v1 去解决典型的“旋转三角形中红球反弹”问题时,AM-Thinking-v1 展现出了多步逻辑极强的理解,给出了完整的运动轨迹模拟和对于小球碰撞的判断。

而在逻辑推理任务中,AM-Thinking-v1 也能保持非常稳定的思考过程。

在长文本写作能力的测试中,AM-Thinking-v1 在表达逻辑和意象捕捉方面也展现出了初步的组织能力。


2

32B 模型的新上限,是这样「训」出来的

与追求超大规模和大数据堆叠不同,A-M-team 的关键突破在于如何用有限的计算和开源数据,最大化32B模型的推理能力

他们设计了一整套后训练(post-training)方案,其中包括冷启动式监督微调、通过率引导的数据筛选机制以及双阶段强化学习(Dual-stage RL)。

首先在监督微调(SFT)阶段,团队用了一个相对激进但效果很好的设置:把学习率拉到了 8e-5,batch size 也做了加大,还支持最长 32K 的输入长度。训练样本被特别设计成“先思考再回答”的格式。

这个设计帮助模型建立了“先想清楚、再说话”的好习惯。而且,训练中还能明显看到模型越来越懂得控制长度、避免啰嗦——这些变化在平均生成长度和终止率上都有反映

其次在数据这块,团队完全依靠开源资源,从数学、代码、科学推理到指令跟随和通用对话,总共整理出了五类核心任务的数据。

他们花了大量时间做清洗:不仅去重、改写问题,防止和评测集“撞题”,还对数学数据进行严格验证,甚至用 DeepSeek-R1 和 o4-mini 来交叉比对标准答案。生成的训练样本也经过层层筛选,比如用 PPL 算分、检查重复短语和结构完整性,最终留下的数据干净又靠谱。

在最后的强化学习(RL)阶段,团队选用了 GRPO 这种轻量级算法,还特别搞了个“难度感知”的策略,意思是:先挑一些模型做得不太好的题来练,等熟练了,再加入一些通用对话和指令跟随任务来拓展能力。

奖励机制也挺讲究:数学和代码类的问题用规则验证或者直接跑沙盒程序验证答案;而像 open-ended 回答这种,就让 LLM 来打分,从有用性、准确性、连贯性这三方面评估,保证模型在各方面都能进步。

当然,为了让整个 RL 训练高效跑得动,A-M-team 还在工程上动了不少脑筋。比如他们把推理和训练分开,用了 streaming rollout 的方式,还配了个前端负载均衡器,能根据每张 GPU 的实际压力动态分配任务,最大限度避免“有的卡闲着、有的卡累死”的情况。不仅训练稳,还能大大节省时间和算力

总的来说,虽然 AM-Thinking-v1 已经在推理上做得很出色,但它目前还不支持函数调用、多模态输入,对低资源语言的能力也有待验证。

不过,即便如此,它已经把 32B 模型的性能潜力挖掘到了极致,也为开源 LLM 社区提供了一个值得借鉴的思路:不靠堆参数、不靠私有数据,通过细致训练设计,也能做出足够聪明的模型。


3

为什么要做一个 32B 推理模型?

在当前大模型发展趋势中,主流路线正不断追求更大的参数规模、更复杂的架构(如 MoE)、更庞大的训练数据和更昂贵的训练资源。但这条路线的成本极高,同时也带来了模型部署难、推理延迟高、适配门槛大等一系列现实问题。

A-M-team 选择反其道而行之,专注在 32B 这一“中尺度模型”的参数区间,其实背后也有有着明确的考量:他们想探索一种在计算资源可控、数据完全开源的条件下,也能实现强大推理能力的路径。

具体来说,32B 是一个对研究与应用都更友好的“黄金尺寸”:

AM-Thinking-v1 正是在这样的问题驱动下诞生的:一个不依赖私有数据、没有特殊硬件依赖、完全基于社区资源训练而成的中尺度模型。

它的表现也正好印证了这个方向的潜力——不仅在 AIME 和 LiveCodeBench 等高难度任务上超越了 DeepSeek-R1,还在多个维度接近 Qwen3-235B-A22B 这类百亿级 MoE 模型。简而言之,AM-Thinking-v1 想要回答的是一个关键问题:“大模型能力的上限,能不能用更小的体量实现?”结果是肯定的。

而这正是 32B 推理模型的价值所在。

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!


公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

//

推荐阅读

关于 DeepSeek 一体机落地真相,我们调研了 12 家上市公司


为什么中国只有一个 DeepSeek?


UCL强化学习派:汪军与他的学生们

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AM-Thinking-v1 推理模型 后训练 开源LLM
相关文章