2025-06-03 13:46 北京
推理时也能“训练”?
近年来,推理时 AI 模型优化算法(test-time model inference)对提升大模型性能,解决复杂推理问题起到重要的效果和作用。近日,MAPLE 实验室齐国君教授团队发表了一种全新即插即用的推理时大语言模型优化算法 SLOT,几行代码就能让推理性能爆表。
该方法非常简单有效,其关键发现是:如果大模型没有办法充分理解问题,就可以把当下的问题 prompt 当作训练数据,进行推理时优化,进而达到提升性能!
只需要为 LLM 的最后一层输出训练微量参数图片
DeepSeek-R1-Distill-Qwen-32B 可以在 AIME24 上达到准确率 80%(提升 +10%,开源 SOTA);
DeepSeek-R1-Distill-Llama-70B 在 GPQA 达到准确率 68.69%(开源 SOTA)。
相关论文和代码已公开:
论文链接:
https://arxiv.org/abs/2505.12392
代码链接:
http://github.com/maple-research-lab/SLOT
SLOT 方法
其中 是线性分类器的权重矩阵, 是词表大小。
本文提出的 SLOT 方法旨在使训练好的语言模型能够根据具体输入 prompt 进行测试时自适应优化。为此,如图所示,当接收到一个提示时,SLOT 的生成过程分为两个阶段。
Prompt 阶段:SLOT 以输入 prompt 为训练样本,针对当前样本学习一个的轻量级参数 。因为参数量很小,可以避免带来较大的计算开销,并能在每个提示上只需少量迭代便完成训练。
Generation 阶段:我们将学习到的 δ 应用于最终的隐藏特征 H,用于预测下一个 token,从而生成完整的回复。
测试时自适应,无需额外全局训练:SLOT 的优化完全发生在测试阶段,针对的是当前的单个样本,不需要为应用 SLOT 而对模型H进行额外的预训练或全局微调。
参数高效且计算开销可控:只优化一个极小的 δ 向量,保持了原始 LLM 参数的稳定性。我们的测试表明,在Qwen2.5-7B 模型上,增加 5 步 SLOT优化,其在 GSM8K 任务上的端到端推理时间仅增加约 7.9%。
兼容几乎所有 LLM 模型和推理框架。能够直接应用在如 vLLM 这样的框架上高效推理。
实验结果
通过在多种 LLM(包括 Qwen 系列、Llama 系列、DeepSeek 系列)和多个标准 benchmarks(如 GSM8K,GPQA,AIME24,HumanEval,C-Eval)上的大量实验,我们验证了 SLOT 方法的有效性:
Qwen2.5-7B 模型应用 SLOT 后,数学推理基准 GSM8K 上的准确率从 57.54% 提升至 66.19%(净增 8.65%)。
在更具挑战性的 GPQA(研究生水平问答)基准上,DeepSeek-R1-Distill-Llama-70B 模型结合 SLOT,准确率达到了 68.69%,据我们所知,这是当时 70B 参数级别开源模型在该任务上的 SOTA(State-of-the-Art)性能。
在 AIME24 上准确率达到 80%(DeepSeek-R1-Distill-Qwen-32B baseline 70%,涨了 10%),在 DeepSeek-R1-Distill-Qwen-1.5B 上,AIME24 准确率可以跑到 40%(baseline 26.67%,涨了 13%)。
为了探究 SLOT 为何能有效提升模型性能,我们分析了优化后的参数 δ 对模型最终输出各词元概率(Logits)的具体影响(我们称之为 Logit Modulation Vector,LMV)。
我们发现:SLOT 倾向于提升那些与“推理”(reasoning)、“思考”(think)等认知过程相关的词汇的输出概率,并适当降低某些常见但对当前具体推理帮助不大的功能词或单一数字的概率。
我们还发现,SLOT 会显著降低序列结束符(例如 <|endoftext|>)的概率。这可能间接鼓励模型生成更长、更完整的思考链条,而不是过早地结束输出。
总结展望与思考
我们提出的 SLOT 方法为大型语言模型的测试时适应提供了一个有效且高效的途径。它证明了在推理阶段,针对具体样本进行极轻量的、目标导向的优化,能够显著改善模型对复杂指令的遵循能力和问题解决能力。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·