即插即用！SLOT推理时优化算法，几行代码让大模型性能爆表

PaperWeekly 06月03日 14:42

即插即用！SLOT推理时优化算法，几行代码让大模型性能爆表

MAPLE实验室提出的SLOT算法，通过在推理时对大语言模型进行优化，显著提升了其性能。该方法只需几行代码，即可针对具体问题进行自适应优化，无需额外训练。实验结果表明，SLOT在多个大模型和基准测试中均有显著提升，例如在GPQA和AIME24等任务上达到SOTA水平。SLOT的参数高效性和计算开销可控，兼容多种LLM模型和推理框架，为大模型推理提供了有效途径。

💡SLOT是一种即插即用的推理时大语言模型优化算法，通过将当前问题prompt作为训练数据，进行推理时优化，从而提升模型性能。

✨SLOT方法包括Prompt和Generation两个阶段，Prompt阶段针对输入prompt学习轻量级参数，Generation阶段将学习到的参数应用于最终的隐藏特征，预测下一个token。

🚀SLOT具有无需额外全局训练、参数高效且计算开销可控、兼容几乎所有LLM模型和推理框架等优势，可在多种LLM模型和标准基准测试上验证其有效性。

🔍SLOT通过提升与“推理”等认知过程相关的词汇的输出概率，并降低序列结束符的概率，鼓励模型生成更完整、更长的思考链条，从而提升模型性能。

2025-06-03 13:46 北京

推理时也能“训练”？

近年来，推理时 AI 模型优化算法（test-time model inference）对提升大模型性能，解决复杂推理问题起到重要的效果和作用。近日，MAPLE 实验室齐国君教授团队发表了一种全新即插即用的推理时大语言模型优化算法 SLOT，几行代码就能让推理性能爆表。

该方法非常简单有效，其关键发现是：如果大模型没有办法充分理解问题，就可以把当下的问题 prompt 当作训练数据，进行推理时优化，进而达到提升性能！

只需要为 LLM 的最后一层输出训练微量参数图片

DeepSeek-R1-Distill-Qwen-32B 可以在 AIME24 上达到准确率 80%（提升 +10%，开源 SOTA）；

DeepSeek-R1-Distill-Llama-70B 在 GPQA 达到准确率 68.69%（开源 SOTA）。

相关论文和代码已公开：

论文链接：

https://arxiv.org/abs/2505.12392

代码链接：

http://github.com/maple-research-lab/SLOT

SLOT 方法

设一个预训练语言模型参数为。一般地，给定一个输入的 token 序列，大语言模型以自回归的方式处理该序列，生成隐藏特征图片。其中，是序列长度，是隐藏层维度。在生成过程中，大模型中的线性分类器会基于此计算输出 token 的概率：

其中是线性分类器的权重矩阵，是词表大小。

本文提出的 SLOT 方法旨在使训练好的语言模型能够根据具体输入 prompt 进行测试时自适应优化。为此，如图所示，当接收到一个提示时，SLOT 的生成过程分为两个阶段。

Prompt 阶段：SLOT 以输入 prompt 为训练样本，针对当前样本学习一个的轻量级参数。因为参数量很小，可以避免带来较大的计算开销，并能在每个提示上只需少量迭代便完成训练。

Generation 阶段：我们将学习到的 δ 应用于最终的隐藏特征 H，用于预测下一个 token，从而生成完整的回复。

SLOT 的主要优势

测试时自适应，无需额外全局训练：SLOT 的优化完全发生在测试阶段，针对的是当前的单个样本，不需要为应用 SLOT 而对模型H进行额外的预训练或全局微调。

参数高效且计算开销可控：只优化一个极小的 δ 向量，保持了原始 LLM 参数的稳定性。我们的测试表明，在Qwen2.5-7B 模型上，增加 5 步 SLOT优化，其在 GSM8K 任务上的端到端推理时间仅增加约 7.9%。

兼容几乎所有 LLM 模型和推理框架。能够直接应用在如 vLLM 这样的框架上高效推理。

实验结果

通过在多种 LLM（包括 Qwen 系列、Llama 系列、DeepSeek 系列）和多个标准 benchmarks（如 GSM8K，GPQA，AIME24，HumanEval，C-Eval）上的大量实验，我们验证了 SLOT 方法的有效性：

Qwen2.5-7B 模型应用 SLOT 后，数学推理基准 GSM8K 上的准确率从 57.54% 提升至 66.19%（净增 8.65%）。

在更具挑战性的 GPQA（研究生水平问答）基准上，DeepSeek-R1-Distill-Llama-70B 模型结合 SLOT，准确率达到了 68.69%，据我们所知，这是当时 70B 参数级别开源模型在该任务上的 SOTA（State-of-the-Art）性能。

在 AIME24 上准确率达到 80%（DeepSeek-R1-Distill-Qwen-32B baseline 70%，涨了 10%），在 DeepSeek-R1-Distill-Qwen-1.5B 上，AIME24 准确率可以跑到 40%（baseline 26.67%，涨了 13%）。

为什么 SLOT 有效？

为了探究 SLOT 为何能有效提升模型性能，我们分析了优化后的参数 δ 对模型最终输出各词元概率（Logits）的具体影响（我们称之为 Logit Modulation Vector，LMV）。

我们发现：SLOT 倾向于提升那些与“推理”（reasoning）、“思考”（think）等认知过程相关的词汇的输出概率，并适当降低某些常见但对当前具体推理帮助不大的功能词或单一数字的概率。

我们还发现，SLOT 会显著降低序列结束符（例如 <|endoftext|>）的概率。这可能间接鼓励模型生成更长、更完整的思考链条，而不是过早地结束输出。

总结展望与思考

我们提出的 SLOT 方法为大型语言模型的测试时适应提供了一个有效且高效的途径。它证明了在推理阶段，针对具体样本进行极轻量的、目标导向的优化，能够显著改善模型对复杂指令的遵循能力和问题解决能力。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

SLOT算法大模型推理优化 LLM

相关文章

Import AI 368: 500% faster local LLMs; 38X more efficient red teaming; AI21’s Frankenmodel

Learn AI Together — Towards AI Community Newsletter #23

This AI newsletter is all you need #98

回顾我的 prompt 能力从小白到熟练的一些重要节点：防杠叠甲： 1. 仅代表我自己的认知，没啥权威性。 2. 认为提示词那么简单至于搞那么复杂么的朋友，你对 3. ...

SAP大中华区总裁黄陈宏：SAP不做大模型

Patterns and Middleware for LLM Applications with Kyle Roche - #659

Building LLM-Based Applications with Azure OpenAI with Jay Emery - #657

Mental Models for Advanced ChatGPT Prompting with Riley Goodside - #652

FastGen: Cutting GPU Memory Costs Without Compromising on LLM Quality

李开复：现在对中国大模型创业公司盖棺定论为时尚早，ofo式的补贴逻辑不再适用于AI 2.0