OpenAI草莓Q*又来拉预期，微软r*推理已取得新突破！

2024-09-12 20:55 湖北

rStar是一种自博弈相互推理方法，显著提高了小型语言模型（SLMs）的推理能力

来自The Information的消息，OpenAI的草莓Q*项目将于两周内上线！这次是真的吗？还是又来炒作，拉预期尼，真假难辨，毕竟前面OpenAI的草莓Q*项目被大肆炒作过一次，预期拉满之后，却只是发布了一个SWE-bench。

抛开OpenAI的草莓Q*项目是否能如约发布，它跟其他大模型的区别是啥呢？更擅长复杂的问题，或多步骤查询，通过中间推理步骤来得出答案，那么如何提升模型的推理能力尼？今天带来微软开源的rStar技术：

rStar是一种自博弈相互推理方法，它通过以下方式显著提高了小型语言模型（SLMs）的推理能力：

自博弈相互推理是一个生成-鉴别过程：（1）自生成器通过 MCTS 增强目标 SLM 以生成候选推理轨迹；（2）鉴别器使用另一个 SLM 根据部分提示对每个轨迹提供无监督反馈；（3）基于这些反馈，目标 SLM 确定最终的推理轨迹作为解决方案。

问题表述：将通过 SLM 解决推理问题的形式化为一个多步骤推理生成任务，这比传统的基于 CoT 的推理更有效，因为它更容易让 SLM 正确生成单个步骤。

MCTS 自生成推理轨迹：利用蒙特卡洛树搜索（MCTS）算法增强目标 SLM 来自动生成多步骤推理解决方案。提出了五种类似人类的推理行为来最大化 SLM 正确解决复杂推理问题的可能性。这些行为包括提出一步思考、提出剩余思考步骤、提出下一个子问题及其答案、重新回答子问题以及重新表述问题或子问题。

一个示例，用来说明自生成器的过程。从上到下标注的节点构成了一个完整的推理轨迹。给定一个问题，MCTS 增强目标 SLM 以探索丰富、类似人类的推理行动空间，并根据当前状态生成下一步。

奖励函数：MCTS 的另一个关键组成部分是奖励函数，它评估每个动作的价值并指导树的扩展。设计了一个简单但有效的奖励函数，不依赖于 SLMs 通常不可靠的自我评估。

相互推理一致性：引入了另一个 SLM 作为鉴别器，为每个候选推理轨迹提供无监督反馈。通过这种方式，如果两个 SLM 在推理轨迹上达成一致，则认为这个轨迹是有效的。

相互推理一致性的提示示例

最终轨迹选择：应用相互推理一致性到所有候选轨迹后，回到目标 SLM 来从验证过的轨迹中选择最终轨迹。通过乘以来自 MCTS 展开的终端节点的置信度分数来计算每个轨迹的最终分数，选择分数最高的轨迹作为解决方案。

在五个不同的 SLMs（LLaMA2-7B、Mistral-7B、LLaMA3-8B、LLaMA3-8B-Instruct、Phi3-mini-4k）和五个多样化的推理任务上进行了广泛的实验，证明了 rStar 的有效性。rStar 能够在只需 32 轮 MCTS 推理的情况下显著增强 SLMs 的推理能力，匹配甚至超越了微调后的准确度。

通过 32 轮推理，rStar 使 SLMs 成为非常有能力的问题解决者，匹配甚至超越了经过领域专门微调后的推理性能。

https://arxiv.org/pdf/2408.06195rStar: Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvershttps://github.com/zhentingqi/rStar

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签