2024-09-12 20:55 湖北
rStar是一种自博弈相互推理方法,显著提高了小型语言模型(SLMs)的推理能力
来自The Information的消息,OpenAI的草莓Q*项目将于两周内上线!这次是真的吗?还是又来炒作,拉预期尼,真假难辨,毕竟前面OpenAI的草莓Q*项目被大肆炒作过一次,预期拉满之后,却只是发布了一个SWE-bench。
抛开OpenAI的草莓Q*项目是否能如约发布,它跟其他大模型的区别是啥呢?更擅长复杂的问题,或多步骤查询,通过中间推理步骤来得出答案,那么如何提升模型的推理能力尼?今天带来微软开源的rStar技术:
rStar是一种自博弈相互推理方法,它通过以下方式显著提高了小型语言模型(SLMs)的推理能力:
自博弈相互推理是一个生成-鉴别过程:(1)自生成器通过 MCTS 增强目标 SLM 以生成候选推理轨迹;(2)鉴别器使用另一个 SLM 根据部分提示对每个轨迹提供无监督反馈;(3)基于这些反馈,目标 SLM 确定最终的推理轨迹作为解决方案。
问题表述:将通过 SLM 解决推理问题的形式化为一个多步骤推理生成任务,这比传统的基于 CoT 的推理更有效,因为它更容易让 SLM 正确生成单个步骤。
MCTS 自生成推理轨迹:利用蒙特卡洛树搜索(MCTS)算法增强目标 SLM 来自动生成多步骤推理解决方案。提出了五种类似人类的推理行为来最大化 SLM 正确解决复杂推理问题的可能性。这些行为包括提出一步思考、提出剩余思考步骤、提出下一个子问题及其答案、重新回答子问题以及重新表述问题或子问题。
一个示例,用来说明自生成器的过程。从上到下标注的节点构成了一个完整的推理轨迹。给定一个问题,MCTS 增强目标 SLM 以探索丰富、类似人类的推理行动空间,并根据当前状态生成下一步。
奖励函数:MCTS 的另一个关键组成部分是奖励函数,它评估每个动作的价值并指导树的扩展。设计了一个简单但有效的奖励函数,不依赖于 SLMs 通常不可靠的自我评估。
相互推理一致性:引入了另一个 SLM 作为鉴别器,为每个候选推理轨迹提供无监督反馈。通过这种方式,如果两个 SLM 在推理轨迹上达成一致,则认为这个轨迹是有效的。
相互推理一致性的提示示例
最终轨迹选择:应用相互推理一致性到所有候选轨迹后,回到目标 SLM 来从验证过的轨迹中选择最终轨迹。通过乘以来自 MCTS 展开的终端节点的置信度分数来计算每个轨迹的最终分数,选择分数最高的轨迹作为解决方案。
在五个不同的 SLMs(LLaMA2-7B、Mistral-7B、LLaMA3-8B、LLaMA3-8B-Instruct、Phi3-mini-4k) 和五个多样化的推理任务上进行了广泛的实验,证明了 rStar 的有效性。rStar 能够在只需 32 轮 MCTS 推理的情况下显著增强 SLMs 的推理能力,匹配甚至超越了微调后的准确度。
通过 32 轮推理,rStar 使 SLMs 成为非常有能力的问题解决者,匹配甚至超越了经过领域专门微调后的推理性能。
https://arxiv.org/pdf/2408.06195
rStar: Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers
https://github.com/zhentingqi/rStar
推荐阅读
• 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
• RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!
• Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。