PaperAgent 2024年09月13日
OpenAI草莓Q*又来拉预期,微软r*推理已取得新突破!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

rStar是一种自博弈相互推理方法,通过自生成器和鉴别器之间的相互作用,显著提升了小型语言模型(SLMs)的推理能力。它采用蒙特卡洛树搜索(MCTS)算法增强目标SLM来自动生成多步骤推理解决方案,并利用另一个SLM作为鉴别器,为每个候选推理轨迹提供无监督反馈。通过这种方式,rStar能够在只需32轮MCTS推理的情况下显著增强SLMs的推理能力,匹配甚至超越了微调后的准确度。

🤔 **自博弈相互推理:** rStar的核心思想是利用自博弈相互推理,即通过生成器和鉴别器之间的相互作用来提升模型的推理能力。生成器使用MCTS增强目标SLM,生成候选推理轨迹,而鉴别器使用另一个SLM根据部分提示对每个轨迹提供无监督反馈。这种相互作用能有效地评估和改进推理轨迹。

🌳 **蒙特卡洛树搜索(MCTS):** rStar采用MCTS算法来增强目标SLM,自动生成多步骤推理解决方案。MCTS通过探索丰富的推理行动空间,并根据当前状态生成下一步,最终找到最佳的推理路径。为了指导树的扩展,rStar设计了一个简单但有效的奖励函数,不依赖于SLMs通常不可靠的自我评估。

🤝 **相互推理一致性:** rStar引入了另一个SLM作为鉴别器,为每个候选推理轨迹提供无监督反馈。通过这种方式,如果两个SLM在推理轨迹上达成一致,则认为这个轨迹是有效的。相互推理一致性有效地提升了推理轨迹的可靠性。

🏆 **最终轨迹选择:** 应用相互推理一致性到所有候选轨迹后,回到目标SLM来从验证过的轨迹中选择最终轨迹。通过乘以来自MCTS展开的终端节点的置信度分数来计算每个轨迹的最终分数,选择分数最高的轨迹作为解决方案。

📈 **实验结果:** rStar在五个不同的SLMs和五个多样化的推理任务上进行了广泛的实验,证明了其有效性。rStar能够在只需32轮MCTS推理的情况下显著增强SLMs的推理能力,匹配甚至超越了微调后的准确度。这意味着rStar能够将SLMs转变为非常有能力的问题解决者,甚至可以超越经过领域专门微调后的推理性能。

2024-09-12 20:55 湖北

rStar是一种自博弈相互推理方法,显著提高了小型语言模型(SLMs)的推理能力

来自The Information的消息,OpenAI的草莓Q*项目将于两周内上线!这次是真的吗?还是又来炒作,拉预期尼,真假难辨,毕竟前面OpenAI的草莓Q*项目被大肆炒作过一次,预期拉满之后,却只是发布了一个SWE-bench。

lmsys神秘项目疑似GPT-4o新模型?

抛开OpenAI的草莓Q*项目是否能如约发布,它跟其他大模型的区别是啥呢?更擅长复杂的问题,或多步骤查询,通过中间推理步骤来得出答案,那么如何提升模型的推理能力尼?今天带来微软开源的rStar技术

rStar是一种自博弈相互推理方法,它通过以下方式显著提高了小型语言模型(SLMs)的推理能力:

自博弈相互推理是一个生成-鉴别过程:(1)自生成器通过 MCTS 增强目标 SLM 以生成候选推理轨迹;(2)鉴别器使用另一个 SLM 根据部分提示对每个轨迹提供无监督反馈;(3)基于这些反馈,目标 SLM 确定最终的推理轨迹作为解决方案。

一个示例,用来说明自生成器的过程。从上到下标注的节点构成了一个完整的推理轨迹。给定一个问题,MCTS 增强目标 SLM 以探索丰富、类似人类的推理行动空间,并根据当前状态生成下一步。

相互推理一致性的提示示例

在五个不同的 SLMs(LLaMA2-7B、Mistral-7B、LLaMA3-8B、LLaMA3-8B-Instruct、Phi3-mini-4k) 和五个多样化的推理任务上进行了广泛的实验,证明了 rStar 的有效性。rStar 能够在只需 32 轮 MCTS 推理的情况下显著增强 SLMs 的推理能力,匹配甚至超越了微调后的准确度。

通过 32 轮推理,rStar 使 SLMs 成为非常有能力的问题解决者,匹配甚至超越了经过领域专门微调后的推理性能。

https://arxiv.org/pdf/2408.06195rStar: Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvershttps://github.com/zhentingqi/rStar

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

rStar 推理 小型语言模型 自博弈 MCTS
相关文章