IT之家 01月11日
微软 rStar-Math 技术登场:小语言 AI 模型数学推理从“不及格”一跃成为“优等生”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

微软亚洲研究院发布rStar-Math技术,专为解决数学问题设计。该技术采用蒙特卡洛树搜索,模拟人类逐步解题思维,将复杂问题分解。模型输出自然语言描述和Python代码形式的“思维链”,并用Python代码训练。通过“策略模型”生成推理步骤,“过程偏好模型”选择最优解,两者经四轮“自我进化”提升性能。使用74万道数学题训练后,Qwen2.5-Math-7B准确率从58.8%提升至90.0%,Phi3-mini-3.8B从41.4%提升至86.4%,均超越OpenAI模型。研究团队计划公开rStar-Math代码和数据。

🧩 rStar-Math技术采用蒙特卡洛树搜索,模拟人类逐步解决问题的思维方式,将复杂问题分解成更小的部分,逐步求解,而非直接给出答案。

💡 模型输出自然语言描述和Python代码形式的“思维链”步骤,并将自然语言作为Python代码注释,仅使用Python代码输出训练模型,这种方式提升了模型的可解释性和代码执行能力。

🚀 通过训练“策略模型”生成数学推理步骤,并使用“过程偏好模型”(PPM)选择最有希望的解题步骤。这两个模型通过四轮“自我进化”互相改进,不断提升性能,从而提高解题准确率。

📊 测试结果显示,应用rStar-Math技术后,Qwen2.5-Math-7B模型的准确率从58.8%跃升至90.0%,Phi3-mini-3.8B从41.4%提升到86.4%,分别比OpenAI的o1-preview模型高4.5%和0.9%,展现了该技术在数学问题解决上的卓越性能。

🔗 研究团队计划在GitHub上公开rStar-Math的代码和数据,方便其他研究者使用和改进,促进了该技术在学术界的进一步发展和应用。

IT之家 1 月 11 日消息,微软亚洲研究院旗下数学和人工智能研究团队昨日(1 月 10 日)发布博文,针对小语言模型,设计并开发了 rStar-Math 技术,专门用于解决数学问题。

和微软之前推出的 Phi-4 不同,rStar-Math 采用蒙特卡洛树搜索(Monte Carlo Tree Search)进行推理,这种方法模拟了人类逐步解决问题的思维方式,能够将复杂问题分解成更小的部分,逐步求解。

研究人员要求模型输出自然语言描述和 Python 代码形式的“思维链”步骤,并将自然语言作为 Python 代码注释,仅使用 Python 代码输出训练模型。

研究人员训练了一个“策略模型”生成数学推理步骤,并使用“过程偏好模型”(PPM)选择最有希望的解题步骤。这两个模型通过四轮“自我进化”互相改进,不断提升性能。

研究人员使用了 74 万道公开的数学应用题及其解答作为初始数据,并利用上述两个模型生成了新的解题步骤。

测试结果显示,应用 rStar-Math 技术后,Qwen2.5-Math-7B 模型的准确率从 58.8% 跃升至 90.0%,将 Phi3-mini-3.8B 从 41.4% 提升到 86.4%,分别比 OpenAI 的 o1-preview 模型高 4.5% 和 0.9%。

研究团队已在 Hugging Face 上宣布,计划将 rStar-Math 的代码和数据在 GitHub 上公开,方便其他研究者使用和改进。

IT之家附上参考地址

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

rStar-Math 蒙特卡洛树搜索 数学推理 小语言模型 人工智能
相关文章