PaperAgent 2024年11月23日
o1圈杀疯了,阿里又开源Marco-o1
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里开源的Marco-o1重视开放式问题解决,由多种技术驱动并进行优化,在不同任务中表现出色,实验结果表明其提高了推理能力,但也存在一些问题。

🌐Marco-o1重视开放式问题解决,旨在推广到更广泛领域。

🎯由链式思考微调等技术驱动,针对复杂问题任务优化。

🔍通过MCTS扩展解决方案空间,增强推理能力。

📊实验表明在不同语言和配置下提高推理能力,但存在随机性。

2024-11-23 10:07 湖北

自OpenAI o1发布后引发了大型推理模型(LRM)研究热潮,这不,阿里又开源了Marco-o1

Marco-o1更加重视开放式问题的解决,目标是解决这个问题:“o1模型能否有效地推广到缺乏明确标准且奖励难以量化的更广泛领域?”

Marco-o1由链式思考(CoT)微调、蒙特卡洛树搜索(MCTS)、反射机制和创新的推理策略驱动——针对复杂的现实世界问题任务进行了优化。

经典的草莓(strawberry)问题,轻松拿下

在MGSM上Marco-o1准确性得到了提升

通过MCTS扩展解决方案空间

将蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)与大型语言模型(LLMs)集成,以增强Marco-o1模型的推理能力:

Marco-o1整体框架

    MCTS框架中的节点和动作

展开和奖励计算

信心分数的计算

整体奖励分数

解决方案空间的扩展

实验结论与case分析

数学推理case分析

MCTS扩展了正确答案的解决方案空间。在MGSM数据集上,Marco-o1-CoT(左)与Marco-o1-MCTS(步)(右)的比较。尽管Marco-o1-CoT未能提供正确答案,但将MCTS与步级动作集成允许模型探索更广泛的解决方案空间,增加了找到正确解决方案的可能性。

更细的粒度与微步增强了问题解决能力。在MGSM数据集上,Marco-o1-MCTS(步)(左)与Marco-o1-MCTS(32个标记的微步)(右)的比较。步级动作策略没有得出正确答案,但通过使用更细粒度的32个标记的微步,模型成功地导航了解决方案空间以找到正确答案,展示了增加动作粒度的有效性。


翻译任务case分析

俚语表达“它如此美丽以至于令人着迷,上部有明显的韩式风格,柔软蓬松的材质厚度恰到好处,并且有底层的衬托,创造出独特且适合日常穿着的装扮”的翻译比较。

俚语表达“它如此美丽!而且它如此便宜,超级直且不卷曲。买它,买它!”的翻译比较。

使用Marco-o1翻译任务演示俚语表达“这双鞋鞋底舒适,强烈推荐购买”。

https://arxiv.org/pdf/2411.14405Marco-o1: Towards Open Reasoning Models for Open-Ended Solutionshttps://huggingface.co/AIDC-AI/Marco-o1

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Marco-o1 开放式问题 推理能力 MCTS
相关文章