PaperAgent 01月22日
Kimi思考模型k1.5是怎么练成的?细节曝光
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Kimi发布的k1.5模型性能达全球领先水平,同时公布了多模态模型技术训练报告,包括预训练、监督微调等阶段,还介绍了强化学习等内容。

🎯Kimi发布k1.5模型,性能达全球领先水平

📝k1.5训练包括预训练、SFT、Long-CoT SFT、RL等阶段

💪强化学习是k1.5核心训练阶段,有多项创新

🔄k1.5尝试将Long-CoT思维先验转移到Short-CoT中

原创 PaperAgent 2025-01-22 00:01 湖北

Kimi发布新一代多模态思考模型k1.5,在竞赛数学、代码能力及视觉思考等测试中,k1.5模型性能已达到全球领先模型OpenAI o1 正式版水平,月之暗面也成为OpenAI 之外,全球第二家到达该水平的人工智能企业

    Kimi 1.5 long-CoT评测结果

long to short,用长链式思考技术改进短链式思考模型,在短链式推理性能测试中,k1.5模型在数学、代码、视觉多模态和通用能力等方面到达或超越GPT-4o、Claude Sonnet 3.5等全球领先模型。

    Kimi 1.5 short-CoT评测结果

新模型发布的同时,kimi还首次对外公布了多模态模型技术训练报告,k1.5的训练包括这几个阶段:

预训练 -> SFT -> Long-CoT SFT -> RL

其中,预训练与SFT要点概况如下

25页的技术报告重点聚焦在强化学习部分

数据构建 -> 预热 Long-CoT SFT -> RL -> Long2Short

https://github.com/MoonshotAI/Kimi-k1.5/blob/main/Kimi_k1.5.pdf

1. RL数据构建

数据质量和多样性对强化学习的效果至关重要。高质量的提示集可以引导模型进行稳健的推理,并减少 reward hacking 和 overfitting 的风险。

2、预热-Long-CoT微调

通过构建小的高质量 Long-CoT 热身数据集并进行微调,目的是让模型内化人类推理的关键认知过程(如规划、评估、反思和探索),从而提升其在复杂推理任务中的表现和逻辑连贯性。

3、强化学习

强化学习是 k1.5 的核心训练阶段,无需依赖蒙特卡洛树搜索(MCTS)、价值函数或过程奖励模型等复杂技术,通过长上下文扩展和策略优化实现高效学习。

4、Long2short

Long-CoT模型表现出色,但在测试时消耗的token数量比Short-CoT更多。有没可能将Long-CoT推理模型的思维先验转移到Short-CoT推理模型中,从而即使在测试时的token预算有限的情况下,也能提升性能,答案是肯定,k1.5尝试了以下方法:

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Kimi k1.5 多模态模型 强化学习 模型融合
相关文章