动点科技 02月17日
月之暗面:很早就验证过长思维链,因成本高不够重视
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

月之暗面官方分享了Kimi多模态推理模型k1.5的诞生过程。研究员Flood Sung反思了OpenAI o1发布后长思维链的有效性,并意识到长上下文和长思维链的重要性。尽管早期因成本问题未重视长思维链,但最终决定突破性能瓶颈,致力于实现更长的思维链。在实际训练中,他们还发现模型性能会随着训练的进行而提升token数,这与Deepseek的发现相似。

🤔 **长思维链的重要性:** 月之暗面研究员Flood Sung反思OpenAI o1的发布,意识到长思维链的有效性,并回忆起Kimi联合创始人Tim周昕宇早期使用小模型进行长思维链训练的成功经验。

💰 **成本与性能的权衡:** 早期,月之暗面更注重长文本输入(长上下文),因为其成本和速度可控。而长思维链(长文本输出)成本高、速度慢,因此未被优先考虑。但最终,他们认识到性能比成本更重要,决定攻克长思维链。

🚀 **模型涌现能力:** 在实际训练过程中,研究人员发现模型会随着训练的进行而提升性能,并增加token数。这表明模型具有自我涌现能力,与友商Deepseek的发现一致。

2月17日消息,上个月Kimi 发布的多模态推理模型k1.5,今日月之暗面官方分享了k1.5模型诞生的过程。

月之暗面研究员Flood Sung表示,去年9月12号OpenAI o1发布,长思维链(推理模型背后的关键技术)的有效让他陷入反思。

因为长思维链的有效性其实在一年多前就已经知道了,月之暗面Kimi联合创始人Tim周昕宇很早就验证过,使用很小的模型,训练模型做几十位的加减乘除运算,将细粒度的运算过程合成出来变成很长的思维链数据做监督微调,就可以获得非常好的效果。“我依然记得当时看到那个效果的震撼。”

“我们意识到长上下文的重要性,所以率先考虑把文本搞长,但却对长思维链这件事情不够重视。其实主要还是考虑了成本问题。”他表示,长上下文主要做的是长文本输入,有Prefill预填充,有Mooncake加持,成本速度可控,而长思维链是长文本输出,成本高很多,速度也要慢很多。在这种情况下,把输出搞长就没有成为一个高优选项。

该研究员称还有什么比性能更重要呢?成本和速度有摩尔定律加持,可以不断下降,只要把性能搞上去,剩下的都不是主要问题。“所以,我们得搞长思维链,搞 o1。”

他还提到在实际训练的过程中有了重要的发现:模型会随着训练提升性能也不断增加token数,也就是这是RL训练过程中模型可以自已涌现的,“这个和友商 Deepseek的发现几乎是一样的。”

来源:三言科技

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Kimi 月之暗面 长思维链 多模态推理 AI模型
相关文章