硅星人Pro 01月25日
追平多模态满血o1,kimi的新模型k1.5 破解了OpenAI的秘密?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Kimi发布k1.5模型,性能优异,技术报告具研究价值。该模型在多个方面有创新,如强化学习、长上下文处理等,且行业竞争加剧。

🎯Kimi k1.5利用强化学习增强推理能力

📜长上下文扩展,处理长文本序列

💪改进的策略优化,提升决策能力

🌐多模态训练,结合文本和图像数据

📈多种long2short方法,提高token效率

原创 周一笑 2025-01-23 09:48 北京

不要猜OpenAI怎么做的了。

作者周一笑
邮箱zhouyixiao@pingwest.com

年关将至,大模型行业又热闹了起来。一天之内,两个“对标”o1的国产大模型相继发布,分别是DeepSeek的DeepSeek R1,以及Kimi的k1.5。

先是DeepSeek发布了性能比肩OpenAI o1正式版的R1,同时还公布了详尽的技术报告,并继续开源模型权重,这再次让海外技术社区感叹,“DeepSeek才配叫做OpenAI”。

几乎同一时间,Kimi发布了全新的强化学习模型k1.5,OpenAI之后首个多模态类o1模型。

去年11月,Kimi 推出了 k0-math 数学模型,12月发布了k1视觉思考模型,这次是k系列模型的第三次升级,延续了快速持续改进的节奏。

考虑到OpenAI o1预览版的发布时间是去年9月,o1完整版发布到现在不到两个月,且OpenAI没有披露具体技术的情况下,海内外大模型的“技术代差”似乎越来越小了。

具体来看,在涵盖了数学、代码和视觉的基准测试上,k1.5的long-CoT模式(长推理)表现与OpenAI o1非常接近,在某些测试中甚至略有超越。

在short-CoT模式下(短推理),k1.5在数学、代码、视觉、通用能力的测试项目中领先于其他模型,包括OpenAI 4o和Claude 3.5 Sonnet。

虽然没有开源模型,但在k1.5的发布中,Kimi团队首次公开了25页的模型训练技术报告《Kimi k1.5: Scaling Reinforcement Learning with Large Language Models》,特别是在强化学习这样的前沿领域,技术报告本身就具有重要的研究价值。

1

藏在技术报告中的“黑科技”

Kimi k1.5模型的设计和训练有几个关键要素,核心是利用强化学习(RL)来增强其推理能力:

RL数据收集

Kimi k1.5 的 RL数据收集特点在于其高质量和多样性,以及为了训练效率所做的优化。为了确保训练的有效性,数据需要涵盖广泛的学科(如 STEM、代码和一般推理),并具有均衡的难度分布。为了避免模型作弊和过拟合,会排除容易被猜测答案的问题,并使用模型自身来评估问题难度。为了提升效率,还会利用课程学习和优先采样等策略,以及局部展开的技术来处理长序列。针对代码问题,还会自动生成测试用例,针对数学问题会使用链式思考的奖励模型以提高评分准确性,并且视觉强化学习数据也分为现实世界、合成和文本渲染三种类型。

Long2short

Kimi k1.5模型使用了多种long2short(长转短)方法,通过从long-CoT模型转移知识来提升短思考short-CoT模型的性能。虽然长思考模型能够达到很好的性能,但在测试时会消耗更多的tokens。几个关键的long2short学习方法包括:

在AIME2024测试集上k1.5整体表现出更好的token效率

这些方法有助于提高短思考模型的token效率,同时不牺牲性能。通过转移长思考模型的思维模式,短思考模型可以用更少的token预算达到更好的结果。与其他方法(如DPO和模型合并)相比,Long2short RL展现出最高的token效率,而k1.5系列模型总体上显示出比其他模型更优的token效率。

总的来说,long2short方法帮助短CoT模型从长CoT模型的推理策略中学习,用更少的token实现更好的性能。Kimi k1.5的报告显示,这可以带来性能提升,例如在AIME 2024和MATH 500基准测试上的表现。Kimi团队认为这是一个重要的研究方向,可以进一步提高语言模型的效率。

Infra的混合部署框架

Kimi k1.5系统引入了多项基础架构创新以支持llm的高效强化学习训练。其核心是混合部署框架,它允许在同一个Kubernetes pod的GPU上同时部署训练和推理工作负载,通过使用独立的Megatron(用于训练)和vLLM(用于推理)容器,并由检查点引擎管理生命周期,有效防止了训练节点在等待推理节点时的闲置状态。

系统还采用了部分展开技术来高效处理长上下文RL训练,它通过将长回答分割成多个迭代段并从重放缓冲区重用之前的片段来减少计算开销,同时包含重复检测功能以及早识别和终止重复序列。

在代码执行方面,系统配备了专门的沙箱服务,使用crun代替Docker作为容器运行时并重用cgroups,以提供安全高效的代码执行环境。

此外,系统还包含了由etcd服务管理的全局元数据系统用于广播操作和状态,以及使用Mooncake通过RDMA在对等节点之间传输检查点。这些创新组件共同构建了一个高效的训练系统框架,使Kimi k1.5模型能够有效应对长上下文和多模态数据训练的挑战。

总的来看,Kimi k1.5的这份技术背后的理念就像是官方推文中引用的这句话,它介绍了模型开发中的一些技巧,而这些trick往往是简洁且优雅的。同时可以看出团队也在调整自己的技术公开策略,把“菜谱”分享给社区,让行业共同进步。

值得注意的是,这份报告中还列出了参与研发和数据标注工作的人员名单,相对于K1.5出色的表现,贡献者名单其实很精炼,这可能印证了Kimi团队的某种人才密度。

1

RL+LLM,大道至简?

英伟达高级研究科学家Jim Fan第一时间对Kimi和DeepSeek两家公司发布的强化学习(RL)相关论文的评价和对比,他认为两家公司都得出了一些相似的发现,也就是简化强化学习框架,同时提升推理性能和效率。

无需复杂的蒙特卡洛树搜索(MCTS),而是线性化推理过程,结合高质量的自回归预测。不需要依赖额外昂贵的模型副本来处理价值函数。不需要复杂的奖励建模,只需依赖于高质量的真实数据和最终结果。

这或许就是o1已经被“破译”的秘密,没有PRM,没有MCTS,没有复杂的配方,大规模可验证的数据让推理和自我反思在任何RL算法中涌现。

一直以来,中国人工智能企业由于在GPU上的限制,更倾向于在算法和模型设计上追求高效,降低资源消耗,例如通过框架简化、模型蒸馏和数据驱动的方法,这可能正好契合了o1背后的技术的趋势。

最近,除了发布R1,长期专注研究技术的DeepSeek开始招聘C端产品相关人才,并低调上线了C端产品;Kimi也第一次发布模型训练技术报告,在澄清某些传言的同时,释放出招揽技术人才的信号。与此同时,字节、通义、MiniMax、生数、面壁等企业也在纷纷推出新模型产品,大模型行业又热闹起来了,可以预见的是,新的一年,行业竞争也将进一步加剧。

点个爱心,再走吧

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Kimi k1.5 强化学习 长上下文 策略优化 多模态
相关文章