Kimi 更新了深度研究能力,收到测试资格之后深度使用了一天。
发现在内容丰富度、准确性和逻辑严谨性上都非常能打。
全文在这里看:https://mp.weixin.qq.com/s/TYWQRn_0MB1-bnqZ-8aZ0Q
下面是详细的介绍👇
与其他近期类似产品不同,月之暗面这个深度研究是他们自己训练的基于端到端自主强化学习技术训练的Agent 模型。
而且他们会开源基础的预训练模型和后面经过强化学习的模型,这个太值得期待了。
在HLE (Humanity’s Last Exam) 和红杉的 Agent 测试上 kimi 深度研究模型都取得了不错的成绩。
案例一:商业与IP分析——解构泡泡玛特与Labubu的爆火之路
任务设定: 模拟投资人或市场分析师,要求Kimi深度研究“泡泡玛特(Pop Mart)”这家公司,并重点分析其IP“Labubu”从诞生到成为顶流的全过程。
测评亮点分析: 在分析Labubu爆火原因时,Kimi展现了极强的逻辑推理和自主探索能力。它的搜索路径颇具章法,从宽泛的整体搜索开始,逐步聚焦到粉丝经济、海外传播、早期发展历程乃至近期的价格波动等具体方面,整个过程如同一位真正的好奇研究员。最终生成的近一万九千字报告,其目录结构逻辑清晰,从IP设计理念、产品迭代,到运营策略、粉丝经济和二手市场,层层递进,将各类信息恰当地组织在预设的分析框架下,而非简单堆砌。这充分证明Kimi能够自主形成深度分析的逻辑链条,深刻洞察一个商业现象背后的多元驱动因素。
案例二:科技产品分析——透视小米发布会的核心信息
任务设定: 模拟产品经理或行业分析师,对小米2025年6月26日的发布会提出一个极其复杂的研究需求,涵盖信息整理、竞品对比、销量预测及供应链分析等。
测评亮点分析: 面对一个包含多重任务的复杂指令,Kimi深度研究功能并未在长下文中出现能力衰减。它生成了近一万七千字的详尽报告,有效完成了信息检索、可信度标记、竞品参数对比、多维度销量预测等高级任务。在报告中,Kimi不仅展现了出色的信息准确性和时效性,例如捕捉到小米YU 7座舱系统采用骁龙8 Gen3芯片这一新近消息,其用户体验设计也值得称道,点击引用来源即可高亮原文数据,极大地方便了事实核查。在销量预测和供应链分析部分,它给出了严谨的假设前提与判断依据,超越了简单的数据罗列,为专业人士提供了极具价值的决策参考。
注入美学,让专业报告“活”起来
再强大的功能,如果不能被轻松理解和使用,价值也将大打折扣。Kimi的交付物在“好用”和“好看”上做到了统一。
除了生成文档之外,kimi 也会同步生成一份研究报告的可视化网页。
内容与形式兼备: Kimi生成的可视化网页内容详实,与万字报告保持同步,绝非内容缩水的“玩具”。左侧的大纲导航让用户可以轻松在不同章节间跳转。
智能化的场景美学: 报告并非千篇一律的模板。AI会根据研究对象匹配相应的主题风格,如分析小米时会采用标志性的橙色。同时,嵌入的图片、甚至视频素材都与内容高度相关,极大增强了报告的定制感和沉浸感。
直观高效的交互: 网页排版清晰,符合现代审美。思维导图和可自由拖拽缩放的图表,让复杂信息一目了然。在竞品对比等环节,巧妙利用高亮、色块背景和图表,直观地区分优劣势,显著提升了信息获取和理解的效率。
测试和介绍到这里就结束了。
虽然都是深度研究,Kimi 这个基于强化学习的模型还是展现出了跟使用常见模型通过提示词和工具使用上非常不同的结果倾向,让我们看到了复杂检索任务不依赖大 Prompt 工程的的强大之处。
期待 Kimi 即将开源的预训练与 RL 权重,应该能造福非常多有类似功能的产品。