橘子汽水铺 07月08日 14:16
沉寂良久之后,Kimi 放出深度研究 Agent
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Kimi的深度研究AI大模型在人类最后一次考试中取得了26.9%的准确率,位列全球第一,与谷歌持平,险胜OpenAI的Deep Research。该模型在xbench评估中也取得了69%的成绩,展现了其在信息覆盖范围、报告结构化程度和可视化体验上的优势。深度研究能够像研究员一样主动理解和分解问题,规划任务流程,广泛搜索并使用工具筛选高质量信息,进行多轮推理和验证,最终产出详尽的研究报告,让知识变得更易得、更可用。

🔍 Kimi深度研究AI大模型在人类最后一次考试中取得了26.9%的准确率,位列全球第一,展现了其强大的信息处理和推理能力。

📊 该模型在xbench评估中也取得了69%的成绩,证明了其在实际任务场景中的出色表现和泛化能力。

💡 深度研究能够像研究员一样主动理解和分解问题,规划任务流程,广泛搜索并使用工具筛选高质量信息,进行多轮推理和验证,最终产出详尽的研究报告,让知识变得更易得、更可用。

📈 深度研究不仅适用于专家学者,也适用于普通用户,可以帮助人们追踪行业热点、了解社会争议,获取高质量信息。

🚀 Kimi计划开源深度研究模型,推动行业对这个方向的研究和探索,未来有望为AGI的发展做出贡献。

原创 橘子OrangeAI 2025-06-30 07:52 北京

在人类最后一次考试中拿下 26.6%,位列全球第一。

三个月前,在一个饭局上,遇到了 Kimi 的模型算法同学,我们很自然地就聊到了强化学习。

在饭局上,给我留下了印象最深的,就是他对强化学习的无比乐观的态度。

当时 DeepSeek 刚火不久,强化学习也从一个以前模型算法同学才会使用的术语,变成了AI行业人人挂在嘴边的流行语。

1月20日那天,Kimi 家的强化学习模型,和 DeepSeek R1 同一天发布。这两家公司在大模型的强化学习方面,是国内最领先的两家。

我当时对强化学习的泛化性非常好奇,毕竟从o1开始,业界在讲的故事都是数学、推理。

我问 Kimi 的算法同学,强化学习可以解决任何领域的问题吗?还是仅限于数学和推理这样有标准答案的领域。

任何领域,他说,只要能够定义环境和奖励,AI 智能体就可以通过强化学习实现奖励目标,任何领域都可以。

那时候对 Kimi 的下一代模式开始有了期待。

对于模型公司来说,从看到一个可能性到把模型训练出来,一般需要3到6个月的时间。

上周得知 Kimi 的深度研究模型要开启内测了,沉寂良久,终于看到了成果,我也立即申请了内测。

深度研究,Agent 的第一个 PMF

深度研究最早是 OpenAI 在今年2月发布的,价格昂贵,200美金的套餐只能使用100次深度研究功能。

但一经推出,就成了今年 AI 文本大模型中最重要的 PMF。

深度研究,不是一次简单的问答,而是一个完整的调查。它让 AI 智能体像真正的研究员一样,主动理解和分解问题,规划任务流程,广泛搜索并使用工具筛选高质量信息,进行多轮推理和验证,最后产出详尽的研究报告。

在深度研究的评估中,一般会用到人类最后一次考试(Humanity’s Last Exam, HLE)

人类最终考试(HLE)是一项全球协作的试题,来自50个国家、500多家机构、近1000名学科专家贡献——主要包括教授、研究人员和硕博学位持有者。

里面的题是这样的:

OpenAI o1 刚出的时候,考试成绩只有 9.1% 准确率。

Openai Deep Research+o3,起步是20多分,训完了之后是26.6;

Kimi 是从激活之后的8.6训练到26.9,看起来强化学习确实是模型进步的行之有效的手段。

Kimi 的深度研究,HLE 达到了 26.9% 的准确率,目前的 SOTA。打平谷歌,险胜 OpenAI 的 Deep Research。

前段时间红杉中国刚好推出了一套基于全世界专家学者真实任务场景的评估体系 xbench,这套 bench 发布不到一个月,Kimi 在 xbench 中拿到 69% 的成绩,也是 SOTA 水平。

当然,今天的 benchmark 成绩已经不再像之前前那么有说服力。大家都知道可以刷榜,真正好用的工具,还是得自己试过才知道。

内测通过后,我上手测了一些 case,最大的感受是——相当惊喜。

虽然在洞察力上还有提升空间,但在信息覆盖范围、报告结构化程度和可视化体验上,Kimi 的深度研究已经是中文 AI 里为数不多真正可用的深度研究产品。

深度研究的最后一公里:读懂研究

深度研究的结果非常详尽,不过它最大的缺点就是:真的太长了。

动辄就是万字长文,读起来非常花时间。内容再好,看不进去,也无法产生价值。

像我们微信群里,大家都是把深度研究的万字长文丢到 ListenHub 生成10分钟短播客,在路上收听。

Kimi 的产品经理在这方面也做了优化,为每份深度研究都提供了一个可视化报告。

比如这个报告,Meta 最近头脑发热,洽谈收购好几家 AI 公司。让 Kimi 做了个报告研究这个情况,Kimi 在报告里列出了收购的公司列表、收购时间线、背后的原因、未来的影响。(图片很长,点击查看大图)

完整报告链接在这里:https://www.kimi.com/preview/d1fsqmu6s4tb5ojv0itg?blockId=86

这个可视化报告读起来,比读那一万字的报告要清晰明了,我们一眼就能知道报告里有什么,然后可以再到报告里去找相关的细节和证据

结构化摘要 + 高亮引用,让原本复杂的材料,变成易于理解、便于传播的内容。

但是目前kimi的深度研究生成的网页只支持单轮生成,不支持修改。

其中大部分信息准确,但难以避免存在少量错漏和瑕疵,如果想把80分的交付物变成100分,也许还需要在产品设计上给用户留下修订的空间。

深度研究的使用场景

深度研究听起来很专业,但并不是说只适合专家学者使用。

我们每个人都可以深度研究,来高质量地获取日常信息。

比如国内知名公司的热点动向,平时没时间关注这些,到周末总结一下,一周的大事儿基本就了解个大概了

再比如说,听说长安的荔枝的电视剧上了,听说争议很大,但是懒得去看太细的新闻,直接一个深度研究,就明白大家在吐槽啥了

当然,专业的问题就更适合深度研究了,比如创业公司经常要被问到的护城河问题,深度研究能找到相关的波特五力模型,帮助创业公司思考清楚自己的护城河在哪里。

谈论护城河,绕不开另一个著名的反定位理论,深度研究直接举出三个经典案例,把这种商业书里的案例一次性拆解完,用案例讲理论,更容易记住,更容易灵活应用。

深度研究,其实离我们每个人都不远。

不管是追踪行业热点,还是了解社会争议,

只需一个报告,信息一目了然。

Andrej Karpathy 认为 Agency > Intelligence。

行动力的价值超过智力。

AI 一旦具备了行动力,会用 AI 的人,也拥有了更强的行动力。

结语

很多年前,曾有人问 Ilya,最重要的 AI 技术有哪些。

Ilya 拿出纸画了两个圈,左边是 Transformer,右边是 RL,再无其他。

从今天回看这个坊间传闻, Ilya 在那时候就看到了 RL 的巨大潜力,认知领先时代。

Kimi 的深度研究,是国内为数不多的深度研究产品,它让人看到了国内模型在 RL 方面的最新的进展。

它当然还不完美,偶尔会有幻觉,但它让语言模型开始具备执行复杂任务的能力,不再只是一个对话接口,而是一个能对问题主动拆解、规划和行动的智能体。

从信息洪流中提问、判断、决策,深度研究曾经是少数人的能力。

现在,它变成了一种可以被日常使用的基础设施。

无论是专业研究,还是日常生活中的热点追踪,深度研究都让知识变得更易得、更可用。

在阅读 Kimi 技术报告的时候,看到他们计划开源这个模型,推动行业对这个方向的研究和探索,值得期待与尊重。

这半年经常出现唱衰 AI 六小龙的声音。

其实创业公司在寻找自己方向的时候,难免会遇到挫折和反复。

更何况这个方向是最难的 AGI 呢。

且让我们多一些耐心,静待技术的进步。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Kimi 深度研究 AI大模型 强化学习
相关文章