原创 Kimi 智能助手 2025-06-20 23:31 北京
基于端到端自主强化学习(end-to-end gentic RL)技术训练,专为深度研究任务而生
我们的第一个 Agent 来了:
Kimi-Researcher(深度研究),今天开始小范围灰度测试。
模型即 Agent,Kimi-Researcher 是基于端到端自主强化学习(end-to-end agentic RL)技术训练的新一代 Agent 模型,也是一个专为深度研究任务而生的 Agent 产品。
我们也将逐步开源 Kimi-Researcher 基础预训练模型、以及强化学习后的模型,希望与大家一起推动 Agent 强化学习方向的探索。
👋
01 认识一下 Kimi-Researcher
对于每一个问题,Kimi-Researcher 都会自主规划任务执行流程,最终交付完整结果:
澄清问题(clarification):理解问题时主动反问,构建更清晰的问题空间;
深入思考:每个任务平均进行 23 步推理,自主梳理并解决需求;
主动搜索:每个任务,平均规划 74 个关键词,找到 206 个网址,由模型判断并筛选出信息质量最高的前 3.2% 内容,剔除冗余、低质信息;
调用工具,交付结果:自主调用浏览器、代码等工具,处理原始数据、自动生成分析结论,端到端完成交付。
为了保证输出的质量和信息覆盖度,Kimi-Researcher 采用异步执行方式,用更多时间逐步推理、检索和撰写内容。毕竟,一份真正有价值的研究成果,原本需要人类耗费数天才能完成。
最终,你会收到 2 个交付成果:
1. 一份信息详实、可溯源的深度研究报告
报告的平均长度在万字以上;
平均引用约 26 个高质量、可溯源的信源;
所有引用都内嵌在正文中,点击即可跳转,并高亮原文,便于验证与追溯。
2. 一个可交互、可分享的动态可视化报告
结构化排版、思维导图,让趋势、异常等重要信息一眼可见;
无需阅读全文,也能迅速把握整体结构与核心结论;
支持在线生成链接并分享,方便展示。
我们希望 Kimi-Researcher 真正能够“独立解决问题”,于是给他安排了一场考试 —— 人类最后一次考试(Humanity’s Last Exam, HLE)。
Humanity’s Last Exam(HLE) 是一套专为 AI 设计的高难度 benchmark,题目覆盖上百个专业领域,从数学、物理、医学到政治、历史,考察模型在复杂知识任务中的真实解决能力。
Kimi-Researcher 在完全零结构、无流程设计的设置下,得分如下:
Pass@1 准确率:26.9%
Pass@4 准确率:40.17%
这一表现超过了 Claude 4 Opus(10.7%)、Gemini 2.5 Pro(21.6%),略高于 OpenAI Deep Research(26.6%),和 Gemini-Pro 的 Deep Research Agent(26.9%)打平,是目前已知最高水平之一。
在红杉中国发布的 xbench 基准测试中 —— 一套对齐真实任务场景的 AI 能力评估体系,Kimi-Researcher 在 DeepSearch 任务中取得 69%的平均通过率,领先该榜中其他模型。做这些评测,是为了客观了解 Kimi 的当前能力边界。真实世界的任务远比 benchmark 更复杂、也更具体。
好不好用,终究还得看在大家的任务上,Kimi-Researcher 能不能真正帮上忙。
🔬
02 你在意的问题,都值得深度研究
为什么第一个 Agent 要做 Researcher?
因为几乎所有有意义的任务,起点都是 search —— 只有找到对的信息,才能产生理解,才能推动行动。
但深入的 research,其实长期以来都很奢侈,过去只属于大公司和顾问机构。
我们希望有了 Kimi-Researcher,每个人都能有自己的研究助理。
分享一些 Kimi Team 同学的用法👇
算法同学,用 Kimi-Researcher 寻找高价值的 benchmark,用于评估模型能力边界。
Prompt:Survey all advanced benchmarks that all frontier LLM scores lower than 20%, focus on text. example like HLEKimi 输出了万字的调研结果,并在文中给出了引用信息。
除了找到了 AGI-2,HLE,OlympiadBench,还找到 FrontierMath 6月1日新发布的 Seal QA。
Kimi-Researcher 还可以将长篇文本结构化呈现,自动生成可视化摘要,方便快速导航、分享协作。
运营同学,用来研究行业内的公司发展。
Prompt: Make a development timeline of Nvidia在研究过程中,Kimi 遇到来自多个数据源的数值冲突,他主动识别出异常,并回溯到英伟达财报原文进行核查。没有人类介入的情况下,他自己完成了判断,并生成了详实的调研报告。
在可视化报告中,Kimi 还选用了英伟达的品牌色。
我们还邀请身边的朋友在以下一些场景进行了测试:
法务朋友,用来快速了解各国数据隐私法规:
Prompt:I'm an in-house lawyer at a Chinese robotic company, and the management is considering expanding into Southeast Asian countries. However, I'm not quite confident about the data and privacy requirements in those countries. Could you help me list the names of the data and privacy laws of Southeast Asian countries (on a country-by-country basis), and preferably provide a brief summary and key takeaways of those laws?这是一个综合检索任务,涵盖多个国家的法律体系。Kimi 在十几分钟内生成了一份信息全面、结构清晰的万字报告,内容涵盖10个国家的关键法规和政策信息、以及核心条款的对比。
关键数据点在可交互报告中一目了然。哪国更宽松、哪国要求更严,不再需要逐段比对文本。
券商研究员朋友,用来搜集各大机构对债市的核心判断,十几分钟得到一份 14 页、结构完整、可追溯信源的研究报告。
Prompt:汇总一下各大券商对2025年下半年债市走势的核心观点,并结合市场情况,判断一下哪家券商说得更有道理教师朋友,用来做教案,让 html 成为了 vibe coding 时代触手可及的 ppt:
Prompt:做一个七年级《春》的课件Kimi-Researcher 输出的教案包含完整教学结构,自动生成导入、作者简介、生字词学习、内容理解、情感体会、课堂练习等模块,结构清晰。可视化报告的部分,可直接用于教学。
学生朋友,用来理解复杂知识结构,比如国际货币体系演变:
Prompt:分析人类历史上三大货币体系的演变:金本位、布雷顿森林体系、浮动汇率制度Kimi-Researcher 通过搜索与整理资料,梳理出三大体系的背景、机制与发展路径,时间轴清晰,概念结构化呈现,便于课堂展示与深入讨论。
此外,Kimi-Researcher 还可以满足我们生活中的好奇心:
想要入门攀岩,请帮我写个新手入门 101;
分析灌篮高手主力队员技术特点和比赛数据;
研究 Labubu 从诞生到爆火的全经过;
给约翰列侬/乔布斯/某个朋友,甚至自己,做一个人物小传。
世界并不是由“有用”与“无用”划分的。有了 Kimi-Researcher,那些被轻易略过的问题、难以解答的问题,可以重新被认真看待一次。
🔮
03 关于训练的思考和技术细节
Kimi-Researcher 是通过端到端强化学习训练出来的 Agent 模型(end-to-end agentic RL)。
他是一个零结构 Agent:没有复杂的提示词,也没有预设流程。
传统 Agent,依靠靠人写好流程或监督微调,适应性差、泛化能力弱; 而端到端 agentic RL 是让模型从零自主试错,把整个任务当作一个整体去学,能应对复杂推理、工具切换和环境变化。
在动态的环境里,Kimi-Researcher 自己学会了如何思考:当信息冲突时,如何权衡判断;面对任务节点,何时切换工具;哪些中间信息值得保留,哪些可以舍弃。模型的唯一驱动力,是任务本身是否被真正解决。没有结果,就没有奖励。所有策略、路径、判断,都是模型在反复试错中自然形成的,而不是被人类预先写死的。在这样的探索中,我们观察到 Kimi-Researcher 涌现出了一些能力和个性:当面对互相矛盾的信息来源时,他会尝试提出假设、反复比对,并主动修正推理路径;即便是看似直接的问题,也倾向于多查几遍、反复验证。我们选择端到端强化学习(end-to-end agentic RL),是出于这样的长期判断:
真正具备自适应性的通用智能,需要在真实任务的交互与反馈中成长出来。
对于 Agent 的设计,我们坚持以下四点:
零提示、零结构:不拆分任务,也不规定流程。模型在训练中自行形成推理模式;
结果驱动的强化学习算法:模型只根据最终结果是否正确来获得奖励,索路径完全自主;
轻量化、长时记忆机制:没有固定记忆模块,模型自主决定哪些信息值得记住,如何在推理中调用;
面向 Agent 的训练基础设施:支持异步执行、灵活接口,通过“分步回滚”等机制,优化长序列任务的学习效率。
我们将这次的训练过程和实验细节,尽可能完整地整理了下来。希望能为对 Agent 感兴趣的团队和个人提供一些参考,也欢迎一起探讨如何把 Agent 做得更好:📎 技术报告全文链接
诚挚地邀请你试用 Kimi-Researcher,也希望听到你的反馈,一起把他打磨成一个真正 helpful 的研究助手。
👇 访问 kimi.com,立即申请内测
👉 如果你的账号已经获得内测权限:只需打开 Kimi 对话框下方的「深度研究」按钮,即可开始使用(每月 20 次额度,同时支持 1 条任务并发)。
👉 还没获得内测资格?欢迎在评论区留下你想让 Kimi-Researcher 帮你研究的问题,我们会抽选一些问题帮你运行,并把结果页面链接返回给你。