月之暗面 Kimi 前天 00:51
模型即 Agent,Kimi-Researcher(深度研究)开启内测
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Kimi智能助手推出新Agent模型Kimi-Researcher,基于端到端自主强化学习技术,专注于深度研究任务。该模型能够自主规划、搜索、推理,并调用工具,生成详尽的研究报告和可视化结果。测试显示,Kimi-Researcher在复杂知识任务中表现出色,超越了部分现有模型。Kimi-Researcher旨在成为每个人的研究助理,支持多种应用场景,并分享了其训练和技术细节。

🔍 Kimi-Researcher 是一款专为深度研究设计的Agent模型,采用端到端自主强化学习技术,能够自主规划任务流程并交付完整结果。

📚 它能够生成信息详实、可溯源的深度研究报告(平均万字以上),并提供可交互、可分享的动态可视化报告,方便用户快速获取关键信息。

📈 在Humanity’s Last Exam (HLE)等基准测试中,Kimi-Researcher 表现优异,超越了Claude 4 Opus和Gemini 2.5 Pro等模型,并在红杉中国发布的xbench基准测试中取得领先。

💡 Kimi-Researcher 适用于多种研究场景,例如算法评估、行业分析、法律法规研究、券商报告、教案制作等,帮助用户高效获取和理解信息。

⚙️ 该模型采用零提示、零结构的设计,通过结果驱动的强化学习算法进行训练,具有轻量化、长时记忆机制,以及面向Agent的训练基础设施。

原创 Kimi 智能助手 2025-06-20 23:31 北京

基于端到端自主强化学习(end-to-end gentic RL)技术训练,专为深度研究任务而生

我们的第一个 Agent 来了:

Kimi-Researcher(深度研究),今天开始小范围灰度测试。

模型即 Agent,Kimi-Researcher 是基于端到端自主强化学习(end-to-end agentic RL)技术训练的新一代 Agent 模型,也是一个专为深度研究任务而生的 Agent 产品。

我们也将逐步开源 Kimi-Researcher 基础预训练模型、以及强化学习后的模型,希望与大家一起推动 Agent 强化学习方向的探索。

👋

01 认识一下 Kimi-Researcher

对于每一个问题,Kimi-Researcher 都会自主规划任务执行流程,最终交付完整结果:

为了保证输出的质量和信息覆盖度,Kimi-Researcher 采用异步执行方式,用更多时间逐步推理、检索和撰写内容。毕竟,一份真正有价值的研究成果,原本需要人类耗费数天才能完成。

最终,你会收到 2 个交付成果:

1. 一份信息详实、可溯源的深度研究报告

2. 一个可交互、可分享的动态可视化报告

我们希望 Kimi-Researcher 真正能够“独立解决问题”,于是给他安排了一场考试 —— 人类最后一次考试(Humanity’s Last Exam, HLE)。

Humanity’s Last Exam(HLE) 是一套专为 AI 设计的高难度 benchmark,题目覆盖上百个专业领域,从数学、物理、医学到政治、历史,考察模型在复杂知识任务中的真实解决能力。

Kimi-Researcher 在完全零结构、无流程设计的设置下,得分如下:

这一表现超过了 Claude 4 Opus(10.7%)、Gemini 2.5 Pro(21.6%),略高于 OpenAI Deep Research(26.6%),和 Gemini-Pro 的 Deep Research Agent(26.9%)打平,是目前已知最高水平之一。

在红杉中国发布的 xbench 基准测试中 —— 一套对齐真实任务场景的 AI 能力评估体系,Kimi-Researcher 在 DeepSearch 任务中取得 69%的平均通过率,领先该榜中其他模型。

做这些评测,是为了客观了解 Kimi 的当前能力边界。真实世界的任务远比 benchmark 更复杂、也更具体。

好不好用,终究还得看在大家的任务上,Kimi-Researcher 能不能真正帮上忙。

🔬 

02 你在意的问题,都值得深度研究

为什么第一个 Agent 要做 Researcher?

因为几乎所有有意义的任务,起点都是 search —— 只有找到对的信息,才能产生理解,才能推动行动。

但深入的 research,其实长期以来都很奢侈,过去只属于大公司和顾问机构。

我们希望有了 Kimi-Researcher,每个人都能有自己的研究助理。

分享一些 Kimi Team 同学的用法👇

算法同学,用 Kimi-Researcher 寻找高价值的 benchmark,用于评估模型能力边界。

Prompt:Survey all advanced benchmarks that all frontier LLM scores lower than 20%, focus on text. example like HLE

Kimi 输出了万字的调研结果,并在文中给出了引用信息。

除了找到了 AGI-2,HLE,OlympiadBench,还找到 FrontierMath 6月1日新发布的 Seal QA。

Kimi-Researcher 还可以将长篇文本结构化呈现,自动生成可视化摘要,方便快速导航、分享协作。

运营同学,用来研究行业内的公司发展。

Prompt: Make a development timeline of Nvidia

在研究过程中,Kimi 遇到来自多个数据源的数值冲突,他主动识别出异常,并回溯到英伟达财报原文进行核查。没有人类介入的情况下,他自己完成了判断,并生成了详实的调研报告。

在可视化报告中,Kimi 还选用了英伟达的品牌色。

我们还邀请身边的朋友在以下一些场景进行了测试:

法务朋友,用来快速了解各国数据隐私法规:

Prompt:I'm an in-house lawyer at a Chinese robotic company, and the management is considering expanding into Southeast Asian countries. However, I'm not quite confident about the data and privacy requirements in those countries. Could you help me list the names of the data and privacy laws of Southeast Asian countries (on a country-by-country basis), and preferably provide a brief summary and key takeaways of those laws?

这是一个综合检索任务,涵盖多个国家的法律体系。Kimi 在十几分钟内生成了一份信息全面、结构清晰的万字报告,内容涵盖10个国家的关键法规和政策信息、以及核心条款的对比。

关键数据点在可交互报告中一目了然。哪国更宽松、哪国要求更严,不再需要逐段比对文本。

券商研究员朋友,用来搜集各大机构对债市的核心判断,十几分钟得到一份 14 页、结构完整、可追溯信源的研究报告。

Prompt:汇总一下各大券商对2025年下半年债市走势的核心观点,并结合市场情况,判断一下哪家券商说得更有道理

教师朋友,用来做教案,让 html 成为了 vibe coding 时代触手可及的 ppt:

Prompt:做一个七年级《春》的课件

Kimi-Researcher 输出的教案包含完整教学结构,自动生成导入、作者简介、生字词学习、内容理解、情感体会、课堂练习等模块,结构清晰。可视化报告的部分,可直接用于教学。

学生朋友,用来理解复杂知识结构,比如国际货币体系演变:

Prompt:分析人类历史上三大货币体系的演变:金本位、布雷顿森林体系、浮动汇率制度

Kimi-Researcher 通过搜索与整理资料,梳理出三大体系的背景、机制与发展路径,时间轴清晰,概念结构化呈现,便于课堂展示与深入讨论。

此外,Kimi-Researcher 还可以满足我们生活中的好奇心:

世界并不是由“有用”与“无用”划分的。有了 Kimi-Researcher,那些被轻易略过的问题、难以解答的问题,可以重新被认真看待一次。

🔮 

03 关于训练的思考和技术细节

Kimi-Researcher 是通过端到端强化学习训练出来的 Agent 模型(end-to-end agentic RL)。

他是一个零结构 Agent:没有复杂的提示词,也没有预设流程。

传统 Agent,依靠靠人写好流程或监督微调,适应性差、泛化能力弱; 而端到端 agentic RL 是让模型从零自主试错,把整个任务当作一个整体去学,能应对复杂推理、工具切换和环境变化。

在动态的环境里,Kimi-Researcher 自己学会了如何思考:当信息冲突时,如何权衡判断;面对任务节点,何时切换工具;哪些中间信息值得保留,哪些可以舍弃。

模型的唯一驱动力,是任务本身是否被真正解决。没有结果,就没有奖励。所有策略、路径、判断,都是模型在反复试错中自然形成的,而不是被人类预先写死的。

在这样的探索中,我们观察到 Kimi-Researcher 涌现出了一些能力和个性:

当面对互相矛盾的信息来源时,他会尝试提出假设、反复比对,并主动修正推理路径;即便是看似直接的问题,也倾向于多查几遍、反复验证。

我们选择端到端强化学习(end-to-end agentic RL),是出于这样的长期判断:

真正具备自适应性的通用智能,需要在真实任务的交互与反馈中成长出来。

对于 Agent 的设计,我们坚持以下四点:

我们将这次的训练过程和实验细节,尽可能完整地整理了下来。希望能为对 Agent 感兴趣的团队和个人提供一些参考,也欢迎一起探讨如何把 Agent 做得更好:📎 技术报告全文链接


诚挚地邀请你试用 Kimi-Researcher,也希望听到你的反馈,一起把他打磨成一个真正 helpful 的研究助手。

👇 访问 kimi.com,立即申请内测

👉 如果你的账号已经获得内测权限:只需打开 Kimi 对话框下方的「深度研究」按钮,即可开始使用(每月 20 次额度,同时支持 1 条任务并发)。

👉 还没获得内测资格?欢迎在评论区留下你想让 Kimi-Researcher 帮你研究的问题,我们会抽选一些问题帮你运行,并把结果页面链接返回给你。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Kimi Agent 深度研究 人工智能 强化学习
相关文章