华尔街见闻 - 最热文章 21小时前
月之暗面「调教」出最强Agent,在「人类最后一场考试」拿下最新 SOTA
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

月之暗面推出的Kimi-Researcher是一款基于端到端智能体强化学习训练的自主Agent,擅长多轮搜索和推理。它在“人类最后一场考试”中取得优异成绩,并在xbench等基准测试中表现出色。Kimi-Researcher通过自主学习、工具使用和上下文管理,能够处理复杂的任务,如学术研究和法律分析。月之暗面计划开源Kimi-Researcher所依赖的基础模型,以推动Agent技术的发展。

🔍 Kimi-Researcher 是一个自主 Agent,基于 Kimi k 系列模型构建,通过端到端智能体强化学习训练,擅长多轮搜索和推理。

🏆 在“人类最后一场考试”中取得 Pass@1 26.9% 的 SOTA 成绩,并在 xbench-DeepSearch 子任务上平均 pass@1 达到了 69% 的分数。

🛠️ Kimi-Researcher 具备三大工具:并行实时内部搜索工具、基于文本的浏览器工具和编码工具,用于解决复杂问题。

🧠 端到端智能体强化学习使 Kimi-Researcher 能够适应动态环境、处理长程任务,并从数据稀缺中学习,无需手工编写规则或工作流模板。

⚙️ 研究团队通过设计工具使用任务和推理任务,并采用全自动数据生成与验证流程,构建高质量的训练数据集,并使用 REINFORCE 算法进行强化学习训练,提升训练效率和稳定性。

昨天,月之暗面发了篇博客,介绍了一款名为 Kimi-Researcher 的自主 Agent。

这款 Agent 擅长多轮搜索和推理,平均每项任务执行 23 个推理步骤,访问超过 200 个网址。它是基于 Kimi k 系列模型的内部版本构建,并完全通过端到端智能体强化学习进行训练,也是国内少有的基于自研模型打造的 Agent。

GitHub 链接:https://moonshotai.github.io/Kimi-Researcher/

在「人类最后一场考试」(Humanity's Last Exam) 中,Kimi-Researcher 取得了 26.9% 的 Pass@1 成绩,创下最新的 SOTA 水平,Pass@4 准确率也达到了 40.17%。

从初始的 8.6% HLE 分数开始,Kimi-Researcher 几乎完全依靠端到端的强化学习训练将成绩提升至 26.9%,强有力地证明了端到端智能体强化学习在提升 Agent 智能方面的巨大潜力。

Kimi-Researcher 还在多个复杂且极具挑战性的实际基准测试中表现出色。在 xbench (一款旨在将 AI 能力与实际生产力相结合的全新动态、专业对齐套件)上,Kimi-Researcher 在 xbench-DeepSearch 子任务上平均 pass@1 达到了 69% 的分数(4 次运行的平均值),超越了诸如 o3 等带有搜索工具的模型。在多轮搜索推理(如 FRAMES、Seal-0)和事实信息检索(如 SimpleQA)等基准测试中,Kimi-Researcher 同样取得了优异成绩。

举个例子。我们想找一部外国动画电影,但只记得大概剧情:

我想找一部外国的动画电影,讲的是一位公主被许配给一个强大的巫师。我记得她被关在塔里,等着结婚的时机。有一次她偷偷溜进城里,看人们缝纫之类的事情。总之,有一天几位王子从世界各地带来珍贵礼物,她发现其中一位王子为了得到一颗宝珠作为礼物,曾与当地人激烈交战。她指责他是小偷,因为他从他们那儿偷走了圣物。

随后,一个巫师说服国王相信她在撒谎,说她被某种邪灵附体,并承诺要为她“净化”,作为交换条件是娶她为妻。然后巫师用魔法让她变成一个成年女子,并把她带走。他把她关进地牢,但她有一枚可以许三个愿望的戒指。

由于被施了魔法,让她失去了逃跑的意志,她把前两个愿望浪费在了一些愚蠢的东西上,比如一块布或者一张床之类的……然后她好像逃出来了……并且耍了那个巫师一把……她后来还找到了一块可以生出水的石头……我记得还有人被变成青蛙……

整部电影发生在一个有点后末日设定的世界里,是一个古老魔法文明崩塌几百年之后的背景。如果有人知道这是什么电影,请告诉我。我一直在找这部电影,已经找了好久了。

[ 上下滑动查看更多 ]

Kimi-Researcher 就会根据给定的模糊信息进行检索,最终识别出该电影为《阿瑞特公主》,并一一找出该电影与剧情描述之间的对应关系。

此外,它还能进行学术研究、法律与政策分析、临床证据审查、企业财报分析等。

Kimi–Researcher 现已开始逐步向用户推出,可以在 Kimi 内实现对任意主题的深入、全面研究。月之暗面也计划在接下来的几个月内开源 Kimi–Researcher 所依赖的基础预训练模型及其强化学习模型。

端到端的智能体强化学习

Kimi–Researcher 是一个自主的智能体与思维模型,旨在通过多步规划、推理和工具使用来解决复杂问题。它利用了三个主要工具:一个并行的实时内部搜索工具;一个用于交互式网页任务的基于文本的浏览器工具;以及一个用于自动执行代码的编码工具。

传统 agent 开发存在以下几个关键限制:

端到端的智能体强化学习(agentic RL)训练的是一个能够整体性解决问题的单一模型:给定一个查询,智能体会探索大量可能的策略,通过获得正确解答的奖励进行学习,并从整个决策轨迹中总结经验。与监督微调(SFT)不同,端到端方法天然适应长程、基于当前策略的推理过程,并能动态适应工具与环境的变化;也不同于模块化方法,它将规划、感知、工具使用等能力融合在一个模型中统一学习,无需手工编写规则或工作流模板。

OpenAI 的 Deep Research 等先前研究也展示了这种方法的强大性能,但它也带来了新的挑战:

研究方法

Kimi–Researcher 是通过端到端的强化学习进行训练的。研究团队在多个任务领域中观察到了智能体性能的持续提升。图 2-a 展示了 Kimi–Researcher 在强化学习过程中整体训练准确率的变化趋势;图 2-b 则呈现了模型在若干内部数据集上的性能表现。

训练数据

为了解决高质量智能体数据集稀缺的问题,研究团队在训练语料的构建上采取了两种互补的策略。

首先,他们设计了一套具有挑战性的、以工具使用为核心的任务,旨在促进智能体对工具使用的深入学习。这些任务提示被刻意构造为必须调用特定工具才能解决 —— 从而使得简单的策略要么根本无法完成任务,要么效率极低。通过将工具依赖性融入任务设计中,智能体不仅学会了何时调用工具,也学会了在复杂的现实环境中如何高效协同使用多种工具。(图 3 展示了在这些训练数据中,模型对工具的调用频率。)

其次,他们策划并整合了一批以推理为核心的任务,旨在强化智能体的核心认知能力,以及其将推理与工具使用结合的能力。该部分进一步细分为以下两类:

为了大规模构建这一多样化提示集,研究团队开发了一条全自动数据生成与验证流程,可在极少人工干预下生成大量问答对,同时保证数据的多样性与准确性。对于合成任务而言,确保「准确的标准答案(ground truth, GT)」至关重要,因此他们引入了一种强大的 GT 提取方法,以尽可能确保每个问题都配有可靠的答案。

此外,他们还设计了严格的过滤流程,以剔除歧义、不严谨或无效的问答对;其中引入的 Pass@N 检查机制,可确保仅保留具有挑战性的问题。图 4 展示了基于两项实验结果的合成任务效果评估。

强化学习训练

该模型主要采用 REINFORCE 算法进行训练。以下因素有助于提升训练过程的稳定性:

Kimi–Researcher 使用基于最终结果的奖励机制进行训练,以在动态训练环境中保持一致的偏好方向。

为了提升训练效率,研究团队在正确轨迹上引入了 gamma 衰减因子(gamma-decay factor)。该机制鼓励模型寻找更短、更高效的探索路径。例如,两条最终结果相同的正确轨迹,较短的那一条将因其前期行为更高效而获得更高奖励。

上下文管理

在长程研究任务中,智能体的观察上下文可能会迅速膨胀。如果没有有效的记忆管理机制,普通模型在不到 10 次迭代内就可能超过上下文限制。为了解决这一问题,研究团队设计了一套上下文管理机制,使模型能够保留关键信息,同时舍弃无用文档,从而将单条轨迹的迭代次数扩展至 50 次以上。

早期的消融实验表明,引入上下文管理机制的模型迭代次数平均提升了 30%,这使其能够获取更多信息,进而实现更优的任务表现。

大规模智能体RL infra

为应对大规模智能体强化学习在效率与稳定性方面的挑战,研究者构建了一套具备以下关键特性的基础设施体系:

智能体能力的涌现

在端到端强化学习过程中,研究者观察到 Kimi–Researcher 出现了一些值得关注的能力涌现。

更详细的内容,可参阅原文。

© THE END

本文来源:机器之心 (ID:gh_dbc0a5474692),原文标题:《月之暗面「调教」出最强Agent,在「人类最后一场考试」拿下最新 SOTA》

 

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Kimi-Researcher 月之暗面 自主Agent 强化学习 人工智能
相关文章