Kimi智能助手 2024-11-17 23:09 北京
2024年10月活跃用户超过 3600 万
「宇宙这本书是用数学语言写成的,除非你首先学懂了它的语言,否则这本书是无法读懂的。」
伽利略·伽利莱
一年前,也是在11月中旬,Kimi 正式开放注册。那时候还只有网站 Kimi.ai,没有手机上的「Kimi 智能助手」APP。随后的一年时间,AI 以前所未有的速度普及。每月使用 Kimi 的用户,从几万增长到几千万,几乎增长了惊人的 1000 倍。
在这个过程中,大家的认知也在不断刷新,甚至有时需要180度大转弯。比如上半年 AI 还不怎么擅长数学,下半年已经可以拿到奥赛银牌的成绩,可以助攻顶尖数学家破解难题……智能的边界正在不断拓展。
今天,给大家介绍 Kimi 在强化学习技术上的两项新进展:趋近OpenAI o1系列水平的新一代数学推理模型 k0-math,以及引入搜索意图增强、信源分析和链式思考三大推理能力的全新 Kimi 探索版。
k0-math数学能力对标OpenAI o1系列
k0-math 是 Kimi 推出的首款推理能力强化模型,采用了全新的强化学习和思维链推理技术,通过模拟人脑的思考和反思过程,大幅提升了解决数学难题的能力,可以帮助用户完成更具挑战性的数学任务 。
先来看看 k0-math 的能力表现。在多项数学基准能力测试中,k0-math 的表现能对标 OpenAI o1 系列可公开使用的两个模型:o1-mini和o1-preview。在中考、高考、考研以及包含入门竞赛题的MATH等 4 个数学基准测试中,k0-math 初代模型成绩超过o1-mini和o1-preview模型。
在业界最常使用的数学能力基准测试 MATH 中,k0-math 模型得分 93.8,超过 o1-mini 的 90 分和 o1-preview 的 85.5 分。k0-math 这一成绩仅次于暂未开放使用的 o1 完全版 94.8 分。
在两个难度更大的竞赛级别的数学题库 OMNI-MATH 和 AIME 基准测试中,k0-math 初代模型的表现分别达到了 o1-mini 最高成绩的 90% 和 83%。接下来,k0-math 模型会持续迭代,提升更难题目的解题能力,挑战数学模型的能力极限。
常规模型的设定目标是尽快提供问题的答案。与之不同,在做题过程中,k0-math 模型会花更长的时间来推理,包括思考和规划思路,并且在必要时自行反思改进解题思路,提升答题的成功率。我们先来做一道普通高数题,让 k0-math 热热身:
k0-math 的解题思考过程,常常会让数学高手也受到启发。以下面这道AIME 竞赛题目为例,k0-math 模型通过不断探索和试错,经历了八九次失败,意识到自己之前用了过于复杂的方法,最终得出了正确结果。
(上下滑动查看完整探索和推理过程)
不过,需要注意的是,k0-math 模型虽然擅长解答大部分很有难度的数学题,但是当前版本还无法解答 LaTeX 格式难以描述的几何图形类问题。
此外,它还有一些局限性需要突破,包括对于过于简单的数学问题,例如1+1等于几,k0-math模型可能会过度思考;对于高考难题和IMO题目依然有一定概率做错、猜答案;需要更好的泛化,才能在更多学科的场景中落地使用。
这些局限性既是机遇,也是挑战,预计将在下一阶段的模型迭代中逐步得到改善。
Kimi搜索再进化:意图增强、信源分析和链式思考
新的强化学习技术范式带来的推理能力提升,也将会泛化到更多日常任务上。10月中旬上线的 Kimi 探索版,将推理能力运用到 AI 搜索任务上,通过模拟人类的推理思考过程,多级分解复杂问题,执行深度搜索,并即时反思改进结果,帮助用户更高效地完成复杂的搜索调研任务。
Kimi 探索版的搜索量是普通版的 10 倍,一次搜索即可精读超过 500 个页面。在信息调研和分析场景的真实长难搜索问题测试中,Kimi 探索版回答准确性和完整性具备全面优势,综合性能超过同类产品至少 30%。Kimi 探索版发布后,受到了程序员、科学家、咨询顾问、投资人、律师等专业人群的喜爱。
最近,Kimi 探索版运用强化学习技术创新搜索体验,在三大推理能力上实现突破:意图增强、信源分析和链式思考。
意图增强:Kimi 探索版可以将抽象的问题和模糊的概念具体化,拓展用户的真实搜索意图。
例如,当互联网产品经理调研某产品的用户忠诚度,Kimi 探索版会思考当用户搜索“忠诚度”时,本质上是想做数据的分析,然后找到可以体现忠诚度的维度,将这个比较模糊和抽象的概念,转化为更加具体的“活跃度、留存率、使用频率、使用时长”等关键词,然后通过机器更擅长的海量并行搜索,查找更全面和准确的答案。
信源分析:Kimi 探索版会从大量的搜索来源结果中,分析筛选出更具权威性和可靠性的信源,并且在答案中提供溯源链接,可一键定位信源具体出处,精确到段落级别,让每条信息都有据可查。
例如,科研人员查找最新的学术前沿消息,Kimi探索版会优先查找最新的学术期刊内容;咨询顾问调查人群市场规模的场景,借助 Kimi 探索版查找中国不同年龄的人口占比情况时,Kimi 会筛选最权威和最新的人口普查报告信息。
链式思考:Kimi 探索版可以更好地基于思维链推理能力处理产品、公司、行业等研究问题。
例如,当程序员做技术选型,想要了解“react中有哪些状态管理库,最好用的是什么”。Kimi 首先会准确地拆解问题,找到常用的react状态管理库有哪些,然后分别搜索每个状态管理库的优缺点、使用场景和推荐理由,最后分析总结找到的所有高质量信息,给出在不同场景最适合的状态管理库推荐。
与用户共创智能,扩展智能边界
当前 AI 领域正在经历新一轮技术范式的变化。基于强化学习、合成数据和思维链的新技术,可以解决高质量数据缺乏的问题,将提升 AI 在各个领域和场景的推理能力和智能水平上限。当 AI 拥有更强大的推理能力,不仅意味着在编码、搜索等用户更日常的任务上,将会帮助每个用户解锁更多有挑战性的工作任务,而且在数学、物理、生物、化学等基础科学领域,很多尚未被解决的难题都有机会迎来破解的机会。
接下来,k0-math 数学模型和更强大的 Kimi 探索版,将会分批陆续上线 Kimi 网页版(kimi.ai)和Kimi智能助手APP,帮助用户解决更有挑战的数学和搜索调研类任务。
最新数据显示,2024年10月 Kimi 在PC网页、手机APP、小程序等全平台的月度活跃用户已超过 3600 万。在我们看来,除了技术的不断变革,通往 AGI 的过程也是 Kimi 与用户通过产品共创的过程。我们把 Kimi 产品当成一个强化学习的环境,新一代模型会在这个环境里跟用户交互,让技术、产品和用户体验都能持续变得更好。期待与更多用户共创智能。
对了,你是2024年10月份与 Kimi 互动过的 1/36000000 吗?在用 Kimi 做什么?