钛媒体:引领未来商业与生活新知 14小时前
杨植麟的反击
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

月之暗面创始人杨植麟凭借Kimi模型在中国大模型领域异军突起。Kimi以200万字超长文本处理能力成功打造差异化优势,在用户增长和留存率上表现亮眼。近期发布的Kimi K2模型,采用万亿参数MoE架构,并在多个国际基准测试中取得领先,同时选择开源以快速获取社区反馈和应用。尽管面临算力、商业模式和长期研发的挑战,Kimi团队展现出“不服输”的精神,坚持技术路线,在行业巨头竞争中寻求可持续发展之路,力求在AI大模型淘汰赛中占据一席之地。

🚀 **长文本差异化战略的成功实践**:Kimi模型将200万字超长文本处理作为核心突破口,区别于当时多数公司追求“大而全”的通用能力。这一策略使得Kimi在用户增长和留存率上表现突出,网页版访问量和APP月活跃用户量均位居同类产品前列,尤其在专业人群中建立了良好的口碑,证明了聚焦细分赛道的有效性。

💡 **Kimi K2模型的技术迭代与开源策略**:最新发布的Kimi K2模型采用万亿参数MoE架构,显著提升了代码能力和Agent任务执行效率,并在多个国际权威基准测试中达到SOTA水平。选择同步开源模型权重,不仅吸引了社区的广泛关注,也为后续的后训练和应用奠定了基础,是月之暗面在激烈竞争中寻求快速发展的关键一步。

💪 **“不服输”精神驱动下的逆势加速**:面对AI大模型行业的“寒冬”叙事和巨头竞争,月之暗面选择“逆势加速”,坚持技术投入和产品迭代。这种“不服输”的态度体现在不畏惧巨头碾压,也不被资本寒冬的框架所束缚,而是通过持续加码技术研发,力求在激烈的淘汰赛中证明自身实力,争取留下来。

⚖️ **平衡成本与性能的工程化挑战**:Kimi K2模型在技术实现上,例如MoE架构和长上下文窗口的“无损”扩展,都面临着高昂的训练成本和复杂的工程化难题。月之暗面通过轻量化注意力设计、专家调度效率优化等方式,在参数规模与成本之间寻求平衡,同时努力缓解API响应延迟等问题,以确保服务的稳定性和可扩展性。

❓ **商业模式与长期发展的变量**:尽管Kimi在技术上取得显著进展,但其商业模式仍处于探索阶段,缺乏稳定、可持续的To C或To B变现通路。此外,算力成本、用户转化、社区维护以及未来在智能体、RAG、多模态等新主题上的研发投入,都是决定其能否长期维持竞争状态的关键变量,需要持续的投入和优化。

文 | AI大模型工场,作者|西梅汁,编辑|星奈

要谈杨植麟,先问问kimi最新模型k2对创始人的看法。这个来自清华的90后学霸,比梁文锋还要年轻7岁,在过去短短一年把月之暗面推成了中国最被讨论的大模型创业公司。

先是凭Kimi打下“长文本”这块地盘,又在OpenAI开源跳票的真空里迅速把Kimi K2推向舞台中央,硬生生让月之暗面在巨头环伺下稳住牌桌。

而当赛道上同类玩家正逐步退潮、估值收缩、产品低调,杨植麟和他的团队还在选择不断加码,做一场注定艰难的“逆势加速”。有投资人形容这是一种不服输:不服输对巨头碾压的既定结局,也不服输对资本寒冬的叙事框架。

这种“不服输”背后,既是野心,也是焦虑。国内AI大模型淘汰赛进入第二幕,所有人都知道“表演”已经到比拼耐力的阶段,爆款产品、融资公告、榜单排名都不再足够,真正的考题是——谁能留下来。

01 一场关于长文本的自我证明

在几乎每一家AI创业公司的故事里,“差异化”都是高频词,但真能把差异化做到产品上、并被用户感知的公司并不多,Kimi算是其中一个。

从2023年底起,杨植麟就明确提到“我们就把 200 万字上下文列为第一优先级,而不是去卷通用榜单”。当时国内大模型公司还都在鼓吹通用能力,比拼参数规模、推理准确率、任务广度,个个都想做“大而全”的通吃模型。杨植麟似乎看到了另一个机会,在资源有限的前提下,选择一个最明确、最实用、且最容易被用户感知的点作为突破口。这个点就是超长文本处理。

事实证明这一押注初期效果显著。AI产品榜的数据显示,2024年4月Kimi智能助手网页版访问量达到2004万,较上月上涨60.2%,访问量已经超过文心一言,排在国内同类产品的第一位。另外,根据QuestMobile的数据,2024年3月,Kimi智能助手APP的月活跃用户量是589.7万,Kimi智能助手微信小程序月活跃用户已经突破91.1万。

即便到了巨头纷纷下场“卷长文本”的时候,Kimi依然保持了相对稳固的活跃度和用户黏性。更难能可贵的是,这样的成绩并非仅仅靠大规模市场投放砸出来的,而是产品本身在不同专业人群中积累的良好口碑。

QuestMobile《2024 春季大模型 App 数据洞察》显示,在长文本赛道的 4 月集中推广期,Kimi 的 7 日留存率仍保持在 49%,高于行业均值 35%。

在许多用户第一次使用Kimi,就是把几十页的合同或论文扔进去,让AI直接生成摘要或回答细节问题,切实体验到效率提升,这带来了大量自发的好评传播。而杨植麟选择让Kimi围绕“200万字长文本处理”这个能力做文章,既把它当作技术标签,也作为营销抓手。Kimi用一个细分能力赢得了用户的反复使用,从而在巨头环伺的环境中站稳了脚跟。

不止于此,聚焦长文本带来的并非只有用户增长,还有艰难的技术挑战。长上下文窗口一度是大模型领域的热点难题,却被杨植麟团队视为安身立命之本。此前杨植麟就公开表述:“通往 AGI,无损的长上下文将会是一个很关键的基础技术”,并称“上下文长度可能存在摩尔定律,但需要同时优化长度和无损压缩水平两个指标,才是有意义的规模化” ,不难看出他对长文本技术路线的笃定信念。

去年3月,月之暗面宣布在大模型上下文窗口技术上取得突破,Kimi智能助手的上下文长度从此前的20万字直接提升到了惊人的200万字,并开启了产品内测。不到半年时间里,上下文长度提升了一个数量级,增幅达10倍。如此极端的升级并非通过简单堆砌实现。

月之暗面团队透露,为了实现更高效的长窗口“无损”压缩,他们从模型预训练、对齐到推理阶段都进行了底层重构改进,不走“滑动窗口”“降采样”等捷径,攻克了大量底层难题。换言之,Kimi选择了用最扎实的办法来扩展模型记忆,而不是通过舍弃部分信息来换取长度。

但长文本也不是一劳永逸的。到了2024年4月,百度、阿里、360都宣布支持百万级甚至千级万级字的上下文处理。不同的是,巨头普遍采用RAG方案,而Kimi坚持“无损上下文”。这一差异对用户感知可能模糊,但对Kimi而言,是其“原生技术能力”的自我证明与品牌区隔的核心。更多像是证明他们不是跟风,而是在这个赛道里有原生积累。

02 敏锐时机下的反击

而在7月这个节点上,时间点似乎不早也不晚,刚好踩在了一个“技术窗口”与“行业空挡”之间,发布了最新一代模型Kimi K2,并同步开源。

K2 的出现并不只是一次常规版本迭代,在模型发布的当天,团队不仅上线了完整模型,还同步放出基础版和指令微调版两个权重,宣称在多个智能体任务与推理基准上达到了开源 SOTA 水平。

公开数据显示,Kimi K2 是一款采用 MoE 架构的万亿参数模型(总参数 1T,激活参数 32B),主打更强的代码能力和更高效的 Agent 任务执行能力。在 SWE-bench Verified、Tau2、AceBench 等多个国际主流评测基准中,K2 均取得领先成绩。

值得注意的还有,K2 的权重一经开源,在 GitHub 社区以及外网获得了快速关注,包括Perplexity CEO还在社交媒体表示,基于Kimi K2模型的良好表现,公司后续可能会利用K2进行后训练,此前DeepSeek R1也被Perplexity用于模型训练。

不容忽视的是,现在大模型行业竞争依然激烈,技术型创业公司要么做大成巨头,要么被巨头收购吸纳,中间道路很难长久维系。眼下,杨植麟似乎无意过早倒向任何一方巨头阵营,尽管阿里腾讯都是股东,但月之暗面保持着相对独立运营。

同时,可以看到在今年,模型研发的技术栈已经发生剧烈变化。MoE、长上下文窗口、深度推理能力,成为竞赛的核心关键词。Kimi K2的万亿参数和MoE架构,是在DeepSeek、MiniMax接连投入之后,创业公司“二次竞赛”的标配。

但MoE本身也有代价,训练成本更高,调优周期更长,硬件依赖更强。MiniMax此前曾在MoE调优上踩坑,导致模型迭代滞后,而 DeepSeek R1 在发布后,在数学推理、代码生成等任务上表现又优于 MiniMax 早期模型,使得被其超越。

正是在此基础上,K2采用轻量化注意力设计、提升专家调度效率,并搭配MuonClip优化器完成训练阶段的稳定收敛,优化了Token利用效率,在参数规模与成本之间找到了相对平衡。

值得注意的是,Kimi K2 与 DeepSeek V3 的架构高度相似,区别则在于:“注意力头数量更少、专家数量更多。”

一个创业团队用一个细分能力突围,再用一次敏锐的时间点放大优势,然后用不断迭代的产品去证明,这不是短暂的运气,而是一个可持续的技术路线。当然,留给他们的时间并不多。未来,巨头的补齐、资本的问询、用户的流失,每一个变量都可能重新洗牌。

03 变量未止

无论是模型在国际基准测试中的领先表现,还是开源后的社区反馈与调用量增长,都在证明月之暗面依然具备在关键阶段打出“重锤级产品”的能力。

但这并不代表没有变量。

首先,是算力压力与响应效率。K2上线初期,就有用户反映API响应延迟、服务卡顿等问题。据官方回应,归因于访问量激增与模型体积庞大,正通过扩容GPU集群、优化推理效率缓解。但这仍是决定其To B服务能否成立的基础条件。

其次,是商业模式的不确定性。与MiniMax主推应用订阅、DeepSeek构建工具链生态不同,月之暗面尚未在To C或To B端建立稳定、可持续的商业通路。当前围绕Kimi产品构建的付费转化机制仍较薄弱,API虽然开放,但计费模式(输入4元/百万tokens、输出16元/百万tokens)仅为初步定价,未明确长期合作机制。

第三,是长期研发与团队能力上的考验。当智能体、RAG、多模态成为竞赛新主题,接下来的每一步都意味着更高的人力成本与时间投入。

但至少到今天,Kimi依然是那个“最不服输”的玩家。“AGI容不得一起分心和犹豫,坚持追求未必成功,但犹豫一定会失败。”月之暗面团队成员熊狸的这句话,或许正是杨植麟的技术信仰宣言。

杨植麟不常接受采访,但在其他场合的报道中,似乎可以概括出kimi的三个词:延续性、工程化、用户信任。

这三个词或许可以构成一种独特的节奏。不同于多数AI创业公司在资本寒潮下主动降速、聚焦商业回款,Kimi选择用新模型、新能力、新结构来回答外界的疑问,他们仍在跑,而且跑得不慢。

在 Web 端 AI 产品中,Kimi在经历连续数月的流量低谷后,于6月强势反弹,访问量环比增长 30%,显示其在用户体验或内容机制上或已有积极调整,重新激活用户兴趣。

但这并不意味着没有压力。从算力成本到用户转化,从社区维护到商业收入,创业公司面临的问题从来都不只是“模型好不好”,而是“能不能长期维持竞争状态”。

Kimi尚未给出全部答案。但从长文本的起步,到K2的开源节奏,再到多模态能力的潜伏测试,这家公司或许正在构建出一套具有一致性的技术路径。

这或许不一定能赢得最后的结果,但至少能确保他们不那么容易被忽视。

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Kimi 月之暗面 大模型 长文本 AI开源
相关文章