杨植麟的反击

文 | AI大模型工场，作者｜西梅汁，编辑｜星奈

要谈杨植麟，先问问kimi最新模型k2对创始人的看法。这个来自清华的90后学霸，比梁文锋还要年轻7岁，在过去短短一年把月之暗面推成了中国最被讨论的大模型创业公司。

先是凭Kimi打下“长文本”这块地盘，又在OpenAI开源跳票的真空里迅速把Kimi K2推向舞台中央，硬生生让月之暗面在巨头环伺下稳住牌桌。

而当赛道上同类玩家正逐步退潮、估值收缩、产品低调，杨植麟和他的团队还在选择不断加码，做一场注定艰难的“逆势加速”。有投资人形容这是一种不服输：不服输对巨头碾压的既定结局，也不服输对资本寒冬的叙事框架。

这种“不服输”背后，既是野心，也是焦虑。国内AI大模型淘汰赛进入第二幕，所有人都知道“表演”已经到比拼耐力的阶段，爆款产品、融资公告、榜单排名都不再足够，真正的考题是——谁能留下来。

01 一场关于长文本的自我证明

在几乎每一家AI创业公司的故事里，“差异化”都是高频词，但真能把差异化做到产品上、并被用户感知的公司并不多，Kimi算是其中一个。

从2023年底起，杨植麟就明确提到“我们就把 200 万字上下文列为第一优先级，而不是去卷通用榜单”。当时国内大模型公司还都在鼓吹通用能力，比拼参数规模、推理准确率、任务广度，个个都想做“大而全”的通吃模型。杨植麟似乎看到了另一个机会，在资源有限的前提下，选择一个最明确、最实用、且最容易被用户感知的点作为突破口。这个点就是超长文本处理。

事实证明这一押注初期效果显著。AI产品榜的数据显示，2024年4月Kimi智能助手网页版访问量达到2004万，较上月上涨60.2%，访问量已经超过文心一言，排在国内同类产品的第一位。另外，根据QuestMobile的数据，2024年3月，Kimi智能助手APP的月活跃用户量是589.7万，Kimi智能助手微信小程序月活跃用户已经突破91.1万。

即便到了巨头纷纷下场“卷长文本”的时候，Kimi依然保持了相对稳固的活跃度和用户黏性。更难能可贵的是，这样的成绩并非仅仅靠大规模市场投放砸出来的，而是产品本身在不同专业人群中积累的良好口碑。

QuestMobile《2024 春季大模型 App 数据洞察》显示，在长文本赛道的 4 月集中推广期，Kimi 的 7 日留存率仍保持在 49%，高于行业均值 35%。

在许多用户第一次使用Kimi，就是把几十页的合同或论文扔进去，让AI直接生成摘要或回答细节问题，切实体验到效率提升，这带来了大量自发的好评传播。而杨植麟选择让Kimi围绕“200万字长文本处理”这个能力做文章，既把它当作技术标签，也作为营销抓手。Kimi用一个细分能力赢得了用户的反复使用，从而在巨头环伺的环境中站稳了脚跟。

不止于此，聚焦长文本带来的并非只有用户增长，还有艰难的技术挑战。长上下文窗口一度是大模型领域的热点难题，却被杨植麟团队视为安身立命之本。此前杨植麟就公开表述：“通往 AGI，无损的长上下文将会是一个很关键的基础技术”，并称“上下文长度可能存在摩尔定律，但需要同时优化长度和无损压缩水平两个指标，才是有意义的规模化” ，不难看出他对长文本技术路线的笃定信念。

去年3月，月之暗面宣布在大模型上下文窗口技术上取得突破，Kimi智能助手的上下文长度从此前的20万字直接提升到了惊人的200万字，并开启了产品内测。不到半年时间里，上下文长度提升了一个数量级，增幅达10倍。如此极端的升级并非通过简单堆砌实现。

月之暗面团队透露，为了实现更高效的长窗口“无损”压缩，他们从模型预训练、对齐到推理阶段都进行了底层重构改进，不走“滑动窗口”“降采样”等捷径，攻克了大量底层难题。换言之，Kimi选择了用最扎实的办法来扩展模型记忆，而不是通过舍弃部分信息来换取长度。

但长文本也不是一劳永逸的。到了2024年4月，百度、阿里、360都宣布支持百万级甚至千级万级字的上下文处理。不同的是，巨头普遍采用RAG方案，而Kimi坚持“无损上下文”。这一差异对用户感知可能模糊，但对Kimi而言，是其“原生技术能力”的自我证明与品牌区隔的核心。更多像是证明他们不是跟风，而是在这个赛道里有原生积累。

02 敏锐时机下的反击

而在7月这个节点上，时间点似乎不早也不晚，刚好踩在了一个“技术窗口”与“行业空挡”之间，发布了最新一代模型Kimi K2，并同步开源。

K2 的出现并不只是一次常规版本迭代，在模型发布的当天，团队不仅上线了完整模型，还同步放出基础版和指令微调版两个权重，宣称在多个智能体任务与推理基准上达到了开源 SOTA 水平。

公开数据显示，Kimi K2 是一款采用 MoE 架构的万亿参数模型（总参数 1T，激活参数 32B），主打更强的代码能力和更高效的 Agent 任务执行能力。在 SWE-bench Verified、Tau2、AceBench 等多个国际主流评测基准中，K2 均取得领先成绩。

值得注意的还有，K2 的权重一经开源，在 GitHub 社区以及外网获得了快速关注，包括Perplexity CEO还在社交媒体表示，基于Kimi K2模型的良好表现，公司后续可能会利用K2进行后训练，此前DeepSeek R1也被Perplexity用于模型训练。

不容忽视的是，现在大模型行业竞争依然激烈，技术型创业公司要么做大成巨头，要么被巨头收购吸纳，中间道路很难长久维系。眼下，杨植麟似乎无意过早倒向任何一方巨头阵营，尽管阿里腾讯都是股东，但月之暗面保持着相对独立运营。

同时，可以看到在今年，模型研发的技术栈已经发生剧烈变化。MoE、长上下文窗口、深度推理能力，成为竞赛的核心关键词。Kimi K2的万亿参数和MoE架构，是在DeepSeek、MiniMax接连投入之后，创业公司“二次竞赛”的标配。

但MoE本身也有代价，训练成本更高，调优周期更长，硬件依赖更强。MiniMax此前曾在MoE调优上踩坑，导致模型迭代滞后，而 DeepSeek R1 在发布后，在数学推理、代码生成等任务上表现又优于 MiniMax 早期模型，使得被其超越。

正是在此基础上，K2采用轻量化注意力设计、提升专家调度效率，并搭配MuonClip优化器完成训练阶段的稳定收敛，优化了Token利用效率，在参数规模与成本之间找到了相对平衡。

值得注意的是，Kimi K2 与 DeepSeek V3 的架构高度相似，区别则在于：“注意力头数量更少、专家数量更多。”

一个创业团队用一个细分能力突围，再用一次敏锐的时间点放大优势，然后用不断迭代的产品去证明，这不是短暂的运气，而是一个可持续的技术路线。当然，留给他们的时间并不多。未来，巨头的补齐、资本的问询、用户的流失，每一个变量都可能重新洗牌。

03 变量未止

无论是模型在国际基准测试中的领先表现，还是开源后的社区反馈与调用量增长，都在证明月之暗面依然具备在关键阶段打出“重锤级产品”的能力。

但这并不代表没有变量。

首先，是算力压力与响应效率。K2上线初期，就有用户反映API响应延迟、服务卡顿等问题。据官方回应，归因于访问量激增与模型体积庞大，正通过扩容GPU集群、优化推理效率缓解。但这仍是决定其To B服务能否成立的基础条件。

其次，是商业模式的不确定性。与MiniMax主推应用订阅、DeepSeek构建工具链生态不同，月之暗面尚未在To C或To B端建立稳定、可持续的商业通路。当前围绕Kimi产品构建的付费转化机制仍较薄弱，API虽然开放，但计费模式（输入4元/百万tokens、输出16元/百万tokens）仅为初步定价，未明确长期合作机制。

第三，是长期研发与团队能力上的考验。当智能体、RAG、多模态成为竞赛新主题，接下来的每一步都意味着更高的人力成本与时间投入。

但至少到今天，Kimi依然是那个“最不服输”的玩家。“AGI容不得一起分心和犹豫，坚持追求未必成功，但犹豫一定会失败。”月之暗面团队成员熊狸的这句话，或许正是杨植麟的技术信仰宣言。

杨植麟不常接受采访，但在其他场合的报道中，似乎可以概括出kimi的三个词：延续性、工程化、用户信任。

这三个词或许可以构成一种独特的节奏。不同于多数AI创业公司在资本寒潮下主动降速、聚焦商业回款，Kimi选择用新模型、新能力、新结构来回答外界的疑问，他们仍在跑，而且跑得不慢。

在 Web 端 AI 产品中，Kimi在经历连续数月的流量低谷后，于6月强势反弹，访问量环比增长 30%，显示其在用户体验或内容机制上或已有积极调整，重新激活用户兴趣。

但这并不意味着没有压力。从算力成本到用户转化，从社区维护到商业收入，创业公司面临的问题从来都不只是“模型好不好”，而是“能不能长期维持竞争状态”。

Kimi尚未给出全部答案。但从长文本的起步，到K2的开源节奏，再到多模态能力的潜伏测试，这家公司或许正在构建出一套具有一致性的技术路径。

这或许不一定能赢得最后的结果，但至少能确保他们不那么容易被忽视。

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体App

01 一场关于长文本的自我证明

02 敏锐时机下的反击

03 变量未止

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签