AIGCode宿文：我们就是要自训练大模型，直接做「L5」| AI产品十人谈

原创梁丙鉴 2025-05-16 18:00 广东

Coding 是培育大模型最好的场景。

作者丨梁丙鉴

编辑丨马晓宁

为甲方提供标准的产品，在使用过程中不断迭代，如此循环往复，是软件行业一种看起来可行的商业模式。但一项功能的迭代动辄两三个月，随着各种长尾的、定制化的需求不断提出，代码供给速度最终会成为飞轮上一把甩不掉的锁。怎么砸开这把锁，两年前，这个问题成为了宿文的心病。

上世纪 80 年代，以提升代码供给效率为目标的低代码和零代码概念出现，可以说自从有 IT 产业以来，就有了取代程序员的诉求。宿文不是第一个这么想的人，不同的是，这一次大模型来了。

人力是造成代码供给效率、成本和质量不可能三角的源头，但如果代之以算力，就有可能兼顾多快好省。“我们的终极目标，就是在二进制的世界里做代码供给的 Infra。"宿文称。大模型让他看到了 Autopilot 的希望，决定把这件上一代没完成的历史使命，接到 AIGCode 的手中。

产品之下，潜藏着宿文对于商业和技术闭环的思考。Coding 有着相对短平快的商业闭环，代码数据又是高质量的训练样本，在 Coding 的场景下训练自己的大模型，走向 AGI，然后让用户像 3D 打印那样随用随取自己的 Personal App，这个故事的难度吓走了不少投资人。

宿文相信 Autocoding 就是 AGI。

这家成立于 2024 年初的公司，刚刚训练出了一个 66B 的基础模型，并基于该模型提供 AI Coding 产品。2024 年 7 月 5 日，其自训练的锡月大模型正式发布。同年 11 月，AIGCode 开启了全球代码生成领域首个 LLM-native "autopilot" 自动编程产品 AutoCoder 的内测，该产品旨在帮助“产品经理”在零代码条件下实现创意。

要自己去做大模型的预训练，他也必然面临这些问题：技术上能否实现？训练成本怎么解决？以及最重要的，会不会被 ChatGPT、Claude、 DeepSeek 这样的通用大模型碾压？

宿文的回答很直接，也很诚恳。他不是什么产品天才，但是他坚信，AI 时代产品的迭代不再是简单地优化一下功能和 UI，AI产品最终比拼的还是谁的“大脑”更聪明。

以下是 AI 科技评论与宿文的对话全文，为方便阅读，进行了不改变原意的文字调整。

Coding就是实现 AGI 的最佳场景

AI 科技评论：你之前做过程序员吗？为什么想要做 AI Coding 类型的产品？

宿文：我没有做过程序员，但是我工科背景出身，学的就是工业信息化，在清华读到博士，毕业后我在华创资本做了三年投资人，之后独立创业，做了一家 SaaS 公司，帮助制造业企业实现数字化转型。

想做 AI Coding 类型的产品，起因是我在上一段创业的时候，发现了一个很难解的现象。作为一家 2B 的公司，我们为甲方工厂提供了很标准的 SaaS 产品，我们的原意是，他们可以在标准产品的基础上去做迭代和场景化适配。但在实际工作过程中，我发现，这是个一厢情愿的想法。

B 端的工厂也好，公司也好，他们有个性化的、长尾的、定制的、不断迭代的需求，我们就要给他们不断地提供交付服务，他们提出一个功能的需求，改几周算少的，两三个月都很正常，那改还是不改？不改，你失去这个客户了，改了，你花的时间成本、人力成本怎么算？怎么在成本压力下保证代码质量？

那时我就在想，有什么样的办法让产品迭代变得又快又好？之前很难，大模型出现之后，我觉得，AI才是解决代码供给不足最好的办法。

AI 科技评论：创业的想法是什么时候有的？

宿文：23 年下半年这个想法大体上就定型了。24年1月底我与我们的 CTO 陈秋武共同创办了 AIGCode。那几个月我想清楚了，我们这次要做的事情，本质就是找一个场景去做大模型。

AI科技评论：我一直以为，AIGCode是一家AI Coding的公司。难道你们是一家大模型公司吗？

宿文：我们的确是一家 AI Coding 的公司，做大模型是我们通往 AGI 的必经之路。

首先是在这次创业的思考中，我的第一个落足点在于，什么样的场景可以通往 AGI。在我看来，陪伴聊天一定不是，聊天的语料数据，基本上对于提升模型智力没有帮助。那个场景能沉淀下来啥？

我也考察过其他的场景，法律、税务、游戏、营销，那个时间点上，大模型太热了，各个行业都要垂直大模型，我们看到的是，不论是行业语料也好，还是成熟度也好，都远远达不到我内心中对于实现 AGI 的条件。你要知道，那时候还在 16 个月之前，当时的产品成熟度比现在差多了，国内用户是很难接受的，商业上根本无法闭环。

最后我们回归到代码上。从技术上来说，代码是一个高质量的样本，也是最主要的合成数据，从商业上来说，它也能实现短平快的闭环。程序员用户的优点是专业能力强，接受工具的开放度高。Cursor 为什么能起来？程序员可能觉得现在的补齐率很低、采纳率很低，但是他们还是会用，这就会形成一个比较健康的商业模式。

所以我们选择了代码，通过代码来做大模型。但是我们现在并不追求泛化能力的变现，那是后半程才会去做的事情。

AI 科技评论：国外的 Coding公司里你最喜欢哪家？

宿文：Cursor，他们对整个赛道的布局和判断基本上跟大模型是同步的。Cursor 不是跟随者，在判断有 GitHub Copilot 的情况下，既能坚定地先改一套 IDE，还有自己的创新点，并且迭代速度快到能在大厂的车轮前抢钱，随后又很快地意识到没有自己的模型不行，开始碰模型这件事儿。我觉得 Cursor 在代码补齐这个赛道上目前的思路还挺清晰的。

AI 科技评论：你们创业有受到Cursor的影响吗？

宿文：有研究和参考，Cursor给我们最重要的一个启示，就是不要做他们那个方向。

原因很简单，首先 Cursor 服务于程序员，这就不是一个特别好服务的用户群体。其次程序员一定会选择全球最好的一款 Copilot 类产品，我们跟在 Cursor 后面，一定是晚的。另外更关键的问题是，Copilot 类产品最终要跟 IDE 打交道，未来怎么跟生态位上最大的公司微软 PK，我一直没想明白。我觉得初创公司与其解决这个问题，不如自己训练大模型。

Poolside 和 Magic 两家公司在没有发布任何产品的情况下，估值就达到了 30 亿美金。Cursor 现在有很漂亮的 ARR 收入，但是之前估值都比 Poolside 低，一个很重要的原因就是它没模型。硅谷的定价逻辑是为技术壁垒付费，做模型的公司估值就高。但话说回来，大模型这个事本身有壁垒，你做的有没有壁垒是另外一回事。”

复刻一个代码补齐的产品，从生态到技术上都不太对。我们走的是一条更激进，或者说终结的道路。我们不做 Copilot，做Autopilot。

AI 科技评论：不做Copilot，做Autopilot，这是有什么原因吗？

宿文：Autopilot其实应该说是几代人的梦想了。上世纪 80 年代 IT 产业爆发的时候，就有了低代码和零代码概念，因为程序员贵，写代码慢啊。可以说是自从有了程序员，我们就想把“程序员”这个职业给干掉。那一代没有把代码供给的历史使命完成，我们可以用大模型继续做这件事。

只要有人参与到写代码的事情中，就不可能做到多快好省。只有完全交给模型和算力，才能实现我们的终极目标：在二进制的世界里做代码供给。

AI 科技评论：既然已经有了终极目标，那你们的短期、中期和长期目标分别是什么？

宿文：短期目标以今年年底为节点，从用户流量和收入层面，验证 AutoCoder 这个“端到端的、能够替代掉程序员的”产品的PMF。相较于自动驾驶，Coding autopilot 的好处是没有任何安全法规的卡点，可以直接通过商业化进行迭代。其实 AutoCoder 四月已经在国内上线内测了，我们没有做大规模推广，目前通过口碑裂变有三百多个“产品经理”用户在帮助我们打磨产品，给我们提供了上百条有效建议和 idea。我们计划本月上线美国市场，最初两个月的目标会是寻找死忠用户继续迭代产品。从今年 Q3 开始，增长和商业化数据才会成为运营团队的 OKR。

中期目标是打通软件的生态。软件已经是存量市场，众多软件沉淀下来的数据要供 Agent 调用，Agent 的底层是代码供给，而大模型第一天生成出来的东西就是代码承接。有时候大家在想大模型的 OS 是什么，其实就是能提供一整个生态的东西，这里的桥接点应该是一个有全链路能力的代码生成。

长期目标是实现AGI。我认为以任何形式，能够彻底实现Autocoding的，就是AGI。

短期先活下去，中期从今年年底开始算，用两年左右的时间把生态位打通，再往后可能需要三五年的时间实现 AGI。

直接干 L5，做一件反共识的事情

AI 科技评论：现在的产品思路是什么时候确定的？

宿文：产品思路从创业第一天就是确定的，我现在还能翻出 23 年 11 月我们 CTO 做的大红色 PPT。只是在操作的过程中，我们试探过很多产品形态和技术方案，中间砍掉了很多不合理的版本。

我们内部大概去年七八月份也做出了类似于 Lovable 的产品，认为它完全基于模型的能力，在这一点上我们比不过。如果当时停下来做补齐类产品的运营和迭代，这就完全变成了算 ROI 的生意，身后始终有一个东西追赶，会是很难受的状态。另外从整个工程来说，它靠大模型从头到尾写源代码，是没有任何工程的美感，解决不了严肃的工具问题。

AI 科技评论：这个产品是第几个版本了？

宿文：第三个。其实目前还有两个方案在并行。因为团队成员很多都是 95 后，很年轻有想法，而且都是市面上没见过的方案，没到最后是验证不出来的，我们内部对这种创新型的方案是大力支持的。两个方案首先都要保证端到端，都是完整的 Autopilot 产品，剩下就是比拼灵活性，能不能实现各种复杂的问题。

这两个方案有很多可以共存的部分，需求人群的定位也比较趋同，但核心区别是底层架构的引擎。我感觉有点像是在设计一个预制菜工厂，要卖的食物到底是葱花级别的，还是我把所有东西都做好装袋子里，用开水热一下就能吃，现在不知道什么方案的效率最高。架构是推演不出来的，或者推演出来最完美的那个架构实现成本太高。

AI 科技评论：那大厂会不会也去做Autocoding？

宿文：会想，但能不能实现是另外一回事。Autocoding 产品跟模型紧耦合，模型要做很多优化才能实现，但大厂的模型团队背的是补齐率指标，而不是这个 autopilot 产品优化所需要的稀疏样本和特有样本，不会支持内部其他团队做这件事。我们在 Autocoding 上投入了 16 个月，大厂即使用资源优势缩短一半时间，8 个月也足以拖垮一个团队的 OKR。

大厂有点能力的模型都能自然而然“长”出一个Copilot，但做Autopilot会有不一样的训练要求，需要时间去做真正的创新。大厂的生态不会有几万程序员等着，一定要用这个产品才能保障业务安全，因此不存在战略上的诉求。所以即使大厂有做 Autopilot 的想法，出于战略和组织效率的考虑，会不会 all in 充足的资源下场尚有待观察，

AI 科技评论：你觉得Cursor会做吗？

宿文：大家的目标都是做 Autopilot。有人选择从 L2 奔向 L5，有人觉得从 L2 跑不到 L5，直接做 L5。我们就是直接干 L5 的人，所有的技术都是为 L5 做储备。（L1-L5 的概念来源于自动驾驶行业，在 AI 编程中，L1 是代码补全，L2 是任务自动化，L3 是项目自动化，L4 是 AI 软件工程师，L5 是 AI 开发团队。编者注）

AI 科技评论：在你的设想中，L5会是一个什么样的场景？

宿文：代码里有几乎所有的业务逻辑，那个时候的商业化场景就是 Personal App。App就会变成用后即焚的软件，生成一个只用一次就可以了。用户有需要的时候就像3D打印那样定制一个，不需要安装很多软件。

AI 科技评论：你怎么说服别人相信你们的PMF？

宿文：没法说服，要靠做。我就面对过投资人和行业交流遇到的友商，他们会直接说你们的产品做不出来。目前的模型能力，要么写一段代码补齐，要么只写前端的代码，你们要把数据库、后端和前端一起做，做不出来。但好在我们内部的小链路即使存在不少bug，存在各种延迟，解决核心问题是大差不差的。

Lovable这类产品其实相当于在一个完整的软件工程中，最多完成了20％的工作量。剩下的 80％该不该解决？该。能不能解决？我们去解决。你说不行，那我们最终只能把产品推出来。

AI 科技评论：那你第一步准备去哪找死忠用户？

宿文：Autopilot 的需求在整个用户群里，只要在任何一个社区里面发一下链接就可以。我们在一家媒体的文章评论区加了一个内测链接，就涌进来好多人。其中有友商，也有感兴趣尝鲜的。这是国内的用户，我还要拉海外的用户。等产品上线，我还要去友商的社区里拉。友商有 80％的问题解决不了，我就不信所有人都只要那 20％。

AI科技评论：怎么用一句话，让潜在的用户迅速理解你。

宿文：虽然不是一句很有美感的话，我们就说得明白一点：我们是可以帮你把数据库、后端和前端全部生成完的一个 App或者应用生成的工具。

AI 科技评论：对于你个人，创立AIGCode以来什么最困难？

宿文：所有问题都挺困难的。我 23 年 10 月份定下的东西，从产品定位到做预训练，都是反共识的。在 AIGCode 内部，我们是目标相同的一拨人在做事，但是我去协调外部资源，算力、投资，或者跟合作伙伴交流，有很多人会拆解我们这个东西。国内最主要的观点就是，基础模型已经成熟了，特别是DeepSeek爆火之后，这是重资产的大厂游戏，其他创业者就应该做应用。这个事情本身没错，但是跟你的认知和想做的事儿不是同一类。做事情的任何一个时间段，你始终要传递你的想法，传递就肯定会有比较大的阻力。

AI 科技评论：目前有看到国内什么团队可能和你们形成正面竞争吗？

宿文：所有大模型团队，除了做特殊市场的，参与的都是全球的竞争。不论是 AI Coding，或者大模型的 token 调用，严肃付费群体都只给全球最好的那个掏钱。要么是同样的效果，成本能够做到最低，要么就是同样的成本，效果能够做到最好。今天这个时间点，大家还是只愿意为效果付费，而且还是给最好的付费。

但这个赛道目前还是蓝海，大家一旦看到，也会从不同方向杀进来。我们这一轮稀释完也留了将近 40 点期权池，希望想做这件事的就别再另起炉灶，真有那两把刷子，来这就是 founding member。

模型要预训练，产品要长「脑袋」

AI 科技评论：现在的模型完全是自己预训练的吗？

宿文：是我们自己预训练的基模。其实我们 33B 的模型现在已经跑起来了，第二个阶段会直接升到 66B。这也是 FP8 带来的红利，能够让训练成本大幅度下降到 1/12。

和原计划相比，我们当前模型的训练时间是1/4，成本是1/3，所以我们只付出了1/12的代价就达到了同样的效果。这个要感谢DeepSeek在工程上做的贡献。

这个模型的聪明程度（我们一般会以 loss function 定义的收敛速度来判断模型的聪明程度），和它的结构是超越 DeepSeek-V3 和 Claude 3.7 的。这个结果我们在跑预训练之前就能预测到，因为早期网络结构的特点我们全部验证完了。炼丹嘛，不能等到把丹拿出来才知道有没有毒，那是草台班子的做法。

AI 科技评论：你们从预训练开始自研底座模型，这个过程中最关注什么？

宿文：我认为整个大模型和大模型产品的技术源动力，还是预训练。这一代产品最大的特点是它在生成内容，但今天模型的“大脑”还没发育完全。有人说预训练已经结束了，或者等这项技术成熟，但最后会发现生成内容的优化全都落在“大脑”上，这是很割裂的。

我们关注模型的收益，你可以理解为一个人在造内容，预训练就是解决他够不够聪明的问题。

AI 科技评论：你们会针对代码生成做特定的训练吗？

宿文：会，但这是次要的，首要的问题还是做模型。我们的终局是AGI，第一天做出的东西映射的也是AGI的泛化能力。单独解决代码生成这个事情，OpenAI 很早就尝试过，Code-DaVinci、Text-DaVinci 用了大量的代码样本，但那个模型是用不了的。DeepSeek-Coder-V2，236B 参数，也用不了。这意味着模型的能力是均衡提升，不能通过样本单方面提升。

如果说特定训练的逻辑是通的，那有了 80％法律的样本是不是法律能力很强？税务、营销是不是依此类推，各个行业全都训练一遍不就行了？其实不是的。产品能力会和样本相关，但绝对不是某一类样本堆出来的。单调回归会映射到loss function的收敛效率上去，那个是唯一的衡量指标。

AI 科技评论：自研模型成本高、耗费算力大，最终效果如果还不如ChatGPT这样的大语言模型的话，是不是没必要？

宿文：这是典型的Scaling Law逻辑，要有人，要有卡，要有样本。但是从24年到今天，手里拿着10万张H系列卡，有着很庞大、高质量的样本团队，和很高效战略的团队，全球能数出来两位数。但他们没有给出过任何让人兴奋的、能说是走向AGI的东西。这个行业在到跳到一个台阶上之后，怎么跳到下一个台阶上？堆算力、样本是有效的，但还有一种选择不是靠算力和样本堆砌出来的。

如果商业模式是卖 token，让大家调用你的 API，背后还有一个云，这样完整地算账，那这么做是巨头最懒惰的战略，但又是最正确的战略。这个商业模式就是要堆样本、堆算力，沿着 Scaling Law 来做，先干多少算多少。基于在各个行业堆砌的样本，大家通过聊天式的交互会发现模型性能都还挺强的。但是在技术层，大家还是会去看网络结构、loss function 是什么样的。技术创新点才是跳上下一个台阶的方法。

AI 科技评论：那你们有足够的钱去做预训练吗？

宿文：DeepSeek-V3 已经把预训练成本降到了 600 万美金，我们一方面不需要那么大的模型，另一方面 Infra 技术还在迭代，还有足够多的创新。在我的技术认知里，如果训练大模型实际上已经变成了 10 万张 H100 才能做的事，那我们不可能去干。我选择自己训练，其实就是盘过口袋里的钢镚，够用。

AI 科技评论：自训练模型是不是正在成为做AI产品的必然趋势？

宿文：是，本质是因为必须想办法做产品最主要的组成部分，生成东西的那个“脑袋”。另外反过来看，得到了用户在商业场景的反馈之后，发现问题、迭代产品的时候都是去改造那个脑袋，然后你说那个脑袋是 AGI，我们等等它吧，那你的竞争力肯定是不够的。产品的闭环，一定要有那个“脑袋”。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签