真格基金 23小时前
两万字深度访谈 Devin 创始人 Scott Wu:我们码农就 15 个人,每人配 5 个 Devin|Z Talk
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨了AI在编程领域的应用,重点介绍了Cognition公司推出的AI程序员Devin。Devin能够独立完成代码编写和项目构建,显著提升了编程效率。文章详细阐述了Devin的工作方式、与人类工程师的协作模式,以及AI对软件工程未来发展的影响。通过分析Devin的实践经验,揭示了工程师角色从“砌砖工”向“建筑师”转变的趋势,并强调了架构设计和系统理解的重要性。

🤖 Devin是一款自主软件工程师,能够独立完成任务,如在Slack或Linear中接收指令,并在GitHub中创建Pull Request,与工程团队协同工作,类似初级工程师。

📈 Devin的能力在过去一年里显著提升,从最初的“高中生”水平发展到现在的“初级工程师”水平,这得益于模型推理能力的进步和与人协同合作界面的优化。

🤝 Devin与人类工程师协作,工程师可以给出高层级指令,Devin异步处理任务,工程师则专注于需要专业判断的环节。这种模式使工程师能够专注于架构设计和系统构建,提升工作效率。

🧑‍💻 随着AI编程工具的普及,工程师的角色正在从“砌砖工”向“建筑师”转变。工程师需要更多地关注架构设计、系统理解和问题解决,而不是编写样板代码等重复性工作。

🚀 Devin在Cognition内部的Pull Request中占比已达四分之一,预计一年后将超过一半。这表明AI正在加速渗透软件开发流程,工程师的协作方式和工作内容正在发生深刻变革。

原创 与你同在的 2025-06-13 09:04 北京

AI 写码提速 10 倍,但未来会有更多程序员。

Z Talk 是真格分享认知的栏目。

第一个 AI 程序员 Devin 的公司,已经开始用 Devin 来构建「Devin」了。

去年 12 月,Cognition 推出了全球首个 AI 编码程序员「Devin」,定位是一名无需人类干预、能独立写代码并独立完成整个项目的虚拟工程师,订阅价格为 500 美元/月。

产品上线后的 6 个月内,Cognition 完成了数亿美元的 A 轮融资,估值翻了一番,达到近 40 亿美元,成为 AI 编程赛道的绝对明星公司。

目前 Cognition 的工程团队只有 15 人,但每位工程师都配备了一个由 5 个 Devin 智能体组成的「虚拟团队」。现在,Cognition 内部约有四分之一的 Github Pull Request 由 Devin 完成。创始人 Scott Wu 预计,一年后这一比例将提升至 50%。

在近期做客 Lenny’s Podcast 时,Scott Wu 也更详细地讲述了 Devin 从一个概念走到能端到端执行任务的「初级工程师伙伴」的过程,它如何融入现有的软件开发流程,以及他如何思考 AI 浪潮下工程师的角色变化。

本文部分转载自 Founder Park,经真格基金编辑整理,以下是全文:

- 用 Devin 构建 Devin:把 Devin 看作一个并肩作战的初级搭档。每位工程师在构建 Devin 的过程中,都会大量用到 Devin 本身。

- Deivn 让工程师从「砌砖工」变成「建筑师」:你可以给出高层级的指令,指定你想要的实现方式。这仍然需要你来掌控方向、定义规范,但你一天能完成的事情、能构建的系统,已经完全不在一个量级了。

- 开发会越来越像异步写协作:关键在于,明确你要解决的问题,定义你要构建的系统,其余的交给 Devin 异步处理。你只在需要专业判断的节点介入。

- Devin 擅长处理清晰、具体的任务:你应该给 Devin 任务,而不是问题。必要时多加引导,确保它沿着对的方向走下去。

Devin 让工程师的能力成倍增加

Lenny:让我们先谈谈 Devin,让大家了解一下 Devin 到底是什么,这是你们公司的主要产品。理解 Devin 最简单的方式是什么?

Scott Wu:Devin 是一个完全自主的软件工程师,它能够端到端地完成任务。现在市面上有很多很棒的工具,覆盖了 AI 编码工作流的各个环节。Devin 的特别之处在于它是一个完整的异步工作流(Asynchronous workflow)。你可以在 Slack 的某个问题讨论中 @Devin,或者在 Linear 里标记 Devin,然后 Devin 就会在你的 GitHub 中创建 Pull Request。所以,它完全是为了与工程团队协作而设计的,就像你的初级工程师一样。

Lenny:我记得你们刚推出这个产品的时候,宣传语大概是「你的新 AI 工程师」。它在很多方面表现出色,但在其他方面还有待提高。从你们推出到现在大概一年了吧?

Scott Wu:是的。

Lenny:如果用工程师的资历水平来衡量 Devin,你觉得刚推出时的 Devin 和现在的 Devin 大概处于什么级别?这是否是衡量 Devin 能力的一个好方法?

Scott Wu:一年前我们首次发布 Devin 时,大家甚至觉得智能体很难实现。那是一个非常不同的时代。2024 年初,AI 模型的推理能力还处于相当早期的阶段。

从那时起,它有了显著的发展。从实用技能方面来讲,我们偶尔会做些比较,最开始的时候,它就像一个高中学计算机的学生,后来逐渐成长得更像一名大学实习生,而现在则相当于一位初级工程师。

不过这些判断标准比较粗略,因为我很赞同 「参差不齐的智能」 这个说法,它在某些领域比人类强出不少,可在另一些方面又不如人类。

在过去一年里,我们收获了许多经验,不只是关于编码智能体,更是关于智能体本身 —— 包括怎样构建智能体,以及如何将其融入工作流程,使之与人协同工作。

当时,Devin 还没有 Slack、GitHub、Linear 集成,也没有交互式的规划阶段,更没办法修改它生成的代码。所以,从那时起我们开发的诸多产品功能,基本都是为了找到最佳方式,让与 Devin 协作以及向 Devin 分派任务的体验尽可能顺畅。

Lenny:所以很多工作不只是单纯地提升 Devin 成为最优秀的工程师,而是让其更好地适应与人的协同合作。

Scott Wu:我觉得这两方面是各占一半的。一方面是 Devin 的能力有了显著且可衡量的提升。另一方面是产品界面、工具等的优化。现在大家普遍知道如何使用聊天机器人并与其协作,但对于智能体,我认为用户仍需花费一些时间和精力去学习如何使用它们并最大化地发挥其价值。所以,看到许多其他公司如今也纷纷在智能体领域投入精力,真的让人感到很兴奋,这是我们所有人在共同探索的方向。

Lenny:关于 Devin 目前的规模,你能分享一些信息吗?任何你方便透露的都行。然后,你认为一年后 Devin 的编码能力会达到什么水平?

Scott Wu:我们与各种阶段和规模的公司合作。最小的,有只有一两个人的初创公司,他们使用 Devin 来构建他们最初的原型或产品;大的有大型上市公司、财富 100 强公司或上市银行等,他们在整个工程团队中使用 Devin。

总的来说,我们看到了非常广泛的应用场景。显然,在一两个人的初创公司所做的工程工作与在一家上市银行所做的工作是非常不同的。

但贯穿始终的是,Devin 都是你那个能让你更快行动、真正放大你能力的初级伙伴。它可以通过让你与自己的 Devin 团队协作,而不是必须完全同步地处理单个任务,来放大你作为工程师的能力。

然后,它也像是在放大你的团队和团队的知识库,因为 Devin 在与你团队的每个成员合作的过程中,确实积累了大量的知识,并能将这些知识带入每个新的会话中。

产品体验将从「文本补全」模式

转向「智能体」模式

Lenny:让我们先回到旅程的起点。Devin 的起源故事是怎样的?这一切是如何开始的?

Scott Wu:创始团队的大多数人认识很多很多年了。对几乎所有人来说,这是我们第一次一起工作,但我们认识很久了。在过去十年左右的时间里,我们都在 AI 领域有着各自的探索。就我而言,在此之前我在做一家名为 Lunchclub 的公司,这是一个用于职业社交的 AI 产品,我做了大约五年。

我的联合创始人之一 Steven,是 Scale AI 公司的首批工程师之一,这家公司显然成长了很多,做得非常出色。

我的另一位联合创始人 Walden,是 Cursor 的早期工程师,这家公司显然也成长了很多,做得非常好。

我们整个团队差不多都是这样,我们很多人是通过编程竞赛和数学竞赛认识的,但在那之后的几十年里,我们一直保持着非常密切的联系,并且都有各自的发展。

我们有一个曾在 Nuro 负责团队的人,一个曾在 Waymo 工作的人,还有一个自己创办了 YC 孵化的机器学习工具初创公司的人。

我们非常兴奋能一起做点什么。这大约是在 2023 年底,也就是一年半前。刚开始时,有几件事我们坚信不疑。其中之一是强化学习确实有效,并将成为能力上的下一个重大范式转变。

当时 ChatGPT 于 2022 年首次推出,那些模型在 AI 领域,我们称之为模仿学习(imitation learning)。基本上就是让模型阅读互联网上所有能找到的文本,然后训练它像互联网上的某个人那样说话,这是最初做法的核心。它非常了不起,通过了图灵测试,并且对很多事物拥有百科全书般的知识。

我们过去一年进入的这个新范式,是真正高算力的强化学习。这是一个截然不同的范式:它能够去执行任务、整合事物,然后根据结果的正确与否进行评估,并利用这些知识来决定下一步行动并从中学习。我们坚信这一定会发生。

对我们来说,代码是很自然的选择,有几个原因。一是因为我们自己都是编程爱好者,所以代码对我们来说再熟悉不过。另外,代码本身就有一个完整的自动化反馈循环,你可以运行代码,这种自动化反馈正是强化学习所需要的,也使得这些模型在编码方面表现出色。

另一件我们坚信不疑的事情是,产品体验将从「文本补全」模式转向「智能体」模式。从根本上说,文本补全领域已经有很多很棒的体验。它被用于市场营销、客户支持、教育和编码,例如 GitHub Copilot 是那一波浪潮中真正的主导产品。

但我们真正预感到的重大转变,是从这种文本到文本的模型,转向一个能够做决策、与现实世界互动、接收反馈、迭代并采取多个步骤解决问题的真正自主系统。我们称之为智能体,这正是我们当时真正兴奋的事情。所以,方向一直是编码,一直是智能体。这看起来像是一开始就应该很明确的,但即便如此,在过去一年半的时间里,在编码智能体这个大方向内,我们感觉自己好像已经调整了八次方向左右。

Lenny:我最近注意到,所有顶级的 AI 公司,不是所有,但很多公司的成功产品,其名称都与公司名称不同,这很不寻常。比如 Cursor 和 Anysphere,Bolt (bolt.new) 的 StackBlitz,你们是 Cognition AI,Vercel 的 v0。这告诉我,这些产品都是在公司发展后期出现的,他们尝试了很多东西,然后发现「哦,这个东西成功了」。在这些顶级公司中,这种情况如此普遍,真的很有趣。

Scott Wu:是的,甚至还有 OpenAI 的 ChatGPT,Anthropic 的 Claude,Google 的 Gemini。这很有趣,是的,我同意。

所以,当我们刚开始时,它甚至算不上一个公司,更像是一个项目,或者说几乎是一个黑客松。我们基本上在感恩节前后租了几周 Airbnb,聚集了一群人,兴奋地想做些项目,构建一些酷的东西。

有趣的是,我们最初构建的东西实际上更像是解决那些类似编程竞赛的问题,并使用一种智能体循环来在这些问题上做得更好。显然,如果你在测试用例上运行代码,你可以进行评估,这里面有很多智能体可以做的工作来尝试做得更好。我们最初花了一些时间在这上面。

然后,我们公司整个的故事在某种意义上就是从一个黑客松到另一个黑客松。在那之后,我们又搞了一个黑客松,Devin 最初的一些想法就是在那时产生的,真正构建一个软件工程智能体,而不仅仅是一个编码智能体,并让它与许多这些工具互动。但即便如此,还是有很多迭代。甚至,与 Devin 对话的想法,也是我们必须想出来的。

最初,它只是你交给他一个任务,然后它工作,最后给你展示整个完成的代码。而现在显然是,你可以随时介入,可以就计划获得反馈,你们可以一起确定任务范围。当你与 Devin 一起工作时,很多这些东西我们都必须逐步开发出来。当然,我们对使用场景、产品形态学到了很多,我们在能力上取得了很多重大改进和阶跃式提升,Devin 使用工具、调试和做决策的能力都得到了提升。所以,这是一段有趣的旅程。

对我们来说,根本性的问题,也是我们一直在思考的问题,就是软件工程的未来是什么样的?我们应该如何与 AI 合作来编写代码?因为归根结底,这才是我们所有产品决策的基础。

Lenny:你们是什么时候开始尝试着捣鼓开发的?Devin 是什么时候推出的?这期间有多长时间?

Scott Wu:我们是从 2023 年 11 月开始的,当时还只是黑客松模式。我们在 2024 年初正式成立了公司。然后我们的首次发布是在 3 月份。所以,那段时间简直是马不停蹄。实际上,在过去的 17 个月里一直都是这样。从发布到与企业合作,再到大量开发产品,构建它并使其适用于许多实际用例,然后在去年 12 月实现完全自助服务,以及几周前刚刚推出的 2.0 版本。对我们来说,这是一段非常忙碌的时期。

Lenny:简直是世纪性的轻描淡写。

用 Devin 来构建 Devin

Lenny:将 Devin 视为一个「人」,为 Devin 创造个性的这个想法,这与其他任何 AI 应用都不同。我觉得市面上没有其他 AI 应用会拥有名字,让你把它当作一个人来看待。你们当初为何决定采用这种设计思路?又是如何设计它使其运作良好的?

Scott Wu:这是我们相当自豪的一个决定。市面上有很多不同的产品体验。而真正让 Devin 在其所做的事情中独一无二的是,你可以真正地把任务交给它。

我们越来越多地看到,向人们解释 Devin 的体验的最好方式就是解释说:「是的,这是你的初级伙伴。」这一点适用于流程的很多部分。

比如在 onboarding 阶段,最初我们确实有很多用户进入界面后只看到空白屏幕,完全不知所措,或者他们会问「我打算对整个代码库进行大规模重构」。

而我们随着时间推移学到的是,要引导用户转变思路,比如「等等,让我们先搞定代码库的设置」。让我们先给 Devin 分配几个简单的小任务,让它熟悉一下代码库。让我们确保如果 Devin 需要能够测试代码、运行 linter 或 CI 之类的东西,我们得确保 Devin 有自己的虚拟机设置好来做这些。

同样地,用户的使用模式起初也不清晰。显然,你可以坐着看 Devin 一步步地执行操作。但我们发现,作为一个需要构建大量东西的团队,最佳的工作流是与多个 Devin 协作,让它们异步执行任务,启动它们,然后仅在你需要提供反馈或引导计划时才介入。

从很多方面来看,Devin 这个名字,正是我们试图捕捉产品灵魂的一种尝试。它确实是被视作一个自主实体来对待,你可以把任务交给它,与它协作,并且在长期使用中教导它并与它一起学习。

Lenny:我想聊聊 Devin 对软件工程的影响,以及软件工程将如何改变。这个话题可以拆分为两部分:以今年使用 Devin 的情况为例,对于那些企业而言,作为一名工程师,其从工作方式和构建方式正在发生怎样的变化?

Scott Wu:我们都是软件工程师,我骨子里依然是个程序员。

从宏观层面来看:计算机正变得越来越智能,能够做的事情也越来越多。也许有一天,计算机真的能完成我们所做的一切,人类不再需要负责任何事情。

我不认为这会很快到来。但在此之前,只要我们人类还需要编程,最重要的任务之一,就是指导计算机我们想要什么、想构建什么、想做什么。

所以从这个角度来看,我认为随着 AI 变得越来越强大,编程只会变得越来越重要。对我们来说真正令人兴奋的是,看到这种迭代式的转变。

目前的情况是,我们可以把 Devin 看作一个初级伙伴,或者一个由初级伙伴组成的团队,你可以和他们一起工作。

我们团队里的每一位工程师,在构建 Devin 的时候都会大量使用 Devin。因此,Devin 每个月会将数百个 Pull Request 合并到 Devin 代码库的生产环境中。

我们整个团队只有大约 15 名工程师,所以 AI 辅助编码在我们编写的所有代码中占了相当大的比例。我们每个人都拥有自己的 Devin 团队。

如果你要处理各种问题、功能请求、bug,或者研究你想构建的新范式,很自然地,会有很多交接点。在这些交界点,你就可以 @Devin,然后告诉它:「现在情况是这样的,你能帮忙处理一下吗?」

有时候 Devin 能够百分之百自主地完成任务,直接创建 PR,然后你合并 PR;有时候,你可能需要自己介入,做 10% 或 20%的工作,也许在具体如何界定范围或如何架构这个功能方面有一些细节需要你处理,或者你可能想在最后自己去测试前端,确保它看起来完全符合你的要求,并在之后给出你的一两句反馈。但在大多数时候,都是与 Devin 一起工作,让它并行处理更多事情,构建更多东西。

四分之一的 PR 由 Devin 完成

Lenny:目前你们的 PR 中,Devin 提交的和人类提交的比例分别是多少?

Scott Wu:我得查一下,但 Devin 大概占我们所有 PR 的四分之一左右。

Lenny:那六个月前是什么情况呢?

Scott Wu:相比六个月前,它在我们内部呈指数级增长。Devin 的发展关乎两个方面:能力和产品界面。

首先,它的智能水平提高了很多。

另一方面,我们也花了很多时间来研究如何构建它的界面:在这个界面上,即使 Devin 只能完成 80% 或  90% 的任务,你也能获得 Devin 的价值。

Devin 显然不是完美的,它会犯错。很多问题是,你最初如何与 Devin 一起初步确定任务范围,然后让 Devin 去做你想让它做的事?你如何在最后阶段介入审查并提供反馈?你如何确保 Devin 随着时间的推移而学习?你如何能够根据需要进行检查并在需要时纠正方向?

Lenny:今天你们大约四分之一的 PR 是由 Devin 提交的。你认为到今年年底这个比例会达到多少?

Scott Wu:到今年年底,预计会超过一半。而且我们观察到的一件事是,你能够异步完成越来越多的工作,并且能够交接越来越多的任务。

我认为编程的灵魂、软件工程的灵魂,无论是以前还是现在,无论你使用的是汇编语言、Pascal 语言,甚至在打孔卡时代,基本上就是定义你面临的问题,并真正深入思考你想要的解决方案究竟是什么。思考架构,思考细节,并在你的脑海中精确地规划出你到底想构建什么,以及你想让你的计算机做什么。这是软件工程的伟大之处,也是它最有趣的部分。

然而,这些工作可能只占普通软件工程师大约 10% 的时间,其他 90% 的时间,你可能遇到了 Kubernetes 的错误,你必须 debug,你必须找出问题所在,或者是系统崩溃了,或者你某个端口没关导致了问题,又或者你需要迁移代码,需要升级到新版本之类的,更多的是类似执行层面的工作。

我们思考和构建 Devin 的一种方式,就是真正让工程师可以从「砌砖工」转变为「建筑师」。很多时候,关键在于达到这样一个程度:你可以进行高层次的指导,并且可以精确地指定你想要的方式。

我认为这仍然非常需要由人来掌控,由人来进行完整的规范定义,但同时极大地放大了你在一天、一小时或任何时长内所能做的事情和所能构建的东西的量级。

未来,软件工程师仍需要学习写代码

Lenny:未来,假设有人想进入软件工程领域成为一名工程师。首先,你认为人们是否还应该学习编程?其次,对于今天的工程师来说,你认为哪些技能会变得越来越重要,哪些会变得不那么重要?在我们讨论从「砌砖工」到为「建筑师」的转变时。

Scott Wu:我很喜欢这个问题。就「是否仍需学习编程」 这一问题而言,我的答案是绝对肯定的。

当你上计算机科学课程,学习这些基础知识时,当然你会学到一些关于特定语言如何工作的知识。但你学到的大部分内容实际上是关于逻辑分解问题的能力;其次是对于计算机模型以及长期以来我们构建的各种决策和抽象概念的理解,比如什么是数据库?应如何理解数据库?什么是垃圾回收系统,它们的运作原理是什么?以及所有这些不同的组成部分。

我们在编程领域已经经历过这些阶段。未来的发展阶段我觉得会更快、更大规模,但许多方面与当下情况相似。比如,当你现在使用 Python 时,实际上已经有很多内容被抽象化了。50 年前的人可能已经会说 Python 就是「你用英语解释你想要什么,然后计算机就为你做了」。这非常强大,它打开了大门。我们现在的程序员数量显然比以往任何时候都多,就是因为这个。

但当你作为一名工程师培养技能时,深入理解这些抽象概念并探究其底层原理非常有帮助。比如说,如果人们真的想对一段代码进行性能优化,他们会使用汇编语言。为了构建好的系统并理解这些东西,你肯定想要理解这些抽象概念,比如网络是如何工作的?TCP/IP 到底是什么?或者这段 Python 代码在被解释时会发生什么?或者所有这些细节。

我们会达到一种状态,即使没有任何经验的人,也能够凭借描述自己的需求来构建一些很酷的产品,完成很了不起的工作。但同时我认为,在相当长的一段时间里,人们依然需要能够精准地思考细节,揭开抽象的面纱,非常精确地定义想要构建的东西以及构建方式。

Lenny:你认为对于工程师而言,哪些技能会变得愈发有价值,他们应着重在哪些方面发力?

Scott Wu:我认为是架构方面的技能。工程领域已经有「架构师」这一术语,我觉得它在发展方向上是合理的。常规的实现、编写样板代码等事情,AI 编程已经让我们在这方面快了不少。

关键问题在于理解复杂的系统,在整个公司的大背景下开展工作,思考正在构建的产品或正在从事的工作,弄明白我们想要解决的问题是什么?应如何解决这些问题?我们究竟想要构建怎样的解决方案?以及将要做出的关键决策和权衡是什么?

那些能够出色完成这些工作的人,将会越来越多地发挥自己的影响力。所以,如果说有什么不同的话,我认为几年后,程序员和工程师的数量会比现在多很多。而且,成为程序员的具体形式显然很快会发生改变。我们能构建的东西将会多得多。

人们常常提及「杰文斯悖论」,软件确实是杰文斯悖论的典型例证。我们人类社会总能找到越来越多的事物,为其构建软件、编写更多代码,真的还有很多事情可以去做。

Lenny:对于那些不知道杰文斯悖论的人,你能简单解释一下吗?

Scott Wu:当然可以。杰文斯悖论简单来说就是,当某样东西的价格下降时,总支出反而可能上升。你可以用金钱、时间或资源来思考这个问题。但这里的直接版本是,随着编程变得越来越容易,编程变得越来越有效,我们将拥有更多的程序员。

从一种零和博弈的角度来看,你可能会说,我们在软件工程方面的速度将提高 10 倍,这意味着我们需要的软件工程师将减少 10 倍。但我认为,实践中真正会发生的是,我们实际上将构建超过 10 倍的代码量。因为我们所做的所有工作显然都受限于我们实际构建、执行和迭代的能力,我们将会有如此多伟大的想法,如此多伟大的产品。人们将会构建更多个性化的体验,等等。将会有很多事情要做。

随着技术能力不断提升 

开发工作会越来越向异步工作流转变

Lenny:你说每位工程师都拥有一支 Devin「团队」。在你们公司,现在大多数工程师通常会同时与多少个 Devin 一起工作?

Scott Wu:这个过程是异步的,你可以根据需要随时启动和关闭 Devin。团队中的大多数人,通常会同时与多达 5 个 Devin 一起工作。这是一种很好的工作流程,你有 5 件事要做,可以让 Devin 1 号做第一件事,Devin 2 号做第二件事,以此类推。我们花了一些时间才真正适应并达到这种状态,让它对我们来说非常直观。

这确实是一种不同的体验,你可以将大部分事情异步地交接出去。你每个任务的目标是在那些真正需要你专业知识的部分出现,精确定义你正在解决的问题和你正在构建的东西,或者在一些比较复杂的部分,你需要引导 Devin 朝着你想要做的特定类型的更改方向发展。例如,我希望这个类别这样设置,我们应该去修改所有下游对这个的引用。但基本上是让 Devin 异步地为你完成大部分工作。

Lenny:你们大概有多少工程师?

Scott Wu:我们现在的工程团队大约有 15 人。

Lenny:15 人?哇哦。每个人大约有五个 Devin。所以 Devin 的数量是工程师的五倍。我喜欢这一点的原因是,这简直就是向未来的一瞥。你们在使用 AI 工程师方面遥遥领先于其他公司,所以观察你们的运作方式,基本上就能了解大多数公司最终将如何运作。

Scott Wu:是的,而且我们自己已经看到了这种转变。在团队层面,大家不会花那么多时间仅仅编写样板代码或者只是进行纯粹的功能实现。人们可以将更多的时间专注于思考真正核心问题,比如,我们如何让 Devin 变得更好?最合适的 Devin 交互界面是什么?什么样的流程或功能组合才能真正让 Devin 体验尽可能出色?这就是我们喜欢的方式。

Lenny:那么什么时候你们会达到这样一个临界点,即 Devin 的发展速度远远超过其他所有人?比如,一旦你有足够多的 Devin 在做所有这些事情,你就领先了 10 年、20 年、30 年、100 年。

Scott Wu:全球的工程师们,都将思考这个问题,围绕这一方向开展开发工作,并逐步适应这些新技术。随着技术能力的不断提升,即使在今天的稳定状态下,事情会越来越多地向这种异步流程转变。

其中一个原因在于,你始终受到现实世界约束的限制。可以这样理解(不过这些数字并非精确数据),最基本的逻辑是:能够编写文件、完成函数或某行代码之类的任务,已经带来了巨大帮助,使用体验也非常出色。但构建软件的很多部分几乎完全不是这样。

例如,当你修复一个 bug 时,需要启动本地服务器,在前端点击产品尝试复现这个 bug。一旦出现错误,要去查看 Datadog 了解情况,并尝试在日志中查找其他错误。还要查看哪里出了问题,做一些修改,甚至重新运行整个流程,以确保修改后的结果是正确的。这很大程度上就是作为一名软件工程师意味着什么。这些过程都需要真实的时间。

随着我们越来越多地转向这种智能体工作流程,从某些方面来说,这就像未来几年我们通过软件工程来实现 200%、500% 甚至 1000% 增长的真正途径。

Devin 的一大优点是

它总是充满热情 

Lenny:让我们向大家展示一下 Devin 的工作原理到底是什么样子吧。

Scott Wu:好的,与 Devin 协作的整个过程显然是异步进行的。所以,我想我们可以实际观看一下 Devin 的工作过程,然后我们可以看一些 Devin 完成的其他工作示例,或者 Devin 为我们团队所做的事情。然后我们可以异步地回来看看我们最初运行的那个 Devin。

我想强调的关键是,想想我们作为软件工程师,或者工程团队、产品经理等等,思考我们想要构建什么,想要交接什么。所以,我们已经用我们自己的 Devin 代码库设置好了 Devin。所以,我会为它启动一个 Devin。我会说:

「嘿 @Devin,我和朋友 Lenny 在一起。你能修改一下 Devin 的 web 应用,把 Lenny's Newsletter 作为 Devin 网站的一部分展示出来吗?就在真实的 Devin 网站上吧。」

所以我们启动这个任务。如你所见,Devin 立刻开始工作并做出回应。你可以异步地处理这个,也可以同步处理。这次,我们就稍微深入一点,看看具体发生了什么。但如你所见,Devin 正在浏览文件,查看很多东西。所以,我们可以根据需要在这里跟进,看看哪些是有意义的。你可以看到 Devin 已经指出了几个特定的部分。比如侧边栏,这是我们在前端实现的。那里有一些部分,我们将拥有一个新的组件,这个组件将链接到 Lenny 的网站。这听起来都不错。Devin 在问我们是否有什么问题。同样的情况,你可以让 Devin 自己做决定并交接,或者你可以提出更多想法。比如按钮应该在新标签页还是应用程序内打开? 我会说,「让它在新标签页中打开吧」。

Lenny:你可以在任何时候回答这些问题吗?它是在等你吗?

Scott Wu:你可以在任何时候回答这些问题把任务交出去,也可以再收回来。

Lenny:它不会说:「天哪,我刚写成这样,你为什么不早点告诉我?」

Scott Wu:没错。关于 Devin 的一个重要优点是,Devin 总是充满热情,总是准备好投入时间。

我们会给 Devin 一点时间工作,它会浏览这些文件,然后为我们创建一个 PR,我们会看看结果如何。但我觉得展示一些 Devin 在其他场景下的例子也很有趣。

其中一个例子是今天早上我刚用 Devin 做的,我让 Devin 帮我复习一下关于这次播客的一些背景信息。显然,我是这个播客和 Newsletter 的忠实粉丝。我问 Devin:「嘿,Devin,我要上播客了,你能帮我研究一下关于 Lenny 的所有信息,并为我制作一个漂亮的网站测验,这样我能确保自己掌握了事实吗?」

所以 Devin 在今天早上做了这个,我大概展示一下 Devin 做了什么。看起来它首先去了维基百科。不幸的是,维基百科上没有 Lenny 的页面,Lenny,我们得努力一下了,Devin 对你太不尊重了。我们需要一个页面,然后,它去 Spotify 上找到了。

Lenny:所以你在实时观看它研究的过程?

Scott Wu:是的。显然这是今天早上的事情。

Lenny:这是 Devin 所做事情的回放。这是 Devin 的一部分功能,你可以回看它做了什么。

Scott Wu:是的。特别是当你在构建工程项目或类似的东西时,你可以看到 Devin 采取的每一步。或者如果 Devin 在本地测试了代码,你显然希望能够去看看 Devin 点击了什么,测试了什么,或者类似的事情,它找到了 Newsletter,它正在查看这个,将要阅读所有这些内容。

然后它说:「好吧,让我们开始把代码整合起来吧。我已经研究了这些,正在写所有这些,把应用组合起来。」 它实际上自己玩了自己的测验。让我们看看,看看我知道多少。

Lenny:播客的名字是什么?

Scott Wu:Lenny's Podcast。

Lenny:播客有多少订阅者?

Scott Wu:一百万。

Lenny:Lenny 关注的三个主要话题是什么?

Scott Wu:产品、增长和职业。

Lenny:非常好!这是个好测验。除了播客,Lenny 还做什么?

Scott Wu:我会说,写作、天使投资和顾问。

Lenny:Lenny 多久发布一次?

Scott Wu:每周一次。我们可以完成所有这些。我当然也做了这个测验,以确保我准备充分。但这只是其中一个比较有趣的例子。

Lenny:Scott,我的 newsletter 有多少订阅者?

Scott Wu:超过一百万。我再展示最后一个例子,之后也许我们可以回到我们最初运行的那个任务。

Devin 的诸多功能旨在与现有代码工作流程无缝协作。例如,我们当时在 GitHub 探索 DeepSeek 代码库,将其导入 Devin 并建立独立分支(fork)。

我想在这里展示几件事。一是 Devin 会建立自己的 wiki,全方位呈现对代码库的深度理解。当 Devin 索引代码库时,它会构建代码库的表现形式、持续学习并优化,这是其核心能力之一。

有意思的是,我们发现人类也渴望了解代码库的表示形式,所以推出了 Devin Wiki。你可以浏览各个部分,看到每一项不同的内容。这里是 FP8 操作,这里是 SGLang 集成,有关于不同层如何构建和组合的图表,有部署操作,还有很多关于架构的细节。你可以据此提问。

比如,你可询问:「DeepSeek 如何处理为推测性解码设计的多 token 预测?」 Devin 会搜索整个代码库,给出有理有据的回答。我们常常使用这项功能,尤其在规划任务与提供初始提示时,即便没有特定任务也十分实用。

Deivn 擅长处理明确任务而非问题

Lenny:随着我与越来越多做 AI 的公司和应用交流,我了解到他们在能够集成多大的代码库方面存在很大差异。这对于现有公司、初创公司、以及那些拥有庞大现有代码库的公司来说都是个大问题。人们应该如何看待 Devin 能够接入什么样的代码库?

Scott Wu:是的。所以我们要尽可能处理规模最大的代码库。作为工程师,我们思考大型代码库的方式通常是,更改或思考特定任务时,不会一次性记住每一行代码,而是先形成高层次抽象概念,审视后逐步聚焦,再获取更清晰的细节。

Devin 的工作方式与此非常相似:它首先会梳理出代码库的高层架构,理解其功能用途等基本信息,然后针对每个组件,它也能深入挖掘并提供更详细的分析。比如 FP8 到 vFloat16 的转换机制具体是如何设置的,代码库的各个组成部分分别发挥什么作用等。同样,我们在设计时就确保了 Devin 的可扩展性。

Lenny:这基本上又回到了工程师作为架构师的观点,Devin 正协助你理解架构。

Scott Wu:没错。我们发现了一个有趣的用例,用户经常借助 Devin 来引导新加入团队的工程师。刚加入团队时,你对代码库和程序设置充满疑问,有时向导师或经理提问会稍显尴尬,尤其担心问题幼稚。此时,直接询问 Devin,浏览其生成的 wiki,理解内部表示形式,就很有帮助。

Lenny:这很有趣,又回到了你的观点,Devin 不仅是初级工程师,而是具备「能力参差」的智能,像资深工程师一样理解代码库。通常,你得询问长期在此工作的工程师,这个东西是干啥的、在哪、怎么运作,而 Devin 在这方面的表现得令人惊讶。

Scott Wu:是的,检索和处理大量代码与 token 正是语言模型的强项,它能在你需要时提供帮助。

Devin Wiki 是我们上周刚推出的功能,与 Linear 完全集成。如果你在 DeepSeek 代码库有任务,只需要添加 Devin 标签,Devin 就会给出对任务的看法。你可以查看每个特定文件,或它标记的重要代码片段。若认可构建内容和结论,就可以启动 Devin 会话,来实际完成任务。

Lenny:听起来是个简单想法,但本质上,你在说 Linear 中有修复和功能任务,现在 Devin 可以直接帮你搞定。

Scott Wu:这是个需要手动操作的过程。当 Devin 规划任务或提供想法时,你当然希望参与其中。Devin 还会告知它的把握程度,比如对某个部分的理解可能性,这有助于加快进度。

正如你所说,很多产品经理喜欢用 Devin 和 Linear 更好地理解事物、代码库等。例如,Launch Darkly 的 Claire Vo 是 Devin 的重度用户,她喜欢规划任务,询问数据相关问题,或者某个功能是否已合并到生产环境,又有多少人正在使用某个功能等。这是一种简洁地获取智能的方式。

Lenny:我喜欢它与 Linear 的集成,依然保持简单。你可以添加一个小工单,比如将某个内容链接到主页,Devin 能精准理解并展示。

Scott Wu:是的。Devin 看起来完成了工作。似乎 CI 方面出了点问题,它现在正在调试。但它已经提交了最初的第一版 PR,我们可以看一下。这是 Devin 的网站,显然是在这个自定义部署中。我们这里有 Lenny's Newsletter。

Lenny:把这个部署到生产环境吧!太神奇了。

Scott Wu:Devin 显然可以访问我们的 Devin 代码库,它在这里做了很多工作,所以它对这里的所有部分都非常熟悉。

Lenny:很漂亮。是的,我喜欢它的样子。它会带来一些不错的增长。你链接到我的网站,我们搞点 PageRank。

Scott Wu:是的。

Lenny:我的 Newsletter 有一个多么漂亮的网站啊。这是否就是 Devin 非常擅长的那种事情的一个好例子?比如,「这里有一个非常具体的关于网站的修改需求」。

人们应该如何看待 Devin 擅长的领域以及可能出问题的地方?

Scott Wu:我认为 Devin 在处理明确任务时表现出色,你应该给 Devin 分配任务,而不是问题。比如快速的前端功能请求、bug 修复、添加测试和文档等。

让循环变得非常好的一个因素是能够快速迭代和测试。例如,直接调出预览查看链接是否有效,Devin 也很容易做到这一点。

Devin 经常会登录 Devin,启动一个 Devin 会话,并确保它在我们自己的代码库上工作,这有点搞笑。但你通常想要一些容易验证和容易测试的东西,这是最主要的。你也可以处理更大的项目或更大的请求。但在那种情况下,你应该预料到需要更多地引导 Devin,以确保它朝着正确的方向前进。

Lenny:这很有趣,因为这与人们谈论合成数据和强化学习的方式非常相似,创建那些非常容易有明确答案的数据,是或否非常清晰。

在你们设计和构建 Devin 的过程中,争论最多的是什么?

Scott Wu:我想到了几个例子。其中一个我想说的是一个我称之为 「我们应有多固执己见」 的问题。

我们有各自常用的 Devin 工作流程,它能集成到 Slack 和 GitHub,在我们的代码仓库中为我们创建 Pull Request,响应问题报告等。当然,我们也会遇到很多其他各种各样的情况,很多人在使用 Devin,创造出不同的用例,甚至有人用 Devin 点 DoorDash 外卖。而且还有许多人从头开始构建很酷的网站,或者做类似的事情。

这对我们而言是一个有趣的权衡,我会这样描述它:我们产品中构建的大部分功能肯定是针对创建 Pull Request 和工程团队使用的用例。但我觉得,如果人们想将 Devin 用于其他目的,我们也会确保他们充分了解局限性以及可能遇到困难的地方。

生成式 AI 很有意思,我看到的最常见的创业建议之一是:专注于一个非常细分的群体,做那些无法规模化的事情,打造一个真正出色的用例,然后从那里开始拓展。我认为这在各个方面都是很好的建议。

但是,对于生成式 AI 而言,你很自然地会看到很多产品体验最终会变得更通用。这是我们依然在反复思考的一个问题,我们也希望能够做一些事情来支持其他类型的用例,来处理人们可能想用 Devin 去做的事情。

另一个问题是,Devin 应该在多大程度上成为一个完整的综合项目体验,还是更像一套组合工具?我们有 Devin Search、Devin Wiki,还有 Linear 工单范围界定功能,这些工具是相互作用的。但随着时间的推移,我们越来越将其视为一套工具。而且我认为,构建各种功能的智能体,即 Devin,是核心部分,这将永远是我们工作的真正特别之处。

然而,现实世界的软件共享需要一套复杂的工具,有很多不同的流程和诸多不同的用例是合理的。例如,你可以向 Devin Search 和 Devin 提出相同的问题,Devin 可能会马上开始运作,但用户有时更倾向于拥有控制权。

你可能正在设计一个编程任务,但还不希望 Devin 马上开始这个任务。你只想问问 Devin Search,了解代码库的哪些部分可能相关,或者只提出看看相关代码库片段的请求,或者通过查看 wiki 了解现有的表示。所以,无论是在功能方面还是在用户体验方面,我们都发现这些功能随着时间的推移变得自然而然且十分有意义。

未来智能体编程的体验还会迭代 20 次

Lenny:在 AI 编码领域,有多种不同的做法,你们全力打造 AI 工程师,但也有 IDE 公司和构建出色工程模型的公司。现在连 OpenAI、Anthropic、Cursor 等都在构建 agent。你们如何定位自己,又如何看待在这个领域取胜的关键?

Scott Wu:我认为这些团队都很强,它们由非常聪明和具有前瞻性思维的人组成,正在构建许多优秀的产品。而且,我认为在未来几年,随着通用人工智能(AGI)逐渐实现,还有很多事情要做。

我非常喜欢的一句话是:2017 年,如果你问我们是否拥有 AGI,答案是否定的;而到了 2025 年,如果你问我们是否拥有通用人工智能,答案则是,你必须定义通用人工智能,而且这取决于你的研究领域。

这里触及到的一个核心问题是,现在正在发生很多真正令人惊叹的事情,很容易让我们低估这场变革的巨大程度。

在过去 10 年 - 30 年里,有很多很棒的产品,它们让产品构建生命周期中各种不同细分领域的各个环节都变得更容易了一些。

例如,有很棒的即时消息产品,日志记录产品,计费产品,各种不同的工具。这些领域都将以数倍的速度发展,这将是一个数量级的转变。

从我们的角度来看,我们一直专注在一个领域,那就是自主编程 agent。

这里有很多问题需要解决,比如核心能力方面仍然有很多工作要做,我们经常遇到这样的情况:「Devin 为什么会做那个决定?任何人类工程师都不会那么做。」

在很多方面,比如产品界面,显然有很多需要思考的地方,这不仅仅是我们正在努力实现的单一目标,而是会随着每一次能力迭代而改变的东西,我估计未来智能体编码的体验还会迭代 20 次。

我们将在几年内达到一个阶段,那时你可能根本不需要看代码,只需要查看并指定任务,然后说:「我们在这里加一个新的标签页,应该保存这些信息。启动一个数据库表,并在 X、Y 和 Z 列上建立索引。」你将能够实时地与你的产品交互,并让你的智能体为你打造这些功能。

从现在到那时,还会有很多代际更迭。但我认为,产品体验本身每次都会改变,同时还有将其推广到全世界的各种实际问题。所以,人们需要学习如何使用新技术。

同时,在部署以及处理现实世界软件的各种复杂情况方面,还有很多工作要做。现在仍然有很多 COBOL、Fortran 这类「古老」的语言。人们已经做了很多各种各样的抽象和细节处理。

所以我们从一开始就一直专注于 coding agent。这是我们真正相信并为之设计的一件事,甚至延伸到了收入模式和基于使用量的设置,也融入了所有的产品体验。

比如,你想在哪里与 Devin 交谈?你希望能够在 Slack 中与 Devin 交谈,你希望从你的问题跟踪器中启动它,当然还有能力方面。

所以我不认为有一个简单的答案,这是多种因素的结合。但这确实是我们过去一年半投入所有时间的领域,未来五到十年也将如此。

用户粘性是关键「护城河」

Lenny:沿着这些思路,AI 领域一个普遍的难题是护城河和可防御性。当构建产品变得容易,而且很多东西都建立在自身发展如此迅速的模型之上时,你如何思考在这个领域建立护城河?

Scott Wu:我认为这通常更多关乎用户粘性,而非护城河。通常人们所说的护城河是指某种能阻止竞争对手进入市场的东西。从宏观层面来看,许多不同公司在 AI 谱系的不同层面,比如基础模型实验室或应用层等,我不认为存在任何能够阻止其他人进入的硬性壁垒。

我认为真正存在的是粘性,我会将其定义为:一旦你用上一个真正喜欢的产品体验,是否会兴奋地持续使用它?

或者是否存在一种效应,即从现在开始,切换到一个新的产品并学习它也同样容易?从这个角度来看,我认为编码智能体有几个尤其出色的方面。

首先,随着时间的推移,存在很多固有的粘性和学习积累。把 Devin 比作人类工程师的话,第一天加入公司的工程师,与已经在公司工作了五年、自己写了一半代码、接触过每个文件、构建过每个部分、且熟悉团队其他成员的工程师,他们的产出是不可相比的。

Devin 也会真正学习并构建它对客户的代码库、技术栈和流程的认知,并随着时间的推移能够做更多的事情。

另一方面,我认为非常令人兴奋的是,我称之为代码的「多人协作」方面,确实有很多事情可做。这正是现实世界中很多事情的完成方式。

把 Devin 当成一个工程师,自己使用,这是一种用法。另外我们也经常看到,一些工程师与 Devin 一起工作并调教 Devin,人们会让 Devin 帮助新工程师入职,并向他们传授知识。或者我会在 Slack 中与 Devin 开始一个会话,我会说:「我们要做某某产品」;然后其他工程师会插话:「我们最初这么做的原因是 X 和 Y。Devin,当你做这个更改时,请确保仍然支持那个工作流程。」Devin 会说:「好的」。或者 Devin 会创建一个 PR,然后其他人会审查那个 PR 或给出一些评论,Devin 也会进行相应的处理。

在软件工程的各种场景里,Devin 为这样一种体验奠定了基础:它能够随着时间的推移,为客户整个工作提供的价值不断增长。我们更多地思考的是:如何让 Devin 在你使用得越多的时候,变得越来越有用?

Lenny:之前 Cursor 的 CEO Michael 也有类似观点,他认为护城河或者说用户黏性,就像 Google 做到的一样:用户切换成本低,关键在于做到最好。你是否认为,如果能在此基础上创造出更强的粘性,让用户因为产品太好用、积累了知识并与你的工作流程深度集成而难以离开,那会更进一步?

Scott Wu:我认为软件工程这个领域的一个好处是,无论好坏,都有一个非常清晰的价值衡量标准。至少在未来一段时间内,总会有一个清晰的下一个目标。

可能未来会有某个时刻,你可以对 Devin 说,帮我搭建一个完整的 YouTube,它真的能完成。而现在的 YouTube 背后,是数亿小时的人类工程时间,他们构建了算法、基础设施,以及每一个微小的细节。

而且,也许有一天 Devin 能以开箱即用的方式完成这个任务,虽然那将是很久以后的事情。

我认为开发者一个很酷的地方在于,他们真的愿意学习新的体验,并投入努力,如果这意味着他们能够获得越来越高质量的体验。

我们已经度过了 AI coding 的拐点

Lenny:在不泄露商业机密的前提下,是什么让你们能把 Devin 做得这么好?是因为某个特定模型的突破吗?有些人分享过,Claude sonnet 3.5 和 3.7 版本对他们的很多产品来说是一个巨大的突破。你们在架构或构建 Devin 方面,使其如此出色运作的关键是什么?

Scott Wu:我们很早就开始押注于智能体,我认为智能体比大多数人想象的要更早地变得可行和实用。随着整个社区真正围绕它团结起来,你可以在预训练中看到它的影响,你可以在很多与这些模型相关的工作中看到它的影响。

从我们的角度来看,我不认为 Devin 的表现出现过任何单一的、阶梯式的基础模型转变或其他任何导致天壤之别的变化。

但现在每周都会有新模型问世,这也对我们能做的事情产生了重大影响。在此基础上,我们与基础模型实验室的研究团队合作,在他们的基础之上进行我们的工作。

所以,我想在这里给出一个大胆的观点,我认为在基础智能方面,基本上已经达到了我们的要求。我们不会自己预训练模型,不会去提高模型的基础智商,而是更多地教会它现实世界工程中的所有特质和细节。例如思考如何使用 Datadog,如何找出程序中的错误,如何处理每一种情况,如何创建 GitHub PR。

我们每天所做的工作中,都有非常多的细节和特殊性,这更像是教会模型去反映现实世界的复杂性,而不是让它达到某种更高的、根本性的解决问题的水平。

Lenny:你曾经分享过一个关于以往颠覆性技术增长的观点,那些技术非常依赖硬件,并且其增长存在限制因素,而 AI 则不同。

Scott Wu:出于多种原因,我认为 AI 将是我们一生中经历的最大的技术变革。

但我想说的一点是,过去 50 年我们经历的大多数重大科技革命,像个人电脑、互联网和移动电话,它们都有一个重要的硬件组成部分,这在推广普及中扮演了重要角色。

互联网最初只是一些大学之间相互通信,但随着时间的推移,整个世界都接入了互联网,这花费了很多很多年。

移动电话也是如此,个人电脑也是如此。关于这一点特别有趣的是,我们已经看到了这种影响:在这些硬件中,有很多事情取决于实时性。

所以,那些为这些行业开发产品的人,都亲眼见证了他们的市场随着手机用户和互联网接入人数的增加而逐年稳步成长,很多企业都是从行业初期就开始发展起来的。

像 Apple 和 Microsoft 几乎是在同一时间创立的,很多伟大的互联网企业或其他企业也是如此。它是一个随着时间的推移触及了整个世界,或者说触及了整个世界很大一部分的事物,产生了非常巨大的影响,但它花费了数年时间才得以实现。

我认为 AI 已经显现出的一大不同之处在于其技术的爆炸性增长潜力。

我认为我们已经稳稳地度过了 AI coding 的拐点,也就是说,作为一名工程师,如果你完全不使用 AI,你会被甩在后面。这是一种每个人都应该拥有和使用的技术,而且没有任何硬件分销的阻碍。这意味着这个领域正以指数级速度增长。

Lenny:Michael Pollan 有个有趣的观点,陈词滥调之所以是陈词滥调,是因为它们太真实了。这就是为什么你会觉得,这个我听过一百万次了。我认为人们听到这个会想。但实际上正在发生的事情是疯狂的。这就是你在这里帮助我们度过这个转变的原因。

Scott Wu:这是一个有趣的时代,这将需要真正的投资和真正的工作。但是,从我们的角度来看,作为工程师,这意味着与正在发生的一切保持同步非常重要。不仅是你学习和使用这些技术的能力,而且还关乎你教会 AI 关于你的代码库的知识,以便让它能够真正有效地与你一起构建,并做更多你想让它做的事情。

把 Devin 当作你的「新同事」

Lenny:对于正在听播客的公司员工来说,他们可能会想,我们公司应该使用 Devin。 你发现有哪些因素有助于帮助公司里的工程师获得采纳并能够使用 Devin,无论是文化上还是操作上?

Scott Wu:我们经常看到的一种模式是,团队中会有几个人非常兴奋,想要尝试新事物,他们愿意投入时间和精力,并且非常兴奋地想要把它搞起来。他们会完成所有的设置,他们会给 Devin 代码库的访问权限,教 Devin 如何运行 lint 和 CI 以及所有这些细节。他们会从分配最初的任务开始,基本上帮助 Devin 建立一个立足点。

随着时间的推移,最终人们会看到,Devin 正在写所有这些 PR,正在做这些事情。

Lenny:「那个刚加入公司的 Devin 简直是在疯狂地产出 PR。」

Scott Wu:他们看到这些,自然会加入并获得一个账户。当然,很酷的一点是,当他们加入时,Devin 已经对他们正在使用的代码库有了相当多的了解,并且正在与这些代码库协作。

所以,我们经常看到的一个非常酷的事情是,那些早期采用者本身可以真正地为团队中的其他人铺平道路。

我想指出的主要一点是,这是一种非常不同的产品体验。值得一提的是,我们仍然有很多可以做的事情,来让它尽可能直观、清晰地告诉人们如何使用 Devin,正确的步骤是什么,以及如何真正地从 Devin 中最大化价值。

你需要投入精力去理解,到底需什么才能让 Devin 成功。我们发现自己随着时间的推移,每一次更新后,我们都越来越多地使用 Devin。

Lenny:如果你能坐在每个第一次使用 Devin 的新用户旁边,在他耳边悄悄说几句建议,帮助他们更好地使用 Devin,你会说些什么?

Scott Wu:我认为最重要的一点是,真的把 Devin 当作你的新初级工程师来对待。我认为这是最重要的事情。

我认为人们进来,看到空白的页面,会想到各种各样他们想尝试的东西。

通常我们看到的有效的操作是,你可以尝试演示,你可以做一些事情。但很多时候是,我们弄清楚今天或这周我们想完成哪些任务,让 Devin 开始处理这些任务。

我们从比较容易的开始,然后与 Devin 合作,了解 Devin 需要设置哪些东西才能测试自己的代码并做得很好,然后随着时间的推移逐步扩大规模。当你与你的工程师(Devin)一起工作时,你会更好地了解如何与他们沟通,或者哪些任务或项目适合让他们参与进来,这确实是我们的核心理念。

Lenny:假设工程师每人有 5-10 个 Devin,他们就成了管理初级工程师的经理,这不一定是世界上最好的工作,因为它意味着大量的审查工作。至少你不必做绩效评估和一对一谈话。但这就像整天坐着检查大量的 PR。

你成为了架构师,这有点像每个工程师最终都想成为的样子。他们都会想「我只想搞架构,不想修 bug」你如何让生活变得愉快、有趣、享受,基本上作为一个管理着未来可能有 500 个 Devin 的工程经理?

Scott Wu:我认为「砌砖工」与「建筑师」的对比更接近于体验,而不是当经理。

管理当中遇到的很多困难,或者说人们回避它的原因,更多的是很多像上下文、所有权、责任之类的东西,然后还有各种情感方面的东西。

我认为与 Devin 合作更像是,拥有一个界面来交接任务和构建任务,找到合适的抽象层次,找到真正有效的工作流程。

我会做的类比是,当我们发明 Python 时,在很多方面,任务的描述和规划,显然是不同的范式。但我肯定认为,这远非人们通常认为的那种「管理官僚主义」。

对于 Devin,很多时候更像是,找到你可以与之协作的正确抽象层次,找到运作良好的工作流程。你可以先让 Devin 尝试一下,如果效果很好,你就马上合并。如果需要一些修改,你可以给出反馈。这更像是让 Devin 成为你流程的一部分,而不是失去控制,我认为这是人们在管理方面最害怕的事情。

Lenny:你是否在考虑推出一个经理 Devin,来管理其他 Devin?

Scott Wu:有考虑过,Devin 可以通过 API 启动其他 Devin,我们已经见过这种用例了。

如果你有一些大的任务想做,Devin 会分块,你需要给它们相应的权限才能做到这一点。目前这还不是默认启用的功能,但随着时间的推移,这种情况会越来越多。

对于人类,用技术术语来说,上下文(context)和线程(thread)之间存在一种耦合。我的意思是,每个人只能在他们所做的工作上单线程操作,并且他们有自己的一套上下文。其他人可以同时做其他事情,但他们有自己的上下文。

但对于智能体来说,你可以让一个智能体同时进行多条探索线,并且它们可以共享所有上下文。这还处于非常早期的阶段,但未来我们会看到这一点。一旦我们达到那个阶段,将会出现很多新的范式,等待我们去构建。

Lenny:你刚才提到的那个决定很有趣,是让一个 Devin、且只有一个 Devin 做所有事情,它来分发任务;还是你有五个 Devin,每个都在做独立的事情。这是一个非常有趣的决定。

Scott Wu:是的,当然。

创业:总有三到五件事情

要做得比想象中更极致

Lenny:目前为止,在构建 Devin 的过程中,你学到的最反直觉的事情是什么?那种与初创公司普遍认知相悖的。

Scott Wu:最近在我们构建 Devin 的过程中,我思考了很多。这其实不是我的第一家公司。对我们很多人来说,这都不是我们的第一家公司。我们团队总共有 26 或 27 人,其中大概有 18 个人在此之前创办过自己的公司。

我想到的一件事是,有一些在初创公司里你经常听到的非常普遍的陈词滥调,比如你必须快速行动,或者你必须雇佣优秀的人才。总是有那么三到五件事情被反复提及,它们是初创公司的普遍认知。

我最初创业的时候,作为创始人,确实有这样的想法。但是当你真正深入其中,投入了很多年之后,你会学到成千上万其他你需要学习的东西。在这些不同的事情上,你都会遇到很多小的细节,包括团队建设、产品、战略、工程决策、融资、销售以及所有其他组成部分。

随着时间的推移,我越来越觉得,要把公司做好,有时候仅仅是把那三到五件事情做得比你想象中还要极致。

每个人都说我们发展很快,但事实是,我们 2023 年 11 月办了个黑客松,12 月又办了一个,2024 年 1 月份正式成立公司,2 月份就把原型产品给初始用户试用了,3 月份我们发布了产品,4 月份就有了第一批客户。

我们在每一个地方都真正地加快步伐,这对我们来说真的产生了很大的影响。

是的,每个人总是说,你应该雇佣优秀的人才,我认为背后的真理是,你应该不惜一切代价,去争取那些你真正想引进的人才。

我最喜欢分享的一个故事是,我们有一位候选人来面试。他是麻省理工学院(MIT)的大三学生,非常年轻。我们给他安排了面试,他的表现比我们以往面试过的几乎所有全职候选人都要好得多。

所以我们说:「你觉得休学一段时间,和我们一起工作,构建 Devin 怎么样?我们认为你从第一天开始就能产生巨大的影响。」

他考虑了一段时间回来后说:「我愿意,我想这么做,但我的父母希望我能从学校毕业。我不确定有什么办法能行得通。」于是我们谈了更多,也了解了情况。

然后我们飞往北卡罗来纳州,从机场直接去了他父母家,和他们以及他父母共进晚餐,我们聊了很多,试图了解他们需要什么。他们说:「这听起来是个很好的机会,但我们希望我们的儿子能够毕业。」我们仔细讨论了这个问题,并想出了一个方案:他可以全职为我们工作,但同时参加他必须上的课程,并完成他需要做的事情来拿到文凭。我们讨论了这个问题,然后达成了一个大家都满意的方案。我们直接回到机场,那是我第一次也是唯一一次去北卡罗来纳州。

你雇佣优秀的人是一回事,但真正永不放弃,并尽你所能为那些真正适合团队的人创造条件,这才是关键。

他已经在我们团队工作一年多了,是一位非常棒的工程师,没有他,我们走不到今天。

类似地,我们还有另一个人,同样是非常有才华的候选人,非常年轻,在很多其他公司都有很好的 offer,他将来也想创办自己的公司。我们和他谈论,很多显而易见的事情,比如让他见我们的投资者,或者让他接触客户,或者看到很多其他方面,这样当时候到了,他就有创办自己公司所需的所有经验。

但另一件重要的事情是,他已经在和很多很棒的公司谈了,他不想破坏任何关系。所以我们和他一起,基本上手写了他给其他所有公司的拒信回复,和他一起斟酌措辞,比如,「你应该如何表达,既表明你真的感谢他们付出的时间,又表明你显然希望与他们保持密切联系。」我们的工作是确保他足够开心,以至于在不久的将来他不想离开。

你组建一个真正伟大的团队的方式,是通过真正地为对他们来说正确的事情而奋斗。

Lenny:这些故事太不可思议了,它们让「雇佣最优秀的人才」变得如此真实。这就是雇佣最优秀的人听起来的样子,这就是所需要的代价。

Scott Wu:我们非常努力地从头开始重新构想事物,思考未来 5 到 10 年技术会走向何方?以及我们希望在未来扮演什么样的角色?

Lenny:我在想,有一天人们会不会为了 Devin 而争抢。

回到你说的三到五件事,这是非常棒的建议,你总是听到要雇佣最好的人,快速行动,构建人们想要的东西。

Scott Wu:是的,构建人们想要的东西,尽可能地贴近你的客户。

我认为另一件事是,始终思考事情未来的走向,而不是它们今天的样子,尤其是在 AI 领域,事情发展如此之快,有这么多优秀的人才。所以不仅仅是思考 10 年后事情会怎样,而是思考下周会发生什么。事情发展非常迅速,很难预测。你真的必须对自己非常严格,思考那些事情,并在那个视角下评估你做出的所有决定。

Lenny:这里的重点是保持专注,感觉好像有 1000 件事情你应该做,但其实总是这 5 件事情。

在 AI 领域每个人都能成倍地放大自己的能力

Lenny:你还有什么想分享的吗?还有什么想留给听众的?

Scott Wu:关于 AI 有很多不同的看法。我认为基本上涵盖了所有可能的情绪。有很多恐惧,也有很多怀疑。我们自己也是非常持怀疑态度的人,总是想亲自尝试一下,才能真正看到并相信它。

对我来说,最主要的事情是,我对 AI 构建的产品非常乐观,不仅仅是代码和 Devin,而是整个领域以及所有正在完成的事情。每个人都能成倍地放大自己的能力。

这就是我们一直以来的思考方式,是我们思考我们正在构建的东西的方式。而且,我认为世界上还有很多事情要做。我不太担心我们会用尽可做的事情。从这个角度来看,我们一直最兴奋的事情是,我们所有人如何能做得更多。

Lenny:带着这份乐观,我们来到了非常激动人心的闪电问答环节。

第一个问题:你发现自己最常向他人推荐的两三本书是什么?

Scott Wu:在非虚构类方面,对于创业者来说,我非常喜欢的一件事就是学习和理解硅谷的历史。我们思考的所有这些东西,都是有人发明的。就像有人发明了种子轮的概念,有人发明了风险投资的概念,有人发明了 PMF 的概念。所有这些我们谈论的不同原则。

为此,有一本书叫《The Power Law》(风险投资史),作者是 Sebastian Mallaby,我非常喜欢。它基本上就是对过去硅谷六七十年里建立起来的许多伟大企业和伟大产品的一次巡礼。

至于虚构类,我个人一直非常喜欢 F·斯科特·菲茨杰拉德的《了不起的盖茨比》,这是我个人最喜欢的小说之一。

Lenny:你最近有没有特别喜欢的电影或电视剧?

Scott Wu:我必须承认,我想不出最近看过的任何一部电影或电视剧。我期待着在 AGI 之后观看很多很棒的作品。

Lenny:这必须放进预告片里。太棒了。我喜欢这个。这也显示了你工作有多么努力,有多少事情正在发生,一切进展有多快。

你最近有没有发现什么你真正喜欢的产品?可以是一个应用,可以是一个实物,可以是一把牙刷。

Scott Wu:我想说一个,我最近买了一个 Aura 相框。它就是一个展示照片的相框,你可以每天、每小时或者每 15 分钟展示一张新照片,或者随便你喜欢。我实际上非常喜欢它。我认为这是一种很好的方式,基本上就是一个能展示回忆照片的相框。

然后我想说的另一件作为通用物品的东西,它不是特别新,但我想说我认为 AirPods 实际上制造得非常好,设计得也很好。我现在意识到,我基本上在各种情况下都用它们。我在散步时接电话用 AirPods,我显然在电脑前工作时也戴着 AirPods。它在很多不同情况下都运作得相当好。它们非常舒适,非常稳定。

Lenny:是的,我要再次强调 Aura 相框。我也给我妈妈和岳母买了一个,它们对于和家人分享你孩子的照片真的非常棒。人们可能听说过数码相框,但 Aura 就是做得非常好,添加照片非常容易,而且它们看起来真的很漂亮。

Scott Wu:你可以想象,不久之后,我们会有 Aura 相框,只不过它把你所有的照片都变成吉卜力工作室的风格。或者只是想象一些你做过的很酷的事情。

Lenny:酷。我相信它的拼写是 A-U-R-A,如果大家想去看看的话。我们会链接它,非推广。好的,还有两个问题。

你有没有最喜欢的人生格言,你经常回顾并在工作或生活中觉得有用?

Scott Wu:是的,我经常思考的一件事是,很多谚语实际上是相互矛盾的?比如,「物以类聚,人以群分」,然后你也有「异性相吸」。你觉得它们都是对的,而且它们通常都是对的。很多时候是关于理解为什么。

其中一个我觉得,尤其是在创业世界里,我几乎一直在思考的是,我认为专注和有驱动力非常重要,真正地最大化你的潜力。同时,不让自己的个人情感与成功或失败挂钩也非常重要。

尤其对于初创公司来说,因为总有起起落落,老实说,即使是最成功的公司也是如此。这是一条崎岖的道路,会发生很多事情,经历很多。我思考了很多的一件事是,你真的想尽力而为,付出你的一切,并尽你所能去做。基本上,你想在场上倾尽所有。但同时,你也要能够接受胜利和失败。你希望能够继续前进,每次都进入下一个阶段。

为了你自己的情绪状态和精神状态,能够做到这一点非常重要。我们犯过很多错误,我的第一家公司显然很酷,但那里有很多棘手的地方。然后在 Cognition 的过程中,感觉好像已经把八年压缩到了一年里,而且仍然以那个速度前进。但不知何故,它实际上也让你更成功。

如果你不把它与你个人的价值联系起来,你就更能付出你的全力,做那些能带来成功的事情。

Lenny:这太有趣了。我最近刚录制了一期播客,采访了一位高管教练 Jerry Colonna,那是他的重要建议之一。这是一种非常佛系的方法,就是不执着、不依附于结果。

Scott Wu:是的。

Lenny:好的,最后一个问题。Devin 这个名字背后有故事吗?或者是否有其他名字曾是这个智能体的候选?

Scott Wu:Devin 这个名字很早就定下来了。我们从一开始就对编码智能体感兴趣。例如,我的联合创始人是 Steven 和 Walden,我们当时有了这个想法。

我们在最初创业时,尽量扩大范围,让每个人都能跳出思维定势,让每个人先做一段时间自己的事情,然后我们再整合,吸取我们学到的所有东西。

Walden 制作了一个他的虚拟开发者版本,叫做 Dev Walden,然后 Steven 也做了一个他的版本,叫做 Dev Steven。我们把这些都整合到一起,它就是 Devin。

Devin 很早就确定了。我想说,我们确实有一个重大的决定,那就是 Devin 的形象应该是什么。正如大家所知,有那个六边形的标志。实际上还有一只水獭,一只小水獭腿上放着一台笔记本电脑,那也是 Devin。我们当时就用什么、不用什么争论了一番。已经有一段时间了,但不知何故我们仍然同时保留着六边形和水獭。

Lenny:你跳过了 Devin 的来源。

Scott Wu:Devin 它是一个开发者(dev),有点像当我们整合所有名字时,就很清楚了,这将是我们都喜欢与之合作的通用开发者(universal dev)。

Lenny:Scott,这次访谈太有趣了,我学到了很多。最后两个问题,大家可以在哪里找到你或 Devin?还有什么你想告诉他们的吗?听众如何能帮到你?

Scott Wu:我们的网址是 app.devin.ai。你也可以在 Twitter 或很多其他社交媒体上找到我们。我们非常希望听到你对 Devin 产品的任何反馈。有很多东西需要弄清楚。

就像我说的,我们距离软件工程的未来都还有 20 步之遥。所以听到大家在试用产品时的想法,对我们来说意义重大。所以,如果有任何我们可以做得更好的地方,请随时告诉我们。

Lenny:Scott,非常感谢你来到这里。

Scott Wu:非常感谢邀请我,我度过了一段愉快的时光。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI程序员 Devin 软件工程 人工智能 编程
相关文章