孔某人的低维认知 03月20日
2025.3 OpenAI CPO Kevin Weil 访谈
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI CPO Kevin Weil在访谈中提到了团队协作、产品优势及未来规划等内容。强调研究与产品深度融合的重要性,介绍了Deep Research、GPT-4.5等产品的特点及优势,还提及了GPT-5的开发计划和模型智能提升的方式。

🎯OpenAI中研究和产品团队深度融合至关重要,Deep Research是典型案例

💪Deep Research能让用户突破自身局限,如对μ子对撞机进行研究

✨GPT-4.5在用户互动等方面有独特优势,源于大规模预训练

📈OpenAI计划在GPT-5中整合GPT系列与O系列模型的功能

孔某人 2025-03-19 21:53 北京

OpenAI CPO最近的访谈,不算特别重要,但也提到了一些信息。

文稿同样经过文字凝练以降低阅读成本。

title: OpenAI CPO Reveals Coding Will Be Automated THIS YEAR, Future Jobs, 2025 AI Predictions & More!
url: https://www.youtube.com/watch?v=SnSoMh9m5hcdate: 20250315

摘要

(根据个人偏好而有所取舍)

Kevin Weil 谈到 OpenAI 中研究和产品团队之间的深度融合对开发出优秀产品至关重要。Deep Research 正是这种团队协作的典型案例:从项目初期,研究人员就明确了解产品团队所需解决的具体问题,从而设定精准的模型评估标准与训练方向;而产品团队则能实时理解研究成果中的新能力,以此迅速构建实际功能。Kevin 强调,若研究与产品之间只是简单的成果传递,而非深度融合,将难以创造出同样优质的产品。

Kevin Weil 将Deep Research视为继 ChatGPT 后最为重要的新产品之一。他以个人的使用实例说明了 Deep Research 的独特价值:过去他使用 ChatGPT,往往只是为日常工作节省时间;而使用 Deep Research 时,却是做到了自己完全无法做到的事,比如对物理学领域“μ子对撞机”进行深入研究并在短时间内获得了十五页详尽的报告,这已远超个人能力。此外,他也用 Deep Research 帮助为孩子进行医学领域的深入调查,这种体验带给他过去从未有过的安心感。他特别提到,这种产品给人一种真正接近 AGI 的感受,能让用户突破自身知识与能力的局限

关于 GPT-4.5 模型的具体优势,Kevin 明确表示,GPT-4.5 的明显提升源于更大规模的预训练,这使得它在用户互动、表达细节和写作风格上拥有独特的优势。他提到,GPT-4.5 尤其擅长捕捉语言中的微妙性和细致差别,用户在实际体验中对该模型表现出强烈的偏好。例如,在风格化表达、人性化对话及创作高质量内容方面,GPT-4.5 都表现出明显的优势,给用户一种更真实、更细致的互动体验。

而在 GPT-5 的开发计划上,Kevin Weil 明确提到,OpenAI 计划整合现有的 GPT 系列模型与 O 系列推理模型,以统一两系列的功能与优势。他具体提到,以往的 O 系列模型(例如 o1 和即将发布的 o3)在基准测试(如 GPQA、Frontier Math 和 ARC AGI 等)中表现突出,拥有极强的推理能力,但缺少 GPT 系列具备的一些功能,如文件上传、搜索网络、使用外部工具等。接下来团队的计划正是在 GPT-5 中将 GPT 模型的功能集与 O 系列的推理能力进行统一。虽然 Kevin 并未给出具体发布日期,但他表示当前开发进程已经到了认真讨论这个目标的阶段,团队也在积极推动这项工作。

最后,对于模型智能的提升途径,Kevin Weil 认为当前模型智能提升主要有两种方式:一是增加预训练规模以强化模型的人性化表达及微妙能力,例如 GPT-4.5;二是强化模型的推理与分解问题能力,例如 O 系列。他强调,未来的发展不会仅仅选择一种路径,而是通过结合两种优势,创造出更强大的新模型,这也是团队当前开发 GPT-5 的主要目标之一。他指出,这种融合将带来更大的能力跃升,也更贴合真实使用情境下用户的需求。


正文

00:01:21

Tanmay:

我们邀请了来自OpenAI的Kevin Weil加入我们。Kevin,对于可能不了解你的观众,你能告诉我们一些关于你在OpenAI的工作以及为什么你如此特别的信息吗?

Kevin Weil:

为什么我如此特别?嗯,我有幸担任OpenAI的首席产品官(CPO),这可能是我职业生涯中最有趣的工作。

你知道,我在职业生涯中有幸在多个地方工作过。我曾在Twitter早期担任工程师,当时公司只有约40人,我在那里一直工作到公司发展到约4000人左右,那时我主要担任产品负责人。我还曾在Instagram担任产品负责人,是Meta旗下加密货币项目Libra的共同创建者。我还在Planet公司花了几年时间构建卫星,这也是一次令人难以置信的经历。

但你知道,在OpenAI之外的其他地方工作时,你对计算机能做什么有一个基本的认识。在构建产品时,你会考虑为谁构建,试图解决什么问题,但技术就是技术。数据库会改进,但速度不会很快,比如今年的数据库可能比去年快5%,但它基本上做的还是相同的事情。OpenAI的疯狂之处在于:大约每两个月,我们就会让计算机做一些计算机在世界历史上从未能做的事情。这意味着你对技术能力的认知不断变化,你必须几乎每两三个月就重新思考你的产品,这很紧张,但非常有趣。

Varun:

Kevin,你能告诉我们在OpenAI的工作体验如何吗?特别是在产品方面的工作?因为OpenAI有两个身份,对吧?你们既是研究机构,同时也是产品公司。很多人都在谈论模型会不断变得更好,这里有很棒的研究,其他公司也有很棒的研究,但OpenAI通过产品,尤其是ChatGPT,真正吸引了全世界的关注。ChatGPT现在已经成为一个动词了,我自己也这样用它。那么,这种体验是怎样的?你的日常工作是什么样的?

Kevin Weil:

这段经历真的很棒。我的意思是,如果回顾过去,OpenAI大概是在10年前成立的,最初是一家研究公司。它由一群当时看起来疯狂的人创立,他们说:"你知道吗,我们可以构建AGI,我们可以构建人工通用智能。"当时,几乎没有人相信他们,他们有点被边缘化,但他们是对的。他们确实发现了一些东西。他们开始构建一些令人惊叹的演示,比如能解决魔方的机器人手之类的东西。然后他们发现了规模定律,表明随着更多计算能力、更多数据的应用,这些模型开始变得非常出色。正如你所说,OpenAI很快就成为了一家世界级的研究公司。

但现在随着ChatGPT、我们的企业产品、API产品以及其他我们正在考虑的项目,我们不能仅仅是一家世界级的研究公司。我们必须同时是一家世界级的研究公司和一家世界级的产品公司。而且实际上,我越来越认为我们不能将这两者分开独立存在。我们必须真正好地协同工作,因为就像我之前说的,每两个月你对计算机能做什么的认知就会改变。如果你像两家独立的公司那样运营,那么你能做的最好的事情就是把一些改进隔墙扔给对方。这不会是我们构建最佳产品的方式。

我们在Deep Research这样的项目上已经看到了这一点,它真正是一个集成的产品研究、引擎和设计团队共同工作的成果。当你能够将人们真正想要的东西和从产品与工程角度对要解决问题的理解,与模型能力方面的惊人突破结合起来时,就会发生奇妙的事情。当你早期就将这两者结合起来,你就能获得魔力。如果你们只是互相隔墙扔东西,你可能会构建出很酷的东西,但我不认为你会构建出最好的东西。而且市场竞争非常激烈。我们有非常非常优秀的公司在各个方向都在构建优秀的模型。我们获胜的唯一方式是真正作为一个整体运作,这也是我们越来越多地设置自己的方式。

Varun:

所以你的日常工作主要是思考研究的发展方向,然后说,好的,产品需要在这里加速以跟上它,以及六个月或一年后整个情况会是什么样子。

Kevin Weil:

嗯,其实是双向的。因为使用模型的一个有趣之处是,如今的模型非常非常出色。它们并不真的受到智能的限制,而是在某种意义上受到"教学"的限制。你可以教它们做任何你想让它们做的事情,但你需要有数据、强化学习(RL)、环境来教它做一些伟大的事情。

因此,实际上有越来越多的产品工作投入到评估标准的制定和模型的教学方向上。这其中有很多微妙之处。比如,如果你针对一堆竞争性编程比赛训练模型,那么它就会在竞争性编程方面变得非常出色。但竞争性编程与现实生活中的编程,比如编写前端应用程序,并不完全相同。所以你真的需要深入了解你具体要解决什么问题,并确保你教给模型正确的东西。这就是产品反向影响研究的一部分。

然后就像你说的,还有各种用例,研究成果向前推进到产品中,当有一些新的能力出现时,我们就会思考:"好的,我们如何用这个构建一些很棒的东西?"这就是为什么你需要两个团队一起工作。你能够获得两全其美,并构建出令人惊叹的东西。

00:07:35

Tanmay:

我看他们在研究和产品之间花费了太多时间,结果最后几乎没有时间来命名产品。

Kevin,稍微提供一点背景,Varun是受过工程师训练的,而我除了主持人身份外还是一名喜剧演员。我只是想澄清一下,我不是一个随便出现来开玩笑的人。好的,继续。

Kevin Weil:

不,我们确实应该受到人们对我们命名方式的所有批评。我们的命名绝对糟糕透顶。但我们知道这一点,并且我们接受这个事实。你知道,我们偶尔会在Reddit上做AMA,有一次我和Sam一起参加时,有人问"你们能改进产品命名吗?"我们当时在一个房间里来回讨论该如何回应,最后我只用了两个字回答:"No"。

Tanmay:

就像我们正在努力实现AGI,而消费者最大的反馈却是名称有点混乱。

Varun:

你们应该简单地将所有产品命名为"AGI 1"、"AGI 2"、"AGI 3",这样会更简单。

Kevin Weil:

是的,我很兴奋。你知道,Sam谈到了将模型重新整合在一起的计划。我们经历了这样一个分叉:历史上我们有所有的GPT模型系列,GPT-3、GPT-3.5,现在是GPT-4.5,这些模型由越来越大的预训练运行提供支持。

去年我们在推理方面取得了突破,因为这些模型非常出色——o1-preview、o1,即将推出的o3可以做一些令人难以置信的事情。我的意思是,它们在基准测试上的表现简直惊人。它们能够做到的事情,按照所有扩展定律,你需要预训练一个大10万倍的模型才能达到这种效果。

这些模型非常出色,但当时它们没有我们GPT模型所有的功能。它们不能搜索网络,不能处理文件上传等等。它们只是在推理方面非常出色。因此,我们给它们起了新名字,将系列分开,因为我们无法将它们合并。它们没有相同的功能集。但有时你真的想使用一个系列,有时又想使用另一个系列。

我认为尽管这造成了混乱,但这是正确的决定,因为它帮助我们将这些技术推向了世界。现在人们正在利用它们取得进步,用这些模型做一些令人惊叹的事情,比如编程、前沿科学或其他领域。所以,在大多数情况下,我们优先考虑速度,优先考虑将这些新工具放在人们手中,这样他们可以更快地做更多很酷的事情。

但我们确实将系列分叉了,现在随着我们对这些推理模型越来越熟悉,我们正在教它们使用GPT系列能做的所有工具。所以它们现在可以处理文件上传、搜索网络,甚至可以在推理过程中使用Python,这非常酷。当它们在解决问题时,它们可以编写代码来帮助自己更好地理解问题。超级酷的是,现在O系列和GPT系列开始拥有相同的功能,这给了我们将它们重新整合的机会。这就是我们计划在GPT-5中要做的事情。所以尽管我们在命名方面道德上很糟糕,但我们正在努力简化。

Varun:

这是个难回答的问题,但你们有GPT-5的发布时间线吗?我必须得问一下。

Kevin Weil:

我的意思是,已经近到我们开始谈论它了,对吧。存在一些不确定性,因为我们确实希望在这个过程中实现简化,这意味着人们习惯使用的所有工具和功能都需要运行得非常好。为此,我们正在教推理模型一系列新技能,而这属于研究工作,你知道,有些事情存在误差范围。所以我不会给你一个具体时间,但它已经足够近了。不是说我们只是在谈论它,而是我们非常认真地对待它。就在我说话的时候,团队正在开发它。

00:11:38

Tanmay:

Kevin,你知道,我不是一个工程师,对吧?我是产品的用户,我真的很喜欢这些产品。顺便说一下,作为开发这些产品的人,我认为你们做得非常出色。

随着时间的推移,我们看到了竞争对手的崛起,对吧?人们几乎开始说,模型可能会被商品化。所以实际的产品和用例变得更加重要。现在你们也一定注意到,如果OpenAI引领方向,其他公司也会跟着推出类似的产品。

作为产品开发者,你们现在是否意识到竞争对手在做什么?你们如何思考继续保持先发优势和领先地位?作为负责产品的人,你们是怎么看待这个问题的?

Kevin Weil:

这是个很好的问题。关于模型是否正在被商品化以及如何保持领先优势,我要稍微不同意一下问题的框架,我实际上完全不认为模型正在被商品化

我认为它们正在快速发展并且迅速变得更好。老实说,模型获得智能的速度是难以置信的。Sam Altman几周前谈到,如果你以某个特定智能水平的成本作为基准,这种智能的成本每年下降10倍。想想摩尔定律,它基本上定义了我们过去60年的时代。它是指芯片上的晶体管数量每18个月翻一番。所以那是每18个月增加两倍。而这个是每12个月增加10倍。所以这是一个极其陡峭的曲线,对吧?当然,智能并不是保持不变的,它在成本下降的同时也在急剧增长。这就像一系列令人难以置信的趋势,但我不认为这些模型正在商品化。

它们只是因为我们处于如此陡峭的发展轨迹上,人们能够快速追赶领先者,但这并不意味着领先优势没有价值。我认为即使是三到六个月的领先也非常重要,因为这意味着你首先获得新能力,这意味着你可以首先推出满足这些能力的新产品。由于这些能力对世界来说是全新的,这些产品以前从未存在过,比如我们的Deep Research产品。当你首先做这些事情时,你就是在引领方向,而其他人都在跟随。我认为这是一个非常有价值的位置。

所以,我们将尽最大努力保持我们的领先优势。其他人也做了很棒的研究,在某些方面,其他实验室处于领先地位,这很好。但我们是超级有竞争力的,我们肯定会密切关注其他人在做什么。我们想要引领方向,我们的使命是确保AGI造福全人类。我们通过尝试将AGI或AI放在每个人手中来实现这一点,包括我们构建的ChatGPT等第一方产品,以及通过提供API,目前有3百万开发者定期使用它来将AI嵌入到各种工具、公司和产品中。所以,我们将尽一切可能将AI带给尽可能多的人。

00:15:09

Varun:

我有个问题,其实更像是个人观察。坦白说,我之前正准备取消我的ChatGPT订阅,转向使用Claude一段时间。

Kevin Weil:

什么?这是怎么回事?

Varun:

这是不久前的事。当时我使用的是普通计划或Plus计划,然后Deep Research功能发布了,但我听说它只在Pro订阅中提供。我当时想,这个功能可能不会很好。但后来我在Twitter上看到很多关于它的推文。先是看到一条说这功能很棒,然后我开始看到更多评价。看到第三条、第五条后,我想,好吧,让我去升级到Pro。说实话,Deep Research给我带来了很久没有过的"我靠,这太厉害了"的震撼感。Deep Research真的非常棒。Perplexity有深度研究功能,Grok有DeepSearch,但没有一个能接近你们的Deep Research。

这种优势有多少是来自底层模型,有多少是来自你们在产品上的工作?因为Deep Research真的非常出色。我每天都在使用它。你们之前有资源限制,每天只能进行有限次数的搜索,我甚至创建了另一个账号并升级,这样我就能进行更多搜索。我用它来进行最简单的查询,因为它能搜索Reddit和全世界很多人从未见过的博客文章,收集所有这些信息。它几乎完全不会产生幻觉。

它感觉像是AGI,因为以前AI总是给我提供内容,但那些内容本质上很泛泛。而有了Deep Research,现在内容充满了洞见,信息的精华。比如,如果你问它"平均需要多少人才能制作一款游戏",早期版本的AI会给出非常模糊的回答,但现在我能得到具体的例子,这个游戏用了多少人,那个游戏用了多少人,这太有用了。这种优势有多少是来自你们在产品上的工作,有多少是来自底层研究?

Tanmay:

顺便说一句,这是Kevin收到过的最长的赞美。

Kevin Weil:

不,不,不过你可以继续夸Deep Research。你做得很棒。

说实话,我认为Deep Research是自ChatGPT以来我们推出的最好的产品。它真的很神奇,是我们内部所说的那种"感受AGI时刻"之一,就是那种让你起鸡皮疙瘩、开始感受到的时刻。你在智力上理解AI和模型智能增长的趋势,但有时候很难真正想象出当我们真正拥有无处不在的AGI时会是什么感觉。但偶尔你会得到一些提示。

Deep Research对我来说就是这样的提示,因为它涵盖了我使用ChatGPT的很多用途。它每次为我节省5-10分钟,这太棒了,对吧?我会接受所有能获得的时间。我有工作、三个孩子、家庭和所有这些事情要处理,但在很多情况下,这些事情没有ChatGPT我也能完成。只是ChatGPT让它们变得更好、更快等等。

Deep Research是第一个让我感觉到"我不可能自己完成这些事情"的产品。你知道,我是个物理迷,所以我试图了解μ子对撞机,我让它为我做了这个大型研究,20分钟后它返回了一份关于μ子对撞机的15页报告。这就是我自己不会去做的事情,你知道吗?同样,为我儿子做一些医学研究。我没有能力做那种研究。它为我做了研究,并给了我很多安心感。所以这不仅仅是节省一点时间,它从根本上为我做了一些我自己无法完成的事情。这是令人大开眼界的,对吧?

回到你的问题,我认为功劳首先要归功于研究团队。他们做得非常出色。但这是我告诉你的例子之一,我们有一个研究团队和一个产品、工程和设计团队从一开始就一起工作,确保我们试图为人们解决的问题与我们评估模型的方式相匹配。当我们训练模型以提高某些技能时,这些技能直接与我们试图创建的产品相关联。这真的是将这些团队结合在一起的魔力。所以我认为这是一个例子,如果我们是各自为政地运作,研究团队在这边,产品团队在那边,我们就无法创造出这样的产品。

00:19:40

Varun:

有意思。关于你刚才提到的Deep Research,我有个后续问题。我最近尝试了GPT-4.5,它有这种非常明显的大模型感觉。我不知道该如何解释它,但当我使用较小的模型,比如o3-mini时,我能感觉到它理解我的方式过于字面化。我不知道该如何解释,但这只是我对模型的一种直觉感受。

但GPT-4.5的写作真的很出色。它能够捕捉到我所说内容的细微差别,能够捕捉到我所说内容的边缘情况。据我了解,GPT-4.5没有任何推理能力,这只是一个更大的预训练数据集。你认为,将这种新水平的预训练与推理能力结合起来,会创造出世界前所未见的新事物吗?你是否预期会有巨大的能力跃升,还是说如果模型已经足够大,推理能力就不那么重要了?

Kevin Weil:

我认为推理能力绝对重要,从基准测试中就能看出来。如果你看一些更学术性的科学基准测试,比如GPQA、Frontier Math或ARC AGI这类,GPT-4.5根本无法与o1相提并论,更不用说o3或我们即将推出的前沿推理模型了。

但正如你所说,还有这些更柔软、更人性化、更难以量化的评估,GPT-4.5在这些方面表现得非常出色。从人类反馈中可以明显看出这一点。在A/B测试中,当你将GPT-4.5与其他模型并排比较,询问人们更喜欢哪一个时,人们对GPT-4.5表现出巨大的偏好。

所以我认为这表明,目前我们知道有两种方法可以扩展模型的智能:一是进行更大规模的预训练,二是在此基础上进行更多的强化学习来教它推理。最终的答案不是二选一,而是继续同时做这两件事。

这些更大规模的预训练模型拥有更好的软技能、更丰富的世界知识,与它们交谈更有趣。它们给人一种更真实的感觉,虽然"活着"不是我想用的确切词汇,但它们对你我来说感觉更真实。

Varun:

你有什么理论来解释为什么大模型会给人这种更真实的感觉吗?

Kevin Weil:

我认为在更大的模型中你可以编码更多的微妙性和细微差别。人类世界本身就充满了维度、微妙性和细微差别。

如果你考虑相反的方向,比如将GPT-4o模型蒸馏成GPT-4o-mini,你会得到一个模型,根据蒸馏方式的不同,它可以在你关心的特定维度上保留大部分技能。

所以如果你想构建一个真正优秀的小型编程模型,你完全可以做到。你可以拿GPT-4o或o1进行蒸馏,然后生产出一个非常好的编程模型,它在编程基准测试上可能不会完全达到原模型的水平,但差距不会太大,而且它的体积会小得多。但如果你尝试与它交谈,它不是一个特别有趣的交流对象,它在某种程度上失去了它的个性。当然,如果它只是一个编程模型,这点并不重要,因为这不是你使用它的目的。

我认为小型模型在很多方面都很棒,但有一种感觉是维度坍缩了,你失去了微妙性和细微差别。而正是这些微妙性和细微差别使得模型变得非常愉快交谈。

我认为当你朝着扩展模型的方向发展时,也会发生类似的效果。在增加的维度中,有更多的空间来编码更丰富的细微差别。这听起来可能有点抽象,但我认为背后确实有科学依据,而且在我们观察到的所有现象中似乎都是如此。

以GPT-4.5为例,如果你要求模型表现出特定的声音风格,如果你向模型寻求关系建议,如果你将它用于那些更柔软、更人性化的交互场景,GPT-4.5是目前最好的选择,远远超过其他模型。你不会真正理解这一点,直到你亲自尝试它。然后你会恍然大悟:"哦,我完全明白了!"听起来这正是你的亲身体验。

Varun:

是的,GPT-4.5确实是一个更好的写作者。它的写作中有一种特质,就是感觉非常人性化。确实有一种人性的感觉,这种感觉非常真实。有趣的是,两三年前我可能会持不同观点,认为更好的推理能力才是写出更好内容的关键。我当时可能会想,从逻辑上清晰地表述"这件事发生了,然后那件事发生了,再然后这件事发生了",这应该能帮助写出更好的内容。但现在我意识到,正如你所说的那种微妙性和细腻度才是真正提升写作质量的因素,这完全出乎我的意料。所以我在脑海中做了一次思路修正。

但我这里有个问题,我想问一些关于特定技能的问题。我想先谈谈编程,因为三年前如果有人说编程将被自动化,没人会相信。大家会说:"GPT-2做不到这个,它根本不够胜任。"随后GPT-3展示了一些代码输出能力,如果你只是想做一个小按钮,没问题,它能做到。大约一年半前,当我们开始看到并日常使用GPT-4时,情况发生了变化。现在它变得非常出色,竞争性编程方面已经进步很大。而且无论是我尝试为某个项目构建前端,还是在后端构建基础设施,它现在都能做得更好了。

几周前我和Anthropic的一位人员交谈,我问他们:"Anthropic有没有一个时间线,预测代码何时能实现99%的自动化?"我指的是实际的功能性代码,用于前端和后端开发。他们回答说:"是的,2027年。"你对此有时间线预测吗?你对编程的未来有什么看法?因为你每天都在编写代码,你参与研究工程,与研究团队合作,你构建产品,你心中有时间线或至少有关于这将如何发展的理论吗?

00:25:29

Kevin Weil:

我的意思是,按照目前的发展速度,如果AI到2027年才能完全自动化编程,我会感到惊讶。我认为会更早。

Tanmay:

Kevin这边说Anthropic预测是2027年,而我们这边说是2026年。

Kevin Weil:

你看,当我们发布GPT-4o时,它确实是一个很好的编码模型,被用作GitHub Copilot的后端,全球范围内都在大规模使用,但它与o1-preview相比还是有差距。o1-preview是一个更好的编码模型,因为推理能力在编写代码时非常重要。无论你是在做什么困难的事情,解填字游戏、数独,还是编写代码,你都需要一定程度的推理能力,需要能够将问题分解为更小的问题,形成假设,验证或反驳这些假设。这就是推理的作用。

o1-preview在编程竞赛中的表现大概相当于世界上排名第一百万的竞争性程序员。这听起来可能不是很好,但考虑到全球有3000-4000万程序员,这意味着它已经处于前2-3%的水平。这是o1-preview的水平。而当我们正式发布o1时,它在竞争性编程比赛中的表现相当于世界上排名第一千的工程师。即将推出的o3模型根据相同的基准测试,表现相当于世界上排名第175位的竞争性程序员。而我们正在训练的后续模型已经表现得更好。

我认为,按照竞争性编程的基准测试,今年将是AI在编程能力上永久超越人类的一年。就像计算机在约70年前在乘法计算上超越了人类,AI在约15年前在国际象棋上超越了人类一样,这是AI在编程领域超越人类的年份,这是不可逆转的,没有回头路。我们OpenAI、Anthropic和Google都在这个领域投入大量精力,所以这方面的发展会非常快。我认为这将改变世界,会让世界变得更好。

你想象一下,如果不需要成为工程师就能创建软件,这将产生多大的民主化效应。AI在软件上超越人类比在国际象棋上超越人类重要得多,因为通过软件你几乎可以创造任何你想要的东西。举个例子,在新冠疫情期间,有些人想为他们当地城市创建一个追踪新冠数据的网站,但由于没有可用的工程师,他们自己也没有相关技能,结果就是他们无法实现,也就没有那些信息。而现在,任何顶级模型都可以轻松完成这样的任务,更不用说未来当这些模型能够生成任意数量的优质软件时会怎样。所以我对这个未来感到非常兴奋,它很快就会到来。

Tanmay:

Kevin,但你真的认为工程师有更多空闲时间对世界是好事吗?因为我有很多工程师朋友,我不确定他们有更多空闲时间后会把精力用在我认为有益的事情上。

Kevin Weil:

我不知道你怎么想,但我每天有不少时间在做我希望不必做的事情。无论是工作中的琐事,还是为孩子的足球队填表格之类的事情。你知道吗,我每天有很大一部分时间我希望能被自动化,对吧?而且这些确实应该被自动化,就是应该这样。

我自己做了很多年工程师,有些问题确实很难,你需要投入所有时间和注意力去长时间解决。但其他时候,你会想"好吧,我知道这该怎么做,我只是面临大量的编码工作,而这些工作并不是特别有差异化"。我只需要做大量的编码工作——Varun在微笑。你懂的,对吧。这些工作应该被自动化,而且这些工作将来也一定会被自动化。

00:30:05

Tanmay:

Kevin,作为一个内容创作者,现在有一个持续的讨论,就是有多少AI生成的内容会出现在网上。比如Varun的Instagram基本上是假的,90-95%的视频都不是他本人,而是有人点击三个按钮让它看起来像是Varun。你认为这会往哪个方向发展?感觉真实性正在迅速减少。你们OpenAI关注这个问题吗?你们是否积极思考当一切都可以自动生成时互联网会发生什么变化?

Kevin Weil:

是的。我给你我的个人看法,我认为在大多数人类创作中,有一种"工作量证明"的价值。如果创建AI基础的内容变得超级容易,我认为确实会如此,人们会重视那些知道需要花费大量时间和精力创造的东西。他们不一定重视那些你可以在5秒钟内制作出来的东西。

关于Sora,这是我们的视频模型,对于没听说过的人。你现在不能去Sora那里说"Sora,给我做一部电影",这根本行不通。但如果你给它真正周到、详细的提示,你可以让它创建令人惊叹的东西。我们内部有一位曾在行业中工作过的创作者,他能用Sora做出我难以置信的事情,远超我能做的任何事情。我们使用的是同一个工具,但他仍然能做出令人惊叹的事情。

我最近与一位导演交谈,他正在考虑使用Sora,他做科幻题材的作品。他说,想象你有一个科幻场景,有一艘飞船在外太空飞向一个星球,类似于死星类型的星球,然后需要切换到飞行器沿着这个科技星球表面飞行的场景。你如何实现从一个场景到另一个场景的切换?有很多不同的方法可以做到。

他说,今天他会去特效工作室,给他们10万美元,他们会制作两个不同版本的切换场景,这需要一个月时间,而他只能从这两个版本中选择一个,因为这是他所能负担的。但使用Sora,他可以在一个下午内制作40个不同版本的相同切换场景,探索各种不同的方向,让创造力自由发挥,与AI合作创造更多可能性。然后在一天结束时,他可能仍会去那个同样的特效工作室完成他真正喜欢的那个版本,但他会带着更多不同的想法,从50个选项中选择一个,最终得到一个他更喜欢的结果,因为他与AI进行了合作。

这并不意味着你只需轻松点击就能让每个人创造出令人惊叹的作品。做出优秀工作仍然需要大量的工作和专业知识,门槛可能保持不变,只是有了AI的协作,最终的输出可以变得更好,也许对世界其他地方更容易获取。

Varun:

而且更快,我认为如果你能够直接看到成果,你就不会受限于别人的进度了。你花费的工时可能是相同的,但比如说,如果VFX工作室需要一个月来完成某项工作,而使用AI你可以立即获得结果。但我本来就不会亲自完成这些工作,因为我本来就是把它外包给他们的。

我最近和行业里的另一个人聊天,你知道,他说创意工作或编程的未来将变成一种管理工作,因为现在AI提供的能力过去只有拥有资本的人才能获得——这就是所谓的雇佣人才,对吧?我现在编写的代码比一年前少了很多,因为现在我可以雇佣一群人,对他们说:"嘿,我想尝试这个实验。"他们可能只需要一周时间就能完成,因为他们使用AI。

你会怎么做?你会...如果你是一个创意人员,无论是程序员还是内容创作者或广告文案撰写者,你会如何适应这个新世界?

因为印度和世界各地有很多人重视智力胜过一切,他们会说:"看,我从头开始构建这个。"这种观念很难对抗,因为有时我们与人交流,他们会说:"你知道,我想从头开始构建这个,我了解所有的细节。"我们会回应说:"很好,但这应该反映在成果中。"但现在的面试就是在测试"你知道如何从头开始构建吗?"

Kevin Weil:

对。我认为技术的发展本质上是不断提高抽象层次的过程,对吧?我们能够更快地前进是因为我们不必从设计电路开始。有了电路后,你就不必编写机器码了。然后你有了汇编语言,不再需要写机器码,而是写汇编语言。接着你开始用C语言,然后是Python。再后来你有了各种Web框架帮你处理很多事情,你甚至不用担心底层操作系统,因为你的代码运行在浏览器中。你知道,世界就是这样一系列不断提高的抽象层,这些抽象帮助我们前进得更快。AI就是又一层抽象,帮助我们更快地工作。

如果你大量使用AI来编写代码,如果你不太关心代码本身,而更关心产品的输出,那么你对代码内部的了解是否会像自己亲手写的那样深入?可能不会。但这真的有问题吗?我父亲是个工程师,曾在微软从事编译器工作。我对编译我代码的那些内部机制的了解肯定不如我父亲那么深入。但这又有什么关系呢?我也不是在写Fortran,我是在浏览器里写Python并实时部署它。

所以这些都是权衡。你可能会失去一点点对代码的了解,但你获得了速度,更重要的是,你获得了将这种能力普及化的可能性——不再只是局限于那些恰好懂编译器和FORTRAN的一小部分人,而是世界上任何能使用ChatGPT的人都可以参与。这太了不起了,对吧?而且,如果你真的想深入了解底层细节,没有什么能阻止你永远深入到那些细节中去。仍然有人在设计芯片,他们为世界做出了难以置信的贡献,但大多数人不需要学习技术栈的那一层,他们可以更高效地工作,因此能做更多的事情。

00:36:43

Varun:

但在短期内,如果你的身份认同建立在智力基础上,而编程恰好是智力的一个很好的象征,现在这项技能正在被AI商品化。

如果你是一名不在OpenAI工作的工程师,特别是那些刚刚开始职业生涯的人,你将如何应对即将到来的地位打击?因为在Twitter上已经能看到这种迹象,每天都有关于这个话题的讨论。有人处于否认阶段,有人处于悲伤阶段,各种反应阶段都有。还有人说什么都不会发生,因为创造成果所需的努力是一样的。这部分我是同意的。

但问题是,如果每个人都能使用AI工具,你就处于一种竞争状态了。这就是地位问题的核心,对吧?它完全关乎竞争。现在你正在与许多其他人竞争,他们懂得写英语,虽然他们可能不像你那样了解底层技术栈,但现在他们也在市场上竞争同样的工作和职位。你如何应对这种地位效应?

Kevin Weil:

我,我的意思是,我认为在AI时代,专业知识和经验仍然很重要。比如说,Jeff Dean是比我更优秀的工程师,我敢打赌Jeff Dean结合AI的能力会比我结合AI的能力更强,你知道吗?所以不仅仅是原始智力,专业知识和经验——理解应该解决什么问题、工作重点应该放在哪里、你知道的,哪里有杠杆作用——这些能力在未来仍然很重要,对吧?因此我不认为一切会完全平等化,专业知识不会变得无关紧要。

另外,我们也要思考在这种情况下什么会变得更加重要。如果人人都能创造任何东西,那么知道应该创造什么就会受到巨大的强调,你知道吗?所以谁对最重要的问题是什么以及如何解决它们有感觉?这将成为关键。

如果更多人能够解决这些问题,世界会变得更好,因为更多问题会得到解决。就像,我们作为社会将会进步得更快。而且我,就像,我对这样的未来感到非常兴奋。

Tanmay:

我感觉似乎,好吧,最初的想法是高能力加上AI将继续保持优势,对吧?但另一种观点认为,AI也会创造新类型的工作。这两种观点看起来有些矛盾,对吧?一方面现有工作将继续存在但AI会成为其中的一部分。Kevin,我想,我不认为我听到过一个很好的答案,就是你认为会出现什么样的新工作?有没有什么具体的东西是你在开发产品时发现的,你确信这在未来几年肯定会成为一种新型工作?

Kevin Weil:

是的,你知道,这总是很难说。我不确定我在这里有能让你满意的答案。但我确实认为几乎所有工作都将被AI补充。你知道,要么你每天都在使用它来增强自己的工作能力,要么就像Varun所说的,人们将越来越多地成为这些AI员工的某种管理者,它们会为他们完成很多基础工作。你知道,也许我们会把"这意味着什么"(So what)留给人类,而AI会处理很多"是什么"(what)的部分。然后人类仍然会负责"这意味着什么"的部分,就像你作为人员管理者经常做的那样。

但我不知道,我认为有一点我很确信,就是人的本质。我认为我们大多数人,所有人都希望成为比自己更大的事物的一部分。所以我不太相信一个我们都获得全民基本收入然后躺在沙发上做艺术的世界。我认为人们想要创造,他们想要帮助他人,他们想要让世界变得更好。AI会改变一些事情,它会以我们现在可能无法做到的方式帮助我们实现这些目标。但我认为这种根本的渴望是人类非常内在的特质。所以我不认为会出现一个我们都放松下来什么都不做因为AI为我们完成所有工作的世界。我认为我们仍然会努力,我们仍然会尝试让世界变得更好,只是我们将拥有不同的工具来实现这一目标。

00:40:58

Tanmay:

好的,也许不是这个想法,但我确信在构建产品时,你们有这么多优先事项,你们在开发自己的产品,但工作时可能会想:"嘿,那是个创业机会"。你们正在创造智能,可能会想:"那个,那个,那个会成为一家公司"。我们当然不会花时间去开发,因为我们有其他优先事项。但你脑海中是否有一些想法,认为"有人应该去做这个","有人应该利用我们正在构建的技术去做那个"?

Varun:

Tanmay在挖掘创业点子啊。

Tanmay:

是的,我在寻找创业点子。

Kevin Weil:

找点播客结束后可以做的事情是吧。

Tanmay:

你知道,我懂英语,我可以创业。

Varun:

当这些工作被自动化后,我们需要找些事情做,是的。

Tanmay:

是的,Kevin,给我们分享几个创业点子吧。最好是那种价值十亿美元的想法,那会很有用。

Kevin Weil:

好的,我会给你一个通用的方向,然后再给你一个具体的想法。

通用的方向是,正如我之前所说,这些模型并不是受智能限制的。它们更像是一个教学问题,它们可以学习任何东西,关键在于你有什么可以教给它们。所以我认为,有很多大型公司等待被建立,它们将利用私有数据。模型是基于互联网和公共数据训练的,但世界上大部分数据并不是公开的。它是被锁在企业、机构、政府等墙后的私有数据。你可以利用这些数据使模型变得非常强大。

你已经在一些领域看到了这种应用,比如法律领域,他们利用私有数据来增强模型,使其在法律功能方面表现出色,真正深入了解法律工作流程。我认为你可以在很多不同领域做类似的事情。

具体的想法是,这对整个世界都非常重要,对印度尤其重要。我真的希望看到,我希望每个孩子都能拥有一个个性化的辅导老师,我不知道为什么这样的产品现在还不存在。我的孩子没有,我不知道你们是否认识有这样辅导的人。

我认为这可能是最有价值的事情之一,能够真正改变世界发展的速度和全球生活质量。因为我看过的每一项研究、每一项调查都表明,接受正常教育加上个性化辅导的孩子比只接受正常教育的孩子表现好几个标准差。显然,全球还有很多孩子甚至没有接受我们认为的基础教育,但他们可能有手机,而ChatGPT是免费的。

我只是希望看到一个世界,每个孩子都能拥有一个个性化的辅导老师,可以教他们任何想学的东西,根据他们的意愿推动他们,让他们按照自己的天赋智力尽可能快地成长。这样的世界会更美好。而且AI现在就能做到这一点。这不是我们需要等待4年后某个突破才能实现的事情,AI现在,现在,现在就已经准备好了。我希望有人能够建立这样的系统,并将其推广给全球30亿儿童。

Tanmay:

那是因为AI太友善了,Varun。印度学生不习惯非常友善的导师。如果我表现不佳,我需要老师对我大喊大叫。

Varun:

你可以获得那个,我是说"失控模式",对。

Kevin Weil:

我正想说,告诉我们,我们会训练你。我们会训练一个会对你大喊大叫的模型。

Varun:

我有个问题,如果一个孩子有很多"为什么"的问题,AI可以帮助回答这些问题。但我最近看到一条推文说,不幸的是,所有AI能为你回答的"为什么"问题,它自己也能做,对吧?我担心的是,等孩子长大20-25年后,很多教育内容可能不再有实用价值,但也许内化这些教育过程本身能帮助人们做出更好的决定。你有三个孩子,你如何看待他们将如何接受教育,以及他们10-15年后的生活会是什么样子?我知道我在要求你展望很远的未来,也许这不在OpenAI的路线图上,但总的来说,既然我们已经解锁了这项技术,你认为世界会向哪个方向发展?

Kevin Weil:

我认为教育必须改变,就像有了计算器一样。突然间,你不应该再把教人们如何做超长除法运算作为一项技能了。你就,你就是不再需要那个了。教育应该随着AI而改变和进化。

但我认为在教室里、社交环境中学习是有价值的,有老师引导你也是有价值的,同时与一个无限耐心的AI进行一对一体验也有价值,AI可以按照你想要的任何节奏前进。你可以向它提问任何问题,完全不必感到愚蠢。正是这两种方式结合在一起,我认为会让16岁的青少年比现在领先很多。你可以想象现在的16岁青少年与未来的16岁青少年相比,后者可能因为接受了AI辅导而领先5个年级。如果能做到这一点,世界就会,这就是一个根本性更好的地方。我们能做得比现有教育系统好得多。

这是我个人非常关注的事情。我真的很希望看到有人用一个令人惊叹的AI辅导系统席卷全球。我认为我们在OpenAI会不惜一切代价去支持有人大规模做这件事。这是我们能够改善世界的最切实可行的方式之一。

Tanmay:

我认为,是的,辅导可能会变得好很多,但视频游戏也会变得更好。所以问题仍然会存在,你知道吗?

00:46:27

Varun:

嘿,语音模式是否已经普及起来了?因为我原本以为,当我们拥有类似电影《Her》那样的技术时,我们会经常使用语音模式与AI交谈。但实际上我发现自己并不这样做。我更多地是通过文字与AI交流,而不是使用任何AI的语音模式,这真的很奇怪,因为我一直认为会是完全相反的情况。你有什么看法吗?因为你曾在OpenAI负责产品,对吧?你能猜测为什么语音模式没有普及起来吗?当然,也许是我的观察不准确。

Kevin Weil:

不,我认为语音模式会逐渐普及。我们已经有很多人在经常使用它。确实有一批重度用户,我知道有些人在下班回家的路上,无论是走向汽车还是公交车,他们都会一直与ChatGPT交谈,回顾一天的会议内容,讨论待办事项,最后他们会得到ChatGPT整理的一系列待办清单。所以语音模式有很多非常酷的使用场景。

我认为语音模式还可以比现在更好。现在如果你在对话中停顿,语音模式会立即插入,因为它认为你已经说完了。人类不会这样做,他们会通过一些暗示和线索来判断,而AI目前还不能做到这一点。你开始说话,然后它停下,然后它开始说——我们人类有时会稍微打断对方,然后你会学会根据对方的反应来决定是否退让,谁继续说。我们在这个播客中一整天都在这样做。所以这些微妙之处会让体验感觉更加真实。

我们非常重视这一点。我认为很快你就会看到很多改进。所以对我来说,语音模式很棒,但还没有达到应有的水平。我非常有信心我们会实现这一目标,这将释放更多可能性。你希望能够以各种方式与ChatGPT交流,就像你与另一个人交流一样——有时是视频,有时是语音,有时是打字,但你需要能够做到所有这些。

Tanmay:

Kevin,有时候当你看着你正在做的工作,你会不会想,也许这个问题的答案是一个物理产品?这是你考虑过的事情吗?

Kevin Weil:

是的,我们开始关注机器人技术了。这个嘛,还待定,是我们自己去做一个大型机器人项目,还是只是为了获得足够的现实世界经验来构建优秀的视觉模型和现实世界理解模型。

但无论如何,我们知道机器人技术将会是一个重要领域,我们希望为许多其他使用机器人做出惊人事情的公司提供支持。

对我来说,这是下一个明显的发展方向。首先你有数字世界,对吧?然后当你拥有了能帮助我们在数字世界做各种事情的AGI后,下一个自然的发展就是机器人技术和对现实世界的影响。

所以,如果我们想成为我们希望成为的那种公司,我们必须能够在这两个领域都能发挥作用。

Tanmay:

Kevin,非常感谢你今天给我们分享你的时间。我知道你时间有限,请继续你的工作,祝你一切顺利,希望你们继续做好这些令人惊叹的工作。感谢你们的Deep Research。

Kevin Weil:

我们还有更多产品即将推出。请继续给我们反馈,告诉我们哪些功能运行良好,但更重要的是告诉我们哪些功能不尽如人意。因为没有什么比用户说"我希望它能做这件事,但它做不到"更能激励我们团队的了。我们会迅速改进,几周后就能为你实现那些功能。


交流与合作

如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请加微信,联系方式请点击 -> 专栏简介 及 联系方式 2024

本文于2025.3.19 首发于微信公众号

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI Deep Research GPT-4.5 GPT-5 模型融合
相关文章