预测者做出反应：METR 关于 AI 加速的重磅论文

关于作者： Peter Wildeford 是顶级预测者，自 2022 年以来每年都排名前 1%。在这里，他分享了为他的预测提供信息的分析。

大约一个月前，AI 评估组织 METR 发布了一张重磅图表和论文，称 AI 正在迅速加速。随着 OpenAI 最近推出 o3 和 o4-mini，我们可以看到这些预测是否成立。

此图表的简单版本很容易解释。Claude 3.7 可以在 2025 年 2 月底完成专业软件工程师大约需要一个小时的任务。如果这种趋势保持下去，那么七个月后的 2025 年 9 月底，我们应该拥有可以完成人类需要两个小时的任务的 AI 模型。而在 2026 年 4 月，则是 4 小时的任务。

你可以看到这是怎么回事......

到 2026 年 11 月完成全天任务（8 小时）

到 2028 年 3 月完成为期一周的任务（40 小时）

到 2029 年 6 月完成为期一个月的任务（167 小时）

到 2031 年 6 月完成全年任务（2000 小时）

O3 让我们有机会测试这些预测。我们可以看到这条曲线仍然处于趋势中，即使没有比预期的更快:

AI 任务呈指数级增长，就像早期的 COVID 病例似乎没什么，但很快就失控了。

这是否意味着到 2031 年底，人工智能将能够基本上取代所有人类劳动力？我们能相信这个分析吗？

让我们深入研究一下。

方法如下：

创建一套多样化的软件工程任务来测试 AI 和人类。

聘请一群人类软件工程师作为承包商，看看他们完成每项任务平均需要多长时间。

在这些任务上运行一堆 AI，看看它们是否完成任务。

对于每个 AI 模型（例如 o3），查看它在哪些任务上成功，在哪些任务上失败。按人类完成任务所需的时间对这些任务进行排序。然后将其绘制为图表。

找到成功率等于 50% 的值。这是该 AI 的“50% 可靠性的任务长度”.

一旦我们为每个模型有了这个估计值，我们就可以把它画在图表上

然后我们可以尝试拟合趋势线

然后我们可以尝试仔细推断这条趋势线并观察疯狂的结果

然后，我们试图弄清楚需要什么级别的“50% 可靠性的任务长度”才能等同于 AGI，查看趋势线何时认为我们将达到该标记，并宣布该日期为 AGI。

当然，这有点愚蠢。制作图表是容易的部分，解释它们更难。让我们尝试将这个分析归结为现实并进一步完善它。

让我们更深入地了解一下 METR 要求模型执行哪些任务。本文给出了这些例子:

HCAST 论文的 p13-14 和 “Long Tasks” 论文的 p19 很好地涵盖了概括这些任务的一些问题：

这些都是软件工程任务：我们无法看到与远程工作相关的其他领域的任务，而 AI 在这些领域中可能更加困难。

所有任务都定义明确并自动评分：每个任务都告诉您要做什么以及您如何成功。现实世界很少是这样的。这可能是模型卡住的一种重要方式，而 METR 的任务中没有涵盖。

一切都是孤立的、静态的和有节制的：这些任务被设计为在不变且没有竞争性的环境中，在单个计算机会话中自主完成。代理不需要在各种来源中协调或收集信息。这与现实世界非常不同。

浪费或失败的成本最小：超出人类性能成本、计算使用效率低下、过度使用有限资源或犯多个错误通常不会在任务集中受到惩罚，只有少数例外。这也可能与现实世界不同。

忽略学习效果：找到 METR特定 GitHub 存储库的专门维护者完成与该存储库相关的任务的速度比熟练的软件工程师但之前对存储库经验最少的承包商快 5-18 倍。这些承包商是用于估计 METR 任务集中任务长度的基线器类型，这意味着学习效果将被忽略。人类被雇用的部分原因是他们能够通过随着时间的推移积累学习来完成非常小众的任务——当前的 AI 模型没有体验到这些训练效果。

可靠性很重要 – METR 根据 AI 可以以 50% 的可靠性完成的任务长度来评判 AI。但在现实世界中，您可能希望在特定用例中具有 50% 以上的可靠性，具体取决于任务。当查看 AI 可以以 80% 的可靠性执行任务的位置时，您可以获得相同的倍增时间，但从仅 15 分钟的较低基础开始.

最重要的是，AGI 和经济自动化的工作不仅依赖于取代人类软件工程师，还依赖于取代所有工作。METR 的任务列表在能够跟踪 AI 在复杂任务上的进度方面取得了重大进步，但它绝对不是所有人类劳动的基准。

这很重要，因为我猜软件工程技能高估了 AGI 的总体进度，因为软件工程技能比其他技能更容易训练。这是因为它们可以通过自动化测试轻松验证，因此模型可以非常快速地迭代。这与现实世界截然不同，现实世界的任务很混乱，而且反馈率低，而 AI 在这些领域却很努力。 当您查看与 AGI 相关的所有任务时，您最终可能会得到非常不同的可靠性曲线和倍增率，这对此分析来说是一个真正的挑战。

事实上，AI 可以做的事情范围与人类大不相同，无法轻易比较。 回想一下，AI 可以在短短三个月内同时流利地使用 100 多种语言，并且每分钟可以阅读数千个单词。但与此同时，AI 仍然在人类可以轻松完成的简单任务上苦苦挣扎。虽然 METR 讨论了 AI 能够完成 >1 小时的软件任务，但许多人可以在不到一分钟的时间内完成许多 AI 无法完成的简单任务。

考虑一下 o3 花 13 分钟使用各种高级图像处理工具来分析这个简单的涂鸦，试图将箭头与简笔画相匹配，但仍然失败——一个 6 岁的孩子可以在几秒钟内完成这项任务：

同样，人工智能仍然无法完成人类花费不到一分钟的基本计算机使用任务——这些任务对于实现旨在进行远程工作的 AGI 至关重要。还有许多其他令人尴尬的失败，例如在井字棋中犯了简单的错误，不会数手指，对简单的问题感到困惑，以及有时认为 9.11-9.8 = 0.31。

因此，您索引到的位置很重要。在查看 AI 的优势时，很容易做出错误的推断，使 AI 看起来令人印象深刻。考虑到像 Stockfish / AlphaZero 这样的专业 AI 可以识别人类需要多年才能等效分析的国际象棋棋步。如果你拿这个领域进行推断，它预测人工智能可以在几十年的规模上运行，远远超过AGI，这显然不是真的。这是因为国际象棋不代表 AGI 任务。

但是，当对 AI 的弱点进行索引时，很容易认为 AGI 永远不会实现。真正的答案介于两者之间，我们必须更加小心地弄清楚自动化所有人类劳动的集体任务范围需要什么，并弄清楚 AI 在更大、更通用、更混乱的任务组中的任务长度。

预测指数的方法的另一个核心问题是，我们不知道它是否会一直以这种方式发展。METR 论文中的进步被描述为时间展开的必然结果，但实际的 AI 进步来自资本支出的增加、计算效率的提高、算法开发等。这些现在都发生得非常快，但可能很快就会放缓。将模型的计算量提高 10 倍，将花在模型上的资金增加 10 倍，将变得越来越困难。数据可用性可能会成为一个问题。

目前还不清楚有多少推理会扩展，或者是否会出现改进扩展的新技术。很多 AI 都是新的，仍在开发中。我们不是在迭代不同数量的训练计算的范式中，而是处理同时变化的许多不同的变量，以及引入新变量的机会。这使得外推更加令人困惑。

更长的任务时间可能会造成比线性水平更高的复杂性。随着时间的推移，倍增率可能会变得更长，因为我们已经完成了所有 “唾手可得的果实”。这些都是指数展开的挑战，因此很自然地认为扩展很快就会放缓。

最终，预测一条线向上的问题在于，有时这条线会停止上升。 例如，“婴儿减垢”在最初几年发展得很快，但随后就遇到了一个缓慢的点：

然而，对于 AI，我们真的不知道这个慢点在哪里，或者线路是否会变慢。这仍然非常不确定。到目前为止，在 AI 缩放曲线上达到顶峰是出了名的困难。在过去的几年里，许多扩展怀疑者已被证明是错误的。

另一方面，我们应该记住，METR 可能低估了 AI 的进展，并且实际趋势可能比 METR 呈现的中位数线更快。

最值得注意的是，“Long Tasks”论文的第 37 页表明，如果你只看 2024-2025 年的趋势（GPT4o 发布到 Claude 3.7 Sonnet 的发布），那么倍增时间大约快了两倍（118 天而不是 212 天）！到 2027 年 9 月，这可能会达到一个月的任务！

o3 和 o4-mini 进一步证实了这一点，它们显示翻倍发生在 63 天内，而不是典型的 212 天。

还有其他几点表明加速是可能的：

内部模型可能领先于公众的艺术水平。 当 Claude 3.7 发布时，Anthropic 内部可能有一个更好的模型，可以在任务上表现得更好。这意味着截至今天，真正的最佳功能可能会稍微好一些，因为我们只能在模型发布时看到它们。同样，o3 在 2024 年 12 月首次宣布时可能有 >1 小时的性能，甚至更早于此，因为它正在接受训练，但直到 2025 年 4 月才公开发布。

代理培训：模型在软件工程方面表现出色所需的“代理”培训类型才刚刚开始。这是帮助模型在多步骤问题中表现出色并解决较长任务所必需的确切模型训练类型。仍有更快的增长空间。

推理时间计算：随着思考问题的时间越来越多，推理技能可能会得到提高。METR 指出，“超过 80% 的成功运行成本不到人类执行相同任务的成本的 10%”（“Long Tasks”论文第 22 页）。这表明，有空间可以更有效地分配支出，以帮助模型解决任务，同时仍能与人工费率竞争。

反馈循环：AI 取得进展的一个核心方式是通过研究人员的实验和迭代，这可以通过 AI 工具来加速。如果未来的AI能够自动化并大大扩大可以完成的研发数量，那可能会更快地改进模型。 这可能会激发 AI 进步的超指数曲线，其中倍增率本身会随着时间的推移而增加得更快。

改进脚手架可能很重要：像 GPT4 这样开箱即用的原始 AI 模型在这些任务上表现不佳。相反，需要进行额外的编程来围绕 AI 构建系统和工具，使 AI 能够采取多个步骤、浏览互联网、自主执行代码、从错误和错误中学习以及迭代。这被称为“脚手架”。 脚手架的改进可以帮助完全相同的 AI 更好地利用其优势并避免劣势，从而使其能力更强。METR 一直在努力改进他们的脚手架，但未来的改进可能仍然是可能的。这是 AI 进步的一个被低估的来源。

如果我们试图实现经济自动化，您会想知道单个工作需要什么级别的任务长度。有没有长达一年的任务？也许仅限于写小说或其他一些长期的多方面、深度整合的工作的人。相反，职业生涯将由许多长达一小时的任务、全天的任务，甚至可能偶尔的长达一个月的任务组成。您不断迭代这些任务并将它们组合成更长的工作。

例如，虽然我已经写了几个月的这个 Substack，但它由单独的博客文章组成，每篇博文需要 3-20 小时来写。因此，如果 AI 可以像我一样自动化 20 小时写作任务的所有方面，那么 AI 也可能通过将一堆 20 小时的任务链接在一起来生成单独的帖子，从而拥有一个引人注目的 Substack。

按照这个逻辑，METR 认为能够进行一个月工作的 AI 将是 AGI（见第 18-19 页），因为许多具有经济价值的工作，包括大型软件应用程序，可以在一个月或更短的时间内完成。此外，一个月大约是典型的公司入职流程的长度，这表明任务长度为一个月的 AI 可以像人类员工一样获取上下文.

但这是真的吗？例如，我之前编写 Substacks 的经验对我更有效地编写下一个 Substacks 有多大帮助，这如何计入任务长度？我从多年的经验中汲取了多少我在预测、人工智能和政策方面的专业知识深度呢？这是否使每个 Substack 帖子成为为期一年或更长时间的任务？我不知道。Ajeya Cotra 在 Twitter 上指出：

我很确定如果我的记忆每小时甚至每天都被擦除，我的工作会更糟糕。我不知道该如何写一个待办事项清单，将我的目标清晰地分解，让 Memento 版本的我做我所做的事情。

总之，这使得 METR 预测我们何时达到 AGI 的边界相当模糊。我不确定界限是否那么明确，而且这里存在很大的不确定性。

我们实际上可以尝试使用 METR 论文来尝试使用以下方程式推导出 AGI 时间表：

AGI 之前的天数 = log₂（{AGI 任务长度} / {起始任务长度}） * {倍增时间}

如果您插入我的首选假设（或者随意做出自己的假设并进行数学计算），下面是一个例子：

倍增时间：~165 天

让我们从 118 天开始，METR 发现的 2024-2025 年的趋势似乎很好地预测了 o3。然后，让我们用 212 天（即 2019-2025 年的整体趋势）进行平均，假设可能会对平均值进行一些长期回归。那是 165 天。

所有 AGI 任务的当前任务长度：~3 分 45 秒

目前 METR 独立软件任务的公开技术水平是 ~1 小时 45 分钟的 o3。

然而，这可能是一个低估，假设通过改进脚手架和添加更多计算可以获得更好的分数。假设这为 ~2h30min 提供了 1.5 倍的提升。

另一方面，掌握 METR 的自包含软件任务可能不足以完成 AGI，真正的 AGI 任务可能更难。假设真正的 AGI 任务难度要高出 10 倍，将起始任务长度缩短到 15 分钟。

此外，我们可能需要超过 50% 的可靠性。假设我们需要 80% 的可靠性，这增加了 4 倍的惩罚，使起始任务长度进一步下降到 3 分 45 秒。

班次：~100 天

我们还必须考虑公司内部的模型。o3 早在 12 月就可用于 OpenAI，远早于 4 月发布。假设模型在发布前 100 天左右在内部具有功能，并将整个曲线提前 100 天。

AGI 任务时长：~167 小时

让我们使用 METR 并假设长达一个月的任务足以（~167 小时）满足 AGI。

如果您做出所有这些假设并进行数学计算，AGI 是在 o3 发布后 1778 天，即 2030 年 2 月 28 日实现的。

我们可以将其扩展到一个正式的模型中，但不确定实现 AGI 所需的任务掌握、可靠性和任务长度水平，以及计算现在到 AGI 的平均倍增时间的不同方法。

这样做会产生以下 ...该图绘制了 200 个单独的模型运行，其中 AGI 在红色的 “X” 处产生。

该模型表明 AGI 的到达日期中位数为 2030 年第一季度，在 2027 年底之前达到 AGI 的几率为 10%，到 2034 年第二季度末达到 AGI 的几率为 90%。 （此脚注中为书提供了变量定义 + 完整代码：)

此外，根据该模型，今年达到 AGI 的几率为 ~0.1%，到 2026 年底达到 AGI 的几率为 ~2%，到 2027 年底的几率为 ~7%。

但关于此模型的四点附加说明：

这不是一个 “考虑所有因素 ”的模型！ 在您截取此内容并说“Peter 认为 AGI 将在 2029 年推出”之前，请记住，该模型只是考虑了 METR 论文的结果，并提供了一些不确定性，但仍包含有关方法的重大额外不确定性。围绕资本放缓和 AI 进展收益递减的其他参数可以更明确地建模。同时，可能加快 AI 进步的可能新创新也没有被考虑在内。

这假设 “一切照旧”。 这还没有考虑到人工智能在过去五年中发展起来的总体动力（强劲的经济、没有重大战争、缺乏监管）可能发生的变化。外生冲击可能会减缓 AI 的发展。

“达到”AGI 并不意味着 AGI 将得到广泛传播。 该技术的商业化和广泛推出可能仍然存在延迟。

在实践中，曲线可能是锯齿状的，而不是漂亮的曲线。 也就是说，我们可能会在遇到收益递减或碰壁之前看到任务长度的一系列进展。此外，基架或算法的进步可能会导致突然的进度爆发。

我们离 AGI 很近还是很远？METR 论文确实对估计这一点做出了巨大贡献。虽然收集的任务远非与 AGI 相关的所有任务的详尽集合，但它们仍然是我们迄今为止最多样化、最引人注目的任务集合和系统分析。

我们看到的情况很奇怪。比大多数专业软件工程师更能调试复杂 PyTorch 库的模型，但仍然难以完成非常简单的计算机使用任务或遵循简单绘图中的箭头的能力，这提醒我们，AI 功能仍然非常不均衡且难以概括。在干净、定义明确的软件任务上表现良好与驾驭现实世界问题的混乱不确定性之间的差距仍然很大。因此，这使得 AGI 何时实现存在很大的不确定性。

尽管如此，趋势似乎很强劲。随着每个新型号（Claude 3.7、o3、o4-mini）的发布，我们都看到其功能与乐观的预测一致或超过。非凡的进步速度表明，我们应该认真对待 AGI 可能比传统智慧所暗示的更早到来的可能性，同时对过于自信地推断当前趋势保持适当的怀疑。

最棒的是，这个模型可以用作早期预警系统。 我们可以继续观察 AI 随时间推移的进展，看看它遵循什么趋势，并利用它来缩小模型范围，为我们的预测建立更多的信心。这可以帮助我们看到 AI 的巨大进步，并让我们有更多时间做好准备。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签