人类程序员，最晚2031年下岗？

让智能体先通往AGI，已经成为共识。OpenAI连番推出昂贵的新功能，o1-Pro比普通版贵了10倍，比R1贵了上百倍。Grok则悄悄上线了DeeperSearch。让它们率先替代码农和研究员，似乎正在成为大模型兑现商业价值最现实的方向；其他行业可以踩在他们的肩上。

也许人类员工可以稍微松口气。尽管今年Meta和微软再次开启大规模裁员，但被裁的都是绩效考核不如人类同事的。被AI智能体同事大面积地顶替下去，至少要到2028年，更可能是2031年。

如果有一个智能体的“摩尔定律”，用来衡量智能体所能解决的任务的复杂程度——以人类专家完成相同任务所需时长来量化——为人类完成工作所节省的时间越来越长，准确率越来越高，这个摩尔定律，终有一天会通向完全替代人类完成复杂问题。

最近，研究机构METR发现，目前的智能体，还没办法替代人类，去完成那些本该人类花1小时以上的时间才能完成的软件任务。不过，智能体解决复杂任务的能力在进步，相当于为人类专家节省的时间，平均每7个月翻一番。2028年后，它们就有50%的成功率，完成人类本该在1个月内完成的任务了。

这与最近OpenAI和Anthropic的说法不同，从奥特曼到阿莫迪，都在说今年内智能体编程可以胜过人类。但研究认为，AI只能胜任人类不用4分钟就能完成的任务，也就是说最简单的任务。

METR是美国人工智能安全研究所联盟的成员机构，为OpenAI、Anthropic等提供部署前的非正式评估。创始人Beth Barnes之前在OpenAI研究对齐问题，“图灵三巨头”之一的本吉奥是该机构顾问。

为什么从1个月算起？这家机构解释说，那是新员工入职后可以为公司创造经济价值的时间。当前，各种大模型的测试基准正在迅速饱和，更要命的是，它无法准确反映真实社会经济价值。

不满于此，METR提出了HCAST。这是一个包含189项机器学习工程、网络安全、软件工程和一般推理任务的基准测试集，分别由人类专家与智能体去执行。人类专家与智能体在相同的条件下工作，然后再比一比，人类完成这些任务需要多少时间，智能体完成这些任务的成功率有多高。HCAST的任务主要覆盖了数分钟到几小时的人类任务，为覆盖需要更短与更长时间的任务，研究又引入了单步任务SWAA与长时任务RE-Bench。

结论是，人类专家耗时不到4分钟的任务，目前的智能体几乎100%都能成功；但是连人类专家都要耗时4个小时以上的，那么成功率就降到了10%以下。不过，智能体的进步也很显著。GPT-3时代的模型，在超过1分钟任务上全部失败；GPT-4能以50%的成功率完成4分钟的任务；Claude 3.7 Sonnet在相同的成功率下，把上限推高到了59分钟，但要提升到80%成功率，就只能完成15分钟左右的任务。

简言之，把它们放到真实世界，想要完全自主地完成多步骤长时序的现实任务，还不够稳定和好用。也就是说，至少在今年内，不能对智能体完成多步骤的任务抱有太高的预期。

前EleutherAI研究员Herbie Bradley大量试用了Operator和Anthropic的computer-use后，非常认同METR这种简单的衡量方法。他认为“t-AGI”的扩展，是评估AGI经济效用的重要标准。

METR发现，如果以50%的成功率为基准，那么，过去6年来前沿大模型的t-AGI平均每7个月翻倍。遵循这个趋势，到2027年或2028年左右，智能体有50%的成功率完成人类本该1个月完成的任务。会有雇主去使用这样的智能体省下一名码农的月薪成本吗？

但是，现实情况会更复杂，且追求更高的成功率，如果要让智能体真正自主做到这一切，METR认为更可能是2031年前。

但是，即使这一天还没有来临，硅谷的码农也该瑟瑟发抖了。如果将谷歌L4级别的工程师的平均年薪，除以每年2000小时，则每小时薪酬约144美元。目前超过80%由智能体成功完成的任务，它们的推理成本低于人类专家的10%；它们在本该由人类专家在30秒内完成的任务上，性价比显著。幸亏目前的智能体，想要完成现实世界的任务，尤其是长时序任务，还离不开人类留在整个工作循环中。

（说明：对应1460个成功完成的任务，纵坐标代表任务的复杂度，即人类完成该任务的时长，横坐标代表任务由智能体完成任务的性价比，即模型成本与人类薪酬的比例。）

今年，卡帕西就已经很享受了Vibe coding了，即一种依靠直觉和创意用自然语言调动代码的编程方式。他只需要偶尔花点时间通读一下他一时间没看懂的代码；有时候针对模型无法自己解决的Bug，动手修改一下。

但是，也许对智能体来说，更重要的是通过类似Vibe coding趋势，几乎削平了必须构筑于编程之上的其他领域的陡峭的初始学习曲线。谷歌最新的人形机器人通用模型Gemini Robotics-ER，也是通过现场写代码来完成物理世界任务的。

R1落后4个月

METR在论文中测试的模型，几乎都来自它的合作方OpenAI与Anthropic。不过，该机构也额外测试了基于第三方托管的DeepSeek的V3与R1等模型。研究也承认可能自己没有完全激发R1的最高性能。

在测试中，DeepSeek-R1能够以50%的成功率，完成人类专家需要35分钟才能完成的任务，略高于V3的33分钟的成绩，低于早于其发布的新版Claude 3.5 Sonnet和o1模型。从这个基准上看，R1大概处于全球最前沿的大模型在9月份时的水平，差距约为4个月。

该机构还发现，在引入思维链后，DeepSeek旗下基础模型V3到推理模型R1，对完成人类任务时长的提升，跨度不及OpenAI从GPT-4o到o1-preview。

也许要等R2发布的时候再试试，在追求性价比的同时，中国企业能否把t-AGI的提升速度也一起扩展了。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签