虎嗅 03月21日
人类程序员,最晚2031年下岗?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨了智能体在替代人类完成复杂任务方面的进展与挑战。研究机构METR的HCAST基准测试表明,虽然智能体在短时任务上表现出色,但在需要长时间才能完成的复杂任务上,成功率仍然较低。然而,智能体解决复杂任务的能力正在快速提升,平均每7个月就能缩短人类完成工作所需的时间。预计到2028年左右,智能体有50%的成功率完成人类本该1个月完成的任务,但要实现完全自主地完成多步骤长时序的现实任务,可能要到2031年。文章还分析了智能体在编程领域的应用,以及不同模型的性能对比,并强调了智能体在提高生产效率方面的潜力。

💡 METR的HCAST基准测试显示,智能体在短时任务上表现出色,但完成需要长时间的任务时成功率较低,例如人类专家耗时不到4分钟的任务,目前的智能体几乎100%都能成功;但是连人类专家都要耗时4个小时以上的,那么成功率就降到了10%以下。

📈 智能体解决复杂任务的能力正在快速进步,相当于为人类专家节省的时间平均每7个月翻一番。按照这一趋势,到2027年或2028年左右,智能体有50%的成功率完成人类本该1个月完成的任务。

💻 智能体在编程领域的应用,例如Vibe coding,正在改变程序员的工作方式,使其能够依靠直觉和创意用自然语言调动代码。谷歌的Gemini Robotics-ER也通过现场写代码来完成物理世界任务。

⏳ 不同模型的性能存在差异,DeepSeek-R1在测试中的表现略低于Claude 3.5 Sonnet和o1模型,但其进步速度也在加快。研究表明,智能体的发展速度和性价比都在不断提升,但完全替代人类完成复杂任务仍需时日。

让智能体先通往AGI,已经成为共识。OpenAI连番推出昂贵的新功能,o1-Pro比普通版贵了10倍,比R1贵了上百倍。Grok则悄悄上线了DeeperSearch。让它们率先替代码农和研究员,似乎正在成为大模型兑现商业价值最现实的方向;其他行业可以踩在他们的肩上。

也许人类员工可以稍微松口气。尽管今年Meta和微软再次开启大规模裁员,但被裁的都是绩效考核不如人类同事的。被AI智能体同事大面积地顶替下去,至少要到2028年,更可能是2031年。

如果有一个智能体的“摩尔定律”,用来衡量智能体所能解决的任务的复杂程度——以人类专家完成相同任务所需时长来量化——为人类完成工作所节省的时间越来越长,准确率越来越高,这个摩尔定律,终有一天会通向完全替代人类完成复杂问题。

最近,研究机构METR发现,目前的智能体,还没办法替代人类,去完成那些本该人类花1小时以上的时间才能完成的软件任务。不过,智能体解决复杂任务的能力在进步,相当于为人类专家节省的时间,平均每7个月翻一番。2028年后,它们就有50%的成功率,完成人类本该在1个月内完成的任务了。

这与最近OpenAI和Anthropic的说法不同,从奥特曼到阿莫迪,都在说今年内智能体编程可以胜过人类。但研究认为,AI只能胜任人类不用4分钟就能完成的任务,也就是说最简单的任务。

METR是美国人工智能安全研究所联盟的成员机构,为OpenAI、Anthropic等提供部署前的非正式评估。创始人Beth Barnes之前在OpenAI研究对齐问题,“图灵三巨头”之一的本吉奥是该机构顾问。

为什么从1个月算起?这家机构解释说,那是新员工入职后可以为公司创造经济价值的时间。当前,各种大模型的测试基准正在迅速饱和,更要命的是,它无法准确反映真实社会经济价值。

不满于此,METR提出了HCAST。这是一个包含189项机器学习工程、网络安全、软件工程和一般推理任务的基准测试集,分别由人类专家与智能体去执行。人类专家与智能体在相同的条件下工作,然后再比一比,人类完成这些任务需要多少时间,智能体完成这些任务的成功率有多高。HCAST的任务主要覆盖了数分钟到几小时的人类任务,为覆盖需要更短与更长时间的任务,研究又引入了单步任务SWAA与长时任务RE-Bench。

结论是,人类专家耗时不到4分钟的任务,目前的智能体几乎100%都能成功;但是连人类专家都要耗时4个小时以上的,那么成功率就降到了10%以下。不过,智能体的进步也很显著。GPT-3时代的模型,在超过1分钟任务上全部失败;GPT-4能以50%的成功率完成4分钟的任务;Claude 3.7 Sonnet在相同的成功率下,把上限推高到了59分钟,但要提升到80%成功率,就只能完成15分钟左右的任务。

简言之,把它们放到真实世界,想要完全自主地完成多步骤长时序的现实任务,还不够稳定和好用。也就是说,至少在今年内,不能对智能体完成多步骤的任务抱有太高的预期。

前EleutherAI研究员Herbie Bradley大量试用了Operator和Anthropic的computer-use后,非常认同METR这种简单的衡量方法。他认为“t-AGI”的扩展,是评估AGI经济效用的重要标准。

METR发现,如果以50%的成功率为基准,那么,过去6年来前沿大模型的t-AGI平均每7个月翻倍。遵循这个趋势,到2027年或2028年左右,智能体有50%的成功率完成人类本该1个月完成的任务。会有雇主去使用这样的智能体省下一名码农的月薪成本吗?

但是,现实情况会更复杂,且追求更高的成功率,如果要让智能体真正自主做到这一切,METR认为更可能是2031年前。

但是,即使这一天还没有来临,硅谷的码农也该瑟瑟发抖了。如果将谷歌L4级别的工程师的平均年薪,除以每年2000小时,则每小时薪酬约144美元。目前超过80%由智能体成功完成的任务,它们的推理成本低于人类专家的10%;它们在本该由人类专家在30秒内完成的任务上,性价比显著。幸亏目前的智能体,想要完成现实世界的任务,尤其是长时序任务,还离不开人类留在整个工作循环中。

(说明:对应1460个成功完成的任务,纵坐标代表任务的复杂度,即人类完成该任务的时长,横坐标代表任务由智能体完成任务的性价比,即模型成本与人类薪酬的比例。)

今年,卡帕西就已经很享受了Vibe coding了,即一种依靠直觉和创意用自然语言调动代码的编程方式。他只需要偶尔花点时间通读一下他一时间没看懂的代码;有时候针对模型无法自己解决的Bug,动手修改一下。

但是,也许对智能体来说,更重要的是通过类似Vibe coding趋势,几乎削平了必须构筑于编程之上的其他领域的陡峭的初始学习曲线。谷歌最新的人形机器人通用模型Gemini Robotics-ER,也是通过现场写代码来完成物理世界任务的。

R1落后4个月

METR在论文中测试的模型,几乎都来自它的合作方OpenAI与Anthropic。不过,该机构也额外测试了基于第三方托管的DeepSeek的V3与R1等模型。研究也承认可能自己没有完全激发R1的最高性能。

在测试中,DeepSeek-R1能够以50%的成功率,完成人类专家需要35分钟才能完成的任务,略高于V3的33分钟的成绩,低于早于其发布的新版Claude 3.5 Sonnet和o1模型。从这个基准上看,R1大概处于全球最前沿的大模型在9月份时的水平,差距约为4个月。

该机构还发现,在引入思维链后,DeepSeek旗下基础模型V3到推理模型R1,对完成人类任务时长的提升,跨度不及OpenAI从GPT-4o到o1-preview。

也许要等R2发布的时候再试试,在追求性价比的同时,中国企业能否把t-AGI的提升速度也一起扩展了。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

智能体 AGI HCAST 编程 METR
相关文章