新智元报道
新智元报道
别眨眼,LLM每7个月实力翻倍!
METR团队选出每一时间段的最强模型,建立了一个精确的「大事年表」,进一步定量分析模型能力随时间的增长情况。结果显示出清晰的指数增长趋势:在过去的六年中,模型能力每7个月翻一番。图中的阴影区域表示通过在任务家族、任务以及任务尝试之间进行分层自助法(hierarchical bootstrap),计算得出95%的置信区间。不过,这个指数增长趋势非常陡峭,所以于对误差有很高的容忍度。即便绝对测量误差达到10倍,能力到来的时间也仅会改变大约2年左右。因此,团队对不同能力何时出现的预测基本不会出错。模型vs人类:用「人类耗时」测量大模型智力METR这项研究的核心就是他们提出的这项指标:「任务完成时间视野」(task-completion time horizon)。这个指标相当于给分别完成任务的人和AI加了个映射:想象一组各不相同的任务,人类完成这些任务分别需要不同的时间。把这些任务交给AI模型去做,然后找出AI能以50%成功率完成的那一档任务(但不考虑AI用的时间)。然后对应去看人类完成这一档任务通常需要多长时间。这个人类所需的时间,就是该模型的50%-task-completion time horizon,也即「任务完成时间视野」。为了证明这个基准的有效性,METR团队做了翔实的统计分析。结果显示,人类基线完成某项任务所需时间,与各模型在该任务上的平均成功率之间存在负相关关系。简而言之,人做起来越慢,模型做起来越容易失败。并且,用指数模型拟合这个负相关趋势效果很好。用模型成功率对人类完成时间的对数做回归分析,算出的R²约为0.83,相关系数为0.91,这比不同模型之间平均成功率的相关系数还高。因此,「以人类时间衡量任务难度」,这个指标非常合理。模型越新,任务越难:能力进化有迹可循
证明了这个指标的有效性,接下来还要看看各个模型在这个指标上的表现。团队进一步检验了不同模型能完成的任务所对应的人类耗时。结果相当符合直觉:2023年之前的模型(如GPT-2和GPT-3)只能完成那些只需写几句话的简单任务。而对于人类耗时超过1分钟的任务,它们则迅速败下阵来。相比之下,最新的前沿模型(如Claude 3.5 Sonnet和o1)则可以完成一些人类要花数小时的任务,甚至在十几小时的超长程任务上还能保持一定的成功率。
效率碾压人类:2030年警告已拉响
按照「7个月翻一番」的这个速度下去,METR团队得到了一个惊人结论:到2030年,最先进的LLM有望以50%的可靠性,完成一个每周工作40小时的人类工程师花一个月才能完成的任务。更令人毛骨悚然的是, LLM的速度可能远超人类——也许只需几天,甚至几小时。到2030年,LLM可能已经能轻松创办一家公司、写出一部像样的小说,或是大幅改进已有的大模型。AI研究员Zach Stein-Perlman在博客中写道,拥有此类能力的LLM的问世将带来巨大的影响,无论是潜在好处还是潜在风险」。Kinniment承认,LLM能力翻倍的速度让人害怕,仿佛科幻片灾难前奏。但她也表示,在现实中也可能有很多因素影响和减缓这种进展。AI再聪明,仍然可能受到硬件、机器人技术等瓶颈的掣肘。
文章原文