夕小瑶科技说 2024年12月12日
清华大学发现新的大模型定律,LLM的能力密度每 3.3 个月翻一番
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

清华大学研究团队提出大模型“密度定律”,指出模型能力密度约每3.3个月翻一番,预示着未来可以用更小模型实现更强性能。该定律揭示了模型规模与计算效率之间的新平衡,为大模型发展提供了新视角,不再只追求模型参数量的暴力增长,而是转向思考如何以最小的计算开销实现最佳的模型效果。这一发现对大模型发展具有重要指导意义,特别是在计算资源有限的部署设备上。

🌠**密度定律**:大模型的能力密度(即有效参数量与实际参数量的比率)随时间呈现指数级增长,大约每3.3个月翻一番。

📚**有效参数量**:指为了达到与目标模型同等性能,所需的参考模型的参数数量。例如,一个10B的模型能达到100B模型的性能,则其能力密度为10。

📈**密度定律的推算**:研究团队通过训练一系列不同参数规模的参考模型,并结合多个基准测试,拟合出能力密度与时间的关系函数,从而得出每3.3个月翻一番的结论。

💡**五个重要推论**:包括推理成本呈指数下降、端侧AI奇点加速到来、大模型能力密度持续增强、模型压缩不等于能力密度提升,以及每个模型都有较短的“最佳性价比期”。

🎯**实际意义**:密度定律为大模型发展提供新视角,强调在有限计算资源下,应着重提高模型密度而非单纯扩大规模,以实现更高效的模型部署。

原创 兔子酱 2024-12-12 17:51 北京

不再只追求模型规模,应该是能力密度

清华大学孙茂松老师、刘知远老师研究组,最近发表了一篇论文,提出了一个新的大模型定律——叫密度定律(Densing Law)

模型的能力密度随时间呈现指数级增长,LLMs 的能力密度大约每 3.3 个月翻一番。

按照这个速度推测,到 25 年底,就能拥有仅 8B 参数的 GPT-4 级别的模型。知道 Scaling Law,但这个 Densing Laws 又是干什么的呢?

我们都知道,Scaling Law 并非是什么科学定律,就是长期实践的经验法则,给大模型的演进提供了方向。但是随着 GPT-5 迟迟没有训练出来和算力、电力资源的紧缺,让我们明白,Scaling Law 也只不过是在现有技术条件和资源约束下的最优实践而已。

而目前普遍关注的问题是:模型规模与计算效率如何权衡?

这篇论文的出现,便是给解答这个问题提供了一些思路。

论文标题:
Densing Law of LLMs
论文链接:
https://arxiv.org/pdf/2412.04315v2

这条定律里出现了一个新概念——能力密度(Capability Density),论文里给它的定义是:

LLM 的有效参数量与实际参数量的比率。

那接着就会问了,什么是有效参数量呢?

有效参数量是指,如果达到与目标模型同等性能,所需的参考模型的参数数量。

说了半天,通俗点讲就是:一个 100B 的模型,另一个 10B 的模型就能达到和 100B 相同的性能,这个 10B 模型的能力密度就是 100/10=10。

全文最核心的就是这张图,下面展开分析分析。

(灰色的实线是模型的能力密度数值,红色的虚线代表随着时间的进展趋势。)

3.3 个月是怎么得出来的

(下面是建模过程,我已经尽可能精简了,如果不想看,可以跳过这趴)

为了计算能力密度,首先要测算出有效参数量,也就是参考模型达到与目标模型同样性能所需的参数量。所以,研究团队需要拟合一个关联(参考模型参数量和性能)两者的函数 S=f⁢(N) ,其中 S 表示下游性能, N 表示参考模型的参数量,求一阶导得到 N 的大小(也就是有效参数):

对于具有 Nℳ 参数的目标模型 ℳ ,假设其在下游任务上的性能得分为 Sℳ 。根据能力密度的公式,可以得到:

最关键地还是测算出这个拟合函数,S=f⁢(N) ,确定了这个函数,就能利用上面的公式轻松得到能力密度了。

为此,研究团队特意采用了两步估计法。第一步是损失估计,即参数量 和 Loss 之间的关系;

第二步是性能估计,即 Loss 与性能之间的关系。

性能与参数量的关系就被建模成了

为此,清华研究团队特意训练了一系列不同参数规模的参考模型,逼近 29 个开源模型在 5 个基准测试上性能。

团队收集了从 23 年 3 月份以来发布的开源大模型,一共 29 个开源模型,包括 Llama 系列(Llama-1 系列、Llama-2 系列、Llama-3 系列、Phi 系列(Phi-1、Phi-1.5、Phi-2 系列)、Gemma 系列、Mistral-7B、Falcon-40B、MiniCPM 系列。

5 个基准测试包括 MMLU、BBH、MATH 、HumanEval 和 MBPP。

最终,拟合出这个线性函数,拟合得到斜率 A ≈ 0.007, B是个常数。

其中 t 是自 Llama-1 发布日期以来的时间间隔(单位:天), ρ 是 t 时刻的能力度值。

3.3 个月的具体的推算过程,直接看这个就明白了。

按照这个定律推测,在 2025-12 年,我们可以拥有仅 8B 参数的 GPT-4 级别 LLM。

除了 Densing Law,还有 5 个推论

另外,论文里还提出了 5 个比较置信的推论,我觉得也值得分享出来。

    推理成本呈指数下降

    边缘人工智能变得越来越重要(摩尔定律 × 密度定律)

    大模型的能力密度还在继续增强

    模型压缩 ≠ 能力密度提升

    每个模型都有一个较短的“最佳性价比期”

大模型推理成本呈指数下降

这点毋庸置疑,ChatGPT 刚推出来时每百万 token 是 20 美元,现在 Gemini1.5 Flash 已经超过了 ChatGPT,价格才是 0.0075 美元。降了 266 倍。

端侧奇点在加速到来

代表芯片电路发展规律摩尔定律和代表模型有效性和效率的密度定律,如果同时持续发展,两条曲线交汇处,代表端侧 AI 的奇点到来,PC、手机、机器人等端侧设备将能够运行效果足够好的模型,到那时候就会迎来一个繁荣的端侧智能生态。

大模型的能力密度还在继续增强

ChatGPT 是 22 年 11 月发布,在此之前,以每 4.8 个月翻番,发布之后以每 3.3 个月翻番。

这代表 ChatGPT 激起了国内外的百模大战,开源模型的发展速度更快,以更快的速度出现更高质量的开源模型。

模型压缩 ≠ 能力密度提升

论文中还提到一点,之前的模型压缩算法不等同于提高模型密度,因为实验表明,大多数的压缩模型的密度都低于原始模型。

每个模型都有一个较短的“最佳性价比期”

随着模型的能力密度在加速增强,每隔几个月就能出现更小、更精悍的模型,这说明这个模型它的最佳性价比窗口期在算短,淘汰速度也会变得更快。

比如,谷歌 Gemma-2-9B 推出俩月之后,面壁智能的 MiniCPM-3-4B 小钢炮就做到了同样效果。

这篇论文提出的密度定律,给 LLM 的发展提供了一种新的视角,不再是只追求模型参数量的暴力增长,而是转向思考一个更务实的问题,如何能以最小的计算开销实现最佳的模型效果。

直观上,如果一个模型能够在相同规模的参数下取得更好的性能,那么该模型的密度就更高。

所以,在计算资源有限的部署设备上,未来我们应该花大力气提高模型的密度,而不是仅仅增加模型参数规模来获得更好的性能。


跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

密度定律 大模型 能力密度 人工智能 清华大学
相关文章