掘金 人工智能 前天 11:22
52 页 PPT,谷歌 Gemini 预训练负责人首次揭秘!扩展定律最优解
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

谷歌Gemini 2.5 Pro在大模型竞争中实现逆袭,Gemini Flash预训练负责人Vlad Feinberg揭秘了其背后的关键技术。分享内容深入分析了Gemini预训练的方法、挑战和方向,探讨如何在模型大小、算力、数据和推理成本之间取得平衡。文章重点介绍了经典扩展定律、Chinchilla scaling以及推理优化扩展定律,并探讨了知识蒸馏在模型优化中的应用。强调了在实际应用中综合考虑训练和推理成本的重要性,以及如何通过调整模型参数和数据规模来优化模型性能。

💪经典扩展定律强调模型训练中计算资源的合理利用,通过模型参数量(N)和训练token数量(D)的优化,以达到最佳LLM训练效果。Transformer模型的计算量C与N、D之间存在近似公式:C≈6×N×D。

⚖️Chinchilla scaling对Kaplan定律提出质疑,认为模型参数N和数据量D应以大致相同的速率随算力C增长。按Kaplan定律训练的模型可能存在训练不足的情况,数据太少,会增加模型后续部署和使用的成本。

💡推理优化扩展定律的核心思想是,不仅最小化训练loss,还要综合考虑训练和推理的总计算量。在相同计算量下,应训练更小的模型,并使用更多的数据,因为推理所需的计算量更少。

📚 知识蒸馏通过调整参数,可以优化学生模型的性能,降低方差,更好的教师模型能减少偏差,为模型优化提供了新途径。谷歌 Gemini 预训练技术对经典扩展定律和推理优化扩展定律都进行了深入研究。

【新智元导读】大模型之战烽火正酣,谷歌 Gemini 2.5 Pro 却强势逆袭!Gemini Flash 预训练负责人亲自揭秘,深挖 Gemini 预训练的关键技术,看谷歌如何在模型大小、算力、数据和推理成本间找到最优解。

谷歌凭借 Gemini 2.5 Pro 在激烈的大模型竞争中一举翻盘。

近日,Geimini Flash 预训练负责人 Vlad Feinberg 在普林斯顿大学分享了相关内容。

他深入分析了 Gemini 预训练的方法、挑战以及方向,如何在模型大小、算力、数据和推理成本间取得平衡。

PPT 链接:vladfeinberg.com/assets/2025…

经典扩展定律

模型训练中,计算资源的合理利用至关重要。

假设有计算资源(C)1000 块 H100 芯片,运行 30 天,如何训练出最佳的 LLM 呢?

这就涉及到模型参数量(N)和训练 token 数量(D)。

对于 Transformer,计算量 C 和 N、D 之间存在一个近似公式:C≈6×N×D。

MLP 是模型的重要组成部分,不同操作的浮点运算量和参数量有所不同。

比如这个操作,训练时的浮点运算量是 6BTDF,参数量为 DF。

把 MLP 的多个操作加起来,总训练浮点运算量约为 18BTDF,参数数量达到 3DF。

注意力机制的计算更为复杂。将注意力机制相关操作的计算量相加,约为 12BTSNH=12BT²NH,参数量为 4DNH。

将 MLP 和注意力机制的计算量合并,就能了解整个模型训练时的计算量情况。

Kaplan 定律

2020 年,Kaplan 等人的研究揭示了模型性能与数据量、模型规模和计算量之间的关系。

自回归 Transformer 模型中,小模型可以用来预测大模型的性能。

模型性能与算力、参数量、数据量之间存在幂律关系。当计算预算增加 10 倍时,模型参数量应增加 5.37 倍,数据量增加 1.86 倍。

这一结论在当时引起了广泛关注,点燃了企业的「军备竞赛」。

Chinchilla(龙猫)

然而,2022 年,DeepMind 对 Kaplan 的观点提出了质疑。

Kaplan 的研究在每个模型规模下仅运行一次训练,并用中间损失来估计不同 token 训练步数下的损失。

Chinchilla 论文指出,基于单次训练的中间 loss 点来推断存在缺陷,通过适当的学习率衰减可以获得更好的损失值,只有最终的损失值才是最优的。

论文采用 IsoFlops 方法,固定浮点运算量预算,同时改变模型规模和训练 token 数量。

研究发现,模型参数 N 和数据量 D 应以大致相同的速率(幂律指数约为 0.5)随算力 C 增长,这与 Kaplan 等的结论大相径庭。

这意味着,按 Kaplan 定律训练的模型,可能存在训练不足的情况,数据太少,会增加模型后续部署和使用的成本。

为了进一步优化模型训练,研究人员尝试了多种方法。通过不同的计算场景和拟合方式,得到了更精确的系数。

混合专家(MoE)模型的扩展定律展现出了独特的优势。与传统模型相比,在相同的活跃参数数量和固定 100B token 的情况下,MoE 64E 模型的性能更优。

然而,MoE 模型对 token 数据的需求量较大,互联网上的可用数据逐渐难以满足其需求,这成为了发展瓶颈。

为了解决数据不足的问题,研究人员将目光投向了更多的数据来源。多模态数据,如音频、视觉、3D 模型、视频等,为模型训练提供了丰富的信息。

合成数据也受到了关注。实际应用中,需要在生成质量与筛选成本之间找到平衡。

实时场景的模型选择

在谷歌的许多应用场景中,如免费的 Gemini 聊天机器人、AIO、AIM、Vertex AI(用于模型微调、部署)以及 AI Studio(提供生成式 API)等,推理效率至关重要。

这些应用需要快速给出准确的响应,对模型的推理速度和效率要求极高。

就拿实时应用来说,Astra 和 Mariner 都需要快速响应。

以一个网络交互智能体为例,假设上下文 128k,但每次增量只有 8k token,解码需要 128 token 来生成一个动作,并且动作之间的延迟不超过 1 秒,其中 250 毫秒还得用于框架搭建、负载均衡等操作。

用 Llama3-70B 模型和 v5e 芯片做实验,发现单芯片处理 8k token 需 5.7 秒。为了达到 0.5 秒的 API 延迟限制,需要搭建 4×4 v5e 并行。

实时应用中,小模型反而更有优势,如 Gemini Flash/Flash-lite。

Chinchilla 的扩展方法虽然在模型训练的计算优化上有效,但它忽略了推理成本。

在实际应用中,需要综合考虑训练和推理的成本,找到更合适的模型和数据配置。

推理优化扩展定律

《超越 Chinchilla 最优:在语言模型扩展定律中考虑推理因素》这篇论文提出了新的推理优化 Scaling Laws。

核心思想是,不仅最小化训练 loss,而是要综合考虑训练和推理的总计算量,为模型优化提供了新的方向。

按照这些公式,在相同计算量下,与 Chinchilla 最优策略相比,应该训练更小的模型,并使用更多的数据,因为推理所需的计算量更少。

当然,这也存在新的挑战。

针对这些问题,研究人员采用在数据约束下建模的方法。研究引入新维度,即有意区分数据,提出新的损失函数和数据规模公式,这样训练出来的模型更小,对数据重复的鲁棒性更强。

对于推理 token 数量的处理,像 Llama3 模型,有研究指出其 8B 和 70B 参数的模型,在训练到 15T token 后,性能仍呈对数线性提升,即 D_inf 可视为无穷大。

蒸馏的探索与应用

除了模型大小、数据量和推理成本,知识蒸馏为推理优化扩展带来了新的思路。

知识蒸馏扩展定律公式:

通过调整这些参数,可以优化学生模型的性能。

不过,知识蒸馏在实际应用中也有一些问题,比如趋势影响不明显、部分情况考虑不周全等,但可以通过权重调整等方法进行改进。

从原理上讲,知识蒸馏能降低方差,更好的教师模型能减少偏差,为模型优化提供了新途径。

谷歌 Gemini 预训练技术对经典扩展定律和推理优化扩展定律都进行了深入研究。

经典扩展定律通过探索模型规模、数据量和计算量之间的关系,不断优化模型训练的资源配置。

推理优化扩展定律针对推理成本和效率问题,综合考虑训练和推理需求,提出新方法,提升模型整体性能。

同时,知识蒸馏等技术的应用也为模型的优化提供了更多的途径。

Vlad Feinberg

Vlad Feinberg 毕业于普林斯顿大学计算机科学专业,于加州大学伯克利分校 RISE 实验室攻读博士学位。

后来,Feinberg 加入了一家名为 Sisu 的初创公司,担任机器学习主管。他曾任职于谷歌研究院的 Cerebra 项目,目前在谷歌 DeepMind 工作。

参考资料:

x.com/JeffDean/st…

x.com/FeinbergVla…

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Gemini 2.5 Pro 大模型 预训练 扩展定律 知识蒸馏
相关文章