掘金 人工智能 07月15日 12:08
从零训练大模型之模型升级版搭建及训练总结(下)
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文对比了基于Transformer的V1和V2模型在训练效果和生成能力上的差异。V2模型通过引入RMSNorm、RoPE、FlashGQA和SwiGLU等先进技术,在相同训练步数下实现了更低的损失和困惑度,展现出更高的学习效率和性能上限。同时,V2的生成内容更加条理清晰,减少了重复啰嗦的问题。

📈 V2模型采用RMSNorm替代LayerNorm,计算更简单高效,同时保持甚至提升了性能。

🔄 RoPE位置编码通过相对位置信息替代绝对坐标,显著改善了长序列处理能力。

⚡ FlashGQA注意力机制结合GQA和FlashAttention,大幅减少显存占用并加速推理。

🚦 SwiGLU激活函数引入门控机制,比ReLU更具表现力,增强模型非线性能力。

📊 对比显示,V2在12k步训练时已超越V1 24k步的最终性能,证明架构升级效果显著。

前言

经过文章《从零训练大模型之模型升级版搭建及训练(上)》《从零训练大模型之模型升级版搭建及训练(中)》的努力,我们已经完成了模型代码的编写。这一篇我们将分享最终的训练结果,并和《从零训练大模型之模型搭建》搭建的模型进行结果对比。按照《Attention Is All You Need》编写的模型,我们称之为V1版模型,对应的这一版的升级版模型我们称之为V2版模型。

回顾我们的V1模型

先回顾以下我们的第一个模型 MiniLlmsModel,可以看作是基于经典Transformer论文《Attention Is All You Need》构建的一个“标配版”解码器模型。它包含了所有我们耳熟能详的核心组件:

这是一个非常扎实的起点,就像我们学编程时的“Hello, World!”一样经典。我用它进行了一轮训练,结果怎么样呢?我们用数据说话。

V1训练成绩单

这两张是V1模型训练了大约24k步后的TensorBoard监控图:

V1的“AI作文”秀

光看数字不够直观,我们让它根据“machine learning”这个提示词写一段话看看:

V1生成内容(节选):"...the paper also suggests that the method cannot be used to predict the impact of an event, and that the probability of the event is low... a few months ago, shu told the researchers that it was important to understand the effect of the event on the semester. they said the semester used to predict the effect of a event, and a few months later, the researchers used a method associated with the semester, which they say is associated with the event... "

评价:它确实生成了通顺的英文句子,非得说点不好的,可能是内容上有点“车轱辘话来回说”。反复提及“predict the impact of an event”、“semester”等词,逻辑有点绕,整体感觉比较空洞和重复。

小结:V1成功地跑起来了,但离“优秀”还有距离。它的学习效率、稳定性和生成质量都有很大的提升空间。于是,我们借助这几年大模型所使用的先进技术,来给我的模型来一次“脱胎换骨”的大升级!

模型升级,V2模型的“黑科技”加持

我们的MiniLlmsModelV2不是简单的参数调整,而是一次架构上的“鸟枪换炮”。我们引入了近年来被验证为高效且强大的几项关键技术:

1. 稳定器升级:LayerNorm -> RMSNorm

Llama等模型普遍使用RMSNorm替代了传统的LayerNorm

2. 位置编码升级:Positional Encoding -> RoPE

这是最关键的升级之一!

3. 注意力机制升级:MHA -> FlashGQA

这里是“连升两级”!

4. “思考”层升级:ReLU -> SwiGLU

经过这一系列现代化改造,我们的V2模型诞生了!它是否辜负了我的期望呢?

V2 vs V1:一场激动人心的对决!

我用和V1几乎相同的训练配置(数据集、学习率策略等)来训练V2,让我们直接看对比图。

V1

因为篇幅的原因,V1的图就这里就不再贴了,像再回顾下的请参考前面 V1训练成绩单 一节的图

V2

损失(Loss)

困惑度(Perplexity)

(注:为了公平对比,这里我们只比较两个模型都训练到约12k步时的结果)

这张对比图胜过千言万语!

结论

    学习效率更高:在相同的训练步数下,V2模型达到的损失和困惑度低于V1。这意味着V2学得更快、更好,在使用同等计算资源下,我们可以训练出参数量更高的大模型。性能天花板更高:V2只用了12k步,其PPL(36)就已经超越了V1训练24k步的最终成绩(40)。这说明V2的架构本身就更强大,拥有更高的性能上限。训练更稳定:如果你仔细看V2的训练损失曲线,会发现它的抖动比V1小得多,整体下降趋势更平滑,证明了新架构带来的训练稳定性。

V2的“AI作文”秀

最后,我们来看看V2的生成能力是否也和指标一样出色。同样是“machine learning”:

V2生成内容(节选): "...in the future, the ai research institute will become the first university to have an integrated computer science degree. it is expected the technology school will be the new graduate training center for ai biology at the university of california, irvine. california. the tech academy will be the third university to have an integrated computer science degree at the university of illinois, irvine, connecticut... the ai institute is expanding to include ai research, robotics, advanced science, engineering and engineering..."

评价:V2的生成内容围绕“AI研究”和“大学”这两个核心概念展开,条理清晰地列举了多个大学和研究方向,没有出现V1那种原地打转、重复啰嗦的问题。模型幻觉的问题和V1一样,依旧存在。

总结

这次从V1到V2的升级之旅,让我深刻领悟到:

    架构决定上限:好的模型架构是成功的关键。单纯增加数据和算力是“蛮力”,而优化架构则是“巧劲”。拥抱前沿技术RMSNorm, RoPE, GQA, FlashAttention, SwiGLU……这些不是凭空出现的时髦词汇,而是无数研究者智慧的结晶,它们实实在在地解决了问题,提升了效率和性能。实践出真知:亲手实现并对比这些技术,远比只看论文来得深刻。当你在TensorBoard上看到那条陡峭下降的PPL曲线时,所有的努力都值了!

对于和我一样刚刚入门大模型的朋友,也可以遵循:从一个简单的“V1”开始,动手实现它,然后勇敢地去探索和应用那些最新的“V2”技术。 这个过程不仅能让你深入理解Transformer的每一个细节,更能让你紧跟时代的步伐,真正感受到AI技术日新月异的魅力。


关注我的公众号不走丢

附录

GitHub链接:github.com/JimmysAIPG/…

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

模型升级 Transformer 大模型 技术对比
相关文章