掘金 人工智能 13小时前
仅需一行代码即可提升训练效果!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

该研究提出了一种名为 Cautious Optimizer 的优化器修改方法,仅需一行代码即可应用于现有的动量优化器,如 AdamW 和 Lion。通过仅在优化器更新方向与当前梯度方向一致时才执行更新,Cautious Optimizer 能够显著加快模型训练速度,并避免优化过程中可能出现的震荡或收敛减缓问题。实验结果表明,在 LLaMA 预训练、MAE 视觉预训练、LLM 微调和 RLHF 任务中,Cautious Optimizer 均表现出优异的性能,为大模型训练提供了更高效的解决方案。

💡 **Cautious Optimizer 的核心思想**:仅当优化器的更新方向与当前梯度方向一致时才执行更新。这种简单的调整能够使更新更稳定,并与最新的数据保持一致,从而加速训练过程。

⚙️ **实现方式**:Cautious Optimizer 的实现非常简洁,仅需一行代码修改现有的动量优化器,例如 C-AdamW 和 C-Lion。PyTorch 代码示例展示了其具体实现,通过一个掩码函数来控制更新的执行。

🚀 **实验结果**:在多个实验中,Cautious Optimizer 均展现出卓越的性能。例如,在 LLaMA 预训练任务中,C-AdamW 训练效率提高了 1.47 倍,C-Lion 提高了 1.28 倍。在 GLUE 基准测试中,C-AdamW 在多个 NLP 任务上的平均得分比 AdamW 提高了 2%。

🔍 **未来工作**:研究者计划进一步改进掩码函数,使其更有效。此外,他们还计划在特征空间(如特征向量的主成分)进行掩码操作,以进一步提升优化器的性能。

最近新看到的一篇paper,挺有意思

在这篇文章中只做了一个出人意料的简单调整,作者建议忽略来自优化器、与最近反向传播中当前梯度符号相反的任何更新。换句话说,建议只应用与当前梯度一致的更新,使更新更稳定,并与最新数据保持一致。他们发现这个小小的调整可以显著加快训练速度,大致梳理了下内容,一起看看

背景

AdamW 成为大多数 Transformer 预训练的默认优化器,近年来虽然出现了一些改进版本,但始终没有真正挑战其主导地位。然而,随着大模型时代的到来,更高效的优化器可以加快训练速度,提高模型能力。因此,该研究提出了一种简单但有效的优化器修改方法——Cautious Optimizer

贡献

方法

# param p, update u from OPT, grad gm = (u * g > 0).to(g.dtype)p.add (u * m / (m.mean() + eps), alpha=-lr)

实验

    LLaMA 预训练任务
    MAE 视觉预训练任务
    LLM 微调(Instruction Tuning)和 RLHF 任务

TODO

愣着干嘛,测起来用起来,创新点+1[狗头]

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Cautious Optimizer 大模型 优化器 AdamW Lion
相关文章