仅需一行代码即可提升训练效果！

掘金人工智能 13小时前

仅需一行代码即可提升训练效果！

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

该研究提出了一种名为 Cautious Optimizer 的优化器修改方法，仅需一行代码即可应用于现有的动量优化器，如 AdamW 和 Lion。通过仅在优化器更新方向与当前梯度方向一致时才执行更新，Cautious Optimizer 能够显著加快模型训练速度，并避免优化过程中可能出现的震荡或收敛减缓问题。实验结果表明，在 LLaMA 预训练、MAE 视觉预训练、LLM 微调和 RLHF 任务中，Cautious Optimizer 均表现出优异的性能，为大模型训练提供了更高效的解决方案。

💡 **Cautious Optimizer 的核心思想**：仅当优化器的更新方向与当前梯度方向一致时才执行更新。这种简单的调整能够使更新更稳定，并与最新的数据保持一致，从而加速训练过程。

⚙️ **实现方式**：Cautious Optimizer 的实现非常简洁，仅需一行代码修改现有的动量优化器，例如 C-AdamW 和 C-Lion。PyTorch 代码示例展示了其具体实现，通过一个掩码函数来控制更新的执行。

🚀 **实验结果**：在多个实验中，Cautious Optimizer 均展现出卓越的性能。例如，在 LLaMA 预训练任务中，C-AdamW 训练效率提高了 1.47 倍，C-Lion 提高了 1.28 倍。在 GLUE 基准测试中，C-AdamW 在多个 NLP 任务上的平均得分比 AdamW 提高了 2%。

🔍 **未来工作**：研究者计划进一步改进掩码函数，使其更有效。此外，他们还计划在特征空间（如特征向量的主成分）进行掩码操作，以进一步提升优化器的性能。

最近新看到的一篇paper，挺有意思

arxiv.org/pdf/2411.16…

github.com/kyleliang91…

在这篇文章中只做了一个出人意料的简单调整，作者建议忽略来自优化器、与最近反向传播中当前梯度符号相反的任何更新。换句话说，建议只应用与当前梯度一致的更新，使更新更稳定，并与最新数据保持一致。他们发现这个小小的调整可以显著加快训练速度，大致梳理了下内容，一起看看

背景

AdamW 成为大多数 Transformer 预训练的默认优化器，近年来虽然出现了一些改进版本，但始终没有真正挑战其主导地位。然而，随着大模型时代的到来，更高效的优化器可以加快训练速度，提高模型能力。因此，该研究提出了一种简单但有效的优化器修改方法——Cautious Optimizer

贡献

Cautious Optimizer

方法

仅在优化器的更新方向与当前梯度方向一致时才执行更新具体实现如下（PyTorch 代码示例）

# param p, update u from OPT, grad gm = (u * g > 0).to(g.dtype)p.add (u * m / (m.mean() + eps), alpha=-lr)

实验

LLaMA 预训练任务

C-AdamW 和 C-Lion 在多个参数规模（60M、100M、350M、1B）下均比原始 AdamW 和 Lion 更快地收敛C-AdamW 训练效率提高 1.47 倍，C-Lion 提高 1.28 倍在 GLUE 基准测试中，C-AdamW 在多个 NLP 任务上的平均得分比 AdamW 提高 2%

MAE 视觉预训练任务

C-AdamW 使评估损失更快下降，表明其在图像表示学习上的有效性

LLM 微调（Instruction Tuning）和 RLHF 任务

C-AdamW 在相同训练步数和 PPO 训练回合下，取得了更低的训练损失和更高的奖励分数

TODO

进一步改进 ϕ（masking）函数，使其更有效在特征空间（如特征向量的主成分）进行 mask，而非直接在参数空间操作更严格地分析对收敛速率的提升

愣着干嘛，测起来用起来，创新点+1[狗头]

背景

贡献

方法

实验

TODO

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签