机器学习初学者 2024年10月04日
【深度学习】在Pytorch中为不同层设置不同学习率来提升性能,优化深度学习模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨为网络不同层设置不同学习率的策略,包括其理论基础、在PyTorch中的实现、优化器配置与训练过程,还介绍了渐进式解冻、层适应学习率等高级技巧,最后总结该技术适用于特定场景,最佳配置需实验确定。

💻层级学习率的理论基础:深度神经网络不同层次在特征提取和信息处理上角色不同,底层负责捕获通用低级特征,高层倾向提取抽象高级特征,任务特定层与特定任务相关,据此制定相应学习率策略。

📦PyTorch实现:以ResNet18为例,加载预训练模型并修改最后一层以适应新任务,将模型参数分组,为不同层设置不同学习率,选用Adam优化器并配置,实现层级学习率后的训练循环保持不变,还可结合学习率调度器动态调整学习率。

🎯高级学习率优化技巧:渐进式解冻策略在微调预训练模型时,先锁定底层只训练顶层,然后逐步解冻更多层;通过自定义优化器实现不同层的不同学习率范围,自动调整每一层的学习率。

📋总结:层级学习率设置是强大的优化技术,适用于迁移学习和微调预训练模型场景,结合其他高级技巧可提升模型训练效率和性能,最佳学习率配置需实验确定。

P**nHub兄弟网站 2024-10-04 12:02 浙江

为网络的不同层设置不同的学习率可能会带来显著的性能提升。本文将详细探讨这一策略的实施方法及其在PyTorch框架中的具体应用。

在深度学习模型的训练过程中,学习率作为一个关键的超参数,对模型的收敛速度和最终性能有着重大影响。传统方法通常采用统一的学习率,但随着研究的深入,我们发现为网络的不同层设置不同的学习率可能会带来显著的性能提升。本文将详细探讨这一策略的实施方法及其在PyTorch框架中的具体应用。

层级学习率的理论基础

深度神经网络的不同层次在特征提取和信息处理上扮演着不同的角色。基于这一认知,我们可以合理推断对不同层采用差异化的学习策略可能会更有效:

    底层特征提取:网络的前几层通常负责捕获通用的低级特征,如边缘、纹理等。这些特征往往具有较强的通用性和可迁移性。

    高层语义理解:网络的后几层则倾向于提取更为抽象和任务相关的高级特征。

    任务特定层:如全连接分类层,直接与特定任务相关。

基于上述观察我们可以制定相应的学习率策略:

PyTorch实现:以ResNet为例

下面我们将以ResNet18为例,演示如何在PyTorch中实现层级学习率设置。

1、模型定义

首先,我们加载预训练的ResNet18模型,并修改其最后一层以适应新的分类任务:

 import torch
 import torch.nn as nn
 import torchvision.models as models
 
 # 加载预训练的ResNet18模型
 model = models.resnet18(pretrained=True)
 
 # 修改最后的全连接层以适应新的分类任务
 num_classes = 10  # 假设新任务有10个类别
 model.fc = nn.Linear(model.fc.in_features, num_classes)

2、参数分组

接下来,我们将模型参数分组,为不同的层设置不同的学习率:

 # 定义不同组的学习率
 backbone_lr = 1e-4  # 较小的学习率用于预训练的主干网络
 classifier_lr = 1e-3  # 较大的学习率用于新的分类器层
 
 # 创建参数组
 params = [
    {'params': model.conv1.parameters(), 'lr': backbone_lr},
    {'params': model.bn1.parameters(), 'lr': backbone_lr},
    {'params': model.layer1.parameters(), 'lr': backbone_lr},
    {'params': model.layer2.parameters(), 'lr': backbone_lr},
    {'params': model.layer3.parameters(), 'lr': backbone_lr},
    {'params': model.layer4.parameters(), 'lr': backbone_lr},
    {'params': model.fc.parameters(), 'lr': classifier_lr}
 ]

此处我们对ResNet的各个组件进行了更细致的划分,为不同的层组设置了相应的学习率。这种方法允许我们对模型的学习过程进行更精细的控制。

优化器配置与训练过程

3、优化器设置

在确定了参数分组后,我们需要选择合适的优化器并进行配置。这里我们简单的选用Adam优化器。

 optimizer = torch.optim.Adam(params)

这种分组策略同样适用于其他PyTorch支持的优化器,PyTorch的优化器会自动识别并应用在参数分组中定义的不同学习率。这种设计使得实现层级学习率变得相对简单。

4、训练循环

实现了层级学习率后的训练循环保持不变。PyTorch会在后台自动处理不同参数组的学习率:

 # 定义损失函数
 criterion = nn.CrossEntropyLoss()
 
 # 训练循环
 for epoch in range(num_epochs):
     model.train()
     for inputs, labels in train_loader:
         optimizer.zero_grad()
         outputs = model(inputs)
         loss = criterion(outputs, labels)
         loss.backward()
         optimizer.step()
     
     # 在每个epoch结束后进行验证
     model.eval()
     # ... [验证代码]

5、学习率调度

除了设置初始的层级学习率,我们还可以结合学习率调度器来动态调整学习率。PyTorch提供了多种学习率调度器,如StepLRReduceLROnPlateau等。以下是一个使用StepLR的示例:

 from torch.optim.lr_scheduler import StepLR
 
 scheduler = StepLR(optimizer, step_size=30, gamma=0.1)
 
 # 在训练循环中更新学习率
 for epoch in range(num_epochs):
     # ... [训练代码]
     scheduler.step()

这将每30个epoch将所有参数组的学习率降低为原来的0.1倍。

高级学习率优化技巧

1、渐进式解冻

在微调预训练模型时,一种有效的策略是渐进式解冻。我们可以先锁定底层,只训练顶层,然后逐步解冻更多的层:

 # 初始阶段:只训练分类器
 for param in model.parameters():
     param.requires_grad = False
 model.fc.requires_grad = True
 
 # 训练几个epoch后
 model.layer4.requires_grad = True
 
 # 再过几个epoch
 model.layer3.requires_grad = True
 
 

以此类推,冻结其实意味着学习率为0,也就是不对任何参数进行更新。

2、层适应学习率

我们上面已经介绍了手动指定固定的学习率,其实我们还可以通过自定义优化器来实现,不同的层的不同的学习率范围。我们可以实现一个自定义的优化器来自动调整每一层的学习率:

 class LayerAdaptiveLR(torch.optim.Adam):
     def __init__(self, params, lr=1e-3, betas=(0.9, 0.999), eps=1e-8, weight_decay=0):
         super().__init__(params, lr, betas, eps, weight_decay)
         self.param_groups = sorted(self.param_groups, key=lambda x: id(x['params'][0]))
         
     def step(self, closure=None):
         loss = None
         if closure is not None:
             loss = closure()
 
         for group in self.param_groups:
             for p in group['params']:
                 if p.grad is None:
                     continue
                 grad = p.grad.data
                 state = self.state[p]
 
                 # 根据梯度统计调整学习率
                 if len(state) == 0:
                     state['step'] = 0
                     state['exp_avg'] = torch.zeros_like(p.data)
                     state['exp_avg_sq'] = torch.zeros_like(p.data)
 
                 exp_avg, exp_avg_sq = state['exp_avg'], state['exp_avg_sq']
                 beta1, beta2 = group['betas']
 
                 state['step'] += 1
 
                 exp_avg.mul_(beta1).add_(grad, alpha=1 - beta1)
                 exp_avg_sq.mul_(beta2).addcmul_(grad, grad, value=1 - beta2)
 
                 denom = exp_avg_sq.sqrt().add_(group['eps'])
                 
                 # 动态调整学习率
                 step_size = group['lr'] * (exp_avg.abs() / denom).mean().item()
                 p.data.add_(exp_avg, alpha=-step_size)
 
         return loss
 
 # 使用示例
 optimizer = LayerAdaptiveLR(model.parameters(), lr=1e-3)

可以看到,上面我们继承自Adam优化器,这里我们不用实现优化过程只针对于针对层的学习率变化即可。

总结

层级学习率设置是一种强大的优化技术,特别适用于迁移学习和微调预训练模型的场景。通过精心设计的学习率策略,可以在保留预训练模型通用特征的同时有效地适应新任务。结合其他高级技巧,如渐进式解冻、层适应学习率,可以进一步提升模型的训练效率和性能。

在实际应用中,最佳的学习率配置往往需要通过实验来确定。建议研究者根据具体任务和模型架构进行适当的调整和实验,以获得最佳的训练效果。

往期精彩回顾





欢迎加入机器学习爱好者微信群一起和同行交流,目前有机器学习交流群、博士群、博士申报交流、CV、NLP等微信群,请扫描下面的微信号加群,备注:”昵称-学校/公司-研究方向“,例如:”张小明-浙大-CV“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~(也可以加入机器学习交流qq群772479961


跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

层级学习率 PyTorch 优化技巧 深度学习
相关文章