Pytorch固定参数训练

《Pytorch固定参数训练》

记录一下固定训练参数的方法:

requires_grad参数设置

1、初始化时指定Variable,如下语句所示:

i = Variable(torch.randn(5,5), requires_grad=True)

2、对于自己定义的一些基本网络,Linear等:

self.linear = nn.Linear(config.hidden_size * 3, config.hidden_size)

是没有requires_grad传入的;使用:

for i in self.linear.parameters():
    i.requires_grad=False

3、网络模型中设置。在训练中想要固定网络的底层,可以令这部分网络对应的子图的参数requires_grad为False。这样在反向传播的过程中就不会计算这些参数对应的梯度。需要在nn.Module中直接插入如下语句:

for p in self.parameters():
    p.requires_grad=False

比如:

class RESNET_attention(nn.Module):
    def __init__(self, model, pretrained):
        super(RESNET_attetnion, self).__init__()
        self.resnet = model(pretrained)
        for p in self.parameters():
            p.requires_grad = False
        self.f = nn.Conv2d(2048, 512, 1)
        self.g = nn.Conv2d(2048, 512, 1)
        self.h = nn.Conv2d(2048, 2048, 1)
        self.softmax = nn.Softmax(-1)
        self.gamma = nn.Parameter(torch.FloatTensor([0.0]))
        self.avgpool = nn.AvgPool2d(7, stride=1)
        self.resnet.fc = nn.Linear(2048, 10)

这样就将for循环以上的参数固定,只训练下面的参数,f,g,h,gamma等等。

最后一步需要对优化器限制:

optimizer = optim.Adam(filter(lambda p: p.requires_grad, model.parameters()), lr=0.0001, betas=(0.9, 0.999), eps=1e-08, weight_decay=1e-5)

猜你喜欢

转载自blog.csdn.net/ganxiwu9686/article/details/104610642