PyTorch는 ResNet18 전이 학습을 기반으로 포켓몬 데이터 세트 분류를 구현합니다.

1. 시행과정

1. 데이터 세트 설명

데이터 세트는 다음과 같이 5가지 범주로 나뉩니다.

  • 피카츄: 234
  • 뮤츠: 239
  • 제니 거북이: 223
  • 리틀 파이어 드래곤: 238
  • 개구리 씨앗: 234

Self-fetching 링크: https://pan.baidu.com/s/1bsppVXDRsweVKAxSoLy4sw
추출코드: 9fqo
이미지 파일 확장자는 jpg, jepg, png, gif 4가지 종류가 있으며 이미지의 크기가 같지 않으므로 , 검증 및 테스트) 이미지의 크기 조정 및 기타 작업이 필요합니다.본 논문에서는 이미지 크기를 224×224 크기로 조정합니다.

2. 데이터 전처리

본 논문에서는 Dataset 프레임워크를 사용하여 데이터셋을 전처리하고 이미지 데이터셋을 {images, labels}와 같은 매핑 관계로 변환합니다.

    def __init__(self, root, resize, mode):
        super(Pokemon, self).__init__()

        self.root = root
        self.resize = resize

        self.name2label = {
    
    }    # "sq...": 0
        for name in sorted(os.listdir(os.path.join(root))):
            if not os.path.isdir(os.path.join(root,name)):
                continue
            self.name2label[name] = len(self.name2label.keys())
        # print(self.name2label)

        # image,label
        self.images, self.labels = self.load_csv('images.csv')

        # 数据集裁剪:训练集、验证集、测试集
        if mode == 'train': # 60%
            self.images = self.images[0:int(0.6*len(self.images))]
            self.labels = self.labels[0:int(0.6*len(self.labels))]
        elif mode == 'val': # 20% = 60% -> 80%
            self.images = self.images[int(0.6*len(self.images)):int(0.8*len(self.images))]
            self.labels = self.labels[int(0.6*len(self.labels)):int(0.8*len(self.labels))]
        else:               # 20% = 80% -> 100%
            self.images = self.images[int(0.8*len(self.images)):]
            self.labels = self.labels[int(0.8*len(self.labels)):]

이 중 root 는 데이터셋이 저장되는 파일 루트 디렉토리를 나타내고, resize 는 데이터셋 출력의 균일한 크기를 나타내며, mode 는 데이터셋을 읽을 때의 모드(train, val, test)를 나타내며, name2label 은 딕셔너리 구조를 구성한다. 이미지 카테고리 이름 및 레이블, 이미지 카테고리의 레이블을 얻는 것이 편리합니다. load_csv 메소드는 {이미지, 레이블}의 매핑 관계를 생성하는 것입니다. 여기서 이미지는 이미지가 있는 파일 경로를 나타내고 코드는 다음과 같습니다. 다음과 같이:

    def load_csv(self, filename):
        if not os.path.exists(os.path.join(self.root, filename)):
            # 文件不存在,则需要创建该文件
            images = []
            for name in self.name2label.keys():
                # pokemon\\mewtwo\\00001.png
                images += glob.glob(os.path.join(self.root,name,'*.png'))
                images += glob.glob(os.path.join(self.root, name, '*.jpg'))
                images += glob.glob(os.path.join(self.root, name, '*.jpeg'))
                images += glob.glob(os.path.join(self.root, name, '*.gif'))
            # 1168, 'pokemon\\bulbasaur\\00000000.png'
            print(len(images),images)
            # 保存成image,label的csv文件
            random.shuffle(images)
            with open(os.path.join(self.root, filename),mode='w',newline='') as f:
                writer = csv.writer(f)
                for img in images:  # 'pokemon\\bulbasaur\\00000000.png'
                    name = img.split(os.sep)[-2]
                    label = self.name2label[name]
                    # 'pokemon\\bulbasaur\\00000000.png', 0
                    writer.writerow([img, label])
                # print('writen into csv file:',filename)
        # 加载已保存的csv文件
        images, labels = [],[]
        with open(os.path.join(self.root,filename)) as f:
            reader = csv.reader(f)
            for row in reader:
                img, label = row
                label = int(label)
                images.append(img)
                labels.append(label)
        assert len(images) == len(labels)
        return images, labels

데이터 세트 크기와 인덱스 요소 위치를 가져오는 코드는 다음과 같습니다.

    def __len__(self):
        return len(self.images)
    def __getitem__(self, idx):
        # idx:[0, len(self.images)]
        # self.images, self.labels
        # img:'G:/datasets/pokemon\\charmander\\00000182.png'
        # label: 0,1,2,3,4
        img, label = self.images[idx], self.labels[idx]
        transform = transforms.Compose([
            lambda x: Image.open(x).convert('RGB'),  # string path => image data
            transforms.Resize((int(self.resize*1.25),int(self.resize*1.25))),
            transforms.RandomRotation(15),      # 随机旋转
            transforms.CenterCrop(self.resize), # 中心裁剪
            transforms.ToTensor(),
            # transforms.Normalize(mean=[0.485,0.456,0.406],
            #                      std=[0.229,0.224,0.225])
            transforms.Normalize(mean=[0.6096, 0.7286, 0.5103],
                                 std=[1.5543, 1.4887, 1.5958])
        ])

        img = transform(img)
        label = torch.tensor(label)
        return img, label

그 중 transforms.Normalize 에서 mean과 std의 계산을 참조 하거나 경험적 값 mean=[0.485, 0.456, 0.406] 및 std=[0.229, 0.224, 0.225]를 직접 사용하십시오.
Visdom 시각화 도구에 의해 표시되는 batch_size=32의 이미지는 다음 그림과 같습니다.
여기에 이미지 설명 삽입

2. 디자인 모델

이 논문은 마이그레이션 학습의 아이디어를 채택하고 resnet18 분류기를 직접 사용하며 네트워크 구조의 처음 17개 계층을 유지하고 그에 따라 마지막 계층을 수정합니다.코드는 다음과 같습니다.

trained_model = resnet18(pretrained=True)
model = nn.Sequential(*list(trained_model.children())[:-1],     # [b,512,1,1]
                      Flatten(),   # [b,512,1,1] => [b,512]
                      nn.Linear(512, 5)
                      ).to(device)

그 중 Flatten()은 데이터를 평면화하는 방법이며 코드는 다음과 같습니다.

class Flatten(nn.Module):
    def __init__(self):
        super(Flatten, self).__init__()

    def forward(self, x):
        shape = torch.prod(torch.tensor(x.shape[1:])).item()
        return x.view(-1, shape)

3. 손실 함수 및 옵티마이저 구성

loss function은 cross entropy를 사용하고 optimizer는 Adam을 사용하며 learning rate는 0.001로 설정하고 코드는 다음과 같다.

optimizer = optim.Adam(model.parameters(), lr=0.001)
criterion = nn.CrossEntropyLoss()

4. 훈련, 검증 및 테스트

	best_acc, best_epoch = 0, 0
    global_step = 0
    viz.line([0], [-1], win='loss', opts=dict(title='loss'))
    viz.line([0], [-1], win='val_acc', opts=dict(title='val_acc'))
    for epoch in range(epochs):
        for step, (x,y) in enumerate(train_loader):
            # x: [b,3,224,224]  y: [b]
            x, y = x.to(device), y.to(device)
            output = model(x)
            loss = criterion(output, y)
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            viz.line([loss.item()], [global_step], win='loss', update='append')
            global_step += 1
        # 验证集
        if epoch % 1 == 0:
            val_acc = evaluate(model, val_loader)
            if val_acc > best_acc:
                best_acc = val_acc
                best_epoch = epoch
                torch.save(model.state_dict(), 'best.mdl')
                viz.line([val_acc], [global_step], win='val_acc', update='append')

    print('best acc:', best_acc, 'best epoch:', best_epoch+1)
    # 加载最好的模型
    model.load_state_dict(torch.load('best.mdl'))
    print('loaded from ckpt!')
    test_acc = evaluate(model, test_loader)
    print('test acc:', test_acc)
def evaluate(model, loader):
    correct = 0
    total = len(loader.dataset)
    for (x, y) in loader:
        x, y = x.to(device), y.to(device)
        with torch.no_grad():
            output = model(x)
            pred = output.argmax(dim=1)
            correct += torch.eq(pred, y).sum().item()
    return correct/total

5. 테스트 결과

훈련 세트의 손실 값의 변화 곡선과 테스트 세트의 정확도의 변화 곡선은 다음 그림과 같습니다.
여기에 이미지 설명 삽입콘솔 출력은 다음과 같습니다.

best acc: 0.9358974358974359 best epoch: 3
loaded from ckpt!

test acc: 0.9401709401709402

이는 epoch=3일 때 validation set의 정확도가 가장 높은 값에 도달하고 이 때의 모델을 최상의 모델로 간주할 수 있으며 test set의 테스트에 사용되어 정확도 94.02에 도달함을 보여줍니다. %.

2. 참고문헌

[1] https://www.bilibili.com/video/BV1f34y1k7fi?p=106
[2] https://blog.csdn.net/Weary_PJ/article/details/122765199

추천

출처blog.csdn.net/weixin_43821559/article/details/123561478