前言
本文实现的功能是将数据集的格式转换为.npy文件,代码以ISIC2018皮肤病变分割数据集为例,将原始数据尺寸resize成342x256,并将其图像.jpg格式文件和标签.png格式文件转换为.npy格式进行储存。
进行数据格式转换前只需要修改原始数据的路径和转换后的.npy文件的保存路径。
本文的原始ISIC2018训练集的路径为./ISIC2018_train下面image文件夹是训练图像,label文件夹是标签图像。
代码
import os
import numpy as np
from PIL import Image
# 定义 ISIC2018 数据集的根目录路径和目标存储目录路径
data_dir = 'C:/Users/sxxyc/Desktop/cf_net/cf_data/ISIC2018/ISIC2018_train'
save_dir = 'C:/Users/sxxyc/Desktop/cf_net/CA-Net-master/CA-Net-master/data/ISIC2018_Task1_npy_all'
# 定义目标尺寸
target_size = (342, 256)
# 创建目标存储目录
os.makedirs(os.path.join(save_dir, 'image'), exist_ok=True)
os.makedirs(os.path.join(save_dir, 'label'), exist_ok=True)
# 获取图像和标签文件的路径列表
image_file_list = sorted([os.path.join(data_dir, 'image', x) for x in os.listdir(os.path.join(data_dir, 'image'))])
label_file_list = sorted([os.path.join(data_dir, 'label', x) for x in os.listdir(os.path.join(data_dir, 'label'))])
# 遍历所有的图像和标签文件,进行 resize 并且转换为 NPY 格式并保存到指定目录中
for i, (image_file, label_file) in enumerate(zip(image_file_list, label_file_list)):
# 读取图像和标签文件
image = np.array(Image.open(image_file))
label = np.array(Image.open(label_file))
# 进行 resize 操作
image = Image.fromarray(image).resize(target_size, resample=Image.BICUBIC)
label = Image.fromarray(label).resize(target_size, resample=Image.NEAREST)
# 将图像和标签数据转换为 numpy 数组
image = np.array(image)
label = np.array(label)
# 构建保存文件的路径
fname = os.path.basename(image_file).split('.')[0]
image_filename = os.path.join(save_dir, 'image', f'{fname}.npy')
label_filename = os.path.join(save_dir, 'label', f'{fname}.npy')
# 保存图像和标签数据到指定目录中
np.save(image_filename, image)
np.save(label_filename, label)
print(f'Processed {
i+1}/{
len(image_file_list)}: {
fname}')