文本或图片数据预处理

数据预处理


注:
该文章为作者学习深度学习笔记,共参考以下两大开源深度学习资料:


读写数据集

通常对于批量数据处理,使用pandas数据集,可以很容易和兼容张量,本节介绍pandas与预处理原始数据,和格式转换步骤

写数据集

  • 数据集建立,首先创建数据集,并将数据集储存在CSV文件中…/data/data_set.csv中。
import os
# 判断是否存在目标文件夹,如果不存在,则创建
os.makedirs(os.path.join('..', 'data'), exist_ok=True)
# 创建文件
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')  # 列名
    f.write('NA,Pave,127500\n')  # 每行表示一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

运行结果:

NumRooms Alley Price
NA Pave 127500
2 NA 106000
4 NA 178100
NA NA 140000

读数据集

  • 要从创建的CSV文件中加载原始数据集,需要导入pandas包并调用read_csv函数 **(或者直接导入CSV包,p
  • ython生态系统中有该工具包,同样很方便)**。该数据集有四行三列。其中每行描述了房间数量(“NumRooms”)、巷子类型(“Alley”)和房屋价格(“Price”)。
import pandas as pd
data = pd.read_csv(data_file)
print(data)

output:

NumRooms Alley Price
0 NaN Pave 127500
1 2.0 NaN 106000
2 4.0 NaN 178100
3 NaN NaN 140000

读写图片

该部分内容为平时实践总结,由于经常做计算机视觉相关数据集处理,故在这里对图像(.png .jpg .gif等)常见数据格式批量处理方法进行讲解:

  • 依赖的库:
    通常对图像处理使用OpenCV,和扫描路径文件os
import cv2
import os

若不存在cv2则在命令框敲以下命令进行安装:

pip install opencv-python

指定文件夹下图片扫描

os.listdir可以扫描指定文件夹下的所有文件,通常我们可以将图像文件夹的位置(绝对位置/或相对位置)传入该函数,再建立for循环,给OpenCV批量处理:

import cv2
import img_path
file_path = r'./path'
filename_list = os.listdir(file_path)
for image_path in filename_list:
	img = cv2.imread(file_path + image_path) # 三通道图片
   # or
   img = cv2.imread(file_path + image_path, cv2.IMREAD_GRAYSCALE) # 单通道图片
   # process part
 

猜你喜欢

转载自blog.csdn.net/weixin_51717597/article/details/129701301
今日推荐