学习记录1-python图片分割&transforms方法

python 图片分割

import os
from PIL import Image
Image.MAX_IMAGE_PIXELS = None

def splitimage(src, rownum, colnum, dstpath):
    img = Image.open(src)
    w, h = img.size
    if rownum <= h and colnum <= w:
        print('Original image info: %sx%s, %s, %s' % (w, h, img.format, img.mode))
        print('开始处理图片切割, 请稍候...')

        s = os.path.split(src)
        if dstpath == '':
            dstpath = s[0]
        fn = s[1].split('.')
        basename = fn[0]
        ext = fn[-1]

        num = 0
        rowheight = h // rownum
        colwidth = w // colnum
        for r in range(rownum):
            for c in range(colnum):
                box = (c * colwidth, r * rowheight, (c + 1) * colwidth, (r + 1) * rowheight)
                img.crop(box).save(os.path.join(dstpath, basename + '_' + str(num) + '.' + ext), ext)
                num = num + 1

        print('图片切割完毕，共生成 %s 张小图片。' % num)
    else:
        print('不合法的行列切割参数！')

src = input('请输入图片文件路径：')
if os.path.isfile(src):
    dstpath = input('请输入图片输出目录（不输入路径则表示使用源图片所在目录）：')
    if (dstpath == '') or os.path.exists(dstpath):
        row = int(input('请输入切割行数：'))
        col = int(input('请输入切割列数：'))
        if row > 0 and col > 0:
            splitimage(src, row, col, dstpath)
        else:
            print('无效的行列切割参数！')
    else:
        print('图片输出目录 %s 不存在！' % dstpath)
else:
    print('图片文件 %s 不存在！' % src)

transforms方法,常用的数据预处理方法，提高泛化能力

1.resize:transforms.Resize
功能：重置图像分辨率
参数：
size:- If size is an int, if height > width, then image will be rescaled to (size * height / width, size)，所以建议size设定为h*w
interpolation-插值方法选择
2.中心裁剪：transforms.CenterCrop
功能：依据给定的size从中心裁剪
参数：
size-(sequence or int ),若为sequence，则为（和，w）,若为int，则（size,size）
3.transforms.ToTensor
功能：ToTensor()将shape为(H, W, C)的nump.ndarray或img转为shape为(C, H, W)的tensor，其将每一个数值归一化到[0,1]，其归一化方法比较简单，直接除以255即可。
补充理解：
什么是张量：
通俗一点讲：张量是对标量，矢量，矩阵的推广。张量的表达看起来像是数组，其实每个值是在对应空间上的分量的大小。基向量和分量一起形成了张量的表达，他在物理学上的优点是，当基向量发生变化的时候（坐标系发生变化或者说是观察方向发生了变化），对应的分量也会发生变化，但整个张量却能保持不变
下图是对张量从直观上给出的示意。一阶张量可以理解成一个向量，二阶张量可以理解成矩阵，三阶张量可以理解成立方体，四阶张量可以理解成立方体组成的一个向量，五阶张量可以理解成立方体组成的矩阵，依次类推。
在这里插入图片描述

什么是RANK
rank就是上文所说的阶。他是指这个张量拥有的基底向量的数量，也就是他的方向的数量。从上图中其实能明白为什么是一阶，二阶，三阶。
在实际操作中，可以理解成 [ 的深度。例如：

rank=1: [0,1,2]

rank=2: [[0,1],[2,3]]

rank=3: [[[0,1],[2,3]],[[4,5],[6,7]]]
什么是shape
shape是形状，他指明每一层有多少个元素。比如[2,3,4]是指第一层2个元素，第二层3个元素，第三层4个元素，通过这个我们就可以知道这个张量一共有2 × 3 × 4=24 个元素。

4.数据归一化处理transforms.Normalize
功能：逐channel的图像进行标注化（均值变为0，标准差变为1），可以加快模型的收敛