深度学习中使用生成器加速数据读取与训练

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接: https://blog.csdn.net/JMU_Ma/article/details/101541346

深度学习中使用生成器加速数据读取与训练

1、什么是生成器

​ 我们可以把生成器理解为一个高端的列表。生成器就是一个集算法和列表还有依次读取于一体的功能。因为如果列表存储的内容过多就会造成内存的浪费。但是如果“列表”内的元素可以通过某种规则展示出来、且我们只需要前几项的元素,我们就可以通过使用生成器来进行。

2、生成器怎么用

# 列表的用法
a = [x for x in range(10)]
=>[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
# 生成器的用法
a = (x for x in range(10))
=><generator object <genexpr> at 0x0000027656609408>

​ 我们输出的是一个generator。而列表打印的出来的就是元素。我们如何将generator的元素打印出来呢?使用next函数,将generator的元素打印出来。

next(b)
=>0
next(b)
=>1
next(b)
=>2
next(b)
=>3
next(b)
=>4
next(b)
=>5
........
#当元素超出时报错停止
next(b)
=>Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
StopIteration

对于这种情况,我们不必一直使用next对其进行调用,我们可以使用使用for循环对其进行调用,这样就可以省去很多事情,便于操作。

这是一种简单的用法,下面我们将函数信息与生成器结合使用。其大致使用方法跟一般的函数(循环)的使用。

#使用generator达到生成器的效果
def fid(max):
	n, a, b = 0, 0 ,1
	while n < max:
		yield b
		a , b = b , a + b
		n += 1
f = fid(6)
=><generator object fid at 0x00000201278195E8>
next(f)
=>1
next(f)
=>1
next(f)
=>2
next(f)
=>3

我们可以看出yield的效果和return的效果差不都,但是yield不会使函数值返回,而是使得函数的值暂时挂起。我们使用next使得函数的值输出,这极大的提高了我们的效率。

3、生成器在深度学习中的应用

def xs_gen_pro(data,batch_size):
    lists = data
    num_batch = math.ceil(len(lists) / batch_size)    # 确定每轮有多少个batch
    for i in range(num_batch):
        if(i==0):
            np.random.shuffle(lists)
        batch_list = lists[i * batch_size : i * batch_size + batch_size]
        np.random.shuffle(batch_list)
        batch_x = np.array([x for x in batch_list[:,0]])
        batch_y = np.array([y for y in batch_list[:,1]])
 
        yield batch_x, batch_y

if __name__ == "__main__":
 
    #data_gen = xs_gen(data,5)
    for x,y in xs_gen(data,5):
        print("item",x,y)
    for x,y in xs_gen(data,5):
        print("item",x,y)

为了方便演示,上面是直接对列表进行读入操作,一般在用的时候是读取path列表,在按照path提取数据。

item [50 30 20 90 80] [5 3 2 9 8]
item [ 60   0 100 110  40] [ 6  0 10 11  4]
item [120  10 140 130 150] [12  1 14 13 15]
item [70] [7]
item [120  90  70  80 130] [12  9  7  8 13]
item [ 10 150 100   0  50] [ 1 15 10  0  5]
item [140  30  60  20 110] [14  3  6  2 11]
item [40] [4]

这样就可以很好的读取到数据了。

4、再看生成器

前面已经对生成器有了感性的认识,我们以生成器函数为例,再来深入探讨一下Python的生成器:

1、语法上和函数类似:生成器函数和常规函数几乎是一样的。它们都是使用def语句进行定义,差别在于,生成器使用yield语句返回一个值,而常规函数使用return语句返回一个值。

2、自动实现迭代器协议:对于生成器,Python会自动实现迭代器协议,以便应用到迭代背景中(如for循环,sum函数)。由于生成器自动实现了迭代器协议,所以,我们可以调用它的next方法,并且,在没有值可以返回的时候,生成器自动产生StopIteration异常。

3、状态挂起:生成器使用yield语句返回一个值。yield语句挂起该生成器函数的状态,保留足够的信息,以便之后从它离开的地方继续执行。

5、使用生成器所需的注意事项

我们通过对上面的输出进行分析可以得出,我们可以知道,输出仅有一次。因此我们使用生成器时需要注意的是:生成器只能遍历一次。

6、参考

赖明星——《python生成器到底有什么优点?》

小宋是呢——《[开发技巧]·深度学习使用生成器加速数据读取与训练简明教程(TensorFlow,pytorch,keras)》

生成器只能遍历一次。

6、参考

赖明星——《python生成器到底有什么优点?》

小宋是呢——《[开发技巧]·深度学习使用生成器加速数据读取与训练简明教程(TensorFlow,pytorch,keras)》

猜你喜欢

转载自blog.csdn.net/JMU_Ma/article/details/101541346