Keras ：创建自己的generator(适用于model.fit_generator)，解决内存问题

本文链接： https://blog.csdn.net/weixin_42886817/article/details/100133612

为什么要使用model.fit_generator？

在现实的机器学习中，训练一个model往往需要数量巨大的数据，如果使用fit进行数据训练，很有可能导致内存不够，无法进行训练。
fit_generator的定义如下：

fit_generator(generator, steps_per_epoch=None, epochs=1, verbose=1, callbacks=None, validation_data=None, validation_steps=None, class_weight=None, max_queue_size=10, workers=1, use_multiprocessing=False, shuffle=True, initial_epoch=0)

其中各项的具体解释，请参考Keras中文文档

我们重点关注的是generator参数：

generator: 一个生成器，或者一个 Sequence (keras.utils.Sequence) 对象的实例，以在使用多进程时避免数据的重复。生成器的输出应该为以下之一：
一个 (inputs, targets) 元组
一个 (inputs, targets, sample_weights) 元组。

那么，问题来了，如何构建这个generator呢？有以下几种办法：

自己创建一个generator生成器
自己定义一个 Sequence (keras.utils.Sequence) 对象
使用Keras自带的ImageDataGenerator和.flow/.flow_from_dataframe/.flow_from_directory来生成一个generator

1.自己创建一个generator生成器

使用Keras自带的ImageDataGenerator和.flow/.flow_from_dataframe/.flow_from_directory 灵活度不高，只有当数据集满足一定格式（例如，按照分类文件夹存放）或者具备一定条件时，使用才使用才较为方便。

此时，自己创建一个generator就很重要了，关于python的generator是什么原理，怎么使用，就不加赘述，可以查看python的基本语法。

此处，我们用yield来返回数据组，标签组，从而使fit_generator可以调用我们的generator来成批处理数据。

具体实现如下：

    def myGenerator(batch_size):
        # loading data
        X_train,Y_train=load_data(...)
        
        # data processing
        # ................
        
        total_size=X_train.size
        #batch_size means how many data you want to train one step
        
        while 1:
            for i in range(total_size//batch_size):
                yield x_train[i*batch_size:(i+1)*batch_size], y[i*batch_size:(i+1)*batch_size]
    return myGenerator

接着你可以调用该生成器：

self._model.fit_generator(myGenerator(batch_size),steps_per_epoch=total_size//batch_size, epochs=epoch_num)

Keras ： 创建自己的generator(适用于model.fit_generator)，解决内存问题

为什么要使用model.fit_generator？

1.自己创建一个generator生成器

猜你喜欢

Keras ：创建自己的generator(适用于model.fit_generator)，解决内存问题