小内存读取大数据

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/apollo_miracle/article/details/84869046

问题:4G 内存怎么读取一个 5G 的数据?

方法一:

可以通过生成器,分多次读取,每次读取数量相对少的数据(比如 500MB)进行处理,处理结束后再读取后面的 500MB 的数据。

def get_lines_1():
    l = []
    with open("3.1_file.txt", "r") as f:
        for eachline in f:
            l.append(eachline)
    return l


def get_lines_2():
    with open("3.1_file.txt", "r") as f:
        data = f.readline()
        yield data
    return data


if __name__ == '__main__':
    for e in get_lines_1():
        print(e)  # 处理每一行数据
    print("*" * 50)
    print(get_lines_2())
    print("*" * 50)
    for e in get_lines_2():
        print(e)  # 处理每一行数据
    print("over")

方法二:

可以通过 linux 命令 split 切割成小文件,然后再对数据进行处理,此方法效率比较高。可以按照行 数切割,可以按照文件大小切割。

https://blog.csdn.net/apollo_miracle/article/details/84143921

猜你喜欢

转载自blog.csdn.net/apollo_miracle/article/details/84869046