版权声明:转载请附此链接 https://blog.csdn.net/qq_42393859/article/details/88014578
4G内存怎么读取一个5G的数据:
方法一:
可以通过生成器,分多次读取,每次读取数量相对少的数据(比如500MB)进行处理,处理结束后
在读取后面的 500MB的数据。
def get_lines(): # 生成器
with open('123.py', 'r') as f:
while True:
data = f.readlines(100)
if data:
yield data
else:
break
f = get_lines() # 迭代器对象
print(next(f))
print(next(f))
print(next(f))
方法二:
可以通过linux命令split切割成小文件,然后再对数据进行处理,此方法效率比较高。可以按照行
数切割,可以按照文件大小切割
使用语法: split [–help][–version][-<行数>][-b <字节>][-C <字节>][-l <行数>][要切割的文件][输出文件名]
python@ubuntu:~/Desktop$ split -l 2 requirements.txt re.txt
意思:按照两行切割requirements.txt文件,切割后的文件名叫re.txt。
回车后会生成好多re文件,里面都是两行代码