Python学习：numpy库数据量太大出现Memory Error问题的解决方法汇总

python处理大训练集过程中经常会遇到的Memory Error问题

这里看了几位博主的解决方案进行了整理，感谢分享！
http://chenqx.github.io/2014/10/29/Python-fastest-way-to-read-a-large-file/
https://blog.csdn.net/weixin_39750084/article/details/81501395
https://blog.csdn.net/yimingsilence/article/details/79717768

python处理大数据集时容易出现内存错误也就是内存不够用。

1、退而求其之，放弃过高精度

python原始的数据类型占用空间比较大，且没有太多的选择，默认一般好像是24字节，但是实际有时候不需要这么大或这么高精度，这时候可以使用numpy中的float32， float16等，总之根据自己的需要选够用就行，这就是好几倍的内存节省。

2、更新python库为64位，更新Pandas和Numpy库为64位

python 32bit 最大只能使用 2G 内存，坑爹之处，超过 2G 报错MemoryError。

如果你的Python用的是32位的，那么你的pandas和Numpy也只能是32位的，那么当你的内存使用超过2G时，就会自动终止内存。而 64bit python则无此限制，所以建议使用 64bit python。

解决方法就是：先检查一下你的python是多少位的，在shell中输入python，查看位数，如果是32位，那么就重装Python，装一个64位的，但同时你的库也需要重新装了。

如果你的python本来安装的就是64位的，莫急，接着往下读。

3、扩充虚拟内存

我在运行代码的过程中发现，出现memory error错误的时候，其实我的内存只用到了40+%，所以其实不太可能会出现这个错误啊，所以我查了下，发现有说是内存被限制了，考虑关掉一些可能限制内存的软件啦，扩大虚拟内存啦，这些的。

扩大虚拟内存的方法（我的系统是win8，不过应该都大同小异）：
1、打开 控制面板；
2、找到系统这一项；
3、找到 高级系统设置 这一项；
4、点击性能模块的设置按钮；
5、选择 高级面板，在 虚拟内存 模块点击更改；
6、记得 不要选中“自动管理所有驱动器的分页文件大小”，然后选择一个驱动器，也就是一个盘，选中自定义大小，手动输入初始大小和最大值，当然，最好不要太大，更改之后能在查看盘的使用情况，不要丢掉太多空间。
7、都设置好之后，记得点击 “设置”，然后再确定，否则无效，最后 重启电脑 就可以了。

我在出现Memory Error情况是就用这一步解决问题的！

4、运用两种比较快Large File Reading 的方法

最近处理文本文档时（文件约2GB大小），出现memoryError错误和文件读取太慢的问题，后来找到了两种比较快Large File Reading 的方法，本文将介绍这两种读取方法。

4.1 Preliminary(准备)

我们谈到“文本处理”时，我们通常是指处理的内容。Python 将文本文件的内容读入可以操作的字符串变量非常容易。文件对象提供了三个“读”方法：.read()、.readline() 和 .readlines()。每种方法可以接受一个变量以限制每次读取的数据量，但它们通常不使用变量。 .read() 每次读取整个文件，它通常用于将文件内容放到一个字符串变量中。然而 .read() 生成文件内容最直接的字符串表示，但对于连续的面向行的处理，它却是不必要的，并且如果文件大于可用内存，则不可能实现这种处理。下面是read()方法示例：

try:
    f = open('/path/to/file', 'r')
    print f.read()
finally:
    if f:
        f.close()

调用read()会一次性读取文件的全部内容，如果文件有10G，内存就爆了，所以，要保险起见，可以反复调用read(size)方法，每次最多读取size个字节的内容。另外，调用readline()可以每次读取一行内容，调用readlines()一次读取所有内容并按行返回list。因此，要根据需要决定怎么调用。
　　如果文件很小，read()一次性读取最方便；如果不能确定文件大小，反复调用read(size)比较保险；如果是配置文件，调用readlines()最方便：

for line in f.readlines():
    process(line) # <do something with line>

4.2 Read In Chunks(读入块)

处理大文件是很容易想到的就是将大文件分割成若干小文件处理，处理完每个小文件后释放该部分内存。这里用了 iter & yield：

def read_in_chunks(filePath, chunk_size=1024*1024):
    """
    Lazy function (generator) to read a file piece by piece.
    Default chunk size: 1M
    You can set your own chunk size 
    """
    file_object = open(filePath)
    while True:
        chunk_data = file_object.read(chunk_size)
        if not chunk_data:
            break
        yield chunk_data
if __name__ == "__main__":
    filePath = './path/filename'
    for chunk in read_in_chunks(filePath):
        process(chunk) # <do something with chunk>

4.3 Using `with open()`

with语句打开和关闭文件，包括抛出一个内部块异常。for line in f文件对象f视为一个迭代器，会自动的采用缓冲IO和内存管理，所以你不必担心大文件。

#If the file is line based
with open(...) as f:
    for line in f:
        process(line) # <do something with line>

4.4 Conclusion

在使用python进行大文件读取时，应该让系统来处理，使用最简单的方式，交给解释器，就管好自己的工作就行了。

5、使用python的`gc`模块

python的垃圾回收机制比较懒惰，有时候在一个for循环中的变量用完不会回收，下次重新初始化的时候又重新开辟了空间，这时候可以手动del这个变量，del x，然后import gc, 然后手动gc.collect()

这个方案具体我没有实施过，想尝试的小伙伴可以好好了解一下gc模块

6、逐行读取

如果你用pd.read_csv来读文件，会一次性把数据都读到内存里来，导致内存爆掉，那么一个想法就是一行一行地读它，代码如下：

data = []
with open(path, 'r',encoding='gbk',errors='ignore') as f:
    for line in f:
        data.append(line.split(','))
        
data = pd.DataFrame(data[0:100])

这就是先用with open把csv的每一行读成一个字符串，然后因为csv都是靠逗号分隔符来分割每列的数据的，那么通过逗号分割就可以把这些列都分离开了，然后把每一行的list都放到一个list中，形成二维数组，再转换成DataFrame。

这个方法有一些问题，首先读进来之后索引和列名都需要重新调整，其次很多数字的类型都发生了变化，变成了字符串，最后是最后一列会把换行符包含进去，需要用replace替换掉。

7、巧用pandas中`read_csv`的块读取功能

pandas设计时应该是早就考虑到了这些可能存在的问题，所以在read功能中设计了块读取的功能，也就是不会一次性把所有的数据都放到内存中来，而是分块读到内存中，最后再将块合并到一起，形成一个完整的DataFrame。

f = open(path)

data = pd.read_csv(path, sep=',',engine = 'python',iterator=True)
loop = True
chunkSize = 1000
chunks = []
index=0
while loop:
    try:
        print(index)
        chunk = data.get_chunk(chunkSize)
        chunks.append(chunk)
        index+=1

    except StopIteration:
        loop = False
        print("Iteration is stopped.")
print('开始合并')
data = pd.concat(chunks, ignore_index= True)

以上代码规定用迭代器分块读取，并规定了每一块的大小，即chunkSize，这是指定每个块包含的行数。
这个方法能够保持数据的类型，也不需要自己费心思去调整列名和index，比较方便。

8、最后祝大家的代码永不报错！

博客记录日常学习~再次感谢各位博主的分享！