使用 SSCursor (流式游标) 解决 Python 使用 pymysql 查询大量数据导致内存使用过高的问题

Python 导数据的时候,需要在一个大表上读取很大的结果集。
如果用传统的 fetchall() 或 fetchone() 方法,都是先默认在内存里缓存下所有行然后再处理,大量的数据会导致内存资源消耗光,内存容易溢出。

解决的方法:

  1. 使用 SSCursor (流式游标),避免客户端占用大量内存。(这个 cursor 实际上没有缓存下来任何数据,它不会读取所有所有到内存中,它的做法是从储存块中读取记录,并且一条一条返回给你。)
  2. 使用迭代器而不用 fetchall ,即省内存又能很快拿到数据。
import pymysql

dbmy = pymysql.connect("ip","user","pass","date",cursorclass = pymysql.cursors.SSCursor)

cursor = dbmy.cursor()

sql = "select * from table"

relnum = cursor.execute(sql)

result = cursor.fetchone()

while result is not None:

    do something...

    result = cursor.fetchone()

cursor.close()
dbmy.close()

需要注意的是

  1. 因为 SSCursor 是没有缓存的游标,结果集只要没取完,这个 conn 是不能再处理别的 sql,包括另外生成一个 cursor 也不行的。如果需要干别的,请另外再生成一个连接对象。
  2. 每次读取后处理数据要快,不能超过 60 s,否则 mysql 将会断开这次连接,也可以修改 SET NET_WRITE_TIMEOUT = xx 来增加超时间隔。

参考文档:http://mysql-python.sourceforge.net/MySQLdb.html#

猜你喜欢

转载自blog.csdn.net/weixin_41287692/article/details/83545891