4G 内存处理 10G 大小的文件 - 代码天地

4G 内存处理 10G 大小的文件

其他 2020-04-01 14:34:08 阅读次数: 0

4G 内存处理 10G 大小的文件，单机怎么做？

下面的讨论基于的假定：可以单独处理一行数据，行间数据相关性为零。

方法一：

仅使用 Python 内置模板，逐行读取到内存。

使用 yield，好处是解耦读取操作和处理操作：

def python_read(filename):
    with open(filename,'r',encoding='utf-8') as f:
        while True:
            line = f.readline()
            if not line:
                return
            yield line
以上每次读取一行，逐行迭代，逐行处理数据

if __name__ == '__main__':
    g = python_read('./data/movies.dat')
    for c in g:
        print(c)
        # process c
方法二：

方法一有缺点，逐行读入，频繁的 IO 操作拖累处理效率。是否有一次 IO ，读取多行的方法？

pandas 包 read_csv 函数，参数有 38 个之多，功能非常强大。

关于单机处理大文件，read_csv 的 chunksize 参数能做到，设置为 5， 意味着一次读取 5 行。

def pandas_read(filename,sep=',',chunksize=5):
    reader = pd.read_csv(filename,sep,chunksize=chunksize)
    while True:
        try:
            yield reader.get_chunk()
        except StopIteration:
            print('---Done---')
            break
使用如同方法一：

if __name__ == '__main__':
    g = pandas_read('./data/movies.dat',sep="::")
    for c in g:
        print(c)
        # process c

猜你喜欢

转载自www.cnblogs.com/miaoweiye/p/12612311.html

4G 内存处理 10G 大小的文件

小内存处理1G或10G大小的log文件

假设内存有4G现在要读取一个10G的文件，该如何处理？

4G内存

10G的文件，2G内存，统计出现频率最高的数字

只有1G内存，如何对10G的文件中数据进行排序

MySQL 执行10G sql文件

Oracle 10g文件及目录介绍

Oracle日志文件达到4G

给Windows创建4G的空文件

SecurityCRT传输超过4G的文件

怎么处理U盘无法拷贝超过4G大文件的情况？

U盘不能复制4G以上的单个文件如何处理？

从10G个数中找到中数在一个文件中有10G个整数,乱序排列,要求找出中位数。内存限制为2G

查重和topK问题的结合|10G文件按，内存不够|多文件操作|c++STL

手机文件夹为什么是英文？哪些可以删除？看完清理能多出10G内存

Oracle 10g 中处理Clob大字段

Oracle 10g 常见问题处理

oracle 10g的long类型处理bug

有10 亿个 url，每个 url 大小小于 56B，要求去重，内存只给你4G

Oracle 10g DG 数据文件迁移

10G整数文件中寻找中位数

dbf文件冷备份oracle 10g

Oracle 10g大文件表空间(转)

Oracle 10g使用amdu抽取数据文件

上传大文件(10G)的解决方案

Oracle 10g XE对于空间有限制，不能超过4G

在一个文件中有 10G 个整数,乱序排列,要求找出中位数(内存限制为2G)

Windows 2003支持4G内存

ubuntu 10.10（32位）支持4g内存

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)