内存1G的电脑，分析5G的文本，处理方法 - 代码天地

内存1G的电脑，分析5G的文本，处理方法

其他 2019-01-17 01:28:18 阅读次数: 0

-- 问题：5G的文本TXT文件,按行存放URL,设计去重

-- 条件：1G内存的机器

-- 布隆过滤器，做过爬虫的程序员，会立马想到；

这里如果按常规方式，该如何入手呢

先说思想解决，不说实际代码实现；

1. 内存1G，所以大文件首先要分割；如分割为20个文件，那么每个可以做到接近250M左右

2. 拿前面的3个文件做案例：

A B C 3个文件，每个250M；首先做到加载没有问题

1.A 文件读取到SetA中，此时集合中A的URL不重复

2.B文件读取到SetB中；

3.SetA 和SetB比较，将集合A和B中相同项都剔除；

4.清空SetB；

5.加载C文件；SetA 和SetC比较,将集合A和C中相同项都剔除；

6.前三个文件A比较完成，生成和B,C文件完全不重复的A1文件

依次类推：

总拿前面的一个文件内容和后面文件对比，对比一轮完成的那个文件；

就绝对是完全不重复的内容了

---------------------
作者：袁义锐
来源：CSDN
原文：https://blog.csdn.net/u010235716/article/details/78142649
版权声明：本文为博主原创文章，转载请附上博文链接！

猜你喜欢

转载自blog.csdn.net/hzp666/article/details/85991380

内存1G的电脑，分析5G的文本，处理方法

4G + 1G = 5G？

[转帖]从1G到5G

什么是1G/2G/3G/4G/5G

1G、3G都失败了，5G也会失败吗？

【tools】从1G到 4G 5G究竟发生了哪些变化？？

移动通讯从1G到5G经历了什么？5G的应用场景

移动通信：1G到5G发展过程简析 -- 什么是5G?

1G,2G,3G,4G,5G有什么区别？5G的优势在哪？有什么应用？

一文看懂无线通信：从1G到5G

从1G到5G，回首移动基站40年

1G到5G的分野之战，通信洗牌即将开始

1G到5G的技术标准，你都了解有哪些呢？

日志瘦身骚操作：从 5G 优化到 1G，牛逼！!

小内存处理1G或10G大小的log文件

内存1G malloc1.6G是否成功？

1G到5G之争：一部30年惊心动魄的移动通信史

5G与4G有啥不一样？或1秒内下载1G电影

NIO进行分块读取大文本（1G以上）

[C++] 问题分析和解决 - 如何使用opencv处理大于1G的bmp图像

1g内存windows7旗舰版

主频3.0 1g内存是什么意思

1G - Maximum Subrectangle

三大运营商或今年9月试商用5G网络：流量费1元1G，你用吗？

内存1g，双核1.6G开发web项目

只有1G内存，如何对10G的文件中数据进行排序

5G承载网需求分析

(1)快速入门-5G

5G知识学习笔记---1

5G安全与隐私-1

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)