有两个很大文件，两个文件中存储的都是url，求出两个文件中相同的url - 代码天地

有两个很大文件，两个文件中存储的都是url，求出两个文件中相同的url

其他 2020-07-26 11:41:42 阅读次数: 0

有两个很大文件，两个文件中存储的都是url，求出两个文件中相同的url
大文件的时候怎么办？
我们也采用分而治之的思想：将两个大文件都进行切分，每个大文件都切成多个小文件
一个大任务=4*4个小任务
这样虽然可以达到目的但是效率太低？怎么办？
排序，切分（规则同一）最终将任务减少到4个
但是大文件排序仍然是一个非常消耗性能的事情，如果不需要排序就可做到这个效果尽量不要排序
怎么办？
hash算法的目的----》给每一个对象生成一个“唯一”的hash值0-Integer_MAX
是否可以运用hash算法解决这个问题
url.hashCode()%分段的个数两个文件分段规则一定相同吗？
url.hashCode()肯定一样
分段个数一定相同吗？可以不一样如果不一样的话必须成倍数关系
最终的解决方案：
分而治之+分段规则
分段：分区

package day2;
import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;
import java.util.HashSet;
import java.util.Set;

public class BigURL {
public static void main(String[] args) throws IOException {
FileReader f= new FileReader(“d:/java/bigdate/day3/url1.txt”);
BufferedReader bf=new BufferedReader(f);
FileReader fr= new FileReader(“d:/java/bigdate/day3/url2.txt”);
BufferedReader bff=new BufferedReader(fr);
Set ul1=new HashSet<>();
Set ul2=new HashSet<>();
String line=null;
while((line=bf.readLine())!=null) {
ul1.add(line);
}
while((line=bff.readLine())!=null) {
ul2.add(line);
}
for(String str:ul1) {
if(ul2.contains(str)) {
System.out.println(str);
}
}
bf.close();
bff.close();
}

}

猜你喜欢

转载自blog.csdn.net/zwmonk/article/details/88601969

有两个很大文件，两个文件中存储的都是url，求出两个文件中相同的url

海量数据实战（0）从两个文件50亿数据中找出相同的URL

python面试题有两个文件，每个都有很多行ip地址，求出两个文件中相同的ip地址

从两个文件(各含50亿个url)中找出共同的url

查找两个数组的相同字符（两个超大文件的相同字符）

海量数量处理：两个大文件中的相同记录

两个大文件求交集

判断两个文件是否相同

python 比较两个文件相同记录并将相同记录写入文件中

两个bat文件

删除两个文件夹中同名文件

两个上亿行的大文件取交集

两个50亿url文件找出共同的url的个人思考解法

linux中取出两个文件中的相同的内容或不同的内容

大数据面试题-两个大文件中找出共同记录

BD面试题1-两个大文件中找出公共记录[转载]

py实现将两个文件中的共同项或部分共同项抽出/将两个文件中完全不相同项抽出

join 按两个文件的相同字段合并

查找两个文件之间的相同部分

判断两个文件内容是否相同

比较两个目录的文件是否相同

vscode 查看两个相同或不同的文件

比较两个文件内容是否相同

Java 判断两个文件是否相同

Linux 使用grep删除两个文件相同部分

C#比较两个文件内容是否相同

Python-查找两个文件中相同的ip地址

python 如何比较两个文件中的内容是否完全相同

在KEIL中合并两个HEX文件

MyBatis中的两个主要配置文件

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)