大数据面试题——如何从大量的url中找出相同的url - 代码天地

大数据面试题——如何从大量的url中找出相同的url

其他 2019-02-18 08:01:03 阅读次数: 0

题目描述：

给定a、b两个文件，各存放50亿个url，每个url各占64B，内存限制是4GB，请找出a、b两个文件共同的url

分析：

由于每个url需要占64B，所以50亿个url占用空间大小为50亿×64=5GB×64=320GB.由于内存大小只有4GB，因此不可能一次性把所有的url加载到内存中处理。对于这种题目，一般采用分治法，即把一个文件中的url按照某一特征分成多个文件，使得每个文件的内容都小于4GB，这样就可以把这个文件一次性读入到内存中进行处理。

解答：

1、遍历文件a，对遍历带的url求hash(url)%500，根据计算结果把遍历到的url分别存放到a0,a1,a2,a3...,a499（计算结果为i的url存储到文件ai中），这样每个文件的大小大约为600MB。当某一个文件中的url的大小超过2GB时，可以按照类似的方法把这个文件继续分为更小的子文件（例如a1文件的大小超过2GB，则把文件继续分为a11，a12...)

2、使用同样的方法遍历文件b，把文件b的url分别存储到文件b0,b1,b2...b499中去。

3、通过之前的划分，与ai中的url相同的url一定在bi中。由于ai与bi中所有的url的大小不会超过4GB，因此可以把它们同时读入内存中进行处理。具体为：遍历文件ai，把遍历到的url存入hash_set中，接着遍历文件bi中的url，如果这个url在hash_set中存在，那么说明这个url是这两个文件共同的url，可以把这个url保存到另一个单独的文件中。当把文件a0~a499都遍历完成后，就找到了两个文件共同的url。

猜你喜欢

转载自blog.csdn.net/kingyuan666/article/details/84501930

大数据面试题——如何从大量的url中找出相同的url

如何从大量的 URL 中找出相同的 URL？

9.1_如何从大量的url中找出相同的url

【海量数据处理】如何从大量的 URL 中找出相同的 URL？

大数据面试题——如何在大量的数据中找出不重复的数

大数据面试题——如何从大量数据中找出高频词

字节面试官：如何从 100 亿 URL 中找出相同的 URL？

大数据面试题——如何在大量数据中判断一个数是否存在

大数据面试题——如何找出访问最多的IP

一道腾讯面试题：如何快速判断某 URL 是否在 20 亿的网址 URL 集合中？

大数据面试题-两个大文件中找出共同记录

js面试题：JS如何获得URL地址中的参数及值

面试冲刺:24---一个含有50M个URL的记录，另一个含有500个URL的记录，如何找出两个记录中相同的URL？

海量数据实战（0）从两个文件50亿数据中找出相同的URL

【JS面试题】提取URL中?以后的GET参数

LeetCode 面试题01.03 URL化

面试题 01.03. URL化

LeetCode—面试题：URL化（暴力）

解析复杂URL【面试题】

如何从大量数据中找出异常值

算法系列-大数据面试题-两个大文件中找出共同记录

一道有难度的经典大厂面试题：如何快速判断某 URL 是否在 20 亿的网址 URL 集合中？...

大数据面试题

大数据面试题！

【面试题】前端开发中如何高效渲染大数据量？

大数据面试题汇总(不断更新中)

[努力努力再努力] 大数据中的面试题

常见面试题 - URL 解析

【LeetCode】面试题 01.03. URL化（JAVA）

面试题 01.03. String to URL LCCI

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)