大数据面试、笔试题收集 - 代码天地

大数据面试、笔试题收集

其他 2018-07-15 20:49:35 阅读次数: 0

给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？

题目描述：给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？

分析：我们先来看如果要把这些URL全部加载到内存中，需要多大的空间。

1MB = 2^20 = 10^6 = 100W

1GB = 2^30 = 10^9 = 10亿

50亿 = 5G * 64 Byte = 320G

明显是不可能全部加载到内存中的。我们可采用以下方法解决：

方法1：

采用Bloom filter，假设布隆过滤器的错误率为0.01，则位数组大小m约为输入元素个数n的13倍，此时需要的哈希函数k约为8个。

元素个数：n = 5G
位数组大小：m = 5G * 13 = 65G = 650亿即需要650亿个bit位才能达到错误率0.01
而我们拥有的内存可容纳bit位个数：4G * 8bit = 32G bit = 320亿，按此实现错误率大于0.01。

方法2：

分别扫描A，B两个文件，根据hash(url)%k(k为正整数，比如k = 1000，那么每个小文件只占用300M，内存完全可以放得下)将url划分到不同的k个文件中，比如a0，a1,....a999;b0，b1，...b999；

这样处理后相同的url肯定在对应的小文件中（a0 vs b0,a1 vs b1,...a999 vs b999）因为相同的url%1000的值肯定相同，不对应的小文件不可能有相同的url；

然后我们只要求出1000对小文件中相同的url即可。比如对于a0 vs b0，我们可以遍历a0，将其中的url存放到hash_map中，然后遍历b0，如果b0中的某个url在hash_map中，则说明此url在a和b中同时存在，保存下来即可。

猜你喜欢

转载自blog.csdn.net/forgetthatnight/article/details/79682895

大数据面试、笔试题收集

大数据：面试题收集（一）

大数据：面试题收集（四）

大数据：Spark 面试题收集

大数据：HBase面试题收集

大数据:zookeeper面试题收集（三）

大数据：MapReduce面试题收集（十一）

大数据：HDFS面试题收集（五）

【大数据面试】-- 2019年面试和笔试题目汇总

js - 笔试题收集

美图大数据岗笔试题二

大数据阿里面试笔试题总结，我的结果当然是凉凉

2019最新大数据面试题助力大家度过笔试关

备战2020大数据开发面试笔试题总结之Java(持续更新)

大数据笔试真题集锦---第一章:通用面试题

大数据笔试真题集锦---第十章:Flume面试题

大数据笔试真题集锦---第二章:Spark面试题

大数据笔试真题集锦---第八章:Redis面试题

大数据笔试真题集锦---第九章:MySQL面试题

大数据笔试真题集锦---第十一章:Sqoop面试题

大数据笔试真题集锦---第五章:Hive面试题

大数据笔试真题集锦---第六章:HBASE面试题

大数据笔试真题集锦---第七章:数仓面试题

大数据笔试真题集锦---第四章:Hadoop面试题

大数据笔试真题集锦---第三章:KafKa面试题

大数据开发面试资料收集

大数据面试题

大数据面试题！

IT笔试题收集，免费下载

大数据数据集成和开发社招笔试题

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)