大量数据处理问题

找到大数据中的前100个大的数据集

1. 根据快速排序划分的思想
(1)递归对所有数据分成[a,b)b(b,d]两个区间,(b,d]区间内的数都是大于[a,b)区间内的数
(2)对(b,d]重复(1)操作,直到最右边的区间个数小于100个。注意[a,b)区间不用划分
(3) 返回上一个区间,并返回此区间的数字数目。接着方法仍然是对上一区间的左边进行划分,分为[a2,b2)b2(b2,d2]两个区间,取(b2,d2]区间。如果个数不够,继续(3)操作,如果个数超过100的就重复1操作,直到最后右边只有100个数为止。
2. 维护一个前100大的小顶堆
(1)先取出前100个数,维护一个100个数的最小堆,遍历一遍剩余的元素,在此过程中维护堆就可以了。具体步骤如下:
(2)取前m个元素(例如m=100),建立一个小顶堆。保持一个小顶堆得性质的步骤,运行时间为O(lgm);建立一个小顶堆运行时间为m*O(lgm)=O(m lgm);
(3)顺序读取后续元素,直到结束。每次读取一个元素,如果该元素比堆顶元素小,直接丢弃 如果大于堆顶元素,则用该元素替换堆顶元素,然后保持最小堆性质。最坏情况是每次都需要替换掉堆顶的最小元素,因此需要维护堆的代价为(N-m)*O(lgm);
(4)最后这个堆中的元素就是前最大的10W个。时间复杂度为O(N lgm)。
3. 分块查找
先把100w个数分成100份,每份1w个数。先分别找出每1w个数里面的最大的数,然后比较。找出100个最大的数中的最大的数和最小的数,取最大数的这组的第二大的数,与最小的数比较.。。。

在40亿个非负整数中找到没出现的数

分析:非负整数0~4294967295,注意内存限制
1. 用hash存储
占用内存:最坏情况40亿*4B=160亿B,一般来说是不符合情况的
2. 利用桶的思想:
(1) bit arr[]=new bit[4294967296];
(2) 在循环便利中,将遍历到的数字的位置的值置为1.如遇到数字256463,则arr[256463]=1
(3)再次遍历值为0的数字的位置就是没找到的数。
占用内存:8个bit为1B,则长度为4294967295的bit类型的数组占用的内存约为500MB.
3. 分区(进阶,内存限制为10M,但只要求找到其中一个没出现过的数即可)
(1)将0~4294967295分为64个区间,每个区间是67108864;int a[]=new int[64];
(2)遍历40亿的数。如果当前数是3422552090,则a[3422552090/67108864]++
(3)遍历数组a,必然会有一个位置a[i]<67108864,表示这个区间至少有一个数没出现过。
(4)再申请一个长度为67108864长度的bit类型的数组,bit bitArr[]=new bit[67108864];
(5)遍历40亿数据,只需要考虑num/67108864==i的num,将bitArr[num%67108864]=1;
(6) 遍历bitArr数组,如果bitArr[j]==0,则67108864*i+j则为这样一个没出现过的数。
占用内存:64*4B+8M

40亿个非负整数中找到出现两次的数(内存限制1GB)和所有数的中位数(内存限制10MB)

第一问:
分析:非负整数0~4294967295,注意内存限制
1.跟上题类似利用桶的思想,但bitArr的长度为4294967295*2;bit bitArr[]=new bit[4294967295*2];
2.遍历40亿数据;比如8645231,第一次出现,则标记bitArr[8645231*2]=1,bitArr[8645231]=0,第二次出现bitArr[8645231*2]=0,bitArr[8645231]=1,第三次以及以上出现则标记bitArr[8645231*2]=1,bitArr[8645231]=1
3.以遍历bitArr数组,可以找到出现两次的数。
第二问:
书上思路没有看懂,下面纯属个人思路,欢迎批评:跟上一题分区的思想类似。
(1)将0~4294967295分为2048个区间,每个区间是2097152;int a[]=new int[2048];
(2)遍历40亿的数。如果当前数是3422552090,则a[3422552090/2097152]++
(3)因为要找40亿数的中位数,如果把所有数据排序后,中位数的位置在20亿,所以遍历数组a,并累加sum=sum+a[i],当sum超过20亿时,则中位数在i这个区间
(4)计算中位数在该区间内所有数字累计后 的位置s,然后s=20亿 -(sum-a[i]),s代表中位数在i区间内所有数排列后的从前往后第s个数。
(5)再申请一个长度为2097152长度的int类型的数组,int bitArr[]=new int[2097152];
(6)遍历40亿数据,比如遇到num,只考虑num/2097152==i的num,则bitArr[num%2097152]++;
(7)遍历bitArr,tmp=tmp+bitArr[j],当tmp>=s,则中位数为2097152*i+j.
分析:占用内存:2048*4B+2097152*4B~8MB<10MB
大家可能会疑问为什么一开始可以想到分为2048个区间,我们可以倒推。因为内存限制为10MB,我们使用的int类型数组一条数据就占用4B,则限制数据条数则为10MB/4B=2500000,如果让数据条数限制在2500000,则数据要分为4294967295/2500000个区间,一般来说都是取2的N次幂,所以取2048.

只用2GB内存在20亿个整数中找到出现次数最多的数

分析:用hash表来存的话,hash表的key是整数,value是该整数的次数。key是32位整数,需要4B内存,哪怕该数出现了20亿次也不会溢出的,则value也需要用4B,则一条数据为8B.
如果是2亿条数据,则占用内存1.6GB,极端情况下有20亿条数据,则占用16GB则内存不够用,解决方法是:
(1)把20亿条数据的大文件,用哈希函数分成16个小文件,根据哈希函数的性质,同一种数不可能被哈希到不同的小文件上,同时每个小文件上的数据不会超过2亿中,假设哈希函数足够好。
(2)对每一个小文件用哈希表来统计其中每种数出现的次数,这样我们就得到了16个文件各自出现次数最多的数,才有各自的次数统计,从其中选出次数最多的数即可。

找到100亿个URL中重复的URL以及搜索词汇的topK的问题

题目补充:每个URL占用64B
第一问:
分析:如果直接用hash存储,则最坏情况下需要内存64B*100亿=640GB,显然内存太大了。所以还需要将100亿条数据的大文件按照hash函数拆分成小文件,处理每一个小文件,hash表记录URL以及URL的数量。当然拆分成多少个小文件,还得看题目的内存要求。这里就不赘述计算了。可以参考前几题。
第二问:
分析:根据前一问将大数据文件拆分后,找到每一个小文件 URL数量的topK(方法:维持一个前k大的小顶堆),然后对所有文件的topK进行外排序或者继续利用小根堆,找到最终topK.

猜你喜欢

转载自blog.csdn.net/stubbornaccepted/article/details/80396469