第六章大数据和空间限制

1，布隆过滤器及其应用
此题在另一篇博客已经有介绍。
2，只用2GB内存在20亿个整数中找到出现次数最多的数
题目：有一个包含20亿个全是32位整型的大文件，在其中找到出现次数最多的数。
要求：内存限制为2GB。
    思路：要找出出现次数最多的数，通常的做法是使用哈希表对出现的每一个数做词频统计，哈希表的key是某一个整数，value是这个数出现的次数。就本题来说，一共有20亿个数，哪怕只是一个数出现了20亿次，用32位的整数也可以表示其出现的次数而不会产生溢出，所以哈希表的key需要占用4B，value也是4B。那么哈希表的一条记录(key,value)需要占用8B，当哈希表记录数为2亿个时，需要至少1.6GB内存。
但如果20亿个数中不同的数超过2亿种，最极端的情况是20亿个数都不同，那么在哈希表中可能需要产生20亿条记录，这样内存会不够用，所以一次性用哈希表统计20亿个数的方法是有很大风险的。
解决方法是把20亿个数用哈希函数分成16个小文件，根据哈希函数的性质，同一种数不可能被哈希到不同的小文件上，同时每个小文件中不同的数一定不会大于2亿种，假设哈希函数足够好。然后对每一个小文件用哈希表来统计其中每种数出现的次数，这样我们就得到了16个小文件中各自出现次数最多的数，还有各自的统计次数。接下来只要选出16个小文件各自的第一名中谁出现的次数最多即可。
把一个大的集合通过哈希函数分配到多台机器中，或者分配到多个文件里，这种技巧是处理大数据面试题时常有的技巧之一。但是到底分配多少台机器、分配多少文件，在解题时一定要确定下来。可能是在与面试官沟通的过程中由面试官指定，也可能是根据具体的限制来确定，比如本题确定分成16个文件，就是根据内存限制2GB的条件来确定的。
3，40亿个非负整数中找到没出现的数
题目：32位无符号数的范围是0~4294967295，现在有一个正好包含40亿个无符号整数的文件，所以在整个范围中必然有没出现过的数。可以使用最多1GB的内存，怎么找到所有没出现过的数？
进阶问题：内幕才能限制为10MB,但是只用找到一个没出现过的数即可。
思路：原问题，若用哈希表来保存出现过的数，那么如果40亿个数都不同，则哈希表的记录数为40亿条，存一个32位整型需要4B，所以最差情况下需要40亿 * 4B=160亿字节，大约需要16GB的空间，这是不符合要求的。
4，找到100亿个URL中重复的URL以及搜索词汇的topK问题
题目：有一个包含100亿个URL的大文件，假设每个URL占用64B，请找出所有重复的URL。
补充题目：某搜索公司一天的用户搜索词汇是海量(百亿数据量)的，请设计一种求出每天最热top100词汇的可行方法。
思路：

5，一致性哈希算法的基本原理
题目：工程师经常使用服务器集群来设计和实现数据缓存，以下是常见的策略：
    1)，无论是添加、查询还是删除数据，都是先将数据的id通过哈希函数转换成一个哈希值，记为key。
    2),如果目前机器有n台，则计算key%n的值，这个值就是该数据所属的机器编号，无论是添加、删除还是查询操作，都只在这台机器上进行。
请分析这种策略可能带来的问题，并提出改进的方案。
解答：题目描述的缓存策略的潜在问题是如果增加或删除机器时(n变化)代价会很高，所有的数据都不得不根据id重新计算一遍哈希值，并将哈希值对新的机器数进行取模操作，然后进行大规模的数据迁移。
为了解决这些问题，下面介绍一下一致性哈希算法，这是一种很好的数据缓存设计方案。我们假设数据的id通过哈希函数转换成的哈希值范围是2的32次方，这样我们可以将这些数头尾相连，想象成一个闭合的环，那么一个数据id在计算出哈希值之后认为对应到环中的一个位置上。
接下来想象有三台机器也处在这样一个环中，这三台机器在环中的位置根据机器id计算出的哈希值来决定。那么一条数据如何确定属于哪台机器呢？首先把该数据的id用哈希函数算出哈希值，并映射到环中的相应位置，然后顺时针寻找离这个位置最近的机器，那台机器就是该数据的归属。
机器负载不均时的处理。如果机器较少，很有可能造成机器在整个环上的分布不均匀，从而导致机器之间的负载不均衡。
 为了解决问题，一致性哈希算法引入了虚拟节点机制，即对每一台机器通过不同的哈希函数计算出多个哈希值，对多个位置都放置一个服务节点，称为虚拟节点。具体做法可以在机器ip或主机名的后面增加编号或端口来实现。
 基于一致性哈希的原理有多重具体的实现，包括Chord算法、KAF算法。
第六章大数据和空间限制

猜你喜欢