什么是布隆过滤器？

在redis4.0提供了布隆过滤器，简单的来说布隆过滤器就是一个不怎么精确的set结构，当你使用他的contains去判断某个对象是否存在。当布隆器说某个值存在的时候，这个值可能不存在，当他说某个值不存在的时候一定不存在。

布隆过滤器的简单使用

127.0.0.1:6379> bf.add calvinBloom 1
(integer) 1
127.0.0.1:6379> bf.add calvinBloom 2
(integer) 1
127.0.0.1:6379> bf.exists calvinBloom 1
(integer) 1
127.0.0.1:6379> bf.exists calvinBloom 2
(integer) 1
127.0.0.1:6379> bf.exists calvinBloom 3
(integer) 0

#本代码来自redis深度历险
import redis
import random
 
client = redis.StrictRedis()
 
chars = ''.join([chr(ord('a') + i) for i in range(26)])
 
def random_string(n):
    chars_list = []
    for i in range(n):
        ids = random.randint(0, len(chars) - 1)
        chars_list.append(chars[ids])
    return ''.join(chars_list)
 
users = list(set([random_string(64) for i in range(10000)]))
print("total users", len(users))
 
users_train = users[:int(len(users)/ 2)]
users_test = users[int(len(users) / 2):]
 
client.delete("codehole")
falses = 0
for user in users_train:
 
    client.execute_command("bf.add", "codehole", user)
print("all train")
for user in users_test:
    ret = client.execute_command("bf.add", "codehole", user)
    if ret == 1:
        falses += 1
 
print(falses, len(users_test))

从上面的运行的结果看，误判率快接近2%，所以这个误判率还是有点高的。redis中提供了自定参数的布隆过滤器，在bf.add命令前使用bf.reserve创建。bf.reserve有三个参数：key(键)，error_rate（错误率），inital_size(预计放入的元素数量)。

注意：

如果对应的键已经存在则会报错。
inital_size如果设置过大会浪费空间，过小则会影响准确率。使用前尽可能估计元素数量，加上一定量的冗余空间来避免实际元素可能高出估计值太多。

布隆过滤器原理

每个布隆过滤器对应到redis数据结构就是一个大型的位数组和几个不一样的hash函数（h1,h2,h3）。当添加的时候，使用多个hash函数对键进行hash，得到一个哈希值，然后对数组的长度进行求余（（length-1）& 哈希值）整数s得到一个位置，并将对应的位置设为1。当向布隆过滤器查询键时，和add一样，找到相应的位置，看看是否为1，只要有一个是0，就说明键不存在，反之存在。

空间占用估计

n:预计元素的数量 f:错误率 m:位数组长度 k：哈希函数的最佳数量

k = 0.7*(m/n)

f = 0.6185^(m/n)

从以上公式可以得出：位数组相对越长，错误率越低，hash函数需要的最佳数量也越多（影响判断效率）

这里我直接把redis深度历险书中结论拿出来，推导看下面推荐

redis学习笔记之布隆过滤器

什么是布隆过滤器？

布隆过滤器的简单使用

布隆过滤器原理

空间占用估计

推荐阅读

猜你喜欢