布隆过滤器（Bloom Filter）是什么、作用、原理 - 代码天地

布隆过滤器（Bloom Filter）是什么、作用、原理

企业开发 2022-07-12 15:49:15 阅读次数: 0

一、组成：

一个很长的二进制向量（集合）
多个映射函数

二、作用：

判断某个元素一定不在集合内或可能在集合内

三、背景：

集合中元素增加，所需存储空间和查询时间都会增加。比如邮件服务商存储垃圾邮件账号，一个亿的email地址需要1.6GB的内存空间，若是想要判断一个邮件账号是否为垃圾地址，则耗时更长

四、原理

布隆过滤器是

一个基于m位的比特向量（b1,b2…,bm），这些比特向量的初始值为0。
一系列的哈希函数（h1,h2…,hk），这些哈希函数运算后的哈希值范围在[1, m]内。

1. 插入

如下图，就是x、y、z三个元素插入到布隆过滤器中，并判断w值是否在集合中的示意图。

插入x值（对应红线），则将经过h1、h2和h3三个哈希函数映射到的比特向量上的值改为1。

y（对应绿线）和z（对应蓝线）值也一样操作。

2. 查找

通过布隆过滤器判断一个元素是否可能在集合中时，需对应的比特向量位置全为1。
一个位置为1，不代表是某个元素导致的，也可能是其他元素映射后导致的。
如果要查找w值，经过哈希映射后，可以发现有一个比特向量上的值不为1，那就可以判断，w值一定不在集合中。

五、优点：

布隆过滤器只需要哈希表的1/8或1/4的大小
布隆过滤器的插入、查询时间都是常数O(k)

六、缺点：

无法从布隆过滤器中删除元素

七、python实现


# -*- coding: utf-8 -*-
from pybloom import BloomFilter
# capacity是数据集容量大小（n）, error_rate是能容忍的误报率（P）
f = BloomFilter(capacity=1000, error_rate=0.001)

print f.add('dog') # 当不存在该元素,返回False
print f.add('cat') # 当不存在该元素,返回False
print f.add('fish') # 当不存在该元素,返回False
print f.add('pig') # 当不存在该元素,返回False

print f.add('cat') # 若存在,返回 True

print len(f) # 当前存在的元素个数

原文：https://mp.weixin.qq.com/s/SJSxQu0j_pyplzOBi_544g

猜你喜欢

转载自blog.csdn.net/u013288190/article/details/125750092

布隆过滤器(Bloom Filter)

布隆过滤器:Bloom Filter

Bloom Filter布隆过滤器

布隆过滤器（Bloom Filter）

Bloom Filter(布隆过滤器)

布隆过滤器Bloom Filter

布隆过滤器（Bloom Filter）是什么、作用、原理

Bloom filter(布隆过滤器)概念与原理

布隆过滤器（Bloom Filter）原理以及应用

布隆过滤器(Bloom Filter)的原理和实现

Bloom filter(布隆过滤器)概念与原理 Bloom filter(布隆过滤器)概念与原理

[转]布隆过滤器 (Bloom Filter) 详解

哈希扩展---布隆过滤器(bloom filter)

【原】布隆过滤器 (Bloom Filter) 详解

布隆过滤器(Bloom Filter)详解

布隆过滤器 (Bloom Filter) 详解

布隆过滤器（Bloom Filter）的简单实现

浅谈布隆过滤器Bloom Filter

[转载]布隆过滤器(Bloom Filter)

布隆过滤器(Bloom Filter)与Hash算法

数据结构 - 布隆过滤器（Bloom Filter）

布隆过滤器(Bloom Filter)算法

认识布隆过滤器（Bloom Filter）

布隆过滤器Bloom Filter简介

布隆过滤器 (Bloom Filter) 算法

Redis安装布隆(Bloom Filter)过滤器

算法设计与分析——布隆过滤器（Bloom Filter）

Redis之布隆过滤器（Bloom Filter）解读

布隆过滤器大量数据去重：Bitmap和布隆过滤器(Bloom Filter)

Bloom Filter(布隆过滤器)的概念和原理（转）

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)