布隆过滤器 python3 pybloom_live使用例子存储开销 - 代码天地

布隆过滤器 python3 pybloom_live使用例子存储开销

企业开发 2023-09-18 17:38:32 阅读次数: 0

1. 安装pybloom_live

from pybloom_live import BloomFilter

# 创建一个Bloom过滤器对象
# 错误率（False Positive Rate）在布隆过滤器中指的是，不存在的元素被错误地认为存在于集合中的概率
bf = BloomFilter(capacity=10000, error_rate=0.001)

# 添加元素到Bloom过滤器中
bf.add("apple")
bf.add("banana")
bf.add("orange")

# 判断元素是否在集合中
print(bf.__contains__("apple"))  # True
print(bf.__contains__("grape"))  # False

print(bf.__getstate__())  # 查看布隆过滤器状态

# 打开文件，如果文件不存在则创建
with open('output.txt', 'wb+') as f:
    # 将Bloom过滤器写入文件
    bf.tofile(f)

# print(len(bf.bitarray))

# 打开文件，如果文件不存在则创建
with open('output.txt', 'rb+') as f2:
    # 从文件中恢复Bloom过滤器
    bf2 = BloomFilter.fromfile(f2)
    print(bf2.__getstate__())  # True
    print(bf2.__contains__("apple"))  # True
    print(bf2.__contains__("grape"))  # False

它有很多函数

假设错误率设置为0.001，bf.add了3个元素

如果是容量设置为10000个，存储开销是18kb

设置是容量设置为10万个，存储开销是176kb

设置是容量设置为10万个，假设bf.add了10000个元素

176kb

开销不变

如果是把这10000个元素直接存到txt中

38k

布隆过滤器是一种空间效率极高的概率型数据结构，它利用位数组和哈希函数来判断一个元素是否在一个集合中。它的时间复杂度和空间复杂度如下：

时间复杂度：对于判断一个元素是否在一个集合中，布隆过滤器的时间复杂度为O(k)，其中k为哈希函数的数量。因为我们需要将元素通过k个哈希函数映射到位数组中的k个位置，并检查这些位置是否为1。

空间复杂度：布隆过滤器的空间复杂度取决于位数组的大小。假设位数组的大小为m，那么空间复杂度为O(m)。

需要注意的是，布隆过滤器可能会产生假阳性（False Positive），即可能会将一个不在集合中的元素误判为在集合中。但不会产生假阴性（False Negative），即如果判断一个元素不在集合中，那么这个元素肯定不在集合中。

软件工程小施同学

20230914

猜你喜欢

转载自blog.csdn.net/u013288190/article/details/132875664

布隆过滤器 python3 pybloom_live使用例子存储开销

python 布隆过滤器的下载使用

python bloomfilter 布隆过滤器

Python 布隆过滤器实现

python BloomFilter(布隆过滤器)

python 布隆过滤器

python和布隆过滤器

python-布隆过滤器

BloomFilter布隆过滤器的使用

【布隆过滤器的使用】

布隆过滤器及入门使用

海量数据处理（3）：布隆过滤器

布隆过滤器之Python+Redis

布隆过滤器原理及python实现

BloomFilter布隆过滤器使用

布隆过滤器原理以及Guava的BloomFilter使用

布隆过滤器在redis中的使用

布隆过滤器原理与使用场景

redis中布隆过滤器使用详解

布隆过滤器的一个实战小例子

Python-基于布隆过滤器下URL去重实例。

初识BloomFilter--布隆过滤器以及Python简单代码实现

使用MR编程hbase和hbase调优-布隆过滤器

详解布隆过滤器的原理、使用场景和注意事项

布隆过滤器的原理、使用场景和注意事项

基于Redis扩展模块的布隆过滤器使用

[转帖]详解布隆过滤器的原理、使用场景和注意事项

【转载】详解布隆过滤器的原理、使用场景和注意事项

详解各种布隆过滤器原理及使用场景

使用jedis连接redis-cluster进行布隆过滤器功能的演示

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)