python爬虫去重策略

python爬虫去重策略

1、将访问过的URL保存到数据库中

2、将访问过的URL保存到set中,只需要o(1)的代价就可以查询URL

       1000000000*2byte*50个字符/1024/1024/1024 = 9G

3、URL经过md5等方法哈希后保存到set中

4、用bitmap方法,将访问过的URL通过hash函数映射到某一位

               
5、bloomfilter方法对bitmap进行改进,多重hash函数降低冲突

猜你喜欢

转载自blog.csdn.net/weixin_38477351/article/details/79418156
今日推荐