去重算法,simhash,shingle,百度去重算法

对比其他算法
『百度的去重算法』

百度的去重算法最简单,就是直接找出此文章的最长的n句话,做一遍hash签名。n一般取3。 工程实现巨简单,据说准确率和召回率都能到达80%以上。

『shingle算法』

shingle原理略复杂,不细说。 shingle算法我认为过于学院派,对于工程实现不够友好,速度太慢,基本上无法处理海量数据。

『其他算法』

具体看微博上的讨论

猜你喜欢

转载自blog.csdn.net/wc996789331/article/details/109758636