python simhash计算相似度

simhash 应用场景大规模文本去重、检索,
召回一些候选文本
原理这篇博客讲的挺清楚的https://www.iteye.com/blog/aoyouzi-2313164

用python 可以直接调用计算

from simhash import Simhash
s1= "这里是中央电视台2020年春节联欢晚会直播现场"
s2 = "佟丽娅将主持2020年春节联欢晚会"
s3 = "去年的主持人是谁来着"
code1,code2,code3 = Simhash(s1),Simhash(s2),Simhash(s3)
print("s1 s2 distance",code1.distance(code2))
print("s1 s3 distance",code1.distance(code3))
print("s2 s3 distance",code3.distance(code2))

s1 s2 distance 23
s1 s3 distance 35
s2 s3 distance 24

发布了22 篇原创文章 · 获赞 0 · 访问量 4432

猜你喜欢

转载自blog.csdn.net/Yolo_C/article/details/104056316