大数据匹配实现方案

场景:

数据:

1.词典,数量级十万

2.用户,数量级亿

3.用户key word,数量级千

需求:

匹配每个用户的key word是否在词典里出现

分析:

两个地方会影响性能

1.字符串比较

2.用户量

方案:

1.字符串可以通过hash来比较

2.用户量如果精度要求不高的话,对用户进行聚类,抽取族的keyword,然后用族的keyword跟字典进行比较

猜你喜欢

转载自snv.iteye.com/blog/1863438