文本相似度计算的常用方法

文本相似度在很多地方都能用到,比如文本分类,相似文本抽取,可以先建立词表或者句表,然后从数据库中找相似的文本,文书,文章或者评论。

相似度计算方法大概有几类,字符级别,关键词级别,语意级别等

字符级别又有最长公共子序列,编辑距离等

关键词级别有权重常用tfidf,余弦函数,word2vector等

语意级别就是lad,lsi等等

未完待续

猜你喜欢

转载自my.oschina.net/u/3726752/blog/1630131