对处理文本数据函数的一些认识

常用的有下面的函数。

主要有两个api来实现: CountVectorizer 和 TfidfVectorizer

CountVectorizer:
只考虑词汇在文本中出现的频率

TfidfVectorizer:
除了考量某词汇在文本出现的频率,还关注包含这个词汇的所有文本的数量
能够削减高频没有意义的词汇出现带来的影响, 挖掘更有意义的特征

相比之下,文本条目越多,Tfid的效果会越显著。

以上就是对处理文本数据函数的一些认识。

猜你喜欢

转载自blog.csdn.net/CSDN_LYY/article/details/87914486
今日推荐