文本特征处理方法

常用的文本表示模型有以下几种:

  • 词袋模型和n-gram。袋模型和n-gram。将整个文本以词为单位分开,忽略顺序,然后将每篇文章表示成一个长向量,向量中的每一维代表一个单词,而这个纬度的权重表示了这个单词的重要性(tfidf,词频…)。但是,将文章进行单词级别的划分可能忽略了单词顺序以及共现信息,因此可以将连续出现的n个单词组成的词组作为一个单独的特征放到向量表中构成ngram。另外,一个单词会对应多重词性,但是含义相同,因此会做词干抽取处理。

  • 词向量模型。word2vec是一个把词语转化为对应向量的形式。常用各个有CBOW和Skip-gram。CBOW用周围词预测中心词,而Skip-gram用中心词预测周围词。

  • 主题模型。利用文档中单词的共现关系对单词按照主题进行聚类。例如LDA, PLSA。

欢迎关注微信公众号(算法工程师面试那些事儿),本公众号聚焦于算法工程师面试,期待和大家一起刷leecode,刷机器学习、深度学习面试题等,共勉~

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_40006058/article/details/121259236