NLP:文本预处理总览

1 用n-gram语言模型过滤低质量内容

使用n-gram语言模型对文本进行评估,从而过滤掉低质量的内容。具体来说,可以通过以下步骤进行:

1 将文本分成n-gram序列,其中n是一个整数。
2 使用已经训练好的n-gram语言模型对每个n-gram序列进行评分,得到一个概率值。
3 对于整个文本,计算所有n-gram序列的平均概率值。如果平均概率值低于某个阈值,则可以将其视为低质量内容。
需要注意的是,选择合适的n值和阈值是非常重要的,需要根据具体应用场景进行调整。

例如,3-gram模型估计4个单词序列的概率,

[DLM:微信大规模分布式n-gram语言模型系统 ]

NLP中Stemming、Lemmatisation和POS-tagging

介绍NLP中Stemming、Lemmatisation和POS-tagging三个常用的预处理过程,以及借助Python的NLTK如何实现

[Stemming, Lemmatisation and POS-tagging with Python and NLTK – Marco Bonzanini]

[http://www.thoughtly.co/blog/working-with-text/]

猜你喜欢

转载自blog.csdn.net/pipisorry/article/details/130958443