自然语言处理_分词_停用词整理[哈工大、四川大学机器智能实验室停用词库、百度停用词库、中文停用词词表]

最近在研究自然语言处理,最基础的内容之一是分词处理,但是分词的结果并非均是有效的信息,按照普遍说法,存在‘停用词’这样的尴尬信息。

所谓‘停用词’,即是在自然语言处理时,与文章包含的情感信息,或文章主题信息关系性不强的词语,所以如果进行筛选过滤之后,更便于主题分析,或者情感分析。

这里,我在网上找到了:

结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表、以及网络上较大的一份无名称停用词表,

并整理了一下,做了去重处理,最终得到了一份较全的停用词表,在此分享出来给大家,希望对各位有用。

整合的停用词表下载

后续可能即需更新其他相关文章,逐步积累,哈哈。

猜你喜欢

转载自blog.csdn.net/qq_22022063/article/details/78952631