NLP项目-文本处理的流程分析

        大部分的NLP项目都是围绕着上面那个pipeline进行的,需要把一个原始文本经过一系列处理,把它处理成特征向量,整个的处理流程分为几个大的步骤,首先需要对文本做分词操作,分词可以分为英文分词和中文分词,英文分词比较简单,完全可以通过空格和标点符号进行区分每一个单词,中文相对困难。之后我们经常做一些数据的清洗工作,主要包括清洗一些没有的标签,比如<html>,特殊符号(!。),停用词(a an the),英文中有一个非常重要的过程就是标准化,这个操作大部分应用在英文中。标准化大概分成stemming和lemmazation,总体上就是把多个单词合并称为一个单词,比如单词的单复数,单词的时态变化,都可以将其映射到某一个单词上。通过一系列转化我们可以得到一个特征向量,这个过程我们称为特征提取,把一个处理好的字符串转化为一个向量的过程。特征提取过程中我们经常用到tf-idf或者word2vec等技术。然后进入建模过程,通过分类算法或者相似度匹配算法等机器学习算法。

        最后我们一般还有进行系统的评估工作,评估一个系统的优劣还是非常重要的。可以看到NLP相对图像识别还是比较复杂的,无论任务多么简单,都要进行一系列的工作,而且有一定的难度。所以我们在做nlp系统的时候需要一定的工程能力,需要写好每一个模块,需要优化每一个模块。

猜你喜欢

转载自blog.csdn.net/Suyebiubiu/article/details/107882343
今日推荐