NLP项目-文本处理的流程分析 - 代码天地

NLP项目-文本处理的流程分析

其他 2020-09-14 18:24:19 阅读次数: 0

大部分的NLP项目都是围绕着上面那个pipeline进行的，需要把一个原始文本经过一系列处理，把它处理成特征向量，整个的处理流程分为几个大的步骤，首先需要对文本做分词操作，分词可以分为英文分词和中文分词，英文分词比较简单，完全可以通过空格和标点符号进行区分每一个单词，中文相对困难。之后我们经常做一些数据的清洗工作，主要包括清洗一些没有的标签，比如<html>，特殊符号（!。），停用词（a an the），英文中有一个非常重要的过程就是标准化，这个操作大部分应用在英文中。标准化大概分成stemming和lemmazation，总体上就是把多个单词合并称为一个单词，比如单词的单复数，单词的时态变化，都可以将其映射到某一个单词上。通过一系列转化我们可以得到一个特征向量，这个过程我们称为特征提取，把一个处理好的字符串转化为一个向量的过程。特征提取过程中我们经常用到tf-idf或者word2vec等技术。然后进入建模过程，通过分类算法或者相似度匹配算法等机器学习算法。

最后我们一般还有进行系统的评估工作，评估一个系统的优劣还是非常重要的。可以看到NLP相对图像识别还是比较复杂的，无论任务多么简单，都要进行一系列的工作，而且有一定的难度。所以我们在做nlp系统的时候需要一定的工程能力，需要写好每一个模块，需要优化每一个模块。

猜你喜欢

转载自blog.csdn.net/Suyebiubiu/article/details/107882343

NLP项目-文本处理的流程分析

NLP文本处理流程

NLP的文本处理

NLP(3): 问答系统介绍，文本处理流程

NLP——文本处理预处理

NLP（一）——文本处理

数据挖掘 NLP 之文本挖掘文本处理通用流程

文本处理

NLP中文短文本处理记录（一）

NLP笔记 --- 2.文本处理

04[NLP训练营]文本处理（下）

03[NLP训练营]文本处理（上）

文本处理工具下——分析文本的工具

Editplus文本处理

文本处理实例

文本处理-linux

文本处理——排序

文本处理awk

富文本处理

awk文本处理

简单的文本处理

文本处理总结

智能文本处理

linux 文本处理

Linux——文本处理

文本处理notes

CSS文本处理

Shell的文本处理

shell文本处理

Python文本处理

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)