1. 中文NLP笔记：中文自然语言处理的一般流程 - 代码天地

1. 中文NLP笔记：中文自然语言处理的一般流程

其他 2019-02-21 05:00:54 阅读次数: 0

图片发自简书App

今天开始一起学习中文自然语言处理

中文NLP一般流程

1. 获取语料

语料，是NLP任务所研究的内容

通常用一个文本集合作为语料库（Corpus）

来源：

已有语料

积累的文档

下载语料

搜狗语料、人民日报语料

抓取语料

2. 语料预处理

1.语料清洗

留下有用的，删掉噪音数据

常见的数据清洗方式

人工去重、对齐、删除和标注等，或者规则提取内容、正则表达式匹配、根据词性和命名实体提取、编写脚本或者代码批处理等。

2.分词

将文本分成词语

常见的分词算法

基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于规则的分词方法

3.词性标注

给词语打词类标签，如形容词、动词、名词等

在情感分析、知识推理等任务中需要

常见的词性标注方法

基于规则

基于统计

如基于最大熵的词性标注、基于统计最大概率输出词性和基于 HMM 的词性标注。

4.去停用词

去掉对文本特征没有任何贡献作用的字词，比如标点符号、语气、人称等

3. 特征工程

把分词表示成计算机能够计算的类型，一般为向量

常用的表示模型

词袋模型（Bag of Word, BOW)

TF-IDF

词向量

One-hot

Word2Vec

4. 特征选择

选择合适的、表达能力强的特征

常见的特征选择方法

有 DF、 MI、 IG、 CHI、WLLR、WFO

5. 模型训练

机器学习模型

KNN、SVM、Naive Bayes、决策树、GBDT、K-means 等

深度学习模型

CNN、RNN、LSTM、 Seq2Seq、FastText、TextCNN

注意过拟合、欠拟合问题

过拟合：在训练集上表现很好，但是在测试集上表现很差。

常见的解决方法有：

增大数据的训练量；

增加正则化项，如 L1 正则和 L2 正则；

特征选取不合理，人工筛选特征和使用特征选择算法；

采用 Dropout 方法等。

欠拟合：就是模型不能够很好地拟合数据

常见的解决方法有：

添加其他特征项；

增加模型复杂度，比如神经网络加更多的层、线性模型通过添加多项式使模型泛化能力更强；

减少正则化参数，正则化的目的是用来防止过拟合的，但是现在模型出现了欠拟合，则需要减少正则化参数。

注意梯度消失和梯度爆炸问题

6. 评价指标

错误率、精度、准确率、精确度、召回率、F1 衡量。

ROC 曲线、AUC 曲线

7. 模型上线应用

第一就是线下训练模型，然后将模型做线上部署

第二种就是在线训练，在线训练完成之后把模型 pickle 持久化

学习资料：

《中文自然语言处理入门实战》

猜你喜欢

转载自blog.csdn.net/weixin_34087307/article/details/87746985

1. 中文NLP笔记：中文自然语言处理的一般流程

NLP第1课：中文自然语言处理的完整机器处理流程

自然语言处理(NLP)的一般处理流程！

1.中文NLP的完整机器处理流程

自然语言处理 | (1)NLP简介

【自然语言处理】——（1）What is NLP？

1.编程语言

1.小结笔记

1. less笔记

HanLP《自然语言处理入门》笔记--1.新手上路

【NLP】NO1：自然语言处理的完整机器处理流程

1.流程控制--if

自然语言处理（NLP）—— 淘宝评论处理（1）

1. Python 语言简介

1. Go语言—初始

1. Go 语言简介

1. Go语言初始

【JavaSE】1.语言基础

1. Java 语言概述

1.逆向笔记--进制

1. Numpy学习笔记

1. JDBC基础笔记

《自然语言处理实战入门》第1课：自然语言处理（NLP）技术简介

NLP笔记 --- 1.单词计数

R语言自然语言处理1:中文语料库构造

Python自然语言处理实战（1）：NLP基础

自然语言处理(NLP) - 数学基础(1) - 总述

自然语言处理复习笔记 1

中文自然语言处理(NLP)(一)python jieba模块

自然语言处理入门（1）——中文分词原理及分词工具介绍

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)