二. CNLP-NLP-分词 - 代码天地

二. CNLP-NLP-分词

其他 2019-06-22 11:30:48 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/selfimpro_001/article/details/91128662

中文分词-即将中文汉字序列切分成一个一个单独的词语，中文分词是NLP的第一步。源自-《NLP汉语自然语言处理原理与实践》

一. pyltp

安装pyltp：

pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple pyltp

部署语言模型库：
具体部署方法参考：哈工大语言云（LTP）本地安装使用及Python调用
模型：链接: https://pan.baidu.com/s/1tmPUMMFPBgzXbm8JbMIyYg 提取码: uy11

二. jieba

这个是本人最常用的分词方法

三. StanfordfordNLP

四. HanLP

五. 分词标准

粗粒度分词：将词作为语言处理的最小的基本单位进行切分，主要用于NLP中的各种应用中；
细粒度分词: 不仅对词汇进行切分，也对词汇内部的语素进行切分。一般细粒度切分的对象为专有名词，因为专有名词常表现为几个一般名词的合成。常用于搜索引擎领域中。
一般在索引的时候使用细粒度的分词保证召回率，在查询的时候使用粗粒度分词保证精度。
举例：

六. 歧义切分

在这里插入图片描述

针对上面的问题出现的早起的机械分词系统：该方法是基于最大匹配方法作为最基本的分词算法，也称为MM（The Maximum Matching Method)。基本思想：

举例如下：
上下文相关性：文本中第n个词的出现与其前后第n-m到n+m个词有高度的相关性，而与这个范围之外的其他词的相关性较低，把[-m, m]范围也称为窗口范围。

七. 未登录词识别

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/selfimpro_001/article/details/91128662

二. CNLP-NLP-分词

三. CNLP-NLP-中文分词的流程

一. CNLP-NLP-简介

【NLP】【二】jieba源码分析之分词

NLP学习（二）—中文分词技术

NLP学习（二）中文分词技术

NLP ---分词详解（常见的五种分词技术二）

solr(二)分词

NLP--jieba(二)

NLP（二）——文本表示

NLP学习笔记（二）

NLP --- 分词详解（分词的历史）

nlp中文分词

NLP之机械分词

【NLP】Jieba中文分词

NLP分词任务

NLP系列-中文分词

NLP 分词相关知识

【NLP】分词算法综述

[NLP] 自动分词

【NLP】分词新词

NLP中文分词技术

NLP之jieba分词

NLP —— 中文分词

【NLP】分词之词的概念

nlp--分词

日文NLP分词系统

NLP:结巴分词的使用

NLP 《分词方法》

【NLP】之结巴分词

今日推荐

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

Spring Boot 3.0：未来企业应用开发的基石

Java 的 AI 前景光明

国内首个智能体生态大会！2024百度万象大会定档5月30日

开源一周年，青语言新版发布

深入浅出：大型语言模型（LLM）的全面解读

顶会ICLR2024论文Time-LLM：基于大语言模型的时间序列预测

周排行

学习笔记(01):Python入门教程-计算机如何区分数字和字符

命令行提示符_颜色

五步轻松搞定Linux下的文件同步(备份)

Visio 2010，如何打开多个窗口

西安新起点|MBA考研十大热门城市

BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation

【蓝桥杯】ADV-73 数组输出

[DeeplearningAI笔记]卷积神经网络4.11一维和三维卷积

Java 逻辑运算符

Python爬虫入门——2. 5 利用正则表达式爬取豆瓣电影 Top 250

每日归档

更多

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)