中文分词原理 - 代码天地

中文分词原理

编程语言 2018-05-13 11:42:35 阅读次数: 2

中文分词比较复杂,并没有英文分词那么简单.这主要是因为中文分词的词与词之间并不像英文那样用空格隔开.
主要的方法有三种:基于词典匹配的分词方法,基于语义理解的分词,基于词频统计的分词.
1.基于词典分配的分词算法
    基于字典匹配的分词算法按一定的匹配策略将输入的字符串与机器字典词条进行匹配.
如果在词典中找到当前字符串则匹配成功,输出识别的词汇.按照匹配操作的扫描方向不同,可以分为正向匹配和逆向匹配,以及双向匹配.按照不同长度优先匹配的情况,可以分为最大匹配最小匹配.按照是否与词性标注相结合,可以分为单纯分词方法和分词与词性标注相结合.其实真正的分词算法都是将词典分词作为基础手段,结合各种语言的其他特征信息来提高切分的效果和准确度.
    查找词典的算法一般包括:数字搜索树,Trie算法等.
2.基于语义理解的分词
    基本模式是把分词,句法,语义分析并行进行,利用句法和语义信息来处理分词的歧义.
3.基于词频统计的分词
    通常词是稳定的词的组合,因此在中文文章的上下文中,相邻的字搭配出现的频率越高,就越有可能形成一个固定的词.实际的系统中,通过对精心准备的中文语料中相邻共现的各个字的组合的频度进行统计,计算不同字词的共现信息.根据两个字的统计信息,计算两个汉字的相邻共现频率.当紧邻程度高于某个阀值时,便可认为此字组为一个固定词.

猜你喜欢

转载自fjg0427.iteye.com/blog/1429945

中文分词原理及jieba分词

中文分词原理

中文分词原理及工具

中文分词原理及分词工具介绍

NLP_中文分词/jieba分词原理

中文分词概述及结巴分词原理

中文分词的基本原理以及jieba分词的用法

自然语言处理——中文分词原理及分词工具介绍

中文分词

自然语言处理入门----中文分词原理

hmm中文分词原理简单介绍与python实现

自然语言处理入门（1）——中文分词原理及分词工具介绍

自然语言处理入门（4）——中文分词原理及分词工具介绍

中文分词工具|页面分词

中文分词之jieba分词

中文分词（一）：jieba分词

HanLP中文分词——字典分词

《自然语言处理实战入门》 ---- 第4课：中文分词原理及相关组件简介之分词算法原理、分词效果评测最佳实践

nlp中文分词

solr中文分词

IKAnalyzer中文分词

中文分词算法总结

solr 中文单字分词

solr 中文分词配置

solr中文分词的种类

elasticsearch中文分词集成

MMSEG中文分词

中文分词效果对比

IKAnalyzer中文分词一

中文分词Demo

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)