ElasticSearch最佳入门实践（四十）分词器的内部组成到底是什么，以及内置分词器的介绍 - 代码天地

ElasticSearch最佳入门实践（四十）分词器的内部组成到底是什么，以及内置分词器的介绍

其他 2018-11-07 14:39:24 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_33746789/article/details/83791838

1、什么是分词器

一个分词器，很重要，将一段文本进行各种处理，最后处理好的结果才会拿去建立倒排索引

切分词语，normalization（提升recall召回率）
给你一段句子，然后将这段句子拆分成一个一个的单个的单词，同时对每个单词进行normalization（时态转换，单复数转换）
recall，召回率：搜索的时候，增加能够搜索到的结果的数量

character filter

在一段文本进行分词之前，先进行预处理，
比如说最常见的就是，过滤html标签（<span>hello<span> --> hello），& --> and（I&you --> I and you）

tokenizer
分词，hello you and me --> hello, you, and, me

token filter
lowercase，stop word，synonymom，dogs --> dog，liked --> like，Tom --> tom，a/the/an --> 干掉，mother --> mom，small --> little

2、内置分词器的介绍

范文
Set the shape to semi-transparent by calling set_trans(5)

standard analyzer：set, the, shape, to, semi, transparent, by, calling, set_trans, 5（默认的是standard）

simple analyzer：set, the, shape, to, semi, transparent, by, calling, set, trans

whitespace analyzer：Set, the, shape, to, semi-transparent, by, calling, set_trans(5)

language analyzer（特定的语言的分词器，比如说，english，英语分词器）：set, shape, semi, transpar, call, set_tran, 5

猜你喜欢

转载自blog.csdn.net/qq_33746789/article/details/83791838

ElasticSearch最佳入门实践（四十）分词器的内部组成到底是什么，以及内置分词器的介绍

Elasticsearch——分词器的内部组成到底是什么，以及内置分词器的介绍（学习笔记）

第39节：初识搜索引擎_分词器的内部组成到底是什么，以及内置分词器的介绍

Elasticsearch分词器介绍、内置分词器及配置中文分词器

ElasticSearch最佳入门实践（六十一）修改分词器以及定制自己的分词器

Elasticsearch(10) --- 内置分词器、中文分词器

elasticsearch 分词器

Elasticsearch分词器

二、ElasticSearch内置分词器

elasticsearch 的分词器的介绍和使用

elasticsearch 的分词器的介绍和使用

docker安装Elasticsearch以及分词器

ElasticSearch-分词与内置、自定义分词器

ElasticSearch入门 - 集成ik分词器

Elasticsearch 入门索引、分词器

Lucene的内置的分词器

elasticsearch 分词器器读写分词

Elasticsearch7 内置分词器的使用以及中文(IK)分词器的安装和使用

ElasticSearch分词器总结

elasticsearch之分词器

elasticsearch Ik分词器

（06）ElasticSearch 分词器

Elasticsearch：Pinyin 分词器

五、Elasticsearch分词器

elasticsearch分词器详解

(七) ElasticSearch 分词器

【ElasticSearch】中文分词器

elasticsearch：IK分词器-分词方法

ElasticSearch中文分词器-IK分词器的使用

Elasticsearch分词器-中文分词器ik

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)