Elasticsearch(010):es中中文分词器IK-Analyzer实战

中文分词器(IK-Analyzer)

1. 下载ik分词器

网址:https://github.com/medcl/elasticsearch-analysis-ik

下载对照ES版本的分词器版本。

注意

ik分词器的版本需要es保持一致。

2. 安装分词器

将分词器拷贝到服务器的ES安装目录plugins文件夹下,新建ik文件夹,解压到其中即可。

三台机器分别执行一样的操作,然后重新启动es服务。

3. 测试

#测试中文分词器
GET _analyze
{
  "text":"测试分词器,spring cloud实战",
  "analyzer":"ik_max_word"
}

结果如下

{
  "tokens" : [
    {
      "token" : "测试",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "分词器",
      "start_offset" : 2,
      "end_offset" : 5,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "分词",
      "start_offset" : 2,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "器",
      "start_offset" : 4,
      "end_offset" : 5,
      "type" : "CN_CHAR",
      "position" : 3
    },
    {
      "token" : "spring",
      "start_offset" : 5,
      "end_offset" : 11,
      "type" : "ENGLISH",
      "position" : 4
    },
    {
      "token" : "cloud",
      "start_offset" : 12,
      "end_offset" : 17,
      "type" : "ENGLISH",
      "position" : 5
    },
    {
      "token" : "实战",
      "start_offset" : 17,
      "end_offset" : 19,
      "type" : "CN_WORD",
      "position" : 6
    }
  ]
}

由此可见分词器起作用了。

4. 拓展使用

ik分词器有两种分词模式:ik_max_word和ik_smart模式。

4.1 ik_max_word

会将文本做最细粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国中华人民中华华人人民共和国人民共和国大会堂大会会堂等词语。

4.2 ik_smart

会做最粗粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为中华人民共和国人民大会堂

4.3 自定义词库

如果要让分词器支持一些专有词语,可以自定义词库。iK分词器自带一个main.dic的文件,此文件为词库文件。在上边的目录中新建一个my.dic文件,配置文件中配置my.dic即可。

发布了158 篇原创文章 · 获赞 147 · 访问量 27万+

猜你喜欢

转载自blog.csdn.net/weixin_39723544/article/details/103883275
今日推荐