[3]Solr7.2.1添加自带的中文分词

新的一个月开始了,写个blog清醒下

今天写一下,solr7.2.1版本的添加中文分词

1.切换到solr的bin 目录启动solr

solr.cmd start

2.新建一个Core,名字为BBB
参考:
http://blog.csdn.net/a897180673/article/details/79403952

3.复制jar包到solr 的web app

我们访问的 127.0.0.1:8983 这个webApp的目录就在solr-7.2.1\server\solr-webapp下面,要在webApp中使用分词,所以要把相应的jar添加到webApp的lib中

首先solr7.2.1本身自带了分析的jar包,在
solr-7.2.1\contrib\analysis-extras\lucene-libs中

这里写图片描述

把这个红框中的 文件复制到 solr-7.2.1\server\solr-webapp\webapp\WEB-INF\lib下面

4.配置文件,支持中文分词
jar包添加了好了,下面就是要配置jar包的信息
切换到刚才新建的Core目录 BBB
修改他下面的conf目录下的managed-schema文件
在最下面添加:

    <fieldType name="text_ik_zd" class="solr.TextField" positionIncrementGap="100">
       <analyzer type="index">
         <tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/>
        </analyzer>
        <analyzer type="query">
          <tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/>
        </analyzer>
  </fieldType>

添加好了如图 选中的部分 :
这里写图片描述

5.webAPP管理界面重启Core
在webAPP左侧选择Code Admin –>选择BBB core,然后选择Reload
见下图:
这里写图片描述

6.使用中文分词
按下图的箭头依次单击,输入语句
这里写图片描述

这个时候就可以看到分词的结果了,

如果不使用这个分词会怎么样呢?使用其他内置的分词 效果并不好:

这里写图片描述

都分成 一个一个的单独的汉字了.

猜你喜欢

转载自blog.csdn.net/a897180673/article/details/79410241