新的一个月开始了,写个blog清醒下
今天写一下,solr7.2.1版本的添加中文分词
1.切换到solr的bin 目录启动solr
solr.cmd start
2.新建一个Core,名字为BBB
参考:
http://blog.csdn.net/a897180673/article/details/79403952
3.复制jar包到solr 的web app
我们访问的 127.0.0.1:8983 这个webApp的目录就在solr-7.2.1\server\solr-webapp下面,要在webApp中使用分词,所以要把相应的jar添加到webApp的lib中
首先solr7.2.1本身自带了分析的jar包,在
solr-7.2.1\contrib\analysis-extras\lucene-libs中
把这个红框中的 文件复制到 solr-7.2.1\server\solr-webapp\webapp\WEB-INF\lib下面
4.配置文件,支持中文分词
jar包添加了好了,下面就是要配置jar包的信息
切换到刚才新建的Core目录 BBB
修改他下面的conf目录下的managed-schema文件
在最下面添加:
<fieldType name="text_ik_zd" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/>
</analyzer>
</fieldType>
添加好了如图 选中的部分 :
5.webAPP管理界面重启Core
在webAPP左侧选择Code Admin –>选择BBB core,然后选择Reload
见下图:
6.使用中文分词
按下图的箭头依次单击,输入语句
这个时候就可以看到分词的结果了,
如果不使用这个分词会怎么样呢?使用其他内置的分词 效果并不好:
都分成 一个一个的单独的汉字了.