solr(五)同义词加中文分词 - 代码天地

solr(五)同义词加中文分词

企业开发 2018-05-13 22:02:04 阅读次数: 3

同义词加中文分词的话可以采用mmseg4j，mmseg4j的配置步骤如下:

1: 下载地址：

           http://code.google.com/p/mmseg4j/downloads/list.
           2.解压mmseg4j-1.9.0.v20120712-SNAPSHOT.zip
           用到下面文件：
               mmseg4j-all-1.9.0.v20120712-SNAPSHOT.jar 放到之前安装$CATALINA_HOME/webapps/solr/WEB-INF/lib/目录下
                data 目录，建议拷贝下面内容到$SOLR_HOME\collection1\conf\mm4jdic
          3.设置mmseg4j中文分词和同义词
           修改$SOLR_HOME/collection1/conf/schema.xml，在<types></types>中增加如下内容:

<fieldType name="textMaxWord" class="solr.TextField" >
  <analyzer type="index">
	<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word"/>
	<filter class="solr.StopFilterFactory" ignoreCase="false" words="stopwords.txt"/>
	<filter class="solr.StandardFilterFactory"/>
	<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
  </analyzer>
  <analyzer type="query">
	<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word"/>
	<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
	<filter class="solr.StopFilterFactory" ignoreCase="false" words="stopwords.txt"/>
	<filter class="solr.StandardFilterFactory"/>
	<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
  </analyzer>
</fieldType>

同样要定义相关类型的字段

<field name="title_copy" type="textMaxWord" indexed="true" stored="true" termVectors="true"/>

4: 导入数据库索引，这个可以参看dataImport，至于synonyms的配置可以参看上一贴没做改动。

测试输入日本，结果显示了都是相关中国的内容，基本达到了同义词的效果。

猜你喜欢

转载自extrimlycold20070206121610.iteye.com/blog/1844405

solr(五)同义词加中文分词

solr(五)同义词

elasticsearch 中文分词配置同义词

solr同义词

solr6.6搜索环境搭建、IK中文分词、同义词、拼音、solrj的使用

solr6.6配置IK中文分词、IK扩展词、同义词、pinyin4j拼音分词

solr实现同义词查询及分词粒度

中文分词之11946组同义词

solr同义词的配置

lucene同义词分词器

Solr 同义词搜索 synonyms

Solr5.1+Jcseg分词器安装部署(中英文同义词、停止词配置)

Elasticsearch6.2.3及其head插件安装中文分词 elasticsearch-analysis-ik 拼音分词同义词分词

mmseg 分词器同义词总结

MMSegAnalyzer 自定义同义词分词器

solr中的同义词配置以及关键源码解读

中文同义词近义词库 vs 词向量

ES 1.7安装ik分词elasticsearch-analysis-ik-1.2.5中文同义词实现

同义词

Lucene 同义词

Oracle：同义词

Oracle 同义词

Oracle同义词

同义词SYNONYM

SQL同义词

python替换同义词 jieba替换同义词

DB-概念-同义词：同义词/Synonym

oracle synonym同义词

Oracle同义词创建

建立SQLServer同义词

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)