IKAnalyzer,mmseg4j

7、  往服务中添加索引

String url = "http://localhost:8080/solr-4.4.0";

       SolrServer server = new HttpSolrServer(url);

       SolrInputDocument doc1 = new SolrInputDocument();

       doc1.addField("id", "1");

       doc1.addField("title", "信息科技");

    doc1.addField("content", "企业信息门户,元数据,数字沙盘,知识管理");

server.add(docs);

    server.commit();

8、  查询

public static void main(String[] args) {

        String url = "http://localhost:8080/solr-4.4.0";

        SolrServer server = new HttpSolrServer(url);

        SolrQuery query = new SolrQuery("云南");

        query.setFacetLimit(1);

        //以下两个参数常用作分页时使用

        query.setRows(1);// 设置每次取多少条

        query.setStart(0);//设置从第几条开始查询

//以下几行设置查询结果关键字高亮显示

        query.setHighlight(true);

        // hl.fl参数表示哪个几Field关键字段高亮

        query.setParam("hl.fl", "title, content");

query.setHighlightSimplePre("<font color=red>"); query.setHighlightSimplePost("</font");                                    query.setSort("name",ORDER.desc);

        try {

            QueryResponse response = server.query(query);

            SolrDocumentList docs = response.getResults();

            System.out.println("文档个数:" + docs.getNumFound());

            System.out.println("查询时间:" + response.getQTime());

            for (SolrDocument doc : docs) {

               System.out.println("title: " + doc.getFieldValue("title"));


                System.out.println("content : " + doc.getFieldValue("content "));

             }

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

二、在solr中配置IK中文分词器

在目录solr/example/solr/collection1/conf中的 secham.xml中types标签最后添加定义字段类型。

secham.xml文件是定义的类型以及存储的域。

<fieldType name="text_ik" class="solr.TextField">

<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>

         <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>

</fieldType>

在field中指定字段类型为上面定义的

<field name="name" type="text_ik" indexed="true" stored="true"/>

设置完比后重启服务

在admin管理台中,由于name是IK分词器,所以分词后的效果如下:




solr4.5配置中文分词器mmseg4j
10-10  solr  罗生沙  1,079 views
solr4.x虽然提供了分词器,但不太适合对中文的分词,给大家推荐一个中文分词器mmseg4j

mmseg4j的下载地址:https://code.google.com/p/mmseg4j/

通过以下几步就可以把mmseg4j分词器集成到solr中:

1、解压mmseg4j-1.9.1.zip,把dist下面的所有jar文件拷贝到你应用服务器下的solr/WEB-INF/lib中(如果你的应用服务器下面没有solr,请参考《solr部署到tomcat》)。

2、拷贝data到solr_home/solr中(与core文件平级),并改名为dic(请参考《solr部署到tomcat》)

3、进入到你想使用mmseg4j分词器的core中(此处以solr自带的collection1为例),用编辑器打开collection1/conf/schema.xml配置文件,添加如下代码:

<!-- mmseg4j分词器 -->
<fieldType name="text_mmseg4j" class="solr.TextField" >
<analyzer type="index">
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="../dic" /><!--此处为分词器词典所处位置-->
</analyzer>
<analyzer type="query">
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="../dic" /><!--此处为分词器词典所处位置-->
</analyzer>
</fieldType>
4、引用mmseg4j分词器

上面我们已经定义了mmseg4j分词器,如何引用呢?

用编辑器打开collection1/conf/schema.xml配置文件,找到<fields>…</fields>,修改需要使用中文分词的字段,type=”text_mmseg4j”

<fields>
.......//省略
<field name="name" type="text_mmseg4j" indexed="true" stored="true" />
</fields>
通过以上步骤就可以成功配置mmseg4j分词器到solr中了。



本文出自 luoshengsha.com,转载时请注明出处及相应链接。

本文永久链接: http://www.luoshengsha.com/170.html












Solr4.0配置IKAnalyzer

2010-11-25暂无评论solr, lucene, 搜索引擎,
IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。

IK Analyzer 2012特性

1.采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式;

2.在系统环境:Core2 i7 3.4G双核,4G内存,window 7 64位, Sun JDK 1.6_29 64位 普通pc环境测试,IK2012具有160万字/秒(3000KB/S)的高速处理能力。

3.2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。

4.采用了多子处理器分析模式,支持:英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符

5.优化的词典存储,更小的内存占用。支持用户词典扩展定义。特别的,在2012版本,词典支持中文,英文,数字混合词语。

下载solr & IK

1、下载solr4.0 http://www.apache.org/dyn/closer.cgi/lucene/java/4.0.0 (注:这里有及时solr的最新版本)

2、下载IKAnalyzer2012_u6.zip http://code.google.com/p/ik-analyzer/downloads/list(注:这里有IKAnalyzer及时的最新版本,也可附件直接下载)

schema.xml配置

<fieldType name="text" class="solr.TextField" positionIncrementGap="100"> 
    <analyzer type="index"> 
        <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory"
        isMaxWordLength="false"/> 
        <filter class="solr.SynonymFilterFactory"
            synonyms="synonyms.txt"
            ignoreCase="true"
            expand="true"
            tokenizerFactory="solr.ChineseTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" /> 
        <filter class="solr.WordDelimiterFilterFactory"
            generateWordParts="1"
            generateNumberParts="1"  
            catenateWords="1"
            catenateNumbers="1"
            catenateAll="0" splitOnCaseChange="0"/> 
        <filter class="solr.LowerCaseFilterFactory"/> 
        <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
    </analyzer> 
    <analyzer type="query"> 
        <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory"
        isMaxWordLength="true"/> 
        <filter class="solr.SynonymFilterFactory"
            synonyms="synonyms.txt"
            ignoreCase="true"  
            expand="true"
            tokenizerFactory="solr.ChineseTokenizerFactory"/> 
        <filter class="solr.StopFilterFactory"
            ignoreCase="true"
            words="stopwords.txt"
            enablePositionIncrements="true"/> 
        <filter class="solr.WordDelimiterFilterFactory"
            generateWordParts="1"
            generateNumberParts="1" 
            catenateWords="0"
            catenateNumbers="0"
            catenateAll="0"
            splitOnCaseChange="1"/> 
        <filter class="solr.LowerCaseFilterFactory"/> 
        <filter class="solr.RemoveDuplicatesTokenFilterFactory"/> 
    </analyzer> 
</fieldType>
jar包加入solr的WEB-INF/lib下

将它打包放入solr.war中同时还有IK的jar包。如果你不想打包,请去附件下载已经打好的包。或者直接放IK的jar包与所打的包放入apache-tomcat-xxx\webapps\solr\WEB-INF\lib下

IK配置文件

IKAnalyzer的jar包中默认是带有IKAnalyzer.cfg.xml的配置文件的,如果想覆盖自带的配置文件,则需要在solr的WEB-INF目录中创建classes目录,将自定义的IKAnalyzer.cfg.xml拷贝到下面即可。

猜你喜欢

转载自linshow26.iteye.com/blog/2007131
今日推荐