lucene 4.3 中文分词代码演示 - 代码天地

lucene 4.3 中文分词代码演示

其他 2020-01-16 11:29:33 阅读次数: 0

首页导入开发需要的架包：

这里采用的中文分词器是mmseg4j:

mmseg4j用Chih-Hao Tsai 的MMSeg算法实现的中文分词器，并实现lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。 MMSeg 算法有两种分词方法：Simple和Complex，都是基于正向最大匹配。Complex加了四个规则过虑。官方说：词语的正确识别率达到了 98.41%。mmseg4j已经实现了这两种分词算法。

核心代码：

   /**
     * 显示分词信息
     * @param str
     * @param a
     * @Adder by arvin 2013-7-2 下午5:02:24
     */
    public static void displayToken(String str,Analyzer a) {
        try {
            TokenStream stream = a.tokenStream("content",new StringReader(str));
            //创建一个属性，这个属性会添加流中，随着这个TokenStream增加
            CharTermAttribute cta = stream.addAttribute(CharTermAttribute.class);
            stream.reset();
            while(stream.incrementToken()) {
                System.out.print("["+cta+"]");
            }
            System.out.println();
            stream.end();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

   @Test
    public void testAnalyzer(){

        //中文分词器
        Analyzer a5=new MMSegAnalyzer();
        String str="我的家乡在福建省龙岩市";
        AnalyzerUtils.displayToken(str, a5);

    }

结果显示：

[我的][家乡][在][福建][建省][龙][岩][市]

一条梦想会飞的鱼

发布了43 篇原创文章 · 获赞 2 · 访问量 4万+

私信关注

猜你喜欢

转载自blog.csdn.net/yizufengdou/article/details/9230759

lucene 4.3 中文分词代码演示

lucene 4.3 自定义中文分词器代码演示

lucene 4.3 通过TokenStream显示分词代码演示

Lucene4.3检索，分词，搜索

lucene4.3—搜索

lucene 4.3 索引的简单创建和搜索代码展示

lucene4.3—索引的建立

基于lucene的几种中文分词测试代码

Lucene 分词

lucene关于中文分词的问题

Lucene的各中文分词比较

lucene 中文分词器

Lucene/Solr 中文分词比较

Lucene: 中文分词器

Lucene笔记17-Lucene的分词-中文分词介绍

Lucene4.3搜索引擎开发之路分享

Lucene4.3进阶开发之高山流水（十六）

Lucene4.3进阶开发之溪山行旅（十五）

Lucene4.3进阶开发之礼敬如来（十三）

Lucene4.3进阶开发之柳暗花明( 六)

Lucene4.3进阶开发之见龙在田(十)

Lucene4.3进阶开发之潇湘夜雨（十七）

Lucene4.3进阶开发之日照光华（十四）

Lucene4.3进阶开发之漫漫修行( 四)

Lucene4.3进阶开发之初入仙界(一)

与Lucene 4.10配合的中文分词比较(转)

Lucene中文分词 “庖丁解牛”

Lucene的中文分词器IKAnalyzer

（转载）Lucene几种中文分词的总结

<转>用于Lucene的各中文分词比较

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)