solr:IK分词方法

下面两种方法是我在实际工作项目中用到的分词,需要引入IKAnalyzer-3.2.8.jar包。


     /**
     * @author: kxl
     * 分词
     */
    public String analyse(String word) {
    try {
        Analyzer analyzer = new IKAnalyzer(false);
        StringReader wordText = new StringReader(word);
        TokenStream tokenStream = analyzer.tokenStream("text", wordText);
        CharTermAttribute term = (CharTermAttribute) tokenStream.getAttribute(CharTermAttribute.class);
        StringBuilder sb = new StringBuilder();
        while (tokenStream.incrementToken()) {
            sb.append(term);
            sb.append(" | ");
        }
        tokenStream.close();
    } catch (IOException e) {
       e.printStackTrace();
    }
    return sb.toString();
    }
    public String TextDeliAnalysis(String text) {

        IKSegmentation ikSegmenter = new IKSegmentation(new StringReader(text), false);
        List<String> termList = new ArrayList<String>();
        StringBuilder sb = new StringBuilder();
        Lexeme lexeme;
        try {
            while ((lexeme = ikSegmenter.next()) != null) {
                termList.add(lexeme.getLexemeText());
            }
            for (int i=0;i<termList.size();i++) {

                sb.append(termList.get(i));
                sb.append(" | ");
            }

        } catch (IOException e) {
            e.printStackTrace();
        }
        return sb.toString();
    }

这个两个代码里面的布尔值,代表的是不是设置最大分词,比如:
“米林地震”如果设置为true代表设置最大分词,分词为:米林|林地|地震
如果设置为false,分词为 :米林 | 米 | 林地 | 林 | 地震 | 地 | 震 |

注意:各版本可能会有稍许区别,高点的版本为
IKSegmenter ikSegmenter = new IKSegmenter(new StringReader(text), true);

猜你喜欢

转载自blog.csdn.net/u010248330/article/details/78604256
今日推荐