Lucene.net和盘古分词使用小结 - 代码天地

Lucene.net和盘古分词使用小结

其他 2018-11-19 10:21:07 阅读次数: 0

盘古分词是开源项目，核心技术基于Lucene.net。虽然有点旧（2010年），但是还是可以用的。案例、应用程序、以及源码可以详见以下链接。

http://pangusegment.codeplex.com/

1.分词过程

Analyzer——>PanGuTokenizer——>Segment().DoSegment()——>Segment().PreSegment()

2.修改dll

2.1 变成小写的原因

dll文件：PanGu.Lucene.Analyzer.dll

语句：return new LowerCaseFilter(new PanGuTokenizer(reader, this._OriginalResult));

修改：return new PanGuTokenizer(reader, this._OriginalResult);

2.2 遇到符号自动分词的原因和修改

dll文件：PanGu.dll

目的：事实上，关闭了多元分词功能

函数：Regex.GetMatchStrings()

语句：private const string PATTERNS = @"([０-９\d]+)|([ａ-ｚＡ-Ｚa-zA-Z_]+)";
修改：private const string PATTERNS = @"([\S]+)";

目的：切分点不后移，即没有cur = cur.Next

函数：MergeEnglishSpecialWord()

语句：if (cur.Value.WordType == WordType.Symbol || cur.Value.WordType == WordType.English)

修改：if (cur.Value.WordType == WordType.Symbol || cur.Value.WordType == WordType.English || cur.Value.WordType == WordType.Numeric)

3.分词注意事项

假设一个词有3部分组成：字母、数字、符号。符号放在词的第一位，会被自动切分。最后一位是符号时，需要续接空格或中文，否则，无法识别分词而被切分。

4.词典导入

词典的导入有点慢，70万多条的词汇(10M左右)，需要约45分钟，生成约20M的文件。

猜你喜欢

转载自blog.csdn.net/xianjuke008/article/details/84190757

Lucene.net和盘古分词使用小结

Net Core使用Lucene.Net和盘古分词器实现全文检索

Lucene.Net Lucene.Net

使用Lucene.Net实现全文检索

Lucene.NET

Lucene 盘古分词

Lucene.Net 使用于情绪分析 ( Opinion Mining )

Lucene.NET全文搜索详细使用与详解

jieba.NET与Lucene.Net的集成

Lucene.Net 成为Apache的顶级项目

Lucene.net 全文检索文件

[实验] 使用 Lucene.net 开启 leading wildcard 搜寻 2w 笔姓名

使用Lucene.Net做一个简单的搜索引擎-全文索引

C#实战Microsoft Messaging Queue(MSMQ)消息队列(干货) 完整的站内搜索Demo(Lucene.Net+盘古分词)

Lucene.net 全文检索数据库

Lucene.net实现高性能读写

Lucene.Net 3.0.3如何从TokenStream中获取token对象

Code Index: 基于Lucene.Net的代码检索工具

lucene使用hanlp分词

Lucene使用IKAnalyzer分词

Lucene.net(4.8.0) 学习问题记录六：Lucene 的索引系统和搜索过程分析

lucene.net 高级应用之排序、设置权重、优化、分布式搜索

Lucene 分词

再传即刻搜索和盘古搜索合并，真假已不重要

C#编写了一个基于Lucene.Net的搜索引擎查询通用工具类：SearchEngineUtil

MVC5 框架配置盘古分词

盘古分词,记灵一下

中文分词 mmseg4j 在 lucene 中的使用示例

Lucene 中文分词器 Ik-Analyzer 使用教程

Lucene学习（三）使用IK 分词器

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)