常见中文分词列举

1、 HTTPCWS – 基于HTTP协议的开源中文分词系统

基于ICTCLAS 3.0 共享版,分词精度98.45%。可以采用HTTP方式调用借口。

网址: http://blog.s135.com/httpcws_v100/

2、 SCWS – 简易中文分词系统

采用的是自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集,经小范围测试大概准确率在 90% ~ 95% 之间。

网址: http://www.ftphp.com/scws/

3、PhpanAlysis – PHP无组件分词系统

PhpanAlysis分词系统是基于字符串匹配的分词方法 ,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。
网址: http://www.itgrass.com/phpanalysis/

4、结巴分词
https://pypi.org/project/jieba/
分词效果也比较好,加停词表,加字典也比较容易。可以过滤词性、统计词频(tf-idf),功能完整,效果不错,用起来简单。

5、HanLP
http://hanlp.linrunsoft.com/
全称Han Language Processing

6、snownlp
python语言
直接用pip安装,比较简单

7、LTP
哈工大
有Java也有python
需要Visual C++
8、ansj分词器
Java语言
https://github.com/NLPchina/ansj_seg

9、pynlpir分词
中科院计算所
python语言
https://github.com/NLPIR-team/NLPIR

10、thulac分词
清华大学
python语言,Java语言也有

个人搜索引擎项目:
海豚搜索 www.haiteem.com
联系我:
在这里插入图片描述

我也是一个歌手哦 网易云主页

猜你喜欢

转载自blog.csdn.net/qq_37261785/article/details/108235006