深入研究中文分词利器——Jieba

jieba的分词

  1. jieba安装后的位置:
    在这里插入图片描述
    可以修改里面的dict.txt文本,或者把自定义的词典直接改到这个目录,当jieba初始化的时候会创建索引。jieba.load_userdict()其实也是把额外的词典放加入的默认的词典里的。

使用jieba.load_userdict()的方式:
在这里插入图片描述
在这里插入图片描述
使用前没有把“区块链分开”,使用后就分开了。
还有另一种方法是直接修改默认的词典:
在这里插入图片描述
但是需要删除缓存,则运行原来的代码,jieba会重新构建:
在这里插入图片描述
效果如下:
在这里插入图片描述
参考:
jieba加载自定义大词典(100MB)太慢的问题:
https://www.jianshu.com/p/dbaa4421b4ce

jieba词性标注

jieba的词性,比如x代表字符串:
https://blog.csdn.net/bozhanggu2239/article/details/80157305

jieba提取关键字

使用tf-idf的方法

使用text rank的方法

发布了62 篇原创文章 · 获赞 11 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/real_ilin/article/details/103860091
今日推荐