分词jieba和LAC的对比使用记录

就为了尝试对比jieba和lac,折腾了一天。记录一下。出于项目需要,打算采用LAC作为主要分词工具了。

jieba

首先说一下jieba,这个安装使用都比较简单,推荐的也比较多,比如在《python中文自然语言处理基础与实战》一书中,就是推荐了jieba。

重要依赖包:paddle-tiny。 但是paddle-tiny最后更新于2019年,有点旧。

比lac强的是,安装简单一点,lac的安装坑简直是让我无语。

比lac弱的是,没有重要性标注(目前我没发现这个功能)。

LAC

安装说明(重要)

1,依赖于paddlepaddle,目前不支持最新的python版本!比如现在python是3.10,对不起,不支持。具体支持哪个版本,看pypi上的文档介绍。

2,必须使用64位的python。32位对不起,不支持。

由于以上两点,我没注意到,浪费了半天时间调试错误。

LAC不需要联网,本地运行即可获得分词、词性标注、重要性标注结果。已经经过断网测试。单句子运算需要0.3秒,时间开销略大,但是也在接受范围内,时间开销如下图。

猜你喜欢

转载自blog.csdn.net/chenggong2dm/article/details/122566977