NLP 利器 gensim 库基本特性介绍和安装方式

试用了一下 gensim 效果确实不错,而且操作比较简洁,所以觉得应该推广一下

本篇简介的内容皆翻译自官网,有兴趣的可以自行查阅英文信息:

gensim官网

Gensim 是一个 免费 的 Python 库

一、3大任务:

  • 可扩展的统计语义
  • 分析纯文本文档的语义结构
  • 检索语义相似的文档

二、8大特点:

1.1 可扩展性 Scalability

Gensim 可以处理大量的,互联网尺度的语料,使用的是增量在线训练算法。

不需要把所有的训练语料一次加载到内存中。

1.2 高效实施 Efficient implementations

Gensim 中的核心算法使用高度优化的数学例程。

Gensim 还包含几种算法的分布式版本,旨在加快机器集群上的处理和检索速度。

1.3 不依赖平台 Platform independent

Gensim 基于纯 Python,可在 Linux,Windows 和 OS X 以及任何其他支持 Python 和 NumPy 的平台上运行。

1.4 转换器和I/O格式 Converters & I/O formats

Gensim 包含对几种流行数据格式的内存高效实现:Matrix Market,SVMlight,Blei’s LDA-C …

这些可用于输入,输出或在彼此之间转换。

1.5 健壮性 robust

Gensim 已被各种人员和组织用于各种系统中超过4年。

开源项目最初的阶段已经过去了。

1.6 相似性查询 similarity queries

作为主题建模 topic modelling 很自然的下一步,Gensim 还包含用于在语义表示中 快速索引文档,以及 检索局部相似文档 的代码。

1.7 开源 open source

GNU LGPL 许可证允许个人和商业使用,前提是对 Gensim 本身的任何修改又是开源的。

其他模式(双重许可)也是可能的。

1.8 支持 Support

Gensim通过社区努力得到支持和维护。

请参阅支持页面,以获取有关使用邮件列表,教程,常见问题解答,代码托管和贡献者说明的信息。

三、安装

3.1 快速安装的 2 种方式

在终端运行:

pip install --upgrade gensim

或者使用 conda:

conda install -c conda-forge gensim

3.2 代码依赖

Gensim 可以 运行在 Linux, Windows and Mac OS X 上。

也可以运行在任何支持 Python 2.7 or 3.5+ 和 NumPy 的平台。

Gensim 所需依赖:

  • Python, 在 2.7, 3.5, 3.6 和 3.7 上均测试过。
  • NumPy 用于数字运算。
  • smart_open 用于用于透明地打开压缩文件或远程存储文件。

猜你喜欢

转载自blog.csdn.net/qq_42067550/article/details/106434190