[NLP]OpenNLP介绍

目录

OpenNLP介绍

OpenNLP执行步骤

预训练模型


OpenNLP介绍

Apache OpenNLP库是一个基于机器学习的工具箱,用于处理自然语言文本。OpenNLP 支持大部分通用的NLP任务,例如分词、分句、词性标注、命名实体识别、分块、语法分析、语言检测、共指解析等。

OpenNLP项目的目标是为上述任务创建一个成熟的工具箱。另一个目标是为各种语言提供大量的预构建模型,以及这些模型派生的带注释的文本资源。

OpenNLP库包含多个组件,使之能够构建完整的自然语言处理管道。这些组件包括:句子检测器、标记器、名称查找器、文档分类程序、词性标记器、分块器、解析器、共指解析。组件包含一些部件,这些部件使我们能够执行各自的自然语言处理任务,训练模型,并且通常还可以评估模型。这些设施中的每一个都可以通过其应用程序接口(API)进行访问。此外,为了方便实验和训练,还提供了命令行界面(CLI)。

OpenNLP执行步骤

OpenNLP组件具有相似的API, 通常要执行任务,应该提供一个模型和一个输入。加载模型后,可以实例化工具本身;工具实例化后,可以执行处理任务。输入和输出格式是特定于工具的,但通常输出是字符串数组,而输入是字符串或字符串数组。

预训练模型

OpenNLP社区提供了许多已经训练好的模型,可以直接下载使用。

  1. SourceForge Models

http://opennlp.sourceforge.net/models-1.5/

 

    2.maven repository

http://maven.tamingtext.com/opennlp-models/models-1.5/

猜你喜欢

转载自blog.csdn.net/henku449141932/article/details/111041173
NLP