NLP专业术语及工具【hanlp、jiolp】

NLP专业术语

缩写	术语	中文	描述
tok	Tokenization	分词	将文本切分成独立的语义单位，通常是单词或标点符号等。
pos	Part-of-Speech Tagging	词性标注	每个单词标注语法类别，例如名词、动词、形容词等。
ner	Named Entiy Recognition	命名实体识别	识别文本中的专有名词，如人名、地名、机构名等。
dep	Dependency Parsing	依存句法分析	分析单词之间的语法依赖关系，确定它们在句子中的功能和关系。
con	Consituency Parsing	成分句法分析	分析句子在语法上的递归构成，通常表示为树形结构。
srl	Semantic Role Labeling	语义角色标注	分析句子的谓词论元结构，即识别谓词和其对应的论元（如施事者、受事者等）。
sdp	Semantic Dependency Parsing	语义依存分析	分析句子中单词之间的语义关系，通常表示为有向无环图。
amr	Abstract Meaning Representation	抽象意义表示	将句子的意义表示为以概念为节点的单源有向无环图，用于跨语言的语义表示。
lem	Lemmatization	词形还原	将单词转换为其基本形式或词根形式的过程。例如，将动词的过去式、现在分词和过去分词等形式还原为基本动词形式。这有助于减少单词的不同形式带来的复杂性，使得文本处理更加一致和高效。
fea	Feature	特征	通常指单词或短语的属性或属性集合 - 形态学特征：如词性（名词、动词、形容词等）、时态（过去时、现在时、将来时）、格（主格、宾格等）、数（单数、复数）等。 - 语义特征：如词义、词义关系（同义、反义、上下义等）。 - 句法特征：如依存关系、句法角色（主语、宾语、定语等）。 - 文本特征：如词频、TF-IDF（词频-逆文档频率）等，这些特征常用于文本分类、文本聚类等任务。
sts	Semantic Textual Similarity	语义文本相似性	从语义上比较2段文本的相似性
word2vec			Word2Vec是一系列模型架构和优化，可用于从大型未标记数据集中学习词嵌入。在本文中，它被狭义地定义为将离散词映射到密集向量的分布式表示的组件。 word2vec.most_similar(‘上海’) – 广州、北京、上海 word2vec.most_similar(‘非常寒冷’, doc2vec=True)–阴冷
glove	Global Vectors for Word Representation		一种用于生成词嵌入（word embeddings）的无监督学习算法。GloVe模型由斯坦福大学和Google的研究人员在2014年提出。它旨在捕捉单词之间的语义关系，并将这些关系表示为向量空间中的点。
FastText			由Facebook AI Research团队在2016年提出的一个词嵌入算法，它旨在提高文本分类和词向量学习的速度和效率

hanlp

hanlp 2.x功能

功能	RESTful	多任务	单任务	模型	标注标准
分词	教程	教程	教程	tok	粗分、细分
词性标注	教程	教程	教程	pos	CTB、PKU、863
命名实体识别	教程	教程	教程	ner	PKU、MSRA、OntoNotes
依存句法分析	教程	教程	教程	dep	SD、UD、PMT
成分句法分析	教程	教程	教程	con	Chinese Tree Bank
语义依存分析	教程	教程	教程	sdp	CSDP
语义角色标注	教程	教程	教程	srl	Chinese Proposition Bank
抽象意义表示	教程	暂无	教程	amr	CAMR
指代消解	教程	暂无	暂无	暂无	OntoNotes
语义文本相似度	教程	暂无	教程	sts	暂无
文本风格转换	教程	暂无	暂无	暂无	暂无
关键词短语提取	教程	暂无	暂无	暂无	暂无
抽取式自动摘要	教程	暂无	暂无	暂无	暂无
生成式自动摘要	教程	暂无	暂无	暂无	暂无
文本语法纠错	教程	暂无	暂无	暂无	暂无
文本分类	教程	暂无	暂无	暂无	暂无
情感分析	教程	暂无	暂无	暂无	`[-1,+1]`
语种检测	教程	暂无	教程	暂无	ISO 639-1编码

hanlp 1.x功能

中文分词
- HMM-Bigram（速度与精度最佳平衡；一百兆内存）
  - 最短路分词、N-最短路分词
- 由字构词（侧重精度，全世界最大语料库，可识别新词；适合NLP任务）
  - 感知机分词、CRF分词
- 词典分词（侧重速度，每秒数千万字符；省内存）
  - 极速词典分词
- 所有分词器都支持：
词性标注
- HMM词性标注（速度快）
- 感知机词性标注、CRF词性标注（精度高）
命名实体识别
- 基于HMM角色标注的命名实体识别（速度快）
  - 中国人名识别、音译人名识别、日本人名识别、地名识别、实体机构名识别
- 基于线性模型的命名实体识别（精度高）
  - 感知机命名实体识别、CRF命名实体识别
关键词提取
- TextRank关键词提取
自动摘要
- TextRank自动摘要
短语提取
- 基于互信息和左右信息熵的短语提取
拼音转换
- 多音字、声母、韵母、声调
简繁转换
- 简繁分歧词（简体、繁体、臺灣正體、香港繁體）
文本推荐
- 语义推荐、拼音推荐、字词推荐
依存句法分析
- 基于神经网络的高性能依存句法分析器
- 基于ArcEager转移系统的柱搜索依存句法分析器
文本分类
- 情感分析
文本聚类
- KMeans、Repeated Bisection、自动推断聚类数目k
word2vec
- 词向量训练、加载、词语相似度计算、语义运算、查询、KMeans聚类
- 文档语义相似度计算
语料库工具
- 部分默认模型训练自小型语料库，鼓励用户自行训练。所有模块提供训练接口，语料可参考98年人民日报语料库。

JioNLP

JioNLP 是一个面向 NLP 开发者的工具包，提供 NLP 任务预处理、解析功能，准确、高效、零使用门槛。

功能	函数	描述	星级
查找帮助	help	若不知道 JioNLP 有哪些功能，可根据命令行提示键入若干关键词做搜索
车牌号解析	parse_motor_vehicle_licence_plate	给定一个车牌号，对其进行解析	⭐
时间语义解析	parse_time	给定时间文本，解析其时间语义（时间戳、时长）等	⭐
关键短语抽取	extract_keyphrase	给定一篇文本，抽取其对应关键短语	⭐
抽取式文本摘要	extract_summary	给定一篇文本，抽取其对应文摘
停用词过滤	remove_stopwords	给定一个文本被分词后的词 list，去除其中的停用词	⭐
分句	split_sentence	对文本按标点分句	⭐
地址解析	parse_location	给定一个包含国内地址字符串，识别其中的省、市、县区、乡镇街道、村社等信息	⭐
电话号码归属地、运营商解析	phone_location cell_phone_location landline_phone_location	给定一个电话号码（手机号、座机号）字符串，识别其中的省、市、运营商
新闻地名识别	recognize_location	给定新闻文本，识别其中的国内省、市、县，国外国家、城市等信息	⭐
公历农历日期互转	lunar2solar solar2lunar	给定某公（农）历日期，将其转换为农（公）历
身份证号解析	parse_id_card	给定一个身份证号，识别对应的省、市、县、出生年月、性别、校验码等信息	⭐
成语接龙	idiom_solitaire	成语接龙，即前一成语的尾字和后一成语的首字（读音）相同
色情数据过滤	-	-
反动数据过滤	-	-
繁体转简体	tra2sim	繁体转简体，支持逐字转与最大匹配两种模式
简体转繁体	sim2tra	简体转繁体，支持逐字转与最大匹配两种模式
汉字转拼音	pinyin	找出中文文本对应的汉语拼音，并可返回声母、韵母、声调	⭐
汉字转偏旁与字形	char_radical	找出中文文本对应的汉字字形结构信息，包括偏旁部首(“河”氵)、字形结构(“河”左右结构)、四角编码(“河”31120)、汉字拆解(“河”水可)、五笔编码(“河”ISKG)	⭐
金额数字转汉字	money_num2char	给定一条数字金额，返回其汉字大写结果
新词发现	new_word_discovery	给定一语料文本文件，统计其中高可能成词

参考

hanlp预训练模型

NLP专业术语及工具【hanlp、jiolp】

NLP专业术语

hanlp

hanlp 2.x功能

hanlp 1.x功能

JioNLP

参考

猜你喜欢