NLP专业术语及工具【hanlp、jiolp】

NLP专业术语

缩写 术语 中文 描述
tok Tokenization 分词 将文本切分成独立的语义单位,通常是单词或标点符号等。
pos Part-of-Speech Tagging 词性标注 每个单词标注语法类别,例如名词、动词、形容词等。
ner Named Entiy Recognition 命名实体识别 识别文本中的专有名词,如人名、地名、机构名等。
dep Dependency Parsing 依存句法分析 分析单词之间的语法依赖关系,确定它们在句子中的功能和关系。
con Consituency Parsing 成分句法分析 分析句子在语法上的递归构成,通常表示为树形结构。
srl Semantic Role Labeling 语义角色标注 分析句子的谓词论元结构,即识别谓词和其对应的论元(如施事者、受事者等)。
sdp Semantic Dependency Parsing 语义依存分析 分析句子中单词之间的语义关系,通常表示为有向无环图。
amr Abstract Meaning Representation 抽象意义表示 将句子的意义表示为以概念为节点的单源有向无环图,用于跨语言的语义表示。
lem Lemmatization 词形还原 将单词转换为其基本形式或词根形式的过程。
例如,将动词的过去式、现在分词和过去分词等形式还原为基本动词形式。这有助于减少单词的不同形式带来的复杂性,使得文本处理更加一致和高效。
fea Feature 特征 通常指单词或短语的属性或属性集合
- 形态学特征:如词性(名词、动词、形容词等)、时态(过去时、现在时、将来时)、格(主格、宾格等)、数(单数、复数)等。
- 语义特征:如词义、词义关系(同义、反义、上下义等)。
- 句法特征:如依存关系、句法角色(主语、宾语、定语等)。
- 文本特征:如词频、TF-IDF(词频-逆文档频率)等,这些特征常用于文本分类、文本聚类等任务。
sts Semantic Textual Similarity 语义文本相似性 从语义上比较2段文本的相似性
word2vec Word2Vec是一系列模型架构和优化,可用于从大型未标记数据集中学习词嵌入。在本文中,它被狭义地定义为将离散词映射到密集向量的分布式表示的组件。
word2vec.most_similar(‘上海’) – 广州、北京、上海
word2vec.most_similar(‘非常寒冷’, doc2vec=True)–阴冷
glove Global Vectors for Word Representation 一种用于生成词嵌入(word embeddings)的无监督学习算法。GloVe模型由斯坦福大学和Google的研究人员在2014年提出。它旨在捕捉单词之间的语义关系,并将这些关系表示为向量空间中的点。
FastText 由Facebook AI Research团队在2016年提出的一个词嵌入算法,它旨在提高文本分类和词向量学习的速度和效率

hanlp

hanlp 2.x功能

功能 RESTful 多任务 单任务 模型 标注标准
分词 教程 教程 教程 tok 粗分细分
词性标注 教程 教程 教程 pos CTBPKU863
命名实体识别 教程 教程 教程 ner PKUMSRAOntoNotes
依存句法分析 教程 教程 教程 dep SDUDPMT
成分句法分析 教程 教程 教程 con Chinese Tree Bank
语义依存分析 教程 教程 教程 sdp CSDP
语义角色标注 教程 教程 教程 srl Chinese Proposition Bank
抽象意义表示 教程 暂无 教程 amr CAMR
指代消解 教程 暂无 暂无 暂无 OntoNotes
语义文本相似度 教程 暂无 教程 sts 暂无
文本风格转换 教程 暂无 暂无 暂无 暂无
关键词短语提取 教程 暂无 暂无 暂无 暂无
抽取式自动摘要 教程 暂无 暂无 暂无 暂无
生成式自动摘要 教程 暂无 暂无 暂无 暂无
文本语法纠错 教程 暂无 暂无 暂无 暂无
文本分类 教程 暂无 暂无 暂无 暂无
情感分析 教程 暂无 暂无 暂无 [-1,+1]
语种检测 教程 暂无 教程 暂无 ISO 639-1编码

hanlp 1.x功能

JioNLP

JioNLP 是一个面向 NLP 开发者的工具包,提供 NLP 任务预处理、解析功能,准确、高效、零使用门槛。

功能 函数 描述 星级
查找帮助 help 若不知道 JioNLP 有哪些功能,可根据命令行提示键入若干关键词做搜索
车牌号解析 parse_motor_vehicle_licence_plate 给定一个车牌号,对其进行解析
时间语义解析 parse_time 给定时间文本,解析其时间语义(时间戳、时长)等
关键短语抽取 extract_keyphrase 给定一篇文本,抽取其对应关键短语
抽取式文本摘要 extract_summary 给定一篇文本,抽取其对应文摘
停用词过滤 remove_stopwords 给定一个文本被分词后的词 list,去除其中的停用词
分句 split_sentence 对文本按标点分句
地址解析 parse_location 给定一个包含国内地址字符串,识别其中的省、市、县区、乡镇街道、村社等信息
电话号码归属地
运营商解析
phone_location
cell_phone_location
landline_phone_location
给定一个电话号码(手机号、座机号)字符串,识别其中的省、市、运营商
新闻地名识别 recognize_location 给定新闻文本,识别其中的国内省、市、县,国外国家、城市等信息
公历农历日期互转 lunar2solar
solar2lunar
给定某公(农)历日期,将其转换为农(公)历
身份证号解析 parse_id_card 给定一个身份证号,识别对应的省、市、县、出生年月、
性别、校验码等信息
成语接龙 idiom_solitaire 成语接龙,即前一成语的尾字和后一成语的首字(读音)相同
色情数据过滤 - -
反动数据过滤 - -
体转 tra2sim 繁体转简体,支持逐字转最大匹配两种模式
体转 sim2tra 简体转繁体,支持逐字转最大匹配两种模式
汉字转拼音 pinyin 找出中文文本对应的汉语拼音,并可返回声母韵母声调
汉字转偏旁与字形 char_radical 找出中文文本对应的汉字字形结构信息,
包括偏旁部首(“河”氵)、字形结构(“河”左右结构)、
四角编码(“河”31120)、汉字拆解(“河”水可)、
五笔编码(“河”ISKG)
金额数字转汉字 money_num2char 给定一条数字金额,返回其汉字大写结果
新词发现 new_word_discovery 给定一语料文本文件,统计其中高可能成词

参考

hanlp预训练模型

猜你喜欢

转载自blog.csdn.net/penriver/article/details/140571561