NLP学习（一）

其他 2019-04-19 11:15:13 阅读次数: 0

1.NLTK模块

在这里插入图片描述

2.常用操作

词密度-重复率

def lexical_diversity(text): #词密度-重复率
    return len(text) / len(set(text))

搜索单词

text1.concordance("monstrous")

搜索相似度

text1.similar("monstrous")

搜索共同上下文

text2.common_contexts(["monstrous", "very"])

查看词汇分布图

text4.dispersion_plot(["citizens", "democracy", "freedom", "duties", "America"])

在这里插入图片描述

3.统计方法

创建样本频率分布

fdist1 = FreqDist(text1) #以词汇本身作为索引值

输出索引值，即单词，并选择频率最高的50个

vocabulary1 = list(fdist1.keys())
print(vocabulary1[:50]) #50个最常出现的词

输出只出现过一次的索引值词汇

print(fdist1.hapaxes()) #获取只出现过一次的词汇

获取长词，高于15个长度，并进行排序

V = set(text4)
long_words = [w for w in V if len(w) > 15] #获取长词
sorted(long_words)
print(long_words)

获取长度大于7并且频率也大于7的词汇

fdist5 = FreqDist(text5)
sorted([w for w in set(text5) if len(w) > 7 and fdist5[w] > 7])#长度超过7并且出现的频率超过7

词语搭配，输出连词搭配

from nltk.util import bigrams #双连词
print(list(bigrams(['more', 'is', 'said', 'than', 'done'])))


print(text4.collocations()) #输出双连词搭配

4.其他统计方法

-以词频长度作为索引建立频率分布-输出索引值（即词语长度的分类） + 输出分布后经过频数统计的数值

fdist = FreqDist([len(w) for w in text1]) #词语长度的词频
print(fdist)
print(fdist.keys()) #查看索引值-即词语长度

print(fdist.items()) #输出统计后的数据

其他统计结果方法
-

猜你喜欢

转载自blog.csdn.net/hot7732788/article/details/89281763

NLP学习（一）

NLP学习笔记（一）

NLP学习（一）—基础篇

学习NLP第一课

NLP一 Python学习之Anaconda的安装

深度学习在NLP领域的发展（一）

nlp中的经典深度学习模型(一)

NLP（一）

NLP 笔记（一）：介绍 NLP

NLP | 简单学习一下NLP中的transformer的pytorch代码

NLP学习记录（一）图与树的基本概念

自然语言处理（NLP）-NLTK入门学习（一）

《NLP汉语自然语言处理原理与实践》学习一

NLP&深度学习：近期趋势概述（一）

【NLP学习笔记】（一）Gensim基本使用方法

GitChat 武博士深度学习与 NLP（一）阅读笔记

NLP技能树学习路线-（一）路线总览

NLP学习记录（零）

NLP学习笔记0427

NLP初步学习算法

Tokenization - NLP学习（1）

NLP卷积，TextCNN学习

NLP学习（三）-词典

NLP学习路径

nlp学习杂记

NLP学习博客推荐

NLP学习-----1

NLP学习笔记（ELMo）

NLP相关学习资料

我的nlp学习路线

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)