NLP 简单统计

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_35774189/article/details/84557386

1、变量名必须以字母开头,可以包含数字和下划线,名称是区分大小写的,变量名不能游空格,可以 用下划线 ( _ ) 把单词分开

2、利用FreqDist寻找文本中最常见的50个词:

第89行 计算whale出现的次数

累积频率图

计算文本中每个词的长度:

fdist.keys() 只有20个不同的元素(说明只有20种不同的词长)

fdist.freq(3) 表示 词长为3的词占比

例子 描述
fdist=FreqDist(samples) 创建包含给定样本的频率分布
fdist.inc(sample) 增加样本
fdist['monstrous'] 计数给定样本出现的次数
fdist.freq('monstrous') 给定样本的频率
fdist.N() 样本总数
fdist.keys() 以频率递减顺序排序的样本链表
for sample in fdist: 以频率递减的顺序遍历样本
fdist.max() 数值最大的样本
fdist.tabulate() 绘制频率分布表
fdist.plot() 绘制频率分布图
fdist.plot(cumulative=True) 绘制累积频率分布图
fdist1 < fdist2 测试样本在fdist1中出现的频率是否小于fdist2

猜你喜欢

转载自blog.csdn.net/qq_35774189/article/details/84557386
NLP