Python基于WordCloud词云图的数据可视化分析词云图的基本使用政府工作报告分析

文章目录

1、词云图简介
2、wordcloud库的安装
3、WordCloud的主要参数说明

1、词云图简介

词云图，也叫文字云，是对文本数据中出现频率较高的“关键词”在视觉上予以突出，形成“关键词的渲染”，类似于云一样的彩色图片，会过滤掉大量的低频低质的文本信息，使人一眼就可以看出文本数据的主要表达意思。

2、wordcloud库的安装

首先在命令行中使用 pip install wordcloud看是否能安装成功
如果使用命令行的方式安装失败，则可以使用以下的方式安装

首先打开网站

https://www.lfd.uci.edu/~gohlke/pythonlibs/

ctrl+f查找包名
下载对应的python版本的文件
在对应目录下，输入命令pip install 下载的包文件名

这样就安装成功了！

3、WordCloud的主要参数说明

参数名	解释
background_color	输出的背景颜色
mask	array形式的轮廓图片，如果参数为空，则使用二维遮罩绘制词云
font_path	字体路径
max_words	词云图的最大词语数量
stopwords	停用词列表
font_step	字体字号的步进间隔，默认是1

4、绘制词云图

接下来，我们对这个政府工作报告做一个词云图分析
在这里插入图片描述

1、获取并处理文本信息

from matplotlib import pyplot as plt
import jieba
import wordcloud as wc
from PIL import Image
import numpy as np

# 获取文本内容
word = open('../first_work/assets/aaa.txt', 'r', encoding='utf-8').read()
# 用结巴分词后，用空格隔开，因为词云以空格为分隔符
word = ' '.join(jieba.cut(word,cut_all=False))

2、将白底的轮廓图片转换成array形式

# 注意图片得是白底的
img_arr = np.array(Image.open('LOVE.jpg')) # 将图片转换成数组形式

在这里插入图片描述

3、生成词云并保存成文件

cloud = wc.WordCloud(
	background_color='white',  # 输出白色背景
	mask=img_arr,  # 数组格式的img，定义轮廓
	font_path='../first_work/assets/微软雅黑.ttf',
	width=800,
	height=800,
	max_words=200,  # 词云图的最大词语数量
	stopwords=[],  # 被排除词的列表
	font_step=1  # 字体字号的步进间隔，默认是1
	)
# 根据字符串文本,使用generate方法生成词云
cloud.generate(word)
# 通过matplotlib将词云展示出来
plt.imshow(cloud.to_image())
plt.axis('off')  # 去除坐标轴
# plt.savefig('wordcloud.jpg')    # 必须在show方法执行前调用！！！
plt.show()
# 将词云保存成jpg格式文件
cloud.to_file('wordcloud.jpg')

最终效果图如下：
在这里插入图片描述
以上就是本次代码分享，觉得不错的朋友可以点个赞关注一下！