Python基于WordCloud词云图的数据可视化分析 词云图的基本使用 政府工作报告分析

Python基于WordCloud词云图的数据可视化分析 词云图的基本使用 政府工作报告分析

1、词云图简介

词云图,也叫文字云,是对文本数据中出现频率较高的“关键词”在视觉上予以突出,形成“关键词的渲染”,类似于云一样的彩色图片,会过滤掉大量的低频低质的文本信息,使人一眼就可以看出文本数据的主要表达意思。

2、wordcloud库的安装

首先在命令行中使用 pip install wordcloud看是否能安装成功
如果使用命令行的方式安装失败,则可以使用以下的方式安装

  1. 首先打开网站

https://www.lfd.uci.edu/~gohlke/pythonlibs/

  1. ctrl+f查找包名
    在这里插入图片描述

  2. 下载对应的python版本的文件
    在这里插入图片描述

  3. 在对应目录下,输入命令pip install 下载的包文件名
    在这里插入图片描述
    这样就安装成功了!

3、WordCloud的主要参数说明

参数名 解释
background_color 输出的背景颜色
mask array形式的轮廓图片,如果参数为空,则使用二维遮罩绘制词云
font_path 字体路径
max_words 词云图的最大词语数量
stopwords 停用词列表
font_step 字体字号的步进间隔,默认是1

4、绘制词云图

接下来,我们对这个政府工作报告做一个词云图分析
在这里插入图片描述

1、获取并处理文本信息

from matplotlib import pyplot as plt
import jieba
import wordcloud as wc
from PIL import Image
import numpy as np

# 获取文本内容
word = open('../first_work/assets/aaa.txt', 'r', encoding='utf-8').read()
# 用结巴分词后,用空格隔开,因为词云以空格为分隔符
word = ' '.join(jieba.cut(word,cut_all=False))

2、将白底的轮廓图片转换成array形式

# 注意图片得是白底的
img_arr = np.array(Image.open('LOVE.jpg')) # 将图片转换成数组形式

在这里插入图片描述

3、生成词云并保存成文件

cloud = wc.WordCloud(
	background_color='white',  # 输出白色背景
	mask=img_arr,  # 数组格式的img,定义轮廓
	font_path='../first_work/assets/微软雅黑.ttf',
	width=800,
	height=800,
	max_words=200,  # 词云图的最大词语数量
	stopwords=[],  # 被排除词的列表
	font_step=1  # 字体字号的步进间隔,默认是1
	)
# 根据字符串文本,使用generate方法生成词云
cloud.generate(word)
# 通过matplotlib将词云展示出来
plt.imshow(cloud.to_image())
plt.axis('off')  # 去除坐标轴
# plt.savefig('wordcloud.jpg')    # 必须在show方法执行前调用!!!
plt.show()
# 将词云保存成jpg格式文件
cloud.to_file('wordcloud.jpg')

最终效果图如下:
在这里插入图片描述
以上就是本次代码分享,觉得不错的朋友可以点个赞关注一下!