数据分析达人赛 —— 用户情感可视化分析

前言

一、赛题介绍

二、词云图

前言

数据可视化主要旨在借助于图形化手段，清晰有效地传达与沟通信息，能够提高数据分析的效率，能够进行更好地从结果追溯原因,帮助运营决策。

一、赛题介绍

赛题以网络舆情分析为背景，要求选手根据用户的评论来对品牌的议题进行数据分析与可视化。通过这道赛题来引导常用的数据可视化图表，以及数据分析方法，对感兴趣的内容进行探索性数据分析。

二、词云图

1.读取数据

import re  # 正则表达式库                 
import collections  # 词频统计库
import numpy as np  
import jieba  # 结巴分词
import wordcloud  # 词云展示库
from PIL import Image  # 图像处理库
import matplotlib.pyplot as plt  
import pandas as pd
df=pd.read_csv('/earphone_sentiment.csv')
df.head()

2.可视化

# 提取相应类别的数据
posdata = df[df['sentiment_value']==1]
neudata = df[df['sentiment_value']==0]
negdata = df[df['sentiment_value']==-1]
# 去停用词、以posdata为例
words1=''.join(posdata['content'])
pattern = re.compile(u'\t|\n|\.|-|一|:|;|\)|\(|\?|"')  # 建立正则表达式匹配模式
string_data1 = re.sub(pattern, '', words1) # 将符合模式的字符串替换
seg_list_exact = jieba.cut(string_data1, cut_all=False)
stop_path =open('/stoplist.txt','r',encoding='utf-8') 
remove_words= stop_path.readlines()
remove_words=[x.replace('\n','')for x in remove_words ]
remove_words.append(' ')
object_list = [i for i in seg_list_exact if i not in remove_words] # 将不在去除词列表中的词添加到列表中
word_counts = collections.Counter(object_list)  # 对分词做词频统计
#词云图
plt.rcParams['font.sans-serif'] = ['SimSun'] # 修改字体为宋体
mask = np.array(Image.open('/39.jpeg'))  # 定义词频背景
wc = wordcloud.WordCloud(
    font_path='C:/Windows/Fonts/simhei.ttf',  # 设置字体格式
    mask=mask,  # 设置背景图
    max_words=100,  # 设置最大显示的词数
    max_font_size=100  # 设置字体最大值
)
wc.generate_from_frequencies(word_counts)  # 从字典生成词云
image_colors = wordcloud.ImageColorGenerator(mask)  # 从背景图建立颜色方案
wc.recolor(color_func=image_colors)  # 将词云颜色设置为背景图方案
plt.figure(figsize=(10,8))  #显示图片大小
plt.title('正向词云',fontstyle='oblique',fontsize='30',fontweight='heavy',alpha=0.8)
plt.imshow(wc)  # 显示词云
plt.axis('off')  # 关闭坐标轴

三、相关性热力图

# 数据透视表
df_pivot_tabel = df.pivot_table(index='sentiment_value', columns='subject', values='sentiment_word',aggfunc=len)
df_pivot_tabel

import seaborn as sns
plt.figure(figsize=(12,10))
sns.heatmap(df_pivot_tabel.corr(),vmax=0.9,linewidths=0.05,cmap="YlGnBu_r",annot=True)

四、不同主题，不同情感，不同情感词可视化

对于需要大量可视化的数据，本人还是比较喜欢用第三方工具实现，更加方便、高效。

总结

1. 本次比赛是一次不错的学习处理文本的机会，文本也是数据结构的一种，有时候数据的处理不仅仅是结构化的数据，还有可能面临非结构化的数据，多学习一些处理方式只会带来好处。

2. Python可以很好的支持大数据分析、挖掘、机器学习等方面的处理，如果是在处理数据的过程中需要一些可视化来帮助判断的话，用Python实现可视化是一个比较不错的选择，毕竟python也有很多强大的第三方图库，比如matplotlib、seaborn、plotly、pyechart等，但如果是需要对处理后的数据进行批量可视化进行展示，还是建议用power bi、tableau等第三方工具更方便。

数据分析达人赛 —— 用户情感可视化分析

前言

一、赛题介绍

二、词云图

1.读取数据

2.可视化

三、相关性热力图

四、不同主题，不同情感，不同情感词可视化

总结

猜你喜欢