菊姐火了,用Python分析一下菊粉都是哪些人,哪些地方的!

 

 

 

 

这里的海外指大陆+港澳台以外的其他所有地方。

除海外用户以外就北上广的用户最多了,这些地方的互联网用户基数本来就大。

 

 

 

 

 

数据抓取

先讲讲数据抓取的逻辑,最终目的就是要找到pick王菊的人都是哪些人,刚开始想的是直接抓取王菊的粉丝列表,但是后来发现微博数据有限制,只能抓取少量的粉丝列表,所以这个方案行不通,只能换下一个。

 

可以看到,有评论text,以及每一条text对应的user_id,找到了字段位置,我们再来看看这些字段对应url是什么,有什么规律。

 

 

 

 

获取containerid

获取到了user_id以后,我们再来看看我们想要获取的字段在哪,如下图,

 

知道了我们想要获取的字段在哪以后,再看看这些字段对应的url是什么?

 

最后的结果如下表:

 

可以看到,年龄和星座为空,并不是摩羯座,且当年龄和星座为空时,所在地就会错位到年龄列,接下来就做一些数据预处理。

 

 

 

当然了,最后结果只是右半部分,左半部分是为了对比后期PS加上去的。具体实现代码如下:

 

这里分词没有用jieba分词,而是用了fool,据称是最准确的中文分词包,github地址:https://github.com/rockyzhengwu/FoolNLTK。

饼图绘制

饼图就很简单了,代码如下:

绘制男女比例的饼图

user_info1["性别"].value_counts(normalize = True).plot.pie(title = "菊粉男女分布",autopct='%.2f')

 

 

地图绘制

 

 

 

 

 

 

进群:125240963  即可获取数十套PDF哦!

 

 

猜你喜欢

转载自www.cnblogs.com/PY1780/p/9284198.html