微博粉丝走势监控-数据处理 - 代码天地

微博粉丝走势监控-数据处理

其他 2020-09-08 23:22:32 阅读次数: 0

数据处理

这里主要说一下处理超话的那些文字，主要采用正则

爬取下来的数据分为两个部分

1、排名
2、阅读，帖子，粉丝

排名

排名，不管是是什么排名都是“XX榜No.xx"，如果想要完整的，就直接不处理，毕竟榜单都不一样，留着也不错，我本人就没处理，如果只想要排名

import re
rank = re.match('.*榜No\.(\d*)', text).group(1)

text为爬取的文本，即“XX榜No.xx"，rank为排名具体数字

阅读，帖子，粉丝

因为这三个部分写在了一起，可以同时提取出来

result= re.match('阅读(\d*.{0,1}\d*[\u4E00-\u9FA5]+).*帖子(\d*.{0,1}\d*[\u4E00-\u9FA5]+).*粉丝(\d*.{0,1}\d*[\u4E00-\u9FA5]+)', nums）
read = result.group(1)
tiezi = result.group(2)
fans = result.group(3)

后记

这样获取到的结果后面是有单位的，比如粉丝多少万，浏览多少亿，如果想要把单位换成纯数字，就可以设置一个判断，获取那个字符，让对应数字乘多少倍，如果想要具体数字，而不是这种精确到万这种的，那就要去爬取网页版本了。

猜你喜欢

转载自blog.csdn.net/fuzizhu1/article/details/107712931

微博粉丝走势监控-数据处理

微博粉丝走势监控

微博粉丝走势监控-爬虫

微博粉丝走势监控-前端显示

监控告警数据处理流程

如何爬取微博的粉丝

利用MapReduce分析微博粉丝数

微博粉丝互粉列表统计

浅谈微博如何快速的增加粉丝

微博粉丝服务---“公众号”开发

微博粉丝、关注批量删除

用爬虫抓取新浪微博粉丝

为了知道胡歌粉丝的男女比率，爬了三百万微博数据

2023年怎么移除微博粉丝微博怎么批量移除粉丝方法

微博粉丝清理工具丨2023年最新粉丝批量清理_微博怎么批量清理粉丝

DKhadoop大数据处理平台监控数据介绍

监听微博粉丝消息并通知企微运营群

微博营销：4步教你粉丝上万

新浪微博中用户粉丝增长潜力研究

Java开发微博粉丝服务（2）——消息推送服务

企业认证微博刷粉丝是否会封号？

刷微博粉丝工具发布及原理解说

python爬取微博粉丝列表前20

微信小程序——页面数据处理

微信小程序数据处理

python爬取微博的粉丝列表、关注列表、微博文本列表

杨超越微博爬虫（微博文字+图片）粉丝信息待续

基于自然语言处理的微博数据抓取与分析

海量数据处理

数据处理

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)