这一节,主要讲述配置文件configs.py中参数的含义,以及cookie的获取方式。
感兴趣的小伙伴可以 收藏 + 关注 哦!
另外,关于本项目的效果展示,以及教程,点击一下链接即可。
python爬取微博热门消息(一)——效果展示
python爬取微博热门消息(三)—— 爬取微博热门信息的功能函数
python爬取微博热门消息(四)—— 完整代码
目录
一、常用参数
1、url
url 即为我们热搜网址,是我们进行爬取的网址,该网址界面如下:
2、flag
扫描二维码关注公众号,回复:
12471944 查看本文章

flag 为bool型,取值为 True 或 False,是否爬取微博热搜所有的内容
- True: 爬取微博热搜的所有内容
- False: 爬取微博某个话题的内容
3、index
index为int型,取值为[0,50]。因为一页有50个热搜+top。爬取特定热搜,例如第2个热搜内容: ***, 则index = 2,便会直接爬取该热搜信息
4、str_time
当前时间, such as 2021-01-11_1551
二、执行过程
1、爬取所有内容
将参数flag设置为 True,运行即可
2、爬取特定内容
我们以‘ 6:迪丽热巴双马尾 ’为例
(1) 先将参数flag设置为 True,直到 information --> 2021-01-11_1746 --> topic.txt 文件生成即可停止运行;
(2) 再修改以下参数:
-- flag: False
-- index: 6
-- str_time: 2021-01-11_1746
注:有时候我们爬取下来的内容乱码,我们只需多次爬取乱码的热搜话题即可。
三、代码
configs.py
import argparse
def parse_args():
parser = argparse.ArgumentParser(description='trending topic of microblog')
# 热搜网址
parser.add_argument('--url', default='https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6')
# 全部内容 or 特定内容
"""
flag: True or False,是否爬取微博所有的内容
index: 爬取特定热搜,例如第2个热搜内容: ***, 则index = 2,便会直接爬取该热搜信息
str_time: 当前时间, such as 2021-01-11_1551
"""
parser.add_argument('--flag', default=False)
parser.add_argument('--index', default=6)
parser.add_argument('--str_time', default='2021-01-11_1746')
return parser.parse_args()