写爬虫的思路

高内聚低耦合是写程序的大标准

下载爬虫

1,下载download-url(限制流量,requests随机IP,随机User-Agent)

2,存储save—url(存入mongocache)

3,生成url列表使用正则表达式抽取网址

控制网址的下载深度

检测网址是否下载过

使用队列进行广度优先搜索的下载

随机IP:

抓取代理网站

校验ip

猜你喜欢

转载自blog.csdn.net/qq_42467563/article/details/85639558
今日推荐