高内聚低耦合是写程序的大标准
下载爬虫
1,下载download-url(限制流量,requests随机IP,随机User-Agent)
2,存储save—url(存入mongocache)
3,生成url列表使用正则表达式抽取网址
控制网址的下载深度
检测网址是否下载过
使用队列进行广度优先搜索的下载
随机IP:
抓取代理网站
校验ip
高内聚低耦合是写程序的大标准
下载爬虫
1,下载download-url(限制流量,requests随机IP,随机User-Agent)
2,存储save—url(存入mongocache)
3,生成url列表使用正则表达式抽取网址
控制网址的下载深度
检测网址是否下载过
使用队列进行广度优先搜索的下载
随机IP:
抓取代理网站
校验ip