爬虫+Python_抻透

1、爬虫架构:
在这里插入图片描述
2、运行流程:
在这里插入图片描述
3、URL管理器
3.1 功能
1)将新URL添加到爬取列表
2)判断是否重复
3)获取待爬取URL
4)判断是否有待爬取内容
5)将URL从待爬取到已爬取

3.2 实现方式
1)内存:set() 方法
2)关系数据库
3)缓存数据库redis:set

4、网页下载器
4.1 功能
将互联网的URL解析成HTML文件,存储到本地文件或内存字符串

4.2 基本插件

  1. Python基本模块:urllib2
    直接URL下载:urllib2.urlopen(url)
    将data、http、header添加成request对象:urllib2.urlopen(request)
    特殊场景处理器:
    HTTPCookieProcessor:处理cookie
    ProxyHandler:处理代理
    HTTPSHandler:处理https安全网页
    HTTPRedirectHandler:网页间URL相互跳转

  2. 第三方强大模块:requests

5、网页解析器
1)正则表达式
2)html.parser:自带
3)BeautifulSoup:第三方插件,可调用2)和4)
4)lxml

注:第一种是模糊匹配,后三种是结构化解析DOM。结构化解析是将网页分解为树形结构,并从中选取相应的元素部分。

猜你喜欢

转载自blog.csdn.net/weixin_43944004/article/details/89256602