学习python3,网络爬虫的过程(第二章爬虫基础)

2.1、HTTP基本原理
1、URI:统一资源标志符,包括:URL(网址):统一资源定位符,URN:统一资源名称
2、超文本hypertext:网页源码
3、HTTP和HTTPS:http(超文本传输协议);https是以安全为目标的http通道,简单讲是http的安全版,即在http下加入ssl层
4、http请求过程:
这里写图片描述
5、请求:
由客户端向服务端发起,可以分为4个部分:请求方法(Request Methon)、请求的网址(Resquest URL)、请求头(Request Headers)、请求体(Resquest Body)
(1)请求方法:常见的请求方法:1、GET 2、POST
GET: 通过URL网址传递信息,可以直接在URL网址上添加要传递的信息
POST:可以向服务器提交数据,是一种比较流行的比较安全的数据传递方式
PUT:请求服务器存储一个资源,通常要指定存储的位置
DELETE 请求服务器删除一个资源
HEAD 请求获取对应的Http报头信息
OPTIONS 可以获取当前Url所支持的请求类型
(2)请求网址:
即统一的资源定位符URL,它可以唯一确定我们想要的资源
(3)请求头
用来说明服务器要使用的附加信息,比较重要的信息有Cookie、Referer、User-Agent等
(4)请求体
一般承载内容是POST请求的表单数据,而对于GET请求,请求体则为空
6、响应
由服务端返回给客户端,可以分为三部分:响应状态码、响应头和响应体
(1)响应状态码:表示服务器的响应状态,如200表示正常访问,404表示未找到,500表示服务器错误
(2)响应头:包含了服务器对请求的应答信息
(3)响应体:响应正文的数据
2.2网页基础
1、网页组成
网页分为三大部分——HTML(骨架)、CSS(皮肤)和JavaScript(肌肉)。
(1)HTML(骨架):描述网页的语言,即超文本标记语言,不同的元素通过不同的标签来表示
(2)CSS,全称叠层样式表,是目前唯一的网页页面排版样式标准
(3)JavaScript是一种脚本语言,实现实时、动态、交互的页面功能
2、网页结构
title标签定义网页标题,body标签是显示在正文中的内容。div标签定义了网页中的区块,
3、节点
4、选择器
2.3爬虫基本原理
1、爬虫概述
(1)获取网页:获取网页源码
(2)提起信息:分析网页源码
(3)保存信息:文本、数据库
(4)自动化程序:代替人操作
2、能抓取的字符串:HTML代码、JSON字符串4、二进制数据等
3、JavaScript渲染页面
2.4、会话、cookies及会话维持
2.5代理:
本机通过服务器向网站发送请求,实现ip伪装
分类:
FTP代理用于访问FTP服务器,一般有上传、下载、缓存功能,端口一般为21、2121等
HTTP代理:用于访问网页,端口 一般为80、8080、3128等
SSL/TLS代理:用于访问加密网站、端口一般为443
RTSP代理:主要用于访问Real流媒体服务器,一般有缓存功能,端口一般为554
Telent代理:主要用于远程控住,端口一般为23
POP3/SMTP代理,一般收发邮件端口一般为110、25
SOCKS代理只单纯传递数据包,不关心具体协议和用法,速度快,端口一般为1080
常见代理:免费代理、付费代理和ADSL代理(拨一次号换一次IP)

猜你喜欢

转载自blog.csdn.net/luslin/article/details/81628029