学习python3，网络爬虫的过程（第二章爬虫基础）

2.1、HTTP基本原理
1、URI：统一资源标志符，包括：URL(网址):统一资源定位符，URN：统一资源名称
2、超文本hypertext：网页源码
3、HTTP和HTTPS：http（超文本传输协议）；https是以安全为目标的http通道，简单讲是http的安全版，即在http下加入ssl层
4、http请求过程：
这里写图片描述
5、请求：
由客户端向服务端发起，可以分为4个部分：请求方法（Request Methon）、请求的网址（Resquest URL）、请求头（Request Headers）、请求体（Resquest Body）
（1）请求方法：常见的请求方法：1、GET 2、POST
GET：通过URL网址传递信息，可以直接在URL网址上添加要传递的信息
POST：可以向服务器提交数据，是一种比较流行的比较安全的数据传递方式
PUT：请求服务器存储一个资源，通常要指定存储的位置
DELETE 请求服务器删除一个资源
HEAD 请求获取对应的Http报头信息
OPTIONS 可以获取当前Url所支持的请求类型
（2）请求网址：
即统一的资源定位符URL，它可以唯一确定我们想要的资源
（3）请求头
用来说明服务器要使用的附加信息，比较重要的信息有Cookie、Referer、User-Agent等
（4）请求体
一般承载内容是POST请求的表单数据，而对于GET请求，请求体则为空
6、响应
由服务端返回给客户端，可以分为三部分：响应状态码、响应头和响应体
（1）响应状态码：表示服务器的响应状态，如200表示正常访问，404表示未找到，500表示服务器错误
（2）响应头：包含了服务器对请求的应答信息
（3）响应体：响应正文的数据
2.2网页基础
1、网页组成
网页分为三大部分——HTML（骨架）、CSS（皮肤）和JavaScript（肌肉）。
（1）HTML（骨架）：描述网页的语言，即超文本标记语言，不同的元素通过不同的标签来表示
（2）CSS，全称叠层样式表，是目前唯一的网页页面排版样式标准
（3）JavaScript是一种脚本语言，实现实时、动态、交互的页面功能
2、网页结构
title标签定义网页标题，body标签是显示在正文中的内容。div标签定义了网页中的区块，
3、节点
4、选择器
2.3爬虫基本原理
1、爬虫概述
（1）获取网页：获取网页源码
（2）提起信息：分析网页源码
（3）保存信息：文本、数据库
（4）自动化程序：代替人操作
2、能抓取的字符串：HTML代码、JSON字符串4、二进制数据等
3、JavaScript渲染页面
2.4、会话、cookies及会话维持
2.5代理：
本机通过服务器向网站发送请求，实现ip伪装
分类：
FTP代理用于访问FTP服务器，一般有上传、下载、缓存功能，端口一般为21、2121等
HTTP代理：用于访问网页，端口一般为80、8080、3128等
SSL/TLS代理：用于访问加密网站、端口一般为443
RTSP代理：主要用于访问Real流媒体服务器，一般有缓存功能，端口一般为554
Telent代理：主要用于远程控住，端口一般为23
POP3/SMTP代理，一般收发邮件端口一般为110、25
SOCKS代理只单纯传递数据包，不关心具体协议和用法，速度快，端口一般为1080
常见代理：免费代理、付费代理和ADSL代理（拨一次号换一次IP）

学习python3，网络爬虫的过程（第二章爬虫基础）

猜你喜欢