在访问某一网站时,其URL的开头会有http或https,它就是访问资源所使用的协议类型。有时,我们还会看到ftp、sftp、smb开头的URL,这些都是协议类型。在爬虫中,我们抓取的页面通常就是http或https协议的。
一、HTTP
HTTP的全称是Hyper Text Transfer Protocol,即超文本传输协议。HTTP协议是用于从网络传输超文本数据到本地浏览器的传送协议,它能保证高效而准确地传送超文本文档。目前广泛使用的是HTTP 1.1版本。
二、HTTPS
HTTPS的全称是Hyper Text Transfer Protocol over Secure Socket Layer,是以安全为目标的HTTP通道,即安全版的HTTP。它在HTTP下加入了SSL层,简称HTTPS。
1)HTTPS的安全基础是SSL,因此使用HTTPS协议传输的内容都是经过SSL加密的,主要作用如下:
- 建立一个信息安全通道来保证数据传输的安全。
- 确认网站的真实性,凡是使用了HTTPS的网站,都可以通过点击浏览器地址栏的锁头标志来查看网站认证之后的真实信息,也可以通过CA机构颁发的安全签章来查询。
2)某些网站虽然使用了HTTPS协议,但还是会被浏览器提示不安全,这是因为它的CA证书是自己签发的,而这个证书是不被CA机构信任的,所以会提示不安全。但它的数据传输依然是经过SSL加密的。
3)如果使用爬虫爬取采用HTTPS协议的站点,就需要设置忽略CA证书的选项,否则会提示SSL链接错误。