02-网络爬虫的原理

你好,我是悦创。

通过前面的介绍,同学们已经弄清楚了爬虫是什么,它是干什么的。以及它的反爬和一些奇淫技巧,接下来我们就开始在技术层面上探究一下它是如何工作的。

image-20200716222523698

互联网上,公开数据(各种网页)都是以 http(或加密的 http 即 https )协议传输的。所以,我们这里介绍的爬虫技术都是基于http(https)协议的爬虫。

在 Python 的模块海洋里,支持 http 协议的模块是相当丰富的,既有官方的 urllib,也有大名鼎鼎的社区(第三方)模块 requests。它们都很好的封装了 http 协议请求的各种方法,因此,我们只需要熟悉这些模块的用法,不再进一步讨论 http 协议本身。

1. 认识浏览器和服务器

同学们对浏览器应该一点都不陌生,可以说,只要上过网的人都知道浏览器。可是,明白浏览器各种原理的同学可不一定多哦。

作为要开发爬虫的者,是一定一定要明白浏览器的工作原理的。这是你写爬虫的必备工具,别无他。

不知道的同学们在面试的时候,有没有遇到这么一个非常宏观而又处处细节的解答题:

  • 请说说从你在浏览器地址栏输入网站到你看到网页中间都发生了什么?

这真是一个考验知识面的题啊,经验老道的程序员既可以滔滔不绝的讲上三天三夜,也可以提炼出几分钟的精华讲个大概。而小白们恐怕对整个过程就一

猜你喜欢

转载自blog.csdn.net/qq_33254766/article/details/109126491
02-