天天听别人说Python爬虫,那它到底是什么

作者:Insist--

个人主页:insist--个人主页

作者会持续更新网络知识和python基础知识,期待你的关注

目录

一、Python爬虫是什么

二、爬虫有什么作用?

1、搜集数据

2、秒杀商品

3、搜索引擎

三、爬虫的分类

1、通用网络爬虫

2、聚焦网络爬虫

3、增量式网络爬虫

四、爬虫的工作原理

1、发起请求

2、获取响应内容

3、解析内容

4、保存数据


前言

本文来谈谈爬虫是什么,它的作用、分类以及工作原理。

一、Python爬虫是什么

d83cdf3ebb584b63a09bd570ea24eb3a.jpg

Python爬虫也叫网络爬虫,它是一种程序。它可以通过程序模拟浏览器请求站点的行为,从技术层面来说就是通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频)爬到本地,进而提取自己需要的数据,存放起来使用。

简单来说,爬虫就是帮助我们获取网络资源的一种程序。

二、爬虫有什么作用?

1、搜集数据

爬虫可以用来抓取网络上的数据,当你的同事还在百度疯狂找材料的时候,你已经使用爬虫爬到了。

2、秒杀商品

参与各种秒杀活动,包括但不限于在各种电商网站上抢商品,优惠券,抢机票和火车票。当你还在卡点手动抢的时候,别人已经挂好程序了。这就是你为什么会慢人一步的原因。

3、搜索引擎

比如百度、谷歌的搜索引擎都是基于爬虫技术。

三、爬虫的分类

1、通用网络爬虫

是搜索引擎的重要组成部分,通用网络爬虫需要遵守 robots 协议,网站通过此协议告诉搜索引擎哪些页面可以抓取,哪些页面不允许抓取。

2、聚焦网络爬虫

面向特定需求的一种网络爬虫程序。它与通用爬虫的区别在于,聚焦爬虫在实施网页抓取的时候会对网页内容进行筛选和处理,尽量保证只抓取与需求相关的网页信息。聚焦网络爬虫极大地节省了硬件和网络资源,由于保存的页面数量少所以更新速度很快,这也很好地满足一些特定人群对特定领域信息的需求。

3、增量式网络爬虫

指对已下载网页采取增量式更新,它是一种只爬取新产生的或者已经发生变化网页的爬虫程序,能够在一定程度上保证所爬取的页面是最新的页面。

四、爬虫的工作原理

1、发起请求

通过HTTP协议向目标站点发送请求(一个request),然后等待目标站点服务器的响应。

2、获取响应内容

如果服务器能正常响应,会得到一个Response。Response的内容便是所要获取的页面内容,响应的内容可能有HTML,Json串,二进制数据(如图片视频)等等。

3、解析内容

得到的内容可能是HTML,可以用正则表达式、网页解析库进行解析;可能是Json,可以直接转为Json对象解析;可能是二进制数据,可以做保存或者进一步的处理。

4、保存数据

数据解析完成后,将保存下来。既可以存为文本文档、可以存到数据库中。

猜你喜欢

转载自blog.csdn.net/m0_73995538/article/details/131895138