如何证明我Python爬虫是否入门?

如何证明我Python爬虫是否入门?

 

一、爬虫

如何证明我Python爬虫是否入门?

 

若互联网是一张大的蜘蛛网,数据就存放在蜘蛛网的各个节点,那么爬虫就是一只小蜘蛛,

沿着网络(蜘蛛网)抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序。

二、爬虫的基本流程

获取网络数据的方式有两种:

  1. 浏览器提交请求(你在浏览器输入框输入数据然后查找的过程)--->下载网页代码--->解析成页面
  2. 模拟浏览器发送请求(获取网页代码)->提取对我们有用的数据->存放在数据库或者文件中

爬虫要做的就是第二种方式

如何证明我Python爬虫是否入门?

 

1、发起请求

利用http库向目标网站发起请求,就是发送一个Request请求,Request模块包含:请求头、请求体等 ,有不能执行JS 和CSS 代码等缺点。

2、获取响应内容

当服务器正常响应,就会得到一个Response(返回),Response包括:html,图片,json,视频等

3、解析内容

解析html数据:正则表达式(RE模块),第三方解析库pyquery,Beautifulsoup等

解析json数据:json模块

解析二进制数据:用wb的方式写入文件

4、保存数据

数据库(MySQL,Redis,Mongdb)

文件

import re

import urllib

import urllib.request

from collections import deque

三、http协议 请求与响应

如何证明我Python爬虫是否入门?

 

Request:用户将自己的信息通过浏览器(socket client)发送给服务器(socket server)

如何证明我Python爬虫是否入门?

 

四、 request

1、请求方式:

常见的请求方式:GET / POST

如何证明我Python爬虫是否入门?

 

网页的加载过程:

如何证明我Python爬虫是否入门?

 

3、请求头

如何证明我Python爬虫是否入门?

 

一般做爬虫都会加请求头

如何证明我Python爬虫是否入门?

 

如何证明我Python爬虫是否入门?

 

如何证明我Python爬虫是否入门?

 

请求头需要注意的参数:

如何证明我Python爬虫是否入门?

 

4、请求体

如何证明我Python爬虫是否入门?

 

如何证明我Python爬虫是否入门?

 

五、 响应Response

1、响应状态码

如何证明我Python爬虫是否入门?

 

2、respone header

响应头需要注意的参数:

如何证明我Python爬虫是否入门?

 

3、preview就是网页源代码

如何证明我Python爬虫是否入门?

 

六、总结

Python爬虫流程:

爬取--->解析--->存储

那么怎样的案例最好证明是否入门呢?请看下面示例!

如何证明我Python爬虫是否入门?

 

这个Python爬虫案例非常简单,也非常有证明力,你没学肯定看不懂,然而你只不过是个偶尔看了两个教程,那么你也未必看得懂。

如何证明我Python爬虫是否入门?

猜你喜欢

转载自www.cnblogs.com/q1613161916/p/9247083.html