python 爬虫《百炼成佛》爬虫入门 (爬虫介绍)第一个爬虫程序

爬虫《百炼成佛》

爬虫是什么?

爬虫:通过编写程序来获取到互联网上的资源百度
爬虫:通过编写程序来获取到互联网上的资源百度
需求:用程序模拟浏览器。输入一个网址.从该网址中获取到资源或者内容#python搞定以上需求。特别简单
需求:用程序模拟浏览器.输入一个网址.从该网址中获取到资源或者内容python搞定以上需求.特别简单

爬虫入门

1.1 第一式 小爬虫
第一个小爬虫案例:爬取一个网址主页内容
1.1 手刃一个小爬虫
第一个小爬虫案例:爬取一个网址主页内容

from urllib.request import urlopen

url = 'http://www.baidu.com'
resp = urlopen(url)
with open("baidu.html", mode="w", encoding="utf-8") as f:
    f.write(resp.read().decode("utf-8"))
    print("恭喜你离成佛又近啦一步,爬取成功")

1.2、web请求剖析

#1.服务器渲染:在服务器那边直接把数据和html整合在一起.统一返回给浏览器#在页面源代码中能看到数据
#1。服务器渲染:在服务器那边直接把数据和html整合在一起.统一返回给浏览器#在页面源代码中能看到数据
#2.客户端渲染:
#2。客户端渲染:

#第一次请求只要一个html骨架。第二次请求拿到数据。进行数据展示.
#第一次请求只要一个html骨架.第二次请求拿到数据.进行数据展示.

#在页面源代码中,看不到数据
#在页面源代码中,看不到数据
#熟练使用浏览器抓包工具
#熟练使用浏览器抓包工具

1.3、http协议

HTTP协议
协议:就是两个计算机之间为了能够流畅的进行沟通而设置的一个君子协定.常见的协议有TCP/IP. SOAP协议, HTTP协议,SMTP协议等等….…
片TTP协议, Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web)服务器传输超文本到本地浏览器的传送协议.直白点儿,就是浏览器和服务器之间的数据交互遵守的就是HTTP协议.
HTTP协议把一条消息分为三大块内容.无论是请求还是响应都是三块内容
请求

1请求行->请求方式请求url地址协议
2请求头-> 放一些服务器要使用的附加信息
3请求体->一般放一些请求参数

响应

1状态行->协议状态码
2响应头->放一些客户端要使用的一些附加信
3响应体->服务器返回的真正客户端要用的内容CHTML, json)等

请求头中最常见的一些重要内容(爬虫需要):

  1. User-Agent:请求载体的身份标识(用啥发送的请求)
  2. Referer:防盗链(这次请求是从哪个页面来的?反爬会用到)
  3. cookie:本地字符串数据信息(用户登录信息,反爬的token)

    响应头中一些重要的内容:|
    1.cookie:本地字符串数据信息(用户登录信息,反爬的token)
    2.各种神奇的莫名其妙的字符串(这个需要经验了,一般都是token字样,防止各种攻击和反爬)

请求方式:
GET: 显示提交
POST:隐示提交

有没有发现爬虫很简单
持续更行中
看下篇 、requests 请求更加精彩

猜你喜欢

转载自blog.csdn.net/hjjshua/article/details/124155462
今日推荐