Python爬虫第二篇--基础篇 - 代码天地

Python爬虫第二篇--基础篇

其他 2018-11-30 03:11:34 阅读次数: 0

爬虫概念

请求网站并提取数据的自动化程序。

爬虫基本流程

发起请求

通过HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的header等信息，等待服务器响应。
获取响应内容

如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能有HTML，Json字符串，二进制数据（如图片视频）等类型。
解析内容

得到的内容可能是HTML，可以用正则表达式、网页解析库进行解析。可能是Json，可以直接转换为Json对象解析，可能是二进制，可以做保存或进一步的处理。
保存数据

保存形式多样，可以存文本，可以存数据库或者特定格式的文件

在这里插入图片描述

Request

请求方式
- GET和POST
  - 区别就是GET把参数包含在URL中，POST通过request body传递参数
  - GET和POST两种基本请求方法的区别
- HEAD、PUT、DELETE、OPTIONS等
请求URL

URL全称统一资源定位符，如一个网页文档、一张图片、一个视频等都可以用URL唯一来确定
请求头

包含请求时的头部信息，如User-Agent、Host、Cookies等信息
请求体

Response

响应状态

有多种响应状态，如200代表成功、301代表跳转、404代表找不到页面、502服务器错误
响应头

如类容类型、内容长度、服务器信息、设置Cookie等等
响应体

最主要的部分包含了请求资源的内容，如网页HTML、图片、二进制等

request与response要和浏览器控制台中network中资源对应学习

爬虫抓取数据类型

网页文本

HTML、Json等
图片

二进制数据，保存为图片格式
视频

二进制数据，保存为视频格式
其他

只要是能请求的，都能获取

爬虫解析方式

直接处理
Json解析
正则表达式
BeautifulSoup
PyQuery
XPath

JavaScript渲染问题

分析Ajax请求
Selenium/WebDriver
Splash
PyV8、Ghost.py

数据保存

文本

纯文本、Json、xml等
关系型数据库

MySQL、Oracle、SQL Server等具有结构化表结构形式存储
非关系型数据库

如MongoDB、Redis等key-value形式存储
二进制文件

如图片、视频、音频等直接保存成特定格式

猜你喜欢

转载自blog.csdn.net/robothj/article/details/83109055

Python爬虫第二篇--基础篇

爬虫第二篇

第二篇：python基础

python数据挖掘第二篇-爬虫

爬虫-第二篇-数据解析

python学习[第二篇] 基础二

Python之路，第二篇：Python入门与基础3

Python之路，第二篇：Python入门与基础2

Python之路，第二篇：Python入门与基础4

Python之路【第二篇】：Python基础（一）

随笔标题：Python入门---[第二篇]基础语法

干货！！！———————Python基础教学第二篇

第二篇：python基础之核心风格

第二篇 Python基础入门，for与列表的认识

Python基础语法第二篇（持续更新中）

python基础知识第二篇

Python基础---面向对象第二篇

京东口罩爬虫，到货通知爬虫，自动下单爬虫、python爬虫第二篇

第二篇

『基础数论第二篇』

Linux第二篇基础的命令

java第二篇Java基础

Java基础第二篇 String

css基础---第二篇

py基础之路（第二篇）

第二篇 -- 软件测试基础

JavaScrip 基础第二篇

python开发第二篇

python初识第二篇

Python 第二篇《环境安装》

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)