python爬虫（三）温习爬虫一些基本知识

其他 2020-02-16 14:09:15 阅读次数: 0

爬虫：

简单的说：获取网页并提取保存信息的自动化程序

request 四个基本信息

1.请求方式：
主要有get，post；两种另外还有head put delete options
2.请求URL:
URL全称统一资源定位符，如一个网页文档，一张图片，一个视频等都可以用url唯一确定
3.请求头：
包含请求时头部信息，如User-agent，Host Cookies等信息
4.请求体：
请求时额外携带的数据如表单提交时的表单数据

response四个基本信息

2.响应状态：多种响应状态，如200代表成功，301跳转，404找不到页面，502服务器错误
3.响应头：如内容类型，内容长度，服务器信息，设置cookie等等
4.响应体：最主要的部分，包含了请求资源的内容，如网页html，图片，二进制数据

爬虫可以抓取的数据

网页文本如html文档，json格式文本
图片，
视频
其他

解析方式：

1.直接处理
2.Json
3.正则表达式
4.BeatutifulSoup
5.PyQuery
6.XPath

怎样解决JavaScript渲染的问题

分析Ajax请求
Selenium/WebDriver
Splash
PyV8 Ghost.py

怎样保存数据

文本：纯文本，Json，xml
关系型数据库：Mysql，oracle sqlserver等具有结构化表结构形式存储
非关系型数据库：MongoDB，Redis等Key-Value形式存储
二进制文件：如图片、视频、音频等直接保存成特点格式即可

爬虫代理：

由于爬虫爬取速度比较快，爬取过程中可能遇到同一ip访问过于平凡的问题，此时网站就会让我们输入验证码登录或者直接封锁ip，因此使用代理隐藏真实的ip，这样来达到一个很好的爬取效果

至尊小涛丫

发布了63 篇原创文章 · 获赞 12 · 访问量 4055

私信关注

猜你喜欢

转载自blog.csdn.net/qq_45353823/article/details/104161956

python爬虫（三）温习爬虫一些基本知识

爬虫的一些基本知识（1）

python —— 一些基本知识

python爬虫基本知识

爬虫的基本知识

Python爬虫学习：一些关于爬虫的知识的充电

关于Python的一些基本知识（2）

python的爬虫基本知识介绍

ps的一些基本知识

CEF一些基本知识

vxworks一些基本知识

线程的一些基本知识

vscode 一些基本知识

vue的一些基本知识

一些金融的基本知识

JavaScirpt 一些基本知识

爬虫基本知识及简单生成爬虫

python爬虫一些基本编码语句

python爬虫日志（7）BeautifulSoup的一些简单知识

git基本操作与一些基本知识

爬虫的一些基本认知

python—【爬虫】学习_1(基本知识篇）

python3爬虫开发 Scrapy的使用基本知识

python爬虫✦基本知识与常用代码模块

RedHat Linux 上的一些基本知识

信号与槽的一些基本知识点

关于数据库的一些基本知识

关于数组的一些基本知识点

关于Pthon的一些基本知识（3）

关于File的一些基本知识

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)