python爬虫(三)温习爬虫一些基本知识

爬虫:

简单的说:获取网页并提取保存信息的自动化程序

request 四个基本信息

1.请求方式:
主要有get,post;两种 另外还有head put delete options
2.请求URL:
URL全称统一资源定位符,如一个网页文档,一张图片,一个视频等都可以用url唯一确定
3.请求头:
包含请求时头部信息,如User-agent,Host Cookies等信息
4.请求体:
请求时额外携带的数据如表单提交时的表单数据

response四个基本信息

2.响应状态:多种响应状态,如200代表成功,301跳转,404找不到页面,502服务器错误
3.响应头:如内容类型,内容长度,服务器信息,设置cookie等等
4.响应体:最主要的部分,包含了请求资源的内容,如网页html,图片,二进制数据

爬虫可以抓取的数据

网页文本 如html文档,json格式文本
图片,
视频
其他

解析方式:

1.直接处理
2.Json
3.正则表达式
4.BeatutifulSoup
5.PyQuery
6.XPath

怎样解决JavaScript渲染的问题

分析Ajax请求
Selenium/WebDriver
Splash
PyV8 Ghost.py

怎样保存数据

文本:纯文本,Json,xml
关系型数据库:Mysql,oracle sqlserver等具有结构化表结构形式存储
非关系型数据库:MongoDB,Redis等Key-Value形式存储
二进制文件:如图片、视频、音频等直接保存成特点格式即可

爬虫代理:

由于爬虫爬取速度比较快,爬取过程中可能遇到同一ip访问过于平凡的问题,此时网站就会让我们输入验证码登录或者直接封锁ip,因此使用代理隐藏真实的ip,这样来达到一个很好的爬取效果

发布了63 篇原创文章 · 获赞 12 · 访问量 4055

猜你喜欢

转载自blog.csdn.net/qq_45353823/article/details/104161956