爬虫基础篇1---爬虫原理

                    
1.什么是爬虫?
请求网站并提取数据的自动化程序(让程序替你去上网)


2.爬虫的基本流程
(1)向服务器发起请求
(2)获取网页内容
(3)解析内容
(4)保存数据


3.什么是request和response
请求与响应:
浏览器与服务器(也是一台计算机)之间的交流。


4.request中包含了什么?
(1)请求方式(get,post)
(2)请求的URL
(3)请求头信息
(4)请求体(例如post请求的表单信息)


5.response中包含了什么?
(1)响应状态码(200 0K 404 NO FOUND)
(2)响应头
(3)响应体


6.爬虫可以抓怎样的数据?
网页文本,图片,视频


7.如何解析?
(1)直接处理
(2)json解析
(3)正则表达式
(4)beautifulsoup解析库(pyquery)


8如何保存数据?
文本,关系型数据库,非关系型数据库(key-value),二进制文本

猜你喜欢

转载自blog.csdn.net/qq_29637191/article/details/82053293