Web爬虫|入门教程之请求库requests

网络爬虫开发实战源码:https://github.com/MakerChen66/Python3Spider

原创不易,本文禁止抄袭、转载,多年爬虫实战开发经验总结,侵权必究!

一、requests库

爬虫利器
下载官网:https://2.python-requests.org/en/master

安装方式:

  • 在命令行中输入:pip install requests
  • Mac用户输入:pip3 install requests

一个简单的例子:
在这里插入图片描述
输出如下:
在这里插入图片描述
status:状态码
encoding:编码方式
cookies:Cookies


常用状态码:

状态码 含义
200 请求成功
301 资源(网页等)被永久转移到其他URL
404 请求的资源(网页等)不存在
500 内部服务器错误

Cookies:可以理解为遗留信息 Cookies用途:
  • 会话状态管理(如用户登录状态,购物车,游戏分数或其他需要记录的信息)
  • 个性化设置(如用户自定义设置,主题等)
  • 浏览器行为跟踪

request库 提供http的所有基本请求方式
在这里插入图片描述
Get请求:可利用params参数为获得的网址添加参数以及参数值:
在这里插入图片描述
输出结果:
在这里插入图片描述
Post请求:利用data参数为post添加参数
在这里插入图片描述
输出结果为HTML文本形式


超时配置:利用timeout变量来配置最大请求时间
在这里插入图片描述
会话对象
在这里插入图片描述
注意输出中的BAIDUID的值,体会“会话对象”的含义
在这里插入图片描述
设置代理:proxies参数使用代理
在这里插入图片描述
输出结果:
在这里插入图片描述
或者Windows下通过 网络设置:
在这里插入图片描述
Mac或者Linux下在终端输入:

export HTTP_PROXY="http://101.6.162.19"
export HTTPS_PROXY="http://101.6.162.19"


上传文件:
在这里插入图片描述
在这里插入图片描述
以上两种方法都行

二、原文链接

本人原创公众号原文链接:阅读原文

原创不易,如果觉得有点用,希望可以随手点个赞,拜谢各位老铁!

三、作者Info

作者:小鸿的摸鱼日常,Goal:让编程更有趣!

原创微信公众号:『小鸿星空科技』,专注于算法、爬虫,网站,游戏开发,数据分析、自然语言处理,AI等,期待你的关注,让我们一起成长、一起Coding!

转载说明:本文禁止抄袭、转载,违者必究!

猜你喜欢

转载自blog.csdn.net/qq_44000141/article/details/121303838