使用fake-useragent库自动生成User-Agent，提升爬虫开发效率 - 代码天地

使用fake-useragent库自动生成User-Agent，提升爬虫开发效率

其他 2019-04-20 11:30:59 阅读次数: 0

版权声明：欢迎访问博主官方博客：www.eastnotes.com。一个基于Django框架和Next主题的博客网站 https://blog.csdn.net/gaifuxi9518/article/details/89294002

爬虫其实就是一种模拟浏览器行为从而获取所需信息的一种手段，既然要模拟浏览器，那么首先就要模拟浏览器向服务器发送请求的headers。因此在写爬虫程序的时候，我们往往首先会去构造一个请求头，也就是一个headers字典，就像下面这种形式：

headers = {
    'Accept': '*/*',
    'Accept-Language': 'en-US,en;q=0.8',
    'Cache-Control': 'max-age=0',
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like 	Gecko) 						Chrome/48.0.2564.116 Safari/537.36',
    'Connection': 'keep-alive',
    'Referer': 'http://www.baidu.com/'
}

这其实是一种非常非常基础的反爬手段，也是最容易实现的。如果你的爬虫程序中连请求头都没有，可以说你连网站的页面信息都抓取不到，更别谈获取你想要的更精确的信息了。在请求头里面最重要的信息是User-Agent，我们可以把它理解为浏览器的标识符，设置了User-Agent，我们就成功地伪装成了浏览器了。

但初学者在设置User-Agent的时候，往往会像上面的代码一样，手动赋值。这种弄做法有两个弊端：1.太麻烦，每次写爬虫都要赋值粘贴这么一串字符串，想想都觉得麻烦。1.不灵活，爬虫程序一旦运行起来就会频繁地向服务器发送请求，如果每次都拿着一样的User-Agent找服务器要数据，那么服务器很容易就会把你理解为爬虫程序，然后把你关在小黑屋了……

今天给大家介绍一个Python第三方包，叫做fake-useragent，他可以为你随机生成不同的User-Agent，省的你再去一次次复制粘贴了，两全其美。我们来看一下如何使用它吧！

首先用pip进行安装：

pip install fake-useragent

使用方法如下：

import requests
from fake_useragent import UserAgent
ua = UserAgent()
headers = {'User-Agent': ua.random}
url = '待爬网页的url'
resp = requests.get(url, headers=headers)
#省略具体爬虫的解析代码，大家可以回去试试
...

关注我公众号【程序员向东】，此公众号专注分享Python、爬虫学习资料和干货，关注后回复【PYTHON】，无套路免费送你一个学习大礼包，包括爬虫视频和电子书~

猜你喜欢

转载自blog.csdn.net/gaifuxi9518/article/details/89294002

使用fake-useragent库自动生成User-Agent，提升爬虫开发效率

随机生成User-Agent——fake-useragent

Python网络爬虫&模块介绍：fake-useragent模块快速生成User-Agent信息

反爬虫机制（一）----伪装User-Agent之fake-useragent

反爬虫机制----伪装User-Agent之fake-useragent

通过download middleware随机更换user-agent，fake-useragent的使用

Python爬虫开发：fake_useragent库伪造User-Agent

爬虫动态生成useragent的功能 fake-useragent库

python fake_useragent模块 user-agent的获取

爬虫(自学)之User Agent 第三方库my_fake_useragent 和 fake_useragent

fake-useragent 替代库 anole

Python 设置随机 User-Agent （利用 fake_useragent包）

Python爬虫开发：Request的使用（随机User-Agent）

python 爬虫 user-agent 生成

python fake-useragent

fake-useragent

fake-useragent插件

python 爬虫 UserAgent 随机生成 Python使用三方库 fake_useragent

爬虫 User-Agent

使用fake-useragent 完成随机切换useragent

Python 爬虫使用随机 User-Agent

faker库如何生成user-agent

fake-useragent，python爬虫伪装请求头

使用CDN的User-Agent反爬虫（附User-Agent恶意爬虫名单）

fake-useragent库：伪装浏览器Header

伪装请求头-简单实用的fake-useragent库

爬虫之User-Agent

随机生成User-Agent

爬虫，反爬工具fake-useragent，随机useragent模块教程

Crawler - fake-useragent随机ua

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)