爬虫如何应对网站的反爬机制？如何查找user-agent对应的值 - 代码天地

爬虫如何应对网站的反爬机制？如何查找user-agent对应的值

物联网 2023-08-18 17:32:44 阅读次数: 0

import requests

url = 'https://movie.douban.com/top250'
response = requests.get(url)
# 查看结果
print(response)

在requests使用一文中我们有讲到，当状态码不是200时表示爬虫不可用，也就是说我们获取不到网页源代码。但是我们还是可以挣扎一下，不是说不可用就放弃了。爬虫时经常会遇到有些网站有反爬机制，为了能够请求成功该如何操作？那当然是把我们伪装成浏览器了！

那么如何把自己伪装成浏览器代替我们发送请求呢?pycharm有个字典Headers，我们需要在浏览器中找到键User-Agent对应的值

User-Agent：对应的值包含了浏览器、操作系统的各项信息。如果没有User-Agent，就相当于赤裸裸的去访问对方服务器，只要对方有反爬虫机制，就能发现你是爬虫。

在浏览器中打开想要爬取的网站，右键 --> 检查然后如下图操作：

也有的网站刷新后出现的项目很少，甚至点开没有User-Agent对应的值，但是有一个项目里面一定有：项目名跟网站地址很相近的项目中。例如在本例中名为www.zhihu.com的项目里一定含有。

在以贝壳租房为例，打开网页后，右键 --> 检查，在项目名为zufang中一定含有User-Agent对应的值

获取键user-agent对应的值后，我们把键与值写入字典Headers中

import requests

# 1. 浏览器伪装
url = 'https://movie.douban.com/top250'
headers = {
    
    
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'
}
# 获取响应结果
response = requests.get(url, headers=headers)
# 查看状态码
print(response.status_code)  # 200
# 获取网页源代码
# print(response.text)

猜你喜欢

转载自blog.csdn.net/m0_71422677/article/details/132212463

爬虫如何应对网站的反爬机制？如何查找user-agent对应的值

python反爬虫，User-Agent方式

不止是User-Agent反爬虫

python爬虫之如何随机更换User-Agent

python基于scrapy框架的网络爬虫程序反爬虫机制之User-Agent伪装

使用CDN的User-Agent反爬虫（附User-Agent恶意爬虫名单）

反爬虫机制（一）----伪装User-Agent之fake-useragent

反爬虫机制----伪装User-Agent之fake-useragent

爬虫 User-Agent

爬虫CASE01：反爬策略之使用随机user-agent模拟浏览器的网页爬取

faker库如何生成user-agent

Python爬虫代理程序如何应对目标网站反爬策略

python3爬虫系列19之反爬随机 User-Agent 和 ip代理池的使用

爬虫篇——User-Agent爬取备用及存储

遇到网站的反爬虫机制，那么我们应该来如何应对呢？

User-Agent的查找方法

如何突破网站反爬机制

爬虫之User-Agent

【Python爬虫】如何确定自己浏览器的User-Agent信息

【Python爬虫】如何获得自己浏览器的User-Agent

Scrapy中设置User-Agent(本文主要目的是学习如何为爬虫程序的每次请求随机分配User-Agent)

【反爬虫】在阿里云服务器所搭建的个人博客中通过Nginx进行反爬虫测试：禁止Python爬虫直接爬取博客页面实战——以信息校验型User-Agent反爬虫为例

如何确定自己浏览器的User-Agent信息

这些User-Agent和代理IP的使用套路你是否知道，来进行反爬？

动态ip代理：反网络爬虫之设置User-Agent的常规方法

Nginx反爬虫攻略：禁止某些User Agent抓取网站

Nginx反爬虫：禁止某些User Agent抓取网站

网络爬虫的User-Agent和Proxy

爬虫时直接可用的User-Agent

Python 爬虫更改User-Agent

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)